I. 实测模型基本信息
II. 测试结果总览
- 302.AI 题库测试结果：
- 附302.AI测评分数总榜单：
III. 实测案例展示
IV. Claude Opus 4.5 实测结论
- V. 如何在 302.AI 上使用
  - 1. 聊天机器人中使用
  - 2. 使用模型 API

11月25日，当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时，Anthropic 携其王炸产品 Claude Opus 4.5 强势回归，并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型，编程能力超越人类专家。

价格直降 66%，性能仍是天花板？Claude Opus 4.5 这一波“降价打击”让谁慌了？丨302.AI 基准实验室

Claude 系列最引人瞩目的王牌，始终是它在编程领域的统治级表现。在权威的真实世界软件工程测试 SWE-bench Verified 中，Opus 4.5 成为了首个得分突破 80% 大关的模型，达到了惊人的 80.9%，超越了所有已知的竞争对手。更令人瞩目的是，在 Anthropic 内部用于招募顶尖性能工程师的高难度限时测试中，Opus 4.5 的得分甚至超越了所有人类候选人。

然而，Opus 4.5 的聪明程度远不止于指令遵循，更体现在其创造性地破解难题的能力上。在评估智能体能力的 τ2-bench 测试中，它展现出一种“AI街头智慧（Street Smarts）”的高级逻辑推演能力。通过“先升舱再改签”这一标准流程之外的巧妙策略，解决了航空客服的棘手问题——这种超越预设路径的洞察力，对于构建真正能应对复杂现实的智能助手至关重要。

除了顶尖性能，Anthropic 此次还打出了一张超绝性价比的底牌。Opus 4.5 的 API 调用成本较前代直降三分之二，输入低至每百万 Token 5 美元。与此同时，模型引入了创新的“思考强度”参数，允许用户在速度与深度之间灵活调配资源。实测数据显示，在中等强度下，它能以减少 76% 输出 Token 的惊人效率解决同样复杂的问题，为企业级规模化应用扫清了成本障碍。

302.AI 现已接入 Claude Opus 4.5 系列模型，支持聊天机器人使用和 API 在线调用。本期评测将从多维度对 Opus 4.5 展开深度实测，对比其与同行业最新明星模型 GPT-5.1 和 Gemini 3 Pro 的表现。并采用真实场景案例，一探其性能边界与实战表现。

I. 实测模型基本信息

（1）各对比模型在 302.AI 的价格：

参与对比测评的模型	说明	输入价格	输出价格	上下文长度
claude-opus-4-5		$5/ 1M tokens	$25/ 1M tokens	200000
gpt-5.1		$1.25 / 1M tokens	$10 / 1M tokens	400000
gemini-3-pro-preview	输入/输出 <= 200K	$2 / 1M tokens	$12 / 1M tokens	1000000
gemini-3-pro-preview	输入/输出> 200K	$4 / 1M tokens	$18 / 1M tokens	1000000
grok 4.1	grok-4-1-fast-reasoning	$0.2/ 1M tokens	$0.5/ 1M tokens	2000000
grok 4.1	grok-4-1-fast-non-reasoning	$0.2/ 1M tokens	$0.5/ 1M tokens	2000000

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，人类直觉，多模态等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题），编程模拟（共8题），多模态（共20题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（4）测评工具：

302.AI 的API超市→在线使用

II. 测试结果总览

302.AI 题库测试结果：

附302.AI测评分数总榜单：

III. 实测案例展示

案例 1：网页复刻

提示词：请尝试复刻图上这个网页，背景可用渐变色/弥散风演示，图片部分可用SVG来实现，最终在一个HTML文件内交付所有代码。

这个让 GPT-5.1 和 Gemini 3 Pro 都做过的网页复刻案例，现在让 Opus 4.5 也复刻一遍，看看效果如何

效果实在没得说，不能说一模一样，但视觉上的相似度起码还原了 90%，包括细节处理如精美的 SVG 插图、完全一致的卡片信息（播放次数、点赞数）以及媒体标志样式差异化处理。且从代码结构与技术实现上来看，Opus 4.5 也是纯原生 HTML/CSS/JS，无外部依赖，拥有极强的兼容性和实用性。

就算是跟 Sonnet 4.5 的优秀案例相比也是更胜一筹，果然能打败自己的只有自己。

案例 2：404页面

我们在之前的有关 Gemini 3 Pro 的实测文章中提到，Gemini 3 Pro 擅长氛围编程，那么按照相同的提示词，让 Opus 4.5 也来制作一个 404 页面。

提示词：做一个让用户不会感觉到乏味的404错误页面。

效果也不错，虽然在代码结构、工程化、可维护性方面还是 Gemini 3 Pro 更胜一筹，但 Opus 4.5 的优势也很明显，创意实现广度、功能复杂度和兼容性都更加出色。

案例 3：可视化数据仪表盘

把我们的模型测评分数总榜单扔给 Opus 4.5，让它参考以下网页风格生成一个数据可视化网页

提示词：
请根据图1中的数据生成一个可视化数据仪表盘，使用混合图表类型，风格配色仿照图2，并添加动画效果和数据更新过渡，包含完整的响应式布局，输出完整可运行的HTML代码

这种任务对 Opus 4.5 来说不在话下，UI 组件体系十分完整，图表类型丰富（折线图、柱状图、环形图、表格），动画效果和过渡流畅，配色和视觉效果专业。

Gemini 3 Pro的突出点在于混合图表类型应用得当，图表效果非常专业，但比较明显的瑕疵在于缺少完整的数据表格展示，只能看到全部模型的总分，各项得分未做细化公示。

GPT-5.1 在主题配色上是与示例图片最相似的，风格模仿力极强，但是缺陷也足够明显——图表类型过于单一且响应式设计不够完善。

Grok 4.1 虽然在风格模仿上明显稍逊于其他三组，但是自主添加了鼠标跟随光效等高级交互，图表生态系统比较完善。

案例 4：小游戏

提示词：
使用Canvas和JavaScript，生成一个完整的HTML5游戏文件，实现一个平台跳跃小游戏：
要求包含简单的跳跃特效
确保所有游戏逻辑和渲染代码都在同一个HTML文件中。

Opus 4.5 输出了一个极其完整的游戏系统，包括多种平台类型、能量球、传送门等设计，交互反馈优质，如屏幕震动、拖尾效果等，展示了完整的游戏开发技能栈。在创意、技术、设计三个维度都表现卓越。

GPT-5.1 输出弹跳物理系统，以及对应弹跳物的压缩和拉伸比较细节，但是整体效果也还有很大完善空间。

Gemini 3 Pro 输出的小游戏玩法过于简单，游戏机制也不够完整。

Grok 未能实现完整的游戏循环，粒子特效较丰富，但基础功能弱

IV. Claude Opus 4.5 实测结论

结合多维度的实际测试结果，Claude Opus 4.5 在当前主流大模型竞品中展现出了极为突出的综合实力，符合 Claude 系列一贯给人的印象：扎实。并且尤其在编程和复杂系统构建方面， Opus 4.5 确实配得上”王炸产品”的称号。

先说它最让人满意的地方——代码的完整度和实用性。在多项编程案例展示中都可以窥见，Opus 4.5 不仅准确理解需求，更能输出生产级别的代码质量。其代码结构清晰、功能完整度高，展现出了接近资深开发者的工程化思维，印证了其在 SWE-bench Verified 中突破 80% 的顶尖表现。在创意实现和技术深度方面，Opus 4.5 展现出了明显的优势。譬如案例 4 的平台跳跃小游戏，Opus 4.5 交出来的不是个 demo，而是个完整的游戏系统。多种平台类型、能量球收集、传送门机制，甚至连屏幕震动和粒子拖尾这种细节都考虑到了。这就相当于让模型给你写个 To Do 应用，而它直接给你呈现了一个 Notion，完全展现出了模型对复杂系统的深刻理解。相比之下，其他模型的作品呈现就略显单薄了。

不过，最让我们觉得有意思的，是 Opus 4.5 那种有自主创意成分的代码风格。譬如在做网页复刻时，模型没有机械地照搬原图，而是在保持核心设计的同时，加入了合理的代码结构和注释。这种既尊重需求又能发挥主动性的平衡感，更好地融入了项目，几乎没有那种为了完成任务而硬凑出来的生硬感。

最后不得不提的便是 Opus 4.5 这次的定价策略，在保持顶尖性能的同时，价格直降三分之二，输入低至每百万 Token 5 美元。从实际应用价值来看，Opus 4.5 本次的成本效益比确实值得称道。其在官方测试中展现出的代码效率——在中等强度下减少 76% 的 Token 消耗，意味着在实际业务场景中能够显著降低运营成本，为企业级应用提供了一个极具吸引力的解决方案。此外，Opus 4.5 首次引入了一个“思考强度（Effort Parameter）”选项，允许用户调节生成回复时的 token 数量，这就意味着用户可以根据任务强度来切换 High/Medium/Low 三个模式，从日常代码业务需求到复杂算法或系统设计难题，都可以合理控制资源分配，节省成本。

总的来说，Claude Opus 4.5 确实是一如既往稳定发挥，在编程领域的表现达到了新的高度，综合表现来看也依然配得上“榜一SOTA”的桂冠。随着Opus 4.5 的稳定输出，这场大模型竞赛终于迎来了一个更有分量的参与者。我们很乐意看到，这样的高手对决能再多一些。

V. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引：应用超市→机器人→聊天机器人→立即体验

选择模型：其他模型→claude-opus-4-5→确认→创建

2. 使用模型 API

步骤指引：API超市→语言大模型→Anthropic→claude-opus-4-5

点击【立即体验】在线调用 API

想即刻体验 Claude Opus 4.5 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

价格直降 66%，性能仍是天花板？Claude Opus 4.5 这一波“降价打击”让谁慌了？丨302.AI 基准实验室