价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

11月25日,当大模型竞赛的聚光灯还在 GPT-5.1Gemini 3 Pro 之间流转时,Anthropic 携其王炸产品 Claude Opus 4.5 强势回归,并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型,编程能力超越人类专家。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

Claude 系列最引人瞩目的王牌,始终是它在编程领域的统治级表现。在权威的真实世界软件工程测试 SWE-bench Verified 中,Opus 4.5 成为了首个得分突破 80% 大关的模型,达到了惊人的 80.9%,超越了所有已知的竞争对手。更令人瞩目的是,在 Anthropic 内部用于招募顶尖性能工程师的高难度限时测试中,Opus 4.5 的得分甚至超越了所有人类候选人。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

然而,Opus 4.5 的聪明程度远不止于指令遵循,更体现在其创造性地破解难题的能力上。在评估智能体能力的 τ2-bench 测试中,它展现出一种“AI街头智慧(Street Smarts)”的高级逻辑推演能力。通过“先升舱再改签”这一标准流程之外的巧妙策略,解决了航空客服的棘手问题——这种超越预设路径的洞察力,对于构建真正能应对复杂现实的智能助手至关重要。

除了顶尖性能,Anthropic 此次还打出了一张超绝性价比的底牌。Opus 4.5 的 API 调用成本较前代直降三分之二,输入低至每百万 Token 5 美元。与此同时,模型引入了创新的“思考强度”参数,允许用户在速度与深度之间灵活调配资源。实测数据显示,在中等强度下,它能以减少 76% 输出 Token 的惊人效率解决同样复杂的问题,为企业级规模化应用扫清了成本障碍。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

302.AI 现已接入 Claude Opus 4.5 系列模型,支持聊天机器人使用和 API 在线调用。本期评测将从多维度对 Opus 4.5 展开深度实测,对比其与同行业最新明星模型 GPT-5.1 和 Gemini 3 Pro 的表现。并采用真实场景案例,一探其性能边界与实战表现。


I. 实测模型基本信息

(1)各对比模型在 302.AI 的价格:

参与对比测评的模型说明输入价格输出价格上下文长度
claude-opus-4-5$5/ 1M tokens$25/ 1M tokens200000
gpt-5.1$1.25 / 1M tokens$10 / 1M tokens400000
gemini-3-pro-preview输入/输出 <= 200K$2 / 1M tokens$12 / 1M tokens1000000
输入/输出> 200K$4 / 1M tokens$18 / 1M tokens1000000
grok 4.1grok-4-1-fast-reasoning$0.2/ 1M tokens$0.5/ 1M tokens2000000
grok-4-1-fast-non-reasoning$0.2/ 1M tokens$0.5/ 1M tokens2000000

(2)测评目的:

本评测侧重模型对逻辑,数学,编程,人类直觉,多模态等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3)测评方法:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),编程模拟(共8题),多模态(共20题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(4)测评工具:

302.AI 的API超市→在线使用


II. 测试结果总览

302.AI 题库测试结果:

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

附302.AI测评分数总榜单:

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

III. 实测案例展示

案例 1:网页复刻

提示词: 请尝试复刻图上这个网页,背景可用渐变色/弥散风演示,图片部分可用SVG来实现,最终在一个HTML文件内交付所有代码。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

这个让 GPT-5.1 和 Gemini 3 Pro 都做过的网页复刻案例,现在让 Opus 4.5 也复刻一遍,看看效果如何

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

效果实在没得说,不能说一模一样,但视觉上的相似度起码还原了 90%,包括细节处理如精美的 SVG 插图、完全一致的卡片信息(播放次数、点赞数)以及媒体标志样式差异化处理。且从代码结构与技术实现上来看,Opus 4.5 也是纯原生 HTML/CSS/JS,无外部依赖,拥有极强的兼容性和实用性。

就算是跟 Sonnet 4.5 的优秀案例相比也是更胜一筹,果然能打败自己的只有自己。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

案例 2:404页面

我们在之前的有关 Gemini 3 Pro 的实测文章中提到,Gemini 3 Pro 擅长氛围编程,那么按照相同的提示词,让 Opus 4.5 也来制作一个 404 页面。

提示词:做一个让用户不会感觉到乏味的404错误页面。

效果也不错,虽然在代码结构、工程化、可维护性方面还是 Gemini 3 Pro 更胜一筹,但 Opus 4.5 的优势也很明显,创意实现广度、功能复杂度和兼容性都更加出色

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

案例 3:可视化数据仪表盘

把我们的模型测评分数总榜单扔给 Opus 4.5,让它参考以下网页风格生成一个数据可视化网页

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

提示词

请根据图1中的数据生成一个可视化数据仪表盘,使用混合图表类型,风格配色仿照图2,并添加动画效果和数据更新过渡,包含完整的响应式布局,输出完整可运行的HTML代码

这种任务对 Opus 4.5 来说不在话下,UI 组件体系十分完整,图表类型丰富(折线图、柱状图、环形图、表格),动画效果和过渡流畅,配色和视觉效果专业。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

Gemini 3 Pro的突出点在于混合图表类型应用得当,图表效果非常专业,但比较明显的瑕疵在于缺少完整的数据表格展示,只能看到全部模型的总分,各项得分未做细化公示。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

GPT-5.1 在主题配色上是与示例图片最相似的,风格模仿力极强,但是缺陷也足够明显——图表类型过于单一且响应式设计不够完善。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

Grok 4.1 虽然在风格模仿上明显稍逊于其他三组,但是自主添加了鼠标跟随光效等高级交互,图表生态系统比较完善。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

案例 4:小游戏

提示词

使用Canvas和JavaScript,生成一个完整的HTML5游戏文件,实现一个平台跳跃小游戏:

要求包含简单的跳跃特效

确保所有游戏逻辑和渲染代码都在同一个HTML文件中。

Opus 4.5 输出了一个极其完整的游戏系统,包括多种平台类型、能量球、传送门等设计,交互反馈优质,如屏幕震动、拖尾效果等,展示了完整的游戏开发技能栈。在创意、技术、设计三个维度都表现卓越。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

GPT-5.1 输出弹跳物理系统,以及对应弹跳物的压缩和拉伸比较细节,但是整体效果也还有很大完善空间。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

Gemini 3 Pro 输出的小游戏玩法过于简单,游戏机制也不够完整。

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

Grok 未能实现完整的游戏循环,粒子特效较丰富,但基础功能弱

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

IV. Claude Opus 4.5 实测结论

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

结合多维度的实际测试结果,Claude Opus 4.5 在当前主流大模型竞品中展现出了极为突出的综合实力,符合 Claude 系列一贯给人的印象:扎实。并且尤其在编程和复杂系统构建方面, Opus 4.5 确实配得上”王炸产品”的称号。

先说它最让人满意的地方——代码的完整度和实用性。在多项编程案例展示中都可以窥见,Opus 4.5 不仅准确理解需求,更能输出生产级别的代码质量。其代码结构清晰、功能完整度高,展现出了接近资深开发者的工程化思维,印证了其在 SWE-bench Verified 中突破 80% 的顶尖表现。在创意实现和技术深度方面,Opus 4.5 展现出了明显的优势。譬如案例 4 的平台跳跃小游戏,Opus 4.5 交出来的不是个 demo,而是个完整的游戏系统。多种平台类型、能量球收集、传送门机制,甚至连屏幕震动和粒子拖尾这种细节都考虑到了。这就相当于让模型给你写个 To Do 应用,而它直接给你呈现了一个 Notion,完全展现出了模型对复杂系统的深刻理解。相比之下,其他模型的作品呈现就略显单薄了。

不过,最让我们觉得有意思的,是 Opus 4.5 那种有自主创意成分的代码风格。 譬如在做网页复刻时,模型没有机械地照搬原图,而是在保持核心设计的同时,加入了合理的代码结构和注释。这种既尊重需求又能发挥主动性的平衡感,更好地融入了项目,几乎没有那种为了完成任务而硬凑出来的生硬感。

最后不得不提的便是 Opus 4.5 这次的定价策略,在保持顶尖性能的同时,价格直降三分之二,输入低至每百万 Token 5 美元。从实际应用价值来看,Opus 4.5 本次的成本效益比确实值得称道。其在官方测试中展现出的代码效率——在中等强度下减少 76% 的 Token 消耗,意味着在实际业务场景中能够显著降低运营成本,为企业级应用提供了一个极具吸引力的解决方案。此外,Opus 4.5 首次引入了一个“思考强度(Effort Parameter)”选项,允许用户调节生成回复时的 token 数量,这就意味着用户可以根据任务强度来切换 High/Medium/Low 三个模式,从日常代码业务需求到复杂算法或系统设计难题,都可以合理控制资源分配,节省成本。

总的来说,Claude Opus 4.5 确实是一如既往稳定发挥,在编程领域的表现达到了新的高度,综合表现来看也依然配得上“榜一SOTA”的桂冠。随着Opus 4.5 的稳定输出,这场大模型竞赛终于迎来了一个更有分量的参与者。我们很乐意看到,这样的高手对决能再多一些。


V. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引 :应用超市→机器人→聊天机器人→立即体验

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

选择模型:其他模型→claude-opus-4-5→确认→创建

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

2. 使用模型 API

步骤指引:API超市→语言大模型→Anthropic→claude-opus-4-5

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

点击【立即体验】在线调用 API

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室

想即刻体验 Claude Opus 4.5 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2天前
Next 2024 年 10 月 23 日 下午6:55

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注