302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

美东时间5月22日周四,Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4Claude Sonnet 4

据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推理)、工件调用、文件读取、并行任务等核心功能。

根据Anthropic官方重点信息提炼:

Opus 4 是全球顶级编程模型,非常擅长处理复杂且超长时间的推理任务,尤其是 Agent 领域非常出色。根据 Rakuten 测试数据显示,通过 Opus 4 打造的编程智能体可以独立稳定连续工作 7 小时,超过了之前 OpenAI 创造的记录。

Sonnet 4 则是 Sonnet 3.7 的迭代版本,同样在编程领域非常出色,在 SWE-bench 上达到了 72.7%,超过了 OpenAI 最新发布的 Codex-1、o3 等前沿模型。

Claude Opus 4 和 Claude Sonnet 4 在基准测试中,编码、推理等能力有了大幅提升。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

图片来源:Anthropic 官方

今天,302.AI 团队会对五个模型进行对比实测,分别是 Claude 4 系列的claude-opus-4-20250514claude-sonnet-4-20250514以及claude-3-7-sonnet o3gemini-2.5-pro-preview-05-06


I. claude 系列模型 vs. o3 vs. gemini-2.5-pro 实测

按照惯例,先展示测评模型在 302.AI 的价格:

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

价格最高为:claude-opus-4-20250514

价格最低为:gemini-2.5-pro-preview-05-06

1、推理

提示词:已知对前天来说的下周三是对后天来说的本周三,则今天距离对今天来说的下周三有可能有几天?(计算距离今天的天数时不包括今天。以周一为每周的第一天)

(答案是3,4,8,9)

o3回答正确

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-3-7-sonnet:回答正确。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-sonnet-4答案不完整,分析过程中存在错误

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-opus-4同样答案不完整,分析过程中存在错误

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

gemini-2.5-pro:回答正确

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

2、数学计算

提示词:请用 1、1、6、7、10 计算出结果为81,只能使用加减乘除,且每个数字只能使用一次。

(正确答案:6 * [ 10 + 7 / ( 1 + 1 ) ])

o3回答正确

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-3-7-sonnet:等式并不成立,回答错误

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-sonnet-4使用了三个“1”,回答错误

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-opus-4没有使用数字“6”,回答错误

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

gemini-2.5-pro:回答正确

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

3、可视化网页

提示词:

你是一名专业的网页设计师和前端开发专家,对现代 Web 设计趋势和最佳实践有深入理解,尤其擅长创造具有极高审美价值的用户界面。你的设计作品不仅功能完备,而且在视觉上令人惊叹,能够给用户带来强烈的”Aha-moment”体验。

请根据最后提供的内容,设计一个美观、现代、易读的”中文”可视化网页。请充分发挥你的专业判断,选择最能体现内容精髓的设计风格、配色方案、排版和布局。待处理内容:

https://www.anthropic.com/news/claude-4

(提示词参考:歸藏)

o3效果较一般,整体页面像是文字堆积,排版效果也较为普通。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-3-7-sonnet:效果尚可,对比 o3 略胜一筹,文字排版还不错。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-sonnet-4配色可优化,部分选择会有阴影变化,整体比 claude-3-7-sonnet 更优。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

claude-opus-4无论是配色、排版、内容上,生成的效果都是本次测评模型中最佳的

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

gemini-2.5-pro:从内容来看,gemini 的完整度最高的,但整体效果不如 opus-4 。

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

II. 实测总结

1、实测结果整理:

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)根据实测1中的推理测试结果,Claude 4 系列的新模型的表现不及前一代模型 claude-3-7-sonnet,这是否表明新版本模型的推理能力有所减退?

(2)通过实测2中的数学测试结果,明显可以看出 o3 和 gemini-2.5-pro 表现优异,而 Claude 系列模型的表现则较为一般。

(3)在可视化网页设计的测试中,claude-opus-4 的表现明显优于其他模型,claude-sonnet-4 对于前一版本 claude-3-7-sonnet 也有进步。

综合本次实测结果,可以得出性价比最高的模型为 gemini-2.5-pro-preview。claude-opus-4 在本次对比模型中价格最高,但其表现未能达到预期的水平。我们将继续关注后续动态,并为大家提供更多实测报告。


III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

1、聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人;

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

点击选择模型 claude-sonnet-4-20250514/claude-opus-4-20250514 →确定→创建;

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API→API超市→语言大模型→Anthropic→查看文档;

API名称:claude-sonnet-4-20250514/claude-opus-4-20250514

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

想体验Claude 4 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?

往期推荐

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 5 月 22 日 上午11:22
Next 2025 年 5 月 27 日 上午10:25

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(7)

  • […] 302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强? 302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评 302.AI 基准实验室丨最新国产视频模型实测对比:Kling 2.0 vs. Vidu Q1 All Rights Reserved by 302.AI AI图像编辑AI图片生成AI多模态BAGELGPT-Image-1302.AI 基准实验室 | 模型测评 Like (0) 302.AI 0 Generate poster 302.AI 新品发布丨Higgsfield AI:超70种预设模板,只需一张图片即可创作电影、广告视频 Previous 2天前 302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读 Next 2025 年 2 月 5 日 上午11:15 […]

  • […] 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜! 302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强? 302.AI 基准实验室 | […]

  • Ismael Mejia
    Ismael Mejia 2025 年 6 月 4 日 下午1:23

    I like examining and I believe this website got some really utilitarian stuff on it! .

  • […] 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜! 302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强? All Rights Reserved by 302.AI AI视频Kling可灵AI图生视频302.AI 基准实验室 | […]

  • transfert paris
    transfert paris 2025 年 6 月 6 日 上午9:55

    There is noticeably a bundle to know about this. I assume you made certain nice points in features also.

  • how to lead with empathy
    how to lead with empathy 2025 年 6 月 11 日 上午2:51

    It is really a great and useful piece of information. I am glad that you shared this useful information with us. Please keep us informed like this. Thanks for sharing.

  • vorbelutr ioperbir
    vorbelutr ioperbir 2025 年 6 月 12 日 下午11:20

    Howdy just wanted to give you a quick heads up and let you know a few of the pictures aren’t loading properly. I’m not sure why but I think its a linking issue. I’ve tried it in two different internet browsers and both show the same results.