302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet

Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得了额外的提升:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

作为AI编程领域的传统强者,Claude系列再次实现突破:Claude 3.7 Sonnet 在SWE-bench测试中取得了70.3%的准确率,较前代Claude 3.5 Sonnet有了显著的性能提升,并以绝对优势超越了OpenAI的o1、o3-mini等模型。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!


Claude 3.7 Sonnet模型实测

下面我们将通过一系列实测对比,深入探究模型的实际效果。

对比模型有Claude 3.7 Sonnet(非推理模式)、o3-mini、DeepSeek-R1

(claude推理模式正在紧锣密鼓地适配中,所以这次没有参与实测)

一、逻辑测试

提示词:漆黑的夜晚,老张在家看书,看着看着,他的妻子说:“太晚了,关灯睡觉吧。”就把灯关了,可老张理也不理继续看书,还一直把书看完了,这是怎么回事?

考察点:首先简单测试一下模型的逻辑推理能力和常识理解能力。

o3-mini:回答正确

Claude 3.7 Sonnet:回答正确,同时还给出了更多可能的解释。

DeepSeek-R1:回答正确,同时分析了题目的陷阱。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

二、编程测试

以下编程测试分为编程正确性检验编程效果对比两部分内容。

编程正确性检验测试会借助编程学习平台出题,在模型生成代码后复制粘贴到平台检验是否通过。

编程效果测试会让模型编程生成可预览的效果,从而进行对比,使用到的是工具是302.AI聊天机器人的Artifacts功能。

编程正确性检验

1、python-中等难度

提示词:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过,代码有误。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:检验通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:检验通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、python-困难难度

提示词:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:代码检验通过。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:代码检验未完全通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

编程效果对比:

提示词:请帮我创建一个类似马里奥的游戏,可直接预览

考察点:通过简单的提示词,考察模型是否能够结合创意、逻辑生成具有实际应用价值的游戏效果。

o3-mini:完成度较低,仅为30%。 虽然角色能够执行基本的跳跃操作,但整体功能有限。金币、障碍物、实时分数等关键元素均未实现,缺乏完整的游戏机制。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:效果基本完整,完成度较高。 游戏具备了金币、障碍物、实时分数等核心元素,还设置了敌人角色,增加了游戏的挑战性。整体体验较为完整,基本满足了类似马里奥游戏的核心玩法。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:完成度约45%,部分功能缺失。 角色能够正常移动和跳跃,且具备了金币收集机制,但实时分数和操作说明等重要功能尚未完善。整体仍需进一步补充和完善。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

模型实测总结:

通过以上对比实测,能够初步得出以下结论:

(1)在逻辑任务中表现排名:Claude 3.7 Sonnet=o3-mini=DeepSeek-R1

在逻辑任务的测试中,三个不同的模型都表现出色,能够准确地回答所有提出的问题。输出的结果答案中,Claude 3.7 Sonnet给出了更多的可能性,相较于其他模型回答可能会更加全面

(2)编程检测方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

两种难度的编程测试中,Claude 3.7 Sonnet均通过了检验,这进一步表明Claude 3.7 Sonnet在编程能力和解决复杂问题上的能力十分出色。

(3)在编程效果方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

在游戏效果生成方面,Claude 3.7 Sonnet的表现同样令人瞩目。它能够通过简单的提示词,生成一个接近完整且符合用户需求的效果。

通过一些简单的实际测试,我们可以清晰地发现Claude 3.7 Sonnet在编程方面展现出了非常出色的能力。无论是编程的准确性,还是在效果生成方面,Claude 3.7 Sonnet都能够为用户提供更加优质和高效的体验。总之,Claude 3.7 Sonnet值得广大程序员和开发者去关注与尝试。


在302.AI上使用Claude 3.7 sonnet模型

302.AI的聊天机器人和API超市均上线了 Claude 3.7 sonnet模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→claude-3-7-sonnet→ 创建聊天机器人;

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→Anthropic→查看文档;

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

可通过参数打开思考模式:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2025 年 2 月 24 日 下午10:33
Next 2025 年 2 月 27 日 下午7:53

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注