302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet

Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得了额外的提升:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

作为AI编程领域的传统强者,Claude系列再次实现突破:Claude 3.7 Sonnet 在SWE-bench测试中取得了70.3%的准确率,较前代Claude 3.5 Sonnet有了显著的性能提升,并以绝对优势超越了OpenAI的o1、o3-mini等模型。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!


Claude 3.7 Sonnet模型实测

下面我们将通过一系列实测对比,深入探究模型的实际效果。

对比模型有Claude 3.7 Sonnet(非推理模式)、o3-mini、DeepSeek-R1

(claude推理模式正在紧锣密鼓地适配中,所以这次没有参与实测)

一、逻辑测试

提示词:漆黑的夜晚,老张在家看书,看着看着,他的妻子说:“太晚了,关灯睡觉吧。”就把灯关了,可老张理也不理继续看书,还一直把书看完了,这是怎么回事?

考察点:首先简单测试一下模型的逻辑推理能力和常识理解能力。

o3-mini:回答正确

Claude 3.7 Sonnet:回答正确,同时还给出了更多可能的解释。

DeepSeek-R1:回答正确,同时分析了题目的陷阱。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

二、编程测试

以下编程测试分为编程正确性检验编程效果对比两部分内容。

编程正确性检验测试会借助编程学习平台出题,在模型生成代码后复制粘贴到平台检验是否通过。

编程效果测试会让模型编程生成可预览的效果,从而进行对比,使用到的是工具是302.AI聊天机器人的Artifacts功能。

编程正确性检验

1、python-中等难度

提示词:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过,代码有误。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:检验通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:检验通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、python-困难难度

提示词:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:代码检验通过。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:代码检验未完全通过

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

编程效果对比:

提示词:请帮我创建一个类似马里奥的游戏,可直接预览

考察点:通过简单的提示词,考察模型是否能够结合创意、逻辑生成具有实际应用价值的游戏效果。

o3-mini:完成度较低,仅为30%。 虽然角色能够执行基本的跳跃操作,但整体功能有限。金币、障碍物、实时分数等关键元素均未实现,缺乏完整的游戏机制。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:效果基本完整,完成度较高。 游戏具备了金币、障碍物、实时分数等核心元素,还设置了敌人角色,增加了游戏的挑战性。整体体验较为完整,基本满足了类似马里奥游戏的核心玩法。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:完成度约45%,部分功能缺失。 角色能够正常移动和跳跃,且具备了金币收集机制,但实时分数和操作说明等重要功能尚未完善。整体仍需进一步补充和完善。

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

模型实测总结:

通过以上对比实测,能够初步得出以下结论:

(1)在逻辑任务中表现排名:Claude 3.7 Sonnet=o3-mini=DeepSeek-R1

在逻辑任务的测试中,三个不同的模型都表现出色,能够准确地回答所有提出的问题。输出的结果答案中,Claude 3.7 Sonnet给出了更多的可能性,相较于其他模型回答可能会更加全面

(2)编程检测方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

两种难度的编程测试中,Claude 3.7 Sonnet均通过了检验,这进一步表明Claude 3.7 Sonnet在编程能力和解决复杂问题上的能力十分出色。

(3)在编程效果方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

在游戏效果生成方面,Claude 3.7 Sonnet的表现同样令人瞩目。它能够通过简单的提示词,生成一个接近完整且符合用户需求的效果。

通过一些简单的实际测试,我们可以清晰地发现Claude 3.7 Sonnet在编程方面展现出了非常出色的能力。无论是编程的准确性,还是在效果生成方面,Claude 3.7 Sonnet都能够为用户提供更加优质和高效的体验。总之,Claude 3.7 Sonnet值得广大程序员和开发者去关注与尝试。


在302.AI上使用Claude 3.7 sonnet模型

302.AI的聊天机器人和API超市均上线了 Claude 3.7 sonnet模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→claude-3-7-sonnet→ 创建聊天机器人;

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→Anthropic→查看文档;

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

可通过参数打开思考模式:

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2025 年 2 月 24 日 下午10:33
Next 2025 年 2 月 27 日 下午7:53

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8310
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3470
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4491
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(11)

  • Etsuko Qualle
    Etsuko Qualle 2025 年 6 月 4 日 下午3:40

    I think you have noted some very interesting points, thanks for the post.

  • Grover Ueckert
    Grover Ueckert 2025 年 6 月 16 日 下午5:33

    What i don’t realize is if truth be told how you are no longer really much more neatly-appreciated than you may be now. You’re very intelligent. You know therefore considerably when it comes to this topic, made me in my opinion imagine it from so many varied angles. Its like women and men are not interested unless it is one thing to accomplish with Lady gaga! Your individual stuffs nice. All the time maintain it up!

  • Miguel Luffman
    Miguel Luffman 2025 年 6 月 30 日 下午2:25

    You made some nice points there. I looked on the internet for the subject matter and found most people will consent with your blog.

  • Dick Visnosky
    Dick Visnosky 2025 年 7 月 28 日 下午7:18

    Sweet website , super pattern, very clean and use genial.

  • Grand Prairie ac repair
    Grand Prairie ac repair 2025 年 8 月 6 日 下午6:13

    Excellent read, I just passed this onto a friend who was doing a little research on that. And he actually bought me lunch since I found it for him smile Thus let me rephrase that: Thank you for lunch!

  • web host
    web host 2025 年 8 月 7 日 上午11:08

    Good day I am so excited I found your website, I really found you by accident, while I was researching on Google for something else, Regardless I am here now and would just like to say cheers for a incredible post and a all round entertaining blog (I also love the theme/design), I don’t have time to browse it all at the minute but I have saved it and also included your RSS feeds, so when I have time I will be back to read a lot more, Please do keep up the awesome job.

  • olxtoto alternatif
    olxtoto alternatif 2025 年 8 月 15 日 下午8:08

    You have brought up a very good details, thankyou for the post.

  • pengeluaran toto macau
    pengeluaran toto macau 2025 年 8 月 17 日 上午2:58

    Its such as you read my thoughts! You seem to understand so much approximately this, like you wrote the e book in it or something. I feel that you simply can do with a few to power the message house a bit, however instead of that, that is excellent blog. An excellent read. I will definitely be back.

  • situs togel
    situs togel 2025 年 8 月 18 日 上午2:51

    As I website possessor I believe the content material here is rattling fantastic , appreciate it for your efforts. You should keep it up forever! Good Luck.

  • https://cpcslot.com/
    https://cpcslot.com/ 2025 年 8 月 21 日 上午5:55

    I got what you intend, thanks for putting up.Woh I am glad to find this website through google. “Being intelligent is not a felony, but most societies evaluate it as at least a misdemeanor.” by Lazarus Long.

  • ayuda TFG arquitectura
    ayuda TFG arquitectura 2025 年 8 月 25 日 上午3:01

    I’ve been absent for some time, but now I remember why I used to love this website. Thank you, I’ll try and check back more often. How frequently you update your website?