资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet

Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得了额外的提升:

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

作为AI编程领域的传统强者,Claude系列再次实现突破:Claude 3.7 Sonnet 在SWE-bench测试中取得了70.3%的准确率,较前代Claude 3.5 Sonnet有了显著的性能提升,并以绝对优势超越了OpenAI的o1、o3-mini等模型。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

模型实测

下面我们将通过一系列实测对比,深入探究模型的实际效果。

对比模型有Claude 3.7 Sonnet(非推理模式)、o3-mini、DeepSeek-R1

(claude推理模式正在紧锣密鼓地适配中,所以这次没有参与实测)

一、逻辑测试

提示词:漆黑的夜晚,老张在家看书,看着看着,他的妻子说:“太晚了,关灯睡觉吧。”就把灯关了,可老张理也不理继续看书,还一直把书看完了,这是怎么回事?

考察点:首先简单测试一下模型的逻辑推理能力和常识理解能力。

o3-mini:回答正确

Claude 3.7 Sonnet:回答正确,同时还给出了更多可能的解释。

DeepSeek-R1:回答正确,同时分析了题目的陷阱。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

二、编程测试

以下编程测试分为编程正确性检验编程效果对比两部分内容。

编程正确性检验测试会借助编程学习平台出题,在模型生成代码后复制粘贴到平台检验是否通过。

编程效果测试会让模型编程生成可预览的效果,从而进行对比,使用到的是工具是302.AI聊天机器人的Artifacts功能。

编程正确性检验

1、python-中等难度

提示词:

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过,代码有误。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:检验通过

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:检验通过

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、python-困难难度

提示词:

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

o3-mini:检验不通过。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:代码检验通过。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:代码检验未完全通过

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

编程效果对比:

提示词:请帮我创建一个类似马里奥的游戏,可直接预览

考察点:通过简单的提示词,考察模型是否能够结合创意、逻辑生成具有实际应用价值的游戏效果。

o3-mini:完成度较低,仅为30%。 虽然角色能够执行基本的跳跃操作,但整体功能有限。金币、障碍物、实时分数等关键元素均未实现,缺乏完整的游戏机制。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Claude 3.7 Sonnet:效果基本完整,完成度较高。 游戏具备了金币、障碍物、实时分数等核心元素,还设置了敌人角色,增加了游戏的挑战性。整体体验较为完整,基本满足了类似马里奥游戏的核心玩法。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

DeepSeek-R1:完成度约45%,部分功能缺失。 角色能够正常移动和跳跃,且具备了金币收集机制,但实时分数和操作说明等重要功能尚未完善。整体仍需进一步补充和完善。

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

模型实测总结:

通过以上对比实测,能够初步得出以下结论:

(1)在逻辑任务中表现排名:Claude 3.7 Sonnet=o3-mini=DeepSeek-R1

在逻辑任务的测试中,三个不同的模型都表现出色,能够准确地回答所有提出的问题。输出的结果答案中,Claude 3.7 Sonnet给出了更多的可能性,相较于其他模型回答可能会更加全面

(2)编程检测方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

两种难度的编程测试中,Claude 3.7 Sonnet均通过了检验,这进一步表明Claude 3.7 Sonnet在编程能力和解决复杂问题上的能力十分出色。

(3)在编程效果方面表现排名:Claude 3.7 Sonnet>DeepSeek-R1>o3-mini

在游戏效果生成方面,Claude 3.7 Sonnet的表现同样令人瞩目。它能够通过简单的提示词,生成一个接近完整且符合用户需求的效果。

通过一些简单的实际测试,我们可以清晰地发现Claude 3.7 Sonnet在编程方面展现出了非常出色的能力。无论是编程的准确性,还是在效果生成方面,Claude 3.7 Sonnet都能够为用户提供更加优质和高效的体验。总之,Claude 3.7 Sonnet值得广大程序员和开发者去关注与尝试。

在302.AI上使用Claude 3.7 sonnet模型

302.AI的聊天机器人和API超市均上线了 Claude 3.7 sonnet模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→claude-3-7-sonnet→ 创建聊天机器人;

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→Anthropic→查看文档;

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

可通过参数打开思考模式:

资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

Like (1)
302.AI302.AI
Previous 2025 年 2 月 24 日 下午10:33
Next 2025 年 2 月 27 日 下午7:53

相关推荐

  • Claude新功能?小白如何体验交互式写编程?

    Anthropic公司在今年3月发布了新模型Claude 3后,同样在今年的6月21日又再次官宣上新Claude 3.5 Sonnet模型,这中间仅仅隔了三个月左右的时间! 但是就今天的主角并不是Claude 3.5 Sonnet,而是与Claude 3.5 Sonnet一同官宣推出的新功能——Artifacts。 Anthropic PBC,是一家美国的人…

    2024 年 7 月 12 日
    45300
  • 开发故事丨302.AI新工具:AI头像制作的过程和原理解析

    最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。 试用一下: 先来看下如何获取并使用这一工具,以下是具体的步骤: 1、进入3…

    2024 年 11 月 13 日
    51000
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    62200
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    64800
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    43600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注