资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

在上一篇文章中,我们给大家介绍了 Claude 3.7 Sonnet 模型,同时对Claude 3.7 Sonnet的标准模式(Normal)进行了实测对比。

而现在,我们将会对Claude 3.7 Sonnet 推理模式(Extended)进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet(标准模式)的对比更全面地了解Claude 3.7 Sonnet 推理模式在性能方面的提升和在应用场景方面的的拓展。

在实测前,我们收集了一些官方关于Claude 3.7 Sonnet推理模式的描述:

1、能引导模型更深入地思考更棘手的问题。

2、可见的思维过程,并反复检查答案。

3、显著提升了数学问题的准确率,其性能随着“思考令牌”数量的增加呈对数增长。

基于上述描述,我们将有针对性地选取案例进行验证。

模型实测

(下述将用Claude 3.7 Sonnet Thinking表示Claude 3.7 Sonnet推理模式)

实测1:信息推理

提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

考察点:测试模型在信息有限情境下的合理推断能力

结论:Claude 3.7 Sonnet Thinking在逻辑完备性校验常识规则调用方面较其他模型有提升,这种能力在解决开放性推理问题时具有显著优势。

模型输出结果如下:

Claude 3.7 Sonnet:仅解析题目中直接陈述的事实,因未提及C而得出”无法确定“的结论。与Claude 3.5 sonnet输出的回答相似。

Claude 3.7 Sonnet Thinking:分析已知信息,并推理出未明示的第二参与者,最后结合排除法得出正确答案

Claude 3.5 Sonnet:仅解析题目中已知的信息,未实现进一步思考和推理

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测2:AIME数学测试

提示词:Alice 和Bob 玩下述的游戏。他们面前有摆成一堆的n个筹码。玩家轮流操作,Alice 先开始。每一次,玩家可以从堆中取走1个或4个筹码。取走最后一个筹码的人获胜。在小于或等于2024的正整数中,有多少个数可以作为n,使得Bob存在一种策略,无论Alice 如何行动,都能确保自己获胜?(正确答案:809)

考察点:测试模型在数学问题上的准确性,并观察模型在面对复杂问题时是否能进行更深入的思考

结论:三个模型均回答错误,但是Claude 3.7 Sonnet Thinking可视化的思考过程在一定程度能够帮助用户从中获取解题思路

模型输出结果如下:

Claude 3.7 Sonnet:答案错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:虽然反复检查,但最终还是回答错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:答案错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测3:多模态思维测试

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

考察点:测试模型在多模态方面的空间逻辑思维能力。

结论:三个模型的回答中,由于模型的过度联想,导致Claude 3.7 Sonnet Thinking的答案是错误的,在多模态方面,Claude 3.7 Sonnet(标准版)优于 Claude 3.7 Sonnet Thinking

模型输出结果如下:

Claude 3.7 Sonnet:回答正确。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:从思考过程中可以看出,模型过度联想导致找到的规律有误,最终回答错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:回答正确。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测4:编程检验

提示词:

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

考察点:检验模型应对专家难度编程题目的编程能力水平。

结论:三个模型中,仅Claude 3.7 Sonnet生成的代码未完全通过验证,侧面证明Claude 3.7 Sonnet(标准版)较前一版本模型Claude 3.5 Sonnet在编程方面准确性有一些下降。

模型输出结果如下:

Claude 3.7 Sonnet:代码未完全通过检验。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:代码检验通过。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:代码检验通过。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测5:编程效果

提示词:创建一个包含CSS和JavaScript的HTML文件来生成一个动画天气卡。这张卡片应该在视觉上表现以下天气情况,并具有不同的动画:风:(例如,移动的云,摇曳的树,或风线)雨(例如,落下的雨滴,形成的水坑)太阳(例如,闪亮的光线,明亮的背景)雪(例如,飘落的雪花,积雪)并排显示所有天气卡片,卡片应该有一个黑暗的背景。在这个文件中提供所有的HTML、CSS和JavaScript代码。JavaScript应该包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气条件的动画。

考察点:测试模型编程效果,对比动画和交互的实现。

结论:Claude 3.7 Sonnet Thinking效果最佳。在自动化编程效果方面,标准版与前一版本Claude 3.5 Sonnet效果相差不大。

模型输出结果如下:

Claude 3.7 Sonnet:界面符合提示词要求,动画美观度高,但没有实现提示词要求的按钮切换。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:实现了所有要求功能,且界面动态美观度高。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:动态效果一般,按钮切换效果不够准确,应该实现在不同天气条件之间切换效果。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测总结:

根据以上实测,可以初步得出以下结论:

(1)推理模式对开放性推理问题的积极影响

根据实测1可得:Claude 3.7 Sonnet Thinking能够促使模型更为深入地思考问题,进而获取正确答案,在处理开放性推理问题时,这种优势尤为突出。

(2)可视化思维过程与答案纠错能力未提高数学解题能力

根据实测2中可得:模型展示了可视化的思维过程,并具备反复检查答案的能力。然而,在面对较为复杂的数学问题时,这一能力并未能够提升答案的准确性,但这可以为用户的解题提供一定的思路启发。

(3)多模态能力标准版更优

根据实测3所示:Claude 3.7 Sonnet Thinking在多模态方面的表现一般,未及相标准版和前代模型。

(4)编程能力的比较与分析

综合实测4、5可得:在编程方面,Claude 3.7 Sonnet Thinking的能力较为出色,而Claude 3.7 Sonnet与Claude 3.5 Sonnet未呈现出显著的差异。

(5)不同场景下两种模式的表现差异

在实测过程中,我们发现标准模式和推理模式在很多案例中输出的答案几乎相似,不太具有参考意义。这也表明,在一些简单或直接的问题场景中,标准模式和推理模式的输出差异较小,难以体现出推理模式的深度思考能力。

通过深入实测Claude 3.7 Sonnet两种模式,可以发现两种模式各有优劣,希望用户可以结合个人需求选择使用。

在302.AI上使用Claude 3.7 Sonnet/Claude 3.7 Sonnet Thinking模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→按需选择如claude-3-7-sonnet-20250219-thinking→ 创建聊天机器人;

【claude-3-7-sonnet-20250219-thinking即官方的claude 3.7 sonnet推理模式(Extended),我们将思考过程改造成了DeepSeek-R1的返回格式】

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→Anthropic→查看文档;

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

进入文档后可按需选择使用:

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Like (1)
302.AI302.AI
Previous 2025 年 2 月 25 日 下午10:23
Next 2025 年 3 月 5 日 下午6:40

相关推荐

  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    33800
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    44900
  • 资讯丨302.AI ComfyUI API对比Gemini-2.0-Flash图片编辑:突破玩具到商用的临界点

    近期,302.AI上线了 ComfyUI 系列 API,这是基于 ComfyUI 实现的图片处理服务,可实现换装、换脸、换物、漫画图变真人、风格迁移等任务,生成的效果达到商用级,能够真正帮助电商企业制作出优质的产品宣传图。 同期,Google 的 Gemini 2.0 Flash 原生多模态能力在AI圈子掀起了一阵浪潮。据闻,这一功能可以通过文字描述处理文本…

    2025 年 3 月 19 日
    19600
  • 资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

    上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…

    2024 年 11 月 25 日
    41300
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    49000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注