资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

在上一篇文章中,我们给大家介绍了 Claude 3.7 Sonnet 模型,同时对Claude 3.7 Sonnet的标准模式(Normal)进行了实测对比。

而现在,我们将会对Claude 3.7 Sonnet 推理模式(Extended)进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet(标准模式)的对比更全面地了解Claude 3.7 Sonnet 推理模式在性能方面的提升和在应用场景方面的的拓展。

在实测前,我们收集了一些官方关于Claude 3.7 Sonnet推理模式的描述:

1、能引导模型更深入地思考更棘手的问题。

2、可见的思维过程,并反复检查答案。

3、显著提升了数学问题的准确率,其性能随着“思考令牌”数量的增加呈对数增长。

基于上述描述,我们将有针对性地选取案例进行验证。

模型实测

(下述将用Claude 3.7 Sonnet Thinking表示Claude 3.7 Sonnet推理模式)

实测1:信息推理

提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

考察点:测试模型在信息有限情境下的合理推断能力

结论:Claude 3.7 Sonnet Thinking在逻辑完备性校验常识规则调用方面较其他模型有提升,这种能力在解决开放性推理问题时具有显著优势。

模型输出结果如下:

Claude 3.7 Sonnet:仅解析题目中直接陈述的事实,因未提及C而得出”无法确定“的结论。与Claude 3.5 sonnet输出的回答相似。

Claude 3.7 Sonnet Thinking:分析已知信息,并推理出未明示的第二参与者,最后结合排除法得出正确答案

Claude 3.5 Sonnet:仅解析题目中已知的信息,未实现进一步思考和推理

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测2:AIME数学测试

提示词:Alice 和Bob 玩下述的游戏。他们面前有摆成一堆的n个筹码。玩家轮流操作,Alice 先开始。每一次,玩家可以从堆中取走1个或4个筹码。取走最后一个筹码的人获胜。在小于或等于2024的正整数中,有多少个数可以作为n,使得Bob存在一种策略,无论Alice 如何行动,都能确保自己获胜?(正确答案:809)

考察点:测试模型在数学问题上的准确性,并观察模型在面对复杂问题时是否能进行更深入的思考

结论:三个模型均回答错误,但是Claude 3.7 Sonnet Thinking可视化的思考过程在一定程度能够帮助用户从中获取解题思路

模型输出结果如下:

Claude 3.7 Sonnet:答案错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:虽然反复检查,但最终还是回答错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:答案错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测3:多模态思维测试

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

考察点:测试模型在多模态方面的空间逻辑思维能力。

结论:三个模型的回答中,由于模型的过度联想,导致Claude 3.7 Sonnet Thinking的答案是错误的,在多模态方面,Claude 3.7 Sonnet(标准版)优于 Claude 3.7 Sonnet Thinking

模型输出结果如下:

Claude 3.7 Sonnet:回答正确。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:从思考过程中可以看出,模型过度联想导致找到的规律有误,最终回答错误

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:回答正确。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测4:编程检验

提示词:

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

考察点:检验模型应对专家难度编程题目的编程能力水平。

结论:三个模型中,仅Claude 3.7 Sonnet生成的代码未完全通过验证,侧面证明Claude 3.7 Sonnet(标准版)较前一版本模型Claude 3.5 Sonnet在编程方面准确性有一些下降。

模型输出结果如下:

Claude 3.7 Sonnet:代码未完全通过检验。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:代码检验通过。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:代码检验通过。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测5:编程效果

提示词:创建一个包含CSS和JavaScript的HTML文件来生成一个动画天气卡。这张卡片应该在视觉上表现以下天气情况,并具有不同的动画:风:(例如,移动的云,摇曳的树,或风线)雨(例如,落下的雨滴,形成的水坑)太阳(例如,闪亮的光线,明亮的背景)雪(例如,飘落的雪花,积雪)并排显示所有天气卡片,卡片应该有一个黑暗的背景。在这个文件中提供所有的HTML、CSS和JavaScript代码。JavaScript应该包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气条件的动画。

考察点:测试模型编程效果,对比动画和交互的实现。

结论:Claude 3.7 Sonnet Thinking效果最佳。在自动化编程效果方面,标准版与前一版本Claude 3.5 Sonnet效果相差不大。

模型输出结果如下:

Claude 3.7 Sonnet:界面符合提示词要求,动画美观度高,但没有实现提示词要求的按钮切换。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.7 Sonnet Thinking:实现了所有要求功能,且界面动态美观度高。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Claude 3.5 Sonnet:动态效果一般,按钮切换效果不够准确,应该实现在不同天气条件之间切换效果。

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

实测总结:

根据以上实测,可以初步得出以下结论:

(1)推理模式对开放性推理问题的积极影响

根据实测1可得:Claude 3.7 Sonnet Thinking能够促使模型更为深入地思考问题,进而获取正确答案,在处理开放性推理问题时,这种优势尤为突出。

(2)可视化思维过程与答案纠错能力未提高数学解题能力

根据实测2中可得:模型展示了可视化的思维过程,并具备反复检查答案的能力。然而,在面对较为复杂的数学问题时,这一能力并未能够提升答案的准确性,但这可以为用户的解题提供一定的思路启发。

(3)多模态能力标准版更优

根据实测3所示:Claude 3.7 Sonnet Thinking在多模态方面的表现一般,未及相标准版和前代模型。

(4)编程能力的比较与分析

综合实测4、5可得:在编程方面,Claude 3.7 Sonnet Thinking的能力较为出色,而Claude 3.7 Sonnet与Claude 3.5 Sonnet未呈现出显著的差异。

(5)不同场景下两种模式的表现差异

在实测过程中,我们发现标准模式和推理模式在很多案例中输出的答案几乎相似,不太具有参考意义。这也表明,在一些简单或直接的问题场景中,标准模式和推理模式的输出差异较小,难以体现出推理模式的深度思考能力。

通过深入实测Claude 3.7 Sonnet两种模式,可以发现两种模式各有优劣,希望用户可以结合个人需求选择使用。

在302.AI上使用Claude 3.7 Sonnet/Claude 3.7 Sonnet Thinking模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→按需选择如claude-3-7-sonnet-20250219-thinking→ 创建聊天机器人;

【claude-3-7-sonnet-20250219-thinking即官方的claude 3.7 sonnet推理模式(Extended),我们将思考过程改造成了DeepSeek-R1的返回格式】

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→Anthropic→查看文档;

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

进入文档后可按需选择使用:

资讯丨Claude 3.7 Sonnet标准模式和推理模式实测对比

Like (1)
302.AI302.AI
Previous 2025 年 2 月 25 日 下午10:23
Next 3天前

相关推荐

  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    45800
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    19100
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    35700
  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    37700
  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    49100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注