2月25日凌晨，Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。

Claude 3.7 Sonnet 能够在标准模式（Normal） 下既提供近乎即时的响应，也可以也能切换到扩展思考模式（Extended），进行详细的逐步推理。

在扩展思考模式的加持下，Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得了额外的提升：

（Anthropic官方提供的基准测评结果）

作为AI编程领域的传统强者，Claude系列再次实现突破：Claude 3.7 Sonnet 在SWE-bench测试中取得了70.3%的准确率，较前代Claude 3.5 Sonnet有了显著的性能提升，并以绝对优势超越了OpenAI的o1、o3-mini等模型。

模型实测

下面我们将通过一系列实测对比，深入探究模型的实际效果。

对比模型有Claude 3.7 Sonnet（非推理模式）、o3-mini、DeepSeek-R1

（claude推理模式正在紧锣密鼓地适配中，所以这次没有参与实测）

一、逻辑测试

提示词：漆黑的夜晚，老张在家看书，看着看着，他的妻子说：“太晚了,关灯睡觉吧。”就把灯关了，可老张理也不理继续看书，还一直把书看完了，这是怎么回事？

考察点：首先简单测试一下模型的逻辑推理能力和常识理解能力。

o3-mini：回答正确。

Claude 3.7 Sonnet：回答正确，同时还给出了更多可能的解释。

DeepSeek-R1：回答正确，同时分析了题目的陷阱。

逻辑实测排名：Claude 3.7 Sonnet=o3-mini=DeepSeek-R1

二、编程测试

以下编程测试分为编程正确性检验和编程效果对比两部分内容。

编程正确性检验测试会借助编程学习平台出题，在模型生成代码后复制粘贴到平台检验是否通过。

编程效果测试会让模型编程生成可预览的效果，从而进行对比，使用到的是工具是302.AI聊天机器人的Artifacts功能。

编程正确性检验

1、python-中等难度

提示词：

o3-mini：检验不通过，代码有误。

Claude 3.7 Sonnet：检验通过。

DeepSeek-R1：检验通过。

2、python-困难难度

提示词：

o3-mini：检验不通过。

Claude 3.7 Sonnet：代码检验通过。

DeepSeek-R1：代码检验未完全通过。

两次编程检测综合排名：Claude 3.7 Sonnet＞DeepSeek-R1＞o3-mini

编程效果对比：

提示词：请帮我创建一个类似马里奥的游戏，可直接预览

考察点：通过简单的提示词，考察模型是否能够结合创意、逻辑生成具有实际应用价值的游戏效果。

o3-mini：完成度较低，仅为30%。 虽然角色能够执行基本的跳跃操作，但整体功能有限。金币、障碍物、实时分数等关键元素均未实现，缺乏完整的游戏机制。

Claude 3.7 Sonnet：效果基本完整，完成度较高。 游戏具备了金币、障碍物、实时分数等核心元素，还设置了敌人角色，增加了游戏的挑战性。整体体验较为完整，基本满足了类似马里奥游戏的核心玩法。

DeepSeek-R1：完成度约45%，部分功能缺失。 角色能够正常移动和跳跃，且具备了金币收集机制，但实时分数和操作说明等重要功能尚未完善。整体仍需进一步补充和完善。

编程效果排名：Claude 3.7 Sonnet＞DeepSeek-R1＞o3-mini

模型实测总结：

通过以上对比实测，能够初步得出以下结论：

（1）在逻辑任务中表现排名：Claude 3.7 Sonnet=o3-mini=DeepSeek-R1

在逻辑任务的测试中，三个不同的模型都表现出色，能够准确地回答所有提出的问题。输出的结果答案中，Claude 3.7 Sonnet给出了更多的可能性，相较于其他模型回答可能会更加全面。

（2）编程检测方面表现排名：Claude 3.7 Sonnet＞DeepSeek-R1＞o3-mini

两种难度的编程测试中，Claude 3.7 Sonnet均通过了检验，这进一步表明Claude 3.7 Sonnet在编程能力和解决复杂问题上的能力十分出色。

（3）在编程效果方面表现排名：Claude 3.7 Sonnet＞DeepSeek-R1＞o3-mini

在游戏效果生成方面，Claude 3.7 Sonnet的表现同样令人瞩目。它能够通过简单的提示词，生成一个接近完整且符合用户需求的效果。

通过一些简单的实际测试，我们可以清晰地发现Claude 3.7 Sonnet在编程方面展现出了非常出色的能力。无论是编程的准确性，还是在效果生成方面，Claude 3.7 Sonnet都能够为用户提供更加优质和高效的体验。总之，Claude 3.7 Sonnet值得广大程序员和开发者去关注与尝试。

在302.AI上使用Claude 3.7 sonnet模型

302.AI的聊天机器人和API超市均上线了 Claude 3.7 sonnet模型，并提供按需付费的服务方式，企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→claude-3-7-sonnet→ 创建聊天机器人；

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发。

相关文档：使用API→API超市→语言大模型→Anthropic→查看文档；

可通过参数打开思考模式：