Claude Sonnet 4.5

Doubao-Seed-Code 实测：卷价格、卷跑分，却卷不动真实代码？丨302.AI 基准实验室

今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队，后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战，MiniMax 也推出最新力作MiniMax-M2，实力登顶开源榜首。不难发现，这些如投石入湖般接连涌现的模型，在发布时无一例外地强调自身在编程能力上的显著提升。这一趋势清晰…
2025 年 11 月 17 日 • 基准实验室
3.1K02
Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

2025年的夏天，当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”（Agentic Intelligence）时，一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面（Moonshot AI）公司于2025年7月11日发布的突破性开源大语言模型，不仅是业界第一个宣称达到万亿参数的大模型，总参数量高达惊人的1.04万亿，更重要的是…
2025 年 11 月 7 日 • 基准实验室
7.9K11
Claude Sonnet 4.5 对阵 GLM-4.6：中外大模型编程巅峰对决，胜负已分? 丨302.AI 基准实验室

今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日，Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型，后有 GLM-4.6 在…
2025 年 10 月 13 日 • 基准实验室
5.7K00

Claude Sonnet 4.5

Doubao-Seed-Code 实测：卷价格、卷跑分，却卷不动真实代码？丨302.AI 基准实验室

Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

Claude Sonnet 4.5 对阵 GLM-4.6：中外大模型编程巅峰对决，胜负已分? 丨302.AI 基准实验室