Claude Sonnet 4.5
Doubao-Seed-Code 实测:卷价格、卷跑分,却卷不动真实代码?丨302.AI 基准实验室
今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队,后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战,MiniMax 也推出最新力作MiniMax-M2,实力登顶开源榜首。不难发现,这些如投石入湖般接连涌现的模型,在发布时无一例外地强调自身在编程能力上的显著提升。 这一趋势清晰…
Kimi K2 Thinking 实测:复杂推理已堪大用,深度编程尚待提升丨302.AI 基准实验室
2025年的夏天,当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”(Agentic Intelligence)时,一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面(Moonshot AI)公司于2025年7月11日发布的突破性开源大语言模型,不仅是业界第一个宣称达到万亿参数的大模型,总参数量高达惊人的1.04万亿,更重要的是…
Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室
今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…