Claude

Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

距 Claude Sonnet 4 问鼎业界编程翘楚五个月后，Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5，并宣称该模型在编码性能上已媲美 Sonnet 4，而价格仅为后者的三分之一，速度更是提升一倍以上，堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
2025 年 10 月 24 日 • 基准实验室
2.9K00
Claude Sonnet 4.5 对阵 GLM-4.6：中外大模型编程巅峰对决，胜负已分? 丨302.AI 基准实验室

今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日，Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型，后有 GLM-4.6 在…
2025 年 10 月 13 日 • 基准实验室
6.2K00
从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • 基准实验室
2.4K10
302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装

尘埃落定，当地时间 8 月 7 日，OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称，GPT-5 是其迄今为止最智能、最快、最实用的模型，在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”，称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
2025 年 8 月 8 日 • 基准实验室
5.7K20
302.AI 基准实验室丨全球首发亿级参数模型Kimi K2：代码能力测评，是真香还是噱头？

北京时间 7 月 11 日，人工智能领域迎来重磅消息！月之暗面（Moonshot AI）正式发布并开源了其旗舰级大模型 Kimi K2。这款模型采用先进的 MoE（Mixture of Experts）架构，总参数量高达惊人的 1 万亿（1T），激活参数也达到 320 亿（32B），其规模和技术深度令人瞩目。 Kimi K2 的核心优势在于其显著增强的代码能…
2025 年 7 月 15 日 • 基准实验室
8.3K20
Claude 4 系列最新对比测评，推理退步前端编程增强？| 302.AI 基准实验室

美东时间5月22日周四，Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型：Claude Opus 4和Claude Sonnet 4。据了解，Claude Opus 4 和 Sonnet 4 都是混合推理模型，同时支持 Extended thinking（扩展推…
2025 年 5 月 23 日 • 基准实验室
17.4K2450
302.AI 基准实验室 | 大模型排行榜第二！Gemini-2.5-flash-preview-05-20全方位对比测评

北京时间 5 月 21 日，谷歌在 I/O 2025大会上带来了新模型：gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计，更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进，同时使用的 token 减少了 20-30%。在lmarena.a…
2025 年 5 月 22 日 • 基准实验室
7.8K1670
Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决| 302.AI 基准实验室

近日，谷歌提前推出了Gemini 2.5 Pro的最新版：Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍，这一版本模型的编码能力更强，用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…
2025 年 5 月 9 日 • 基准实验室
12.7K3060
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7，到底谁在前端任务上更胜一筹？

3月24日，DeepSeek V3 发布新版本：DeepSeek-V3-0324。据官方介绍，新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在 HTML 等代码前端任务上，新版 V3 模型生成的代码可用性更高，视觉效果也更加美观、富有设计感。 DeepSeek-V3.1（即DeepSe…
2025 年 3 月 27 日 • 基准实验室
3.8K271
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比

在上一篇文章中，我们给大家介绍了 Claude 3.7 Sonnet 模型，同时对Claude 3.7 Sonnet的标准模式（Normal）进行了实测对比。而现在，我们将会对Claude 3.7 Sonnet 推理模式（Extended）进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet（标准模式）的对比，更全面地…
2025 年 2 月 27 日 • 基准实验室
3.0K81

1 / 2
1
2