GPT-5

Kimi K2 Thinking actual measurement: Complex reasoning is already very useful,深度编程尚待提升丨302.AI Benchmark laboratory

In the summer of 2025, when the main line of the large-scale model competition has shifted from a simple parameter scale to a deeper “intelligent intelligence” (Agentic Intelligence), a name detonated the entire open source community like thunder-Kimi K2. This groundbreaking open source big language model released by Moonshot AI on July 11, 2025 is not only the first big model in the industry to claim to reach trillion parameters, the total number of parameters is as high as a staggering 1.04 trillion, and more importantly…
November 7, 2025 • Benchmark laboratory
8.0K11
Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation，支持包括中、英、日、韩、德、法等 28 种语言互译，基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1，而在多语言综合表现上，甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro，展现出国际一流的翻译水准。…
2025 年 10 月 27 日 • Benchmark laboratory
2.3K10
Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

距 Claude Sonnet 4 问鼎业界编程翘楚五个月后，Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5，并宣称该模型在编码性能上已媲美 Sonnet 4，而价格仅为后者的三分之一，速度更是提升一倍以上，堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
2025 年 10 月 24 日 • Benchmark laboratory
2.6K00
Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

继 7 月开源万亿参数模型 Kimi K2 后，月之暗面（Moonshot）于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看，作为 K2 的最新版本，该模型在编程能力上进行了重大升级，并将上下文长度扩展至 256K，远超之前版本的 128K 支持能力。本次更新的 0905 版本具有以下几个亮点：在…
2025 年 9 月 5 日 • Benchmark laboratory
3.6K00
编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传，甚至没有放上模型卡。唯一已知的信息是：上下文窗口从原有的64k扩展至128k，从网页、App、小程序都可体验这一模型。从上传的模型版本看，模型尺寸达 685B，支持 BF16、F8_E4M3、F32 等张量类型，平衡模型…
2025 年 8 月 20 日 • Benchmark laboratory
3.2K10
从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • Benchmark laboratory
2.2K10
302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装

尘埃落定，当地时间 8 月 7 日，OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称，GPT-5 是其迄今为止最智能、最快、最实用的模型，在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”，称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
2025 年 8 月 8 日 • Benchmark laboratory
5.5K20

GPT-5

Kimi K2 Thinking actual measurement: Complex reasoning is already very useful,深度编程尚待提升丨302.AI Benchmark laboratory

Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装