GPT-5

Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

2025年的夏天，当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”（Agentic Intelligence）时，一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面（Moonshot AI）公司于2025年7月11日发布的突破性开源大语言模型，不仅是业界第一个宣称达到万亿参数的大模型，总参数量高达惊人的1.04万亿，更重要的是…
2025 年 11 月 7 日 • 基准实验室
7.9K11
Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation，支持包括中、英、日、韩、德、法等 28 种语言互译，基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1，而在多语言综合表现上，甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro，展现出国际一流的翻译水准。…
2025 年 10 月 27 日 • 基准实验室
2.3K10
Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

距 Claude Sonnet 4 问鼎业界编程翘楚五个月后，Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5，并宣称该模型在编码性能上已媲美 Sonnet 4，而价格仅为后者的三分之一，速度更是提升一倍以上，堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
2025 年 10 月 24 日 • 基准实验室
2.5K00
Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

继 7 月开源万亿参数模型 Kimi K2 后，月之暗面（Moonshot）于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看，作为 K2 的最新版本，该模型在编程能力上进行了重大升级，并将上下文长度扩展至 256K，远超之前版本的 128K 支持能力。本次更新的 0905 版本具有以下几个亮点：在…
2025 年 9 月 5 日 • 基准实验室
3.6K00
编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传，甚至没有放上模型卡。唯一已知的信息是：上下文窗口从原有的64k扩展至128k，从网页、App、小程序都可体验这一模型。从上传的模型版本看，模型尺寸达 685B，支持 BF16、F8_E4M3、F32 等张量类型，平衡模型…
2025 年 8 月 20 日 • 基准实验室
3.2K10
从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • 基准实验室
2.2K10
302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装

尘埃落定，当地时间 8 月 7 日，OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称，GPT-5 是其迄今为止最智能、最快、最实用的模型，在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”，称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
2025 年 8 月 8 日 • 基准实验室
5.4K20

GPT-5

Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

Claude断供中国之际，Kimi-K2-0905低调上线：时势造英雄丨302.AI 基准实验室

编程能力超越Claude Opus 4？DeepSeek V3.1最新版本实测丨302.AI 基准实验室

从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装