Gemini 2.5 pro

Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation，支持包括中、英、日、韩、德、法等 28 种语言互译，基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1，而在多语言综合表现上，甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro，展现出国际一流的翻译水准。…
2025 年 10 月 27 日 • 基准实验室
2.3K10
Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

距 Claude Sonnet 4 问鼎业界编程翘楚五个月后，Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5，并宣称该模型在编码性能上已媲美 Sonnet 4，而价格仅为后者的三分之一，速度更是提升一倍以上，堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
2025 年 10 月 24 日 • 基准实验室
2.6K00
从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • 基准实验室
2.2K10
302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐

I. 2025年上半年多模态大模型评测与推荐：洞悉前沿，智选未来 2025 年上半程，多模态大模型又一次把“看图回答”这件事做到了难以想象的高度。谷歌在 I/O 上抛出的 Gemini-2.5 系列率先给外界打了样：Pro 型号在多项推理基准夺冠，Elo 得分刷新纪录；而 Flash 则把一次图文推理的平均延迟压进 500 ms 并新增视频输入通道。Anth…
2025 年 6 月 25 日 • 基准实验室
7.3K20
302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月，各大模型厂商如同上了“发条”，新品发布纷至沓来。 6月11日，Force 2025 原动力大会上，火山引擎正式发布豆包大模型 1.6 版（Doubao-Seed-1.6）。该系列中包含了三个主要版本：标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…
2025 年 6 月 19 日 • 基准实验室
7.2K30
Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决| 302.AI 基准实验室

近日，谷歌提前推出了Gemini 2.5 Pro的最新版：Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍，这一版本模型的编码能力更强，用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…
2025 年 5 月 9 日 • 基准实验室
11.5K3060

Gemini 2.5 pro

Doubao-Seed-Translation翻译模型实测：距离真正的“翻译大师”还有多远？丨302.AI 基准实验室

Sonnet 4 平替？Claude Haiku 4.5 实测杀疯了：性能不输，价格砍半丨302.AI 基准实验室

从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐

302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决| 302.AI 基准实验室