Gemini 2.5 pro
Doubao-Seed-Translation翻译模型实测:距离真正的“翻译大师”还有多远?丨302.AI 基准实验室
字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation,支持包括中、英、日、韩、德、法等 28 种语言互译,基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1,而在多语言综合表现上,甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro,展现出国际一流的翻译水准。…
Sonnet 4 平替?Claude Haiku 4.5 实测杀疯了:性能不输,价格砍半丨302.AI 基准实验室
距 Claude Sonnet 4 问鼎业界编程翘楚五个月后,Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5,并宣称该模型在编码性能上已媲美 Sonnet 4,而价格仅为后者的三分之一,速度更是提升一倍以上,堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室
视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…
302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐
I. 2025年上半年多模态大模型评测与推荐:洞悉前沿,智选未来 2025 年上半程,多模态大模型又一次把“看图回答”这件事做到了难以想象的高度。谷歌在 I/O 上抛出的 Gemini-2.5 系列率先给外界打了样:Pro 型号在多项推理基准夺冠,Elo 得分刷新纪录;而 Flash 则把一次图文推理的平均延迟压进 500 ms 并新增视频输入通道。Anth…
302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评
6月,各大模型厂商如同上了“发条”,新品发布纷至沓来。 6月11日,Force 2025 原动力大会上,火山引擎正式发布豆包大模型 1.6 版(Doubao-Seed-1.6)。该系列中包含了三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…
Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决| 302.AI 基准实验室
近日,谷歌提前推出了Gemini 2.5 Pro的最新版:Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍,这一版本模型的编码能力更强,用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等 而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…