Gemini 2.5 pro
302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测
视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…
302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐
I. 2025年上半年多模态大模型评测与推荐:洞悉前沿,智选未来 2025 年上半程,多模态大模型又一次把“看图回答”这件事做到了难以想象的高度。谷歌在 I/O 上抛出的 Gemini-2.5 系列率先给外界打了样:Pro 型号在多项推理基准夺冠,Elo 得分刷新纪录;而 Flash 则把一次图文推理的平均延迟压进 500 ms 并新增视频输入通道。Anth…
302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评
6月,各大模型厂商如同上了“发条”,新品发布纷至沓来。 6月11日,Force 2025 原动力大会上,火山引擎正式发布豆包大模型 1.6 版(Doubao-Seed-1.6)。该系列中包含了三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…