302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月，各大模型厂商如同上了“发条”，新品发布纷至沓来。

6月11日，Force 2025 原动力大会上，火山引擎正式发布豆包大模型 1.6 版（Doubao-Seed-1.6）。该系列中包含了三个主要版本：标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-flash。

其中Doubao-Seed-1.6-thinking 模型在多个权威测评集上达到全球第一梯队水平：GPQA Diamond 测试成绩达到81.5分；数学测评AIME25成绩达到86.3分，相比豆包1.5深度思考模型大幅提升12.3分。

（图片来源火山引擎公众号）

6月16日，国内 AI 六小虎之一的 MiniMax 正式开源其最新研发的大语言模型 MiniMax-M1。MiniMax在官方文档中称：M1是世界上第一个开源的大规模混合架构的推理模型，在面向生产力的复杂场景中能力是开源模型中的最好一档，超过国内的闭源模型，接近海外的最领先模型，同时又有业内最高的性价比。

此外，M1有一个显著的优势是支持目前业内最高的100万上下文的输入，跟闭源模型里面的 Google Gemini 2.5 Pro 一样，是 DeepSeek R1 的 8 倍，以及业内最长的8万Token的推理输出。

（图片来源自MiniMax官方文档）

6月17日，谷歌将 2.5 Pro 和 Flash模型进一步升级，发布稳定版和正式版。此外，还将推出 2.5 Flash-Lite 预览版，并表示这是谷歌迄今为止最具成本效益和速度最快的 2.5 模型。

302.AI 团队现已接入了上述新模型，今天我们也将对Gemini-2.5-pro、Doubao-seed-1-6-thinking、MiniMax-M1模型展开实测对比。

I. 实测对比

各模型在 302.AI 的价格及所支持的上下文长度：

评测使用工具：302.AI的模型竞技场与聊天机器人

实测1：高考数学题

提示词：

一个底面半径为4cm，高为9cm的封闭圆柱形容器内有两个半径相等的铁球.则铁球半径的最大值为___cm.

题目解析：正确答案5/2。

Gemini-2.5-pro：答案正确。

Doubao-seed-1.6：答案正确。

MiniMax-M1：思考了248秒后，输出了错误答案。

实测2：逻辑推理

提示词：
老师写了三个数字让小明猜
小明：508
老师：“猜对1个数字，位置也对了”
小明：531
老师：“ 猜对1个数字，但位置不对”
小明：568
老师：“猜对2个数字，但只有一个数位置正确”
老师觉得小明故意一直猜5，刚想揍他一顿，这时小明却说自己已经知道答案了。请问正确答案是什么？
题目解析：正确答案618

Gemini-2.5-pro：回答正确。

Doubao-seed-1.6：回答正确，且输出答案十分清晰。

MiniMax-M1：经过500秒的思考，最终未能输出答案。

实测3：长文本测试

*主要对比模型：Gemini-2.5-pro和MiniMax-M1，两个模型支持最高的100万上下文的输入，Doubao-seed-1.6支持最大输入长度为224k，暂不参与对比。

在27万多字的《红楼梦》文本中分别在不同位置插入了以下三句话：
印着古典纹路的书签放在红色包里。
手工编织的小流苏放在红色包里。
带有吉祥话的精美贴纸放在红色包里。
提示词提问：请阅读文档后告诉我，放在红色包里的都有什么？

Gemini-2.5-pro：回答正确，且能准确指出原句所在的位置。

MiniMax-M1：回答正确，但所指出的原文出处并不完全准确。

实测4：图表理解

*对比模型：Gemini-2.5-pro和Doubao-seed-1.6（MiniMax-M1不支持多模态，故不参与对比。）

提示词：广州2012年和2017年的常住人口分别是多少?

题目解析：从图中可以看到2012年常住人口是1415.53万人，2017年常住人口是1746.27万人。

Gemini-2.5-pro：回答正确。

Doubao-seed-1.6：回答正确。

实测5：编程测试-摸鱼游戏

提示词：
请帮我生成一款适合上班摸鱼时玩的 “逃生” 类网页小游戏的代码，要求如下：【游戏目标】
玩家需在一个虚拟办公室场景中悄悄完成逃离任务，但不能被老板或监控发现。
玩法可以是找出口、点物品、解谜、路线规划等，轻度策略为主。
游戏需设置一些干扰机制（如老板巡逻、摄像头移动），增加紧张感。
【设计要求】
界面风格极简，像素风或手绘风皆可，颜色柔和；
用户主要通过鼠标点击或键盘方向键控制角色或选择操作；
页面不要发出声音（避免上班时暴露）；
不使用服务器、不加载大图片，适合浏览器本地运行；
游戏不应超过 3 分钟即可通关，适合碎片时间玩；
可加一个 “老板来了” 按钮，点击后立刻切成 Excel 模板画面（有趣的彩蛋）。

Gemini-2.5-pro：核心机制准确实现（如老板巡逻、摄像头移动、 “老板来了” 按钮），视觉风格简单清晰，游戏策略符合逻辑，比如需要拿到钥匙才能开门。整体效果较优。

Doubao-seed-1.6：基本实现了游戏目标和设计要求，但紧张感不足。界面也较为简陋，操作说明不清晰，用户不知道如何开始游戏，也没有提示。

MiniMax-M1：效果较差，未设置完整的干扰机制，“老板来了”的彩蛋也存在bug。

II. 实测总结

1、实测结果整理：

2、实测结论：

基于以上实测结果，可初步得出以下结论：

（1）本轮实测中无疑表现最佳的是 Gemini-2.5-pro ，在各个案例实测中都能准确理解用户需求，给出正确答案。如果预算充足，用户可优先选择Gemini-2.5-pro使用。

（2）Doubao-seed-1.6-thinking的表现也令人惊喜，但在编程实测

方面还有待提升，如预算有限且对编程方面需求不大，可参考选择Doubao-seed-1.6-thinking。

（3）MiniMax-M1 的整体表现并不理想。在实测中发现，面对逻辑验证复杂的情况下，很容易卡在思考中，无法输出答案。

III. 如何在302.AI上使用：

302.AI提供按需付费无订阅的服务模式，用户可以根据自身业务需求灵活选择使用。
1、聊天机器人中使用
步骤指引：在线使用→应用超市→机器人→聊天机器人；
选择模型→确定→创建；
【gemini-2.5-pro】
【Doubao-seed-1.6】
【MiniMax-M1】
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发。
相关文档：API→API超市→语言大模型→Gemini/国产模型→查看文档；
API名称：
（1）MiniMax-M1：MiniMax-M1
（2）Doubao-seed-1.6：
doubao-seed-1-6-thinking-250615
doubao-seed-1-6-250615
doubao-seed-1-6-flash-250615
（3）Gemini-2.5系列
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite-preview-06-17

想体验最新语言模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

往期推荐

302.AI 基准实验室丨2025上半年终极视频模型争霸！Seedance 1.0 vs Kling 2.1 vs Veo 3 实测

302.AI 基准实验室丨实测对比 FLUX.1 Kontext 系列模型，“快、稳、准”三点能否问鼎？

302.AI 基准实验室丨可灵图生视频模型全版本对比实测，新版就一定稳赢么？

Comments(3)

302.AI 赛博月刊丨Vol.7 90天定律：从落后到突围，国产AI的崛起周期 - 2025 年 7 月 8 日 pm6:23
[…] ✦ 这个月顶尖海外模型只有 o3-Pro 发布，给了国产模型一个窗口期，迎头赶上。例如字节的多模态推理模型 Seed-1.6，从功能上已经不输任何海外模型。 […]
Leontine Byrdsong 2025 年 7 月 28 日 pm7:03
I besides think so , perfectly indited post! .
302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐 - 2025 年 8 月 13 日 pm6:24
[…] Doubao-Seed-1.6-thinking 聚焦“极速响应”，面向移动端推理；阿里的 QvQ-Max […]

302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评