302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月,各大模型厂商如同上了“发条”,新品发布纷至沓来。

6月11日,Force 2025 原动力大会上,火山引擎正式发布豆包大模型 1.6 版(Doubao-Seed-1.6)。该系列中包含了三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-flash。

其中Doubao-Seed-1.6-thinking 模型在多个权威测评集上达到全球第一梯队水平:GPQA Diamond 测试成绩达到81.5分;数学测评AIME25成绩达到86.3分,相比豆包1.5深度思考模型大幅提升12.3分。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月16日,国内 AI 六小虎之一的 MiniMax 正式开源其最新研发的大语言模型 MiniMax-M1。MiniMax在官方文档中称:M1是世界上第一个开源的大规模混合架构的推理模型,在面向生产力的复杂场景中能力是开源模型中的最好一档,超过国内的闭源模型,接近海外的最领先模型,同时又有业内最高的性价比。

此外,M1有一个显著的优势是支持目前业内最高的100万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

6月17日,谷歌将 2.5 Pro 和 Flash模型进一步升级,发布稳定版和正式版。此外,还将推出 2.5 Flash-Lite 预览版,并表示这是谷歌迄今为止最具成本效益和速度最快的 2.5 模型。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

302.AI 团队现已接入了上述新模型,今天我们也将对Gemini-2.5-pro、Doubao-seed-1-6-thinking、MiniMax-M1模型展开实测对比。


I. 实测对比

各模型在 302.AI 的价格及所支持的上下文长度:

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

评测使用工具:302.AI的模型竞技场聊天机器人

实测1:高考数学题

提示词:

一个底面半径为4cm,高为9cm的封闭圆柱形容器内有两个半径相等的铁球.则铁球半径的最大值为___cm.

题目解析:正确答案5/2。

Gemini-2.5-pro:答案正确。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

Doubao-seed-1.6:答案正确。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

MiniMax-M1:思考了248秒后,输出了错误答案

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

实测2:逻辑推理

提示词:

老师写了三个数字让小明猜

小明:508

老师:“猜对1个数字,位置也对了”

小明:531

老师:“ 猜对1个数字,但位置不对”

小明:568

老师:“猜对2个数字,但只有一个数位置正确”

老师觉得小明故意一直猜5,刚想揍他一顿,这时小明却说自己已经知道答案了。请问正确答案是什么?

题目解析:正确答案618

Gemini-2.5-pro:回答正确

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

Doubao-seed-1.6:回答正确,且输出答案十分清晰。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

MiniMax-M1:经过500秒的思考,最终未能输出答案

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

实测3:长文本测试

*主要对比模型:Gemini-2.5-pro和MiniMax-M1,两个模型支持最高的100万上下文的输入,Doubao-seed-1.6支持最大输入长度为224k,暂不参与对比。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

在27万多字的《红楼梦》文本中分别在不同位置插入了以下三句话:

印着古典纹路的书签放在红色包里。

手工编织的小流苏放在红色包里。

带有吉祥话的精美贴纸放在红色包里。

提示词提问:请阅读文档后告诉我,放在红色包里的都有什么?

Gemini-2.5-pro:回答正确,且能准确指出原句所在的位置

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

MiniMax-M1:回答正确,但所指出的原文出处并不完全准确。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

实测4:图表理解

*对比模型:Gemini-2.5-pro和Doubao-seed-1.6(MiniMax-M1不支持多模态,故不参与对比。)

提示词:广州2012年和2017年的常住人口分别是多少?

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

题目解析:从图中可以看到2012年常住人口是1415.53万人,2017年常住人口是1746.27万人。

Gemini-2.5-pro:回答正确。

Doubao-seed-1.6:回答正确。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

实测5:编程测试-摸鱼游戏

提示词:

请帮我生成一款适合上班摸鱼时玩的 “逃生” 类网页小游戏的代码,要求如下:【游戏目标】

玩家需在一个虚拟办公室场景中悄悄完成逃离任务,但不能被老板或监控发现。

玩法可以是找出口、点物品、解谜、路线规划等,轻度策略为主。

游戏需设置一些干扰机制(如老板巡逻、摄像头移动),增加紧张感。

【设计要求】

界面风格极简,像素风或手绘风皆可,颜色柔和;

用户主要通过鼠标点击或键盘方向键控制角色或选择操作;

页面不要发出声音(避免上班时暴露);

不使用服务器、不加载大图片,适合浏览器本地运行;

游戏不应超过 3 分钟即可通关,适合碎片时间玩;

可加一个 “老板来了” 按钮,点击后立刻切成 Excel 模板画面(有趣的彩蛋)。

Gemini-2.5-pro:核心机制准确实现(如老板巡逻、摄像头移动、 “老板来了” 按钮),视觉风格简单清晰,游戏策略符合逻辑,比如需要拿到钥匙才能开门。整体效果较优。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

Doubao-seed-1.6:基本实现了游戏目标和设计要求,但紧张感不足。界面也较为简陋,操作说明不清晰,用户不知道如何开始游戏,也没有提示。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

MiniMax-M1:效果较差,未设置完整的干扰机制,“老板来了”的彩蛋也存在bug。

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

II. 实测总结

1、实测结果整理:

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)本轮实测中无疑表现最佳的是 Gemini-2.5-pro ,在各个案例实测中都能准确理解用户需求,给出正确答案。如果预算充足,用户可优先选择Gemini-2.5-pro使用。

(2)Doubao-seed-1.6-thinking的表现也令人惊喜,但在编程实测

方面还有待提升,如预算有限且对编程方面需求不大,可参考选择Doubao-seed-1.6-thinking。

(3)MiniMax-M1 的整体表现并不理想。在实测中发现,面对逻辑验证复杂的情况下,很容易卡在思考中,无法输出答案。

III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

1、聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人;

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

选择模型→确定→创建;

gemini-2.5-pro

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

Doubao-seed-1.6】

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

MiniMax-M1

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API→API超市→语言大模型→Gemini/国产模型→查看文档;

API名称:

(1)MiniMax-M1MiniMax-M1

(2)Doubao-seed-1.6

doubao-seed-1-6-thinking-250615

doubao-seed-1-6-250615

doubao-seed-1-6-flash-250615

(3)Gemini-2.5系列

gemini-2.5-pro

gemini-2.5-flash

gemini-2.5-flash-lite-preview-06-17

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

想体验最新语言模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

往期推荐

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2天前
Next 2024 年 7 月 25 日 下午3:47

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注