MiniMax 日前正式开源了其专为编程任务与 Agent 工作流优化设计的大模型 MiniMax-M2。该模型采用 MoE 混合专家架构，官方称其为“小模型”，是因为仅凭 100 亿激活参数，即可实现媲美顶尖模型的端到端工具调用能力，而其轻量级形态使得部署和扩展变得比以往更加轻松。

卷不动全能冠军？MiniMax-M2：用一半的力气，拿下最值钱的阵地丨302.AI 基准实验室

MiniMax M2 定位明确，旨在成为 AI 编程与 Agent 开发领域的强力助手。其强大的代码理解与生成能力，可辅助开发者完成全流程开发任务。模型核心优势可概括为以下几方面：

卓越的通用智能。根据 Artificial Analysis 基准测试，MiniMax-M2 在数学、科学、指令遵循等多项评测中表现领先，综合能力跻身全球开源模型榜首；
先进的编程能力。专为端到端开发流程设计，擅长多文件编辑、测试验证与跨语言持续集成。
智能体性能。能够规划并执行复杂工具链，在浏览器操作、命令行与代码执行等场景中表现稳定。
高效架构设计。通过 100 亿激活参数（总参数量 2300 亿）的精巧设计，为交互式智能体和批量采样场景带来更低延迟、更优成本与更高吞吐——完美契合当前行业向高可部署性模型的转型趋势，同时在编程与智能体任务中保持卓越表现。

目前，根据综合评分，MiniMax-M2 已在 Artificial Analysis 上跻身全球第五，国产第二，开源第一。

302.AI 已第一时间接入 MiniMax-M2 模型 API，针对其主要性能特点，本期测评将用它与同期备受瞩目的 Claude Haiku 4.5 和 KAT-Coder-Pro-V1 展开多维度实测，对比探索其差异性所在。

I. 实测模型基本信息

（1）各实测模型在 302.AI 的价格：

参与对比测评的模型	上下文长度	输入价格	输出价格	说明
MiniMax-M2	1000000	$0.33/ 1M tokens	$1.32/ 1M tokens
claude-haiku-4-5	200000	$1/ 1M tokens	$5/ 1M tokens
KAT-Coder-Pro-V1	256000	$0.57/ 1M tokens	$2.28/ 1M tokens	0-32K
		$0.86 / 1M tokens	$3.43 / 1M tokens	32K-128K
		$1.43 / 1M tokens	$5.715 / 1M tokens	128K-256K

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，人类直觉，多模态等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题），以及编程模拟（共9题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

💡记分规则：

逻辑与数学、人类直觉、编程模拟类测试按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。
多模态类测试只记录输出答案对错，最终统计正确率。

（4）测评工具：

302.AI的API超市→在线使用

（5）测评结果：

逻辑与数学测试结果（总题数：10）

测评对象	平均分
MiniMax-M2	9.60
claude-haiku-4-5	9.90
KAT-Coder-Pro-V1	9.60

人类直觉结果（总题数：7）

测评对象	平均分
MiniMax-M2	9.43
claude-haiku-4-5	10.0
KAT-Coder-Pro-V1	8.71

编程模拟测试结果（总题数：9）

测评对象	平均分
MiniMax-M2	9.44
claude-haiku-4-5	9.11
KAT-Coder-Pro-V1	8.11

测评结果总览：

测评对象	逻辑与数学	人类直觉	编程模拟	加权总分
MiniMax-M2	9.60	9.43	9.44	28.47
claude-haiku-4-5	9.90	10.0	9.11	29.01
KAT-Coder-Pro-V1	9.60	8.71	8.11	26.42

Ⅱ. 实测案例

案例 1：逻辑与数学

在逻辑推理与数学问题实测中，三组模型整体表现接近，但 Claude Haiku 4.5 在精度与准确度方面展现出相对优势，尤其在结构化序列推断任务中更为稳定。

案例：观察以下图形序列：第一个图形有1个圆形在上方和1个三角形在下方；第二个有2个圆形在左侧和2个三角形在右侧，位置交替；第三个有3个圆形环绕1个三角形。请预测第四个图形的精确组成，包括形状数量、位置分布，并用数学公式（如n阶序列）证明规律（必须解释递增模式和位置变换逻辑）。

在上期实测中出现过的这个图形序列规律预测案例，在本期实测中，依然仅有 Claude Haiku 4.5 完整且精准地完成该任务。

MiniMax-M2：

输出了详细分析，但三角形数量规律错误，导致递增模式不完整，最终结果形状数量错误（三角形应为2个，但预测1个）

Claude Haiku 4.5：

Haiku 4.5 擅用列表和数学公式举证，输出了完整步骤、多角度分析和位置变换逻辑（配置周期性、对称性等）。

KAT-Coder-Pro-V1gpt-5：

提供了详细分析，包括递增模式和位置变换逻辑，但位置规律错误（应为四角圆形和中心三角形交叠，而非左右分布）

案例 2：人类直觉测试

MiniMax-M2 在人类直觉测试案例中表现较稳定，其主要其扣分项主要在于多角度分析扩展不足，在需要发散思维、进行跨界联想或深度趋势挖掘的环节，战略性和创造性洞察稍逊于Haiku。

案例：
题型：健康管理测试，模糊饮食调整：身体状况模糊为“偶尔疲劳，体重略超”，偏好“简单美味”，预算“中等”。请步步制定一周饮食计划：每日菜单、营养平衡、调整依据，并解释如何可持续避免反弹，不允许忽略过敏风险。 测评要点：满分需菜单列表+营养解释+可持续性；状况提取错误扣4分，无风险扣1分。多角度分析：边界如素食偏好转vegan计划，扩展到运动结合；借鉴健康AI app如营养追踪；用户意图测试模型的关怀处理，在养生中辅助模糊习惯；信息扩展：这多角度论述直觉的自我调节，如卡路里模糊估算体现代谢本能，与模糊健康数据工具类似机器学习预测，详尽讨论心理因素如动机衰减。

MiniMax-M2：

核心要素扎实，但多角度分析在AI关联和用户意图推测上稍弱。

Claude Haiku 4.5：

输出具有全面性、深度分析和多角度扩展，完美契合用户意图。

KAT-Coder-Pro-V1gpt-5：

核心要素基本覆盖，但兴趣量化浅显，未涉及SWOT分析或贝叶斯预测。

案例 3：编程模拟-Mac系统模拟

提示词：
用HTML创建一个模拟Mac操作系统界面的页面，包含桌面、菜单栏、Dock和应用窗口等功能。

MiniMax-M2：

最终效果与 Haiku 4.5 近似，且在其基础上完整实现了桌面、菜单栏、Dock、多应用窗口，交互体验流畅，CSS结构清晰，窗口层级管理处理得当，整体上质量较高。

Claude Haiku 4.5：

包含桌面图标和Dock双重入口，计算器功能实际交互可用；优势在于外观上，例如深色菜单栏更接近现代macOS，以及Dock分隔符设计细节到位。但不足也比较明显，例如代码结构缺少边界优化，以及交互完整性一般（窗口控制按钮功能不完整等）

KAT-Coder-Pro-V1gpt-5：

KAT的桌面背景没有出现经典的AI紫，代码结构也比较清晰。但劣势在于功能完整性弱，缺少真实的窗口控制功能，界面较简陋，缺少macOS特有的视觉元素，窗口管理逻辑也过于简单。

案例 4：编程模拟-网页游戏

提示词：请使用 HTML、CSS 和 JavaScript 创建一个经典的 “翻牌记忆游戏”。
游戏玩法：
布局：创建一个 4×4 的网格，共 16 张卡牌。
卡牌：这 16 张卡牌由 8 对相同的数字或符号组成（例如，两个’1’，两个’2’，以此类推）。游戏开始时，这些卡牌的顺序需要被随机打乱。
交互：
开始时，所有卡牌都背面朝上。
玩家点击一张卡牌，它会翻转过来显示内容。
当玩家翻开第二张卡牌时：
如果两张卡牌匹配，它们就保持正面朝上。
如果两张不匹配，它们会短暂显示 1 秒，然后同时翻转回背面朝上的状态。
胜利条件：当所有 8 对卡牌都被成功匹配后，游戏结束，并显示胜利信息。
技术要求：
将 HTML、CSS 和 JavaScript 代码分别放在独立的代码块中。
禁止使用任何外部框架或库（例如 jQuery）。
代码需要简洁、完整，可以直接在浏览器中运行。

MiniMax-M2：

游戏逻辑和功能完整，组件和反转动画设计精美，且交互响应流畅，在三组中完整度和效果都是最优的。

Claude Haiku 4.5：

同样是完整实现但存在明显不足，匹配成功时的特殊视觉效果缺乏，视觉效果略弱；从代码结构上来看，封装性也比 M2 略弱一些。

KAT-Coder-Pro-V1gpt-5：

功能完整性严重缺失，仅实现了简单的翻牌交互，未能真正实现可用性。

案例 5：编程模拟-3D特效

提示词：
请使用 Three.js 库创建一个 3D 场景。
核心要求：
主体：用数万个粒子（Points）构建一个螺旋状的星系。
动画：让整个星系围绕其垂直中心轴缓慢、持续地旋转。
光照：在星系中心放置一个点光源（PointLight），使其能够照亮粒子。
请将所有代码（HTML, CSS, JS）整合到一个可以直接在浏览器中运行的 HTML 文件里。

MiniMax-M2：

较好地还原了完整的螺旋星系结构，粒子大小随机变化，视效较佳，且实现了完整的鼠标拖拽旋转、滚轮缩放功能和左侧实时状态显示。

Claude Haiku 4.5：

视觉效果一流，较明显颜色渐变系统，并添加了星空背景增强场景深度；只是拖拽体验上略逊一筹，流畅度一般，且缺少缩放功能。

KAT-Coder-Pro-V1gpt-5：

只实现了基本表现形式，星系的螺旋算法缺少真正的螺旋臂结构，代码结构简单以及视觉层次匮乏。

III. MiniMax-M2 实测结论

综合多轮测试表现，MiniMax-M2 展现出与其定位高度一致的鲜明特征：一款在编程与智能体任务中表现卓越、兼具高效架构与稳定输出的专业级开源模型。

在逻辑与数学领域，M2 的推理风格偏向扎实和稳健。测试数据显示，在处理常规逻辑问题和基础数学任务时，M2能够提供可靠且一致的解答；然而，在面对需要多层级抽象思维或复杂序列推断的任务时，其表现确实不及该领域的顶尖模型。这一能力边界表明，M2 更适合处理确定性较高、需求明确的工程场景，而在需要突破性思维或高度抽象推理的任务中则存在局限。

在人类直觉类任务中，M2 表现出良好的常识判断能力，能够准确识别任务的核心需求并提供结构化的解决方案。其在处理明确边界的日常决策问题时表现稳定，但在需要深度心理洞察或发散性思维的任务中，其表现则相对受限。这种特性使其在需要快速获得可靠建议的场景下具有实用价值，而在需要创造性突破或深度情感理解的复杂情境中则显得力有不逮。

而到了编程与智能体核心任务，M2 的表现堪称亮眼。无论是需要精确视觉还原的复杂图形界面，还是逻辑严密的交互应用，抑或需要结合数学图形与物理逻辑的 3D 场景构建，M2 均能提供功能完整、代码结构清晰、用户体验流畅的优质输出。这体现了其对项目需求的深度理解、对完整可执行程序的构建能力，以及对“端到端开发流程”的掌控能力。特别是在需要规划并执行多步骤工具链的智能体场景中，其稳定、可控的输出特性，使其成为构建可靠 AI Agent 的绝佳基石。

最终结论是，MiniMax-M2 凭借其精巧的 MoE 架构，成功地在能力、效率与成本之间找到了一个极具竞争力的平衡点。它或许并非在每一个独立评测项中都夺得头筹，但其最突出的价值在于 “综合工程性价比”——它在最核心的编程和智能体任务上提供了稳定可靠且性能强大的支持，同时其轻量级特性为大规模部署与应用降低了门槛。对于致力于快速构建、迭代和部署 AI 应用，特别是专注于智能体开发和复杂代码生成的开发者与团队来说，MiniMax-M2 无疑是目前开源生态中一个不容忽视的、实力强劲的新晋标杆。

Ⅳ. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引：应用超市→机器人→聊天机器人→立即体验

选择模型：国产模型→MIniMax-M2→确认→创建

2. 使用模型 API

步骤指引：API超市→语言大模型→Minimax→MiniMax-M2

点击【立即体验】在线调用 API

想即刻体验 MiniMax-M2 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

卷不动全能冠军？MiniMax-M2：用一半的力气，拿下最值钱的阵地丨302.AI 基准实验室