资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

1月15日,MiniMax发布并开源了全新MiniMax-01系列基础语言大模型——MiniMax-Text-01

据了解,MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,单次激活459 亿个参数 。为了解锁其长上下文功能,它采用了一种混合架构,集成了闪电注意力(Lightning Attention)、Softmax 注意力(Softmax Attention)和专家混合(Mixture-of-Experts, MoE)。模型综合性能比肩海外顶尖模型,同时能够高效处理最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

在各种学术基准测试中,MiniMax-Text-01也展示了顶级模型的性能,其中在MMLU任务上达到88.5%的准确率,与其他顶级模型不相上下。在IFEval任务取得89.0%的高分。Humaneval达到86.9%的水平,显示出强大的代码理解和生成能力。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 在302.AI上使用

目前,302.AI的聊天机器人和API超市均上线了MiniMax-Text-01模型。302.AI提供按需付费的服务方式,无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型,从而满足自身需求。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行更新,保持与市场的发展同步。以下是在聊天机器人中获取MiniMax-Text-01模型的步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——下滑到国产模型分类选择MiniMax-Text-01模型并确定,最后点击创建聊天机器人按钮;

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

2、进入聊天机器人后,点击页面左下角的设置可以打开实时预览功能:

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

【API超市】

302.AI的API超市涵盖了多种API,且分类明晰。企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取MiniMax-Text-01的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——点击国产模型

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

2、点击【查看文档】可快速进入API文档查看MiniMax-Text-01的模型API。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 实测对比

为了更直观了解模型,下面会围绕MiniMax-Text-01模型进行实测,旨在更直观地了解模型的表现。

实测1:数学测试

使用工具:302.AI的模型竞技场

对比模型:MiniMax-Text-01 、Deepseek V3、Qwen2.5-72B

提示词:

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

分析:最近,深圳南山区某小学数学期末考试由于试题太难引起讨论,这一测试题则是源自其备受争议的六年级数学考卷中,接下来看下各模型的回答。

Qwen2.5-72B:虽然回答正确,但是在分析过程中出现了错误:0.6小于0.67,因此解析中提到0.6介于0.67和1之间的说法是错误的。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

Deepseek V3:分析很清晰,回答也正确。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

MiniMax-Text-01 :首先MiniMax-Text-01最后给出的答案也是正确的,但是仔细看模型的分析的过程,对于比例的说明不太正确。根据题意,比例为米:水,换算成分母为1表示水不变,分子较大时米较多,则相对水较少,因此分析中关于水量描述均是不正确的。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

实测2:长文测试

使用工具:302.AI的聊天机器人

在共2万多字的《小王子》原文中以及27万多字的《红楼梦》前30回两个文档中,分别在不同位置插入了以下三句话:

印着古典纹路的书签放在红色包里。

手工编织的小流苏放在红色包里。

带有吉祥话的精美贴纸放在红色包里。

提示词:请阅读文档后告诉我,放在红色包里的都有什么?

分析1:面对2万多字的《小王子》,MiniMax-Text-01轻松找出所有正确答案

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

分析2:对于27万多字的《红楼梦》文本,MiniMax-Text-01这次只找出了一个答案,未能完全回答正确。找到的答案位于文本的前5万字中,其余两个答案则是分别位于约10万字、25万字的位置中。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

实测3:编程测试

使用工具:302.AI的聊天机器人-Artifacts功能

对比模型:MiniMax-Text-01 、Deepseek V3

提示词:请用前端代码制作一个完整的拼图游戏,需要包含游戏说明,开始游戏等元素,并将所有代码放在一起输出

Deepseek V3:先来看下Deepseek的生成效果,界面游戏说明比较简单,仅说明了游戏的操作方式是通过点击拼图块来移动,但没有明确规则:移动到什么样的顺序才算正确?即使是拼图块有数字但是排列的方式可以有很多种,这表明游戏逻辑不够严密,用户体验不足。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

MiniMax-Text-01:整体界面设计和Deepseek相似,但MiniMax弥补了Deepseek的不足,在游戏一开始就展示了正确的图案顺序,游戏说明也更容易让用户明白,整体相对更加完整。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 总结

通过以上实测可以初步得出以下结论:

数学测试:在数学测试中,MiniMax-Text-01 虽然最终给出了正确答案,但在分析过程中存在一些逻辑上的瑕疵。这表明模型在处理复杂数学问题时,仍需进一步提升其推理能力。

长文测试:在长文测试中,MiniMax-Text-01 在《小王子》的测试中表现出色,能够准确找出所有相关信息。然而,面对更为复杂的《红楼梦》文本时,模型的表现有所下降,未能完全识别出所有插入的句子。

编程测试:在编程测试中,MiniMax-Text-01与 Deepseek V3 相比,MiniMax-Text-01 生成的拼图游戏界面设计更为完整,游戏说明更加清晰,用户体验也更为友好。这不仅体现了模型对编程语言的理解能力,还展示了其在应用场景中的实用性。

总的来说,MiniMax-Text-01的编程效果较为出色,但在数学以及长文测试中存在不足,有待改进。尤其是长文测试中,模型在面对复杂的长文本表现未能达到预期。MiniMax-Text-01 的发布为国产大模型的发展注入了新的活力,未来,我们期待看到更多出色的国产模型出现!

Like (0)
302.AI302.AI
Previous 2025 年 1 月 15 日 下午6:16
Next 2025 年 1 月 17 日 下午7:09

相关推荐

  • 资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

    12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。 据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k,Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…

    2024 年 12 月 5 日
    32700
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    2024 年 11 月 20 日
    54200
  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    45700
  • 资讯丨一款易用且功能强大的手绘风画图工具——302 AI画图板

    在日常的工作生活中,单纯的文字描述往往难以传达复杂的想法和创意。这些时候,我们常常会利用各种图形来表达我们的观点,例如思维导图、流程图、原型图等。这些图像不仅能够帮助我们理清思路,还能将复杂的信息变得更加直观和易于理解。 > 302.AI AI画图板的优势 302.AI捕捉到了用户的需求,不久前在工具超市中上线了一款AI画图板工具,这一工具在Excal…

    2025 年 1 月 9 日
    17000
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2024 年 11 月 1 日
    50800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注