资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

1月15日,MiniMax发布并开源了全新MiniMax-01系列基础语言大模型——MiniMax-Text-01

据了解,MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,单次激活459 亿个参数 。为了解锁其长上下文功能,它采用了一种混合架构,集成了闪电注意力(Lightning Attention)、Softmax 注意力(Softmax Attention)和专家混合(Mixture-of-Experts, MoE)。模型综合性能比肩海外顶尖模型,同时能够高效处理最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

在各种学术基准测试中,MiniMax-Text-01也展示了顶级模型的性能,其中在MMLU任务上达到88.5%的准确率,与其他顶级模型不相上下。在IFEval任务取得89.0%的高分。Humaneval达到86.9%的水平,显示出强大的代码理解和生成能力。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 在302.AI上使用

目前,302.AI的聊天机器人和API超市均上线了MiniMax-Text-01模型。302.AI提供按需付费的服务方式,无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型,从而满足自身需求。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行更新,保持与市场的发展同步。以下是在聊天机器人中获取MiniMax-Text-01模型的步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——下滑到国产模型分类选择MiniMax-Text-01模型并确定,最后点击创建聊天机器人按钮;

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

2、进入聊天机器人后,点击页面左下角的设置可以打开实时预览功能:

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

【API超市】

302.AI的API超市涵盖了多种API,且分类明晰。企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取MiniMax-Text-01的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——点击国产模型

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

2、点击【查看文档】可快速进入API文档查看MiniMax-Text-01的模型API。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 实测对比

为了更直观了解模型,下面会围绕MiniMax-Text-01模型进行实测,旨在更直观地了解模型的表现。

实测1:数学测试

使用工具:302.AI的模型竞技场

对比模型:MiniMax-Text-01 、Deepseek V3、Qwen2.5-72B

提示词:

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

分析:最近,深圳南山区某小学数学期末考试由于试题太难引起讨论,这一测试题则是源自其备受争议的六年级数学考卷中,接下来看下各模型的回答。

Qwen2.5-72B:虽然回答正确,但是在分析过程中出现了错误:0.6小于0.67,因此解析中提到0.6介于0.67和1之间的说法是错误的。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

Deepseek V3:分析很清晰,回答也正确。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

MiniMax-Text-01 :首先MiniMax-Text-01最后给出的答案也是正确的,但是仔细看模型的分析的过程,对于比例的说明不太正确。根据题意,比例为米:水,换算成分母为1表示水不变,分子较大时米较多,则相对水较少,因此分析中关于水量描述均是不正确的。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

实测2:长文测试

使用工具:302.AI的聊天机器人

在共2万多字的《小王子》原文中以及27万多字的《红楼梦》前30回两个文档中,分别在不同位置插入了以下三句话:

印着古典纹路的书签放在红色包里。

手工编织的小流苏放在红色包里。

带有吉祥话的精美贴纸放在红色包里。

提示词:请阅读文档后告诉我,放在红色包里的都有什么?

分析1:面对2万多字的《小王子》,MiniMax-Text-01轻松找出所有正确答案

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

分析2:对于27万多字的《红楼梦》文本,MiniMax-Text-01这次只找出了一个答案,未能完全回答正确。找到的答案位于文本的前5万字中,其余两个答案则是分别位于约10万字、25万字的位置中。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

实测3:编程测试

使用工具:302.AI的聊天机器人-Artifacts功能

对比模型:MiniMax-Text-01 、Deepseek V3

提示词:请用前端代码制作一个完整的拼图游戏,需要包含游戏说明,开始游戏等元素,并将所有代码放在一起输出

Deepseek V3:先来看下Deepseek的生成效果,界面游戏说明比较简单,仅说明了游戏的操作方式是通过点击拼图块来移动,但没有明确规则:移动到什么样的顺序才算正确?即使是拼图块有数字但是排列的方式可以有很多种,这表明游戏逻辑不够严密,用户体验不足。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

MiniMax-Text-01:整体界面设计和Deepseek相似,但MiniMax弥补了Deepseek的不足,在游戏一开始就展示了正确的图案顺序,游戏说明也更容易让用户明白,整体相对更加完整。

资讯丨实测MiniMax全新模型MiniMax-Text-01,数学、上下文理解、编程能力表现如何?

> 总结

通过以上实测可以初步得出以下结论:

数学测试:在数学测试中,MiniMax-Text-01 虽然最终给出了正确答案,但在分析过程中存在一些逻辑上的瑕疵。这表明模型在处理复杂数学问题时,仍需进一步提升其推理能力。

长文测试:在长文测试中,MiniMax-Text-01 在《小王子》的测试中表现出色,能够准确找出所有相关信息。然而,面对更为复杂的《红楼梦》文本时,模型的表现有所下降,未能完全识别出所有插入的句子。

编程测试:在编程测试中,MiniMax-Text-01与 Deepseek V3 相比,MiniMax-Text-01 生成的拼图游戏界面设计更为完整,游戏说明更加清晰,用户体验也更为友好。这不仅体现了模型对编程语言的理解能力,还展示了其在应用场景中的实用性。

总的来说,MiniMax-Text-01的编程效果较为出色,但在数学以及长文测试中存在不足,有待改进。尤其是长文测试中,模型在面对复杂的长文本表现未能达到预期。MiniMax-Text-01 的发布为国产大模型的发展注入了新的活力,未来,我们期待看到更多出色的国产模型出现!

Like (0)
302.AI302.AI
Previous 6天前
Next 4天前

相关推荐

  • AI网页生成器,提升网页开发效率的新利器

    早前,一个“资深程序员已经用ai开始干活了”的热搜话题引发了广大网友的关注,截至目前这一话题阅读量已经破亿。 在这一话题下,引发了网友关于AI技术与编程工作关系的深入讨论,甚至有网友发出疑问”AI发展在未来是否会取代人类的工作岗位”。实际上,不仅仅是程序员,无论是在职场还是日常生活中,AI工具更多地是作为一个强大的辅助手段,帮助我们快速实现想法、…

    2024 年 10 月 9 日
    36900
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    2024 年 11 月 20 日
    45500
  • 视频生成模型神仙打架?到底哪家更胜一筹

    自从OpenAI发布了正在研发和测试中的文生视频大模型Sora后,AI视频生成工具接连“内卷”,开始”神仙打架“模式。 首先,在当地时间6月12日,Luma创始人官宣并发布新视频模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。6月28日,Luma宣布首尾帧制作加入Dream…

    2024 年 7 月 17 日
    37200
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    16900
  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    36500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注