阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。

参考文章:

https://baijiahao.baidu.com/s?id=1806896491152896532&wfr=spider&for=pc

https://qwenlm.github.io/blog/qwen2-math

https://mp.weixin.qq.com/s/-gnz_ZijvctMboGWguFAeQ

Like (0)
302.AI302.AI
Previous 2024 年 8 月 19 日 下午6:44
Next 2024 年 8 月 20 日 下午6:33

相关推荐

  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    30800
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    24000
  • 提升AI协作效率,国内用户如何使用Artifacts功能?

    最近,由于汉语新解prompt的爆火,让Claude模型再次受到广泛关注。 提到Claude,或许大多数用户都会联想到Claude Artifacts,Anthropic在官网宣布推出Claude 3.5 Sonnet的同时,也宣布将在 Claude.ai上推出Artifacts功能,这一功能在用户请求Claude生成代码、文档或网站设计时,能够将这些生成的…

    2024 年 9 月 19 日
    24700
  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    2024 年 11 月 18 日
    8800
  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    23700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注