阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。

参考文章:

https://baijiahao.baidu.com/s?id=1806896491152896532&wfr=spider&for=pc

https://qwenlm.github.io/blog/qwen2-math

https://mp.weixin.qq.com/s/-gnz_ZijvctMboGWguFAeQ

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 19 日 下午6:44
Next 2024 年 8 月 20 日 下午6:33

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(1)

  • tlovertonet
    tlovertonet 2025 年 5 月 23 日 上午9:28

    There is noticeably a bundle to know about this. I assume you made certain nice points in features also.