阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。

参考文章:

https://baijiahao.baidu.com/s?id=1806896491152896532&wfr=spider&for=pc

https://qwenlm.github.io/blog/qwen2-math

https://mp.weixin.qq.com/s/-gnz_ZijvctMboGWguFAeQ

Like (0)
302.AI302.AI
Previous 2024 年 8 月 19 日 下午6:44
Next 2024 年 8 月 20 日 下午6:33

相关推荐

  • 开发故事丨302.AI新工具:AI头像制作的过程和原理解析

    最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。 试用一下: 先来看下如何获取并使用这一工具,以下是具体的步骤: 1、进入3…

    2024 年 11 月 13 日
    8100
  • GPT-4o新版本突然上线,结构化输出是什么?

    8月6日,OpenAI的官网悄悄上线了新版本gpt-4o-2024-08-06模型。去年的DevDay活动中,OpenAI推出了JSON模式,而这次升级的新版本在API中引入了结构化输出,这一新功能旨在确保模型生成的输出与开发人员提供的 JSON 架构完全匹配。 gpt-4o-2024-08-06采用结构化输出的新模型在复杂 JSON 模式跟踪的评估中获得了…

    2024 年 8 月 8 日
    23200
  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    2天前
    2500
  • Claude升级PDF解析功能,302.AI实际上早已支持

    11月2日,Anthropic在社交媒体平台宣布,在其Claude 3.5 Sonnet 模型中增加了PDF理功能,这一功能不仅能读懂PDF中的文字,还能看懂图表、图片等视觉元素。 目前这一新功能已进入公开测试阶段,用户可以利用该模型来分析PDF文档中的文本和视觉元素(如图像、图表和表格),适用于财务报告、数据分析、法律文件和文档翻译等多种场景。 而这一PD…

    2024 年 11 月 4 日
    14800
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    23小时前
    2200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注