阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。

参考文章:

https://baijiahao.baidu.com/s?id=1806896491152896532&wfr=spider&for=pc

https://qwenlm.github.io/blog/qwen2-math

https://mp.weixin.qq.com/s/-gnz_ZijvctMboGWguFAeQ

(0)
302.AI302.AI
上一篇 2024 年 8 月 19 日 下午6:44
下一篇 2024 年 8 月 20 日 下午6:33

相关推荐

  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    2024 年 9 月 11 日
    4100
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    7800
  • GPT-4o新版本突然上线,结构化输出是什么?

    8月6日,OpenAI的官网悄悄上线了新版本gpt-4o-2024-08-06模型。去年的DevDay活动中,OpenAI推出了JSON模式,而这次升级的新版本在API中引入了结构化输出,这一新功能旨在确保模型生成的输出与开发人员提供的 JSON 架构完全匹配。 gpt-4o-2024-08-06采用结构化输出的新模型在复杂 JSON 模式跟踪的评估中获得了…

    2024 年 8 月 8 日
    9000
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    4200
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    10200

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注