302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 19 日 下午6:44
Next 2024 年 8 月 20 日 下午6:33

相关推荐

  • Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室

    今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…

    19小时前 基准实验室
    820
  • 体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室

    赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…

    3天前 基准实验室
    6190
  • 302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…

    2025 年 9 月 24 日 赛博月刊
    4260
  • 追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室

    美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…

    2025 年 9 月 19 日 基准实验室
    4310

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(16)

  • tlovertonet
    tlovertonet 2025 年 5 月 23 日 上午9:28

    There is noticeably a bundle to know about this. I assume you made certain nice points in features also.

  • Tom Wenger
    Tom Wenger 2025 年 6 月 4 日 下午5:34

    Thank you for the sensible critique. Me & my neighbor were just preparing to do a little research on this. We got a grab a book from our area library but I think I learned more clear from this post. I’m very glad to see such great info being shared freely out there.

  • Elnora Mamaril
    Elnora Mamaril 2025 年 6 月 16 日 下午5:45

    This web site is my breathing in, rattling great design and style and perfect content material.

  • Davis Audas
    Davis Audas 2025 年 6 月 30 日 下午3:39

    You made some good points there. I did a search on the topic and found most folks will agree with your blog.

  • Zachery Burnside
    Zachery Burnside 2025 年 7 月 1 日 上午8:32

    I have to show my passion for your generosity for men and women who really need help on this particular subject matter. Your real commitment to getting the message up and down had been wonderfully significant and have really permitted some individuals much like me to get to their dreams. Your own invaluable recommendations means a lot a person like me and even more to my office workers. Best wishes; from each one of us.

  • Hawaii medical malpractice lawyer
    Hawaii medical malpractice lawyer 2025 年 7 月 24 日 上午9:41

    I’m writing to let you be aware of of the nice discovery my wife’s princess gained checking yuor web blog. She figured out so many pieces, most notably how it is like to have an ideal giving style to get other folks without problems fully understand various extremely tough subject matter. You undoubtedly surpassed our expected results. Thanks for rendering those helpful, dependable, informative and also unique tips on that topic to Jane.

  • Ronna Lemaitre
    Ronna Lemaitre 2025 年 7 月 28 日 下午7:26

    Simply wanna say that this is very useful, Thanks for taking your time to write this.

  • short play script
    short play script 2025 年 7 月 30 日 上午4:03

    You made some clear points there. I did a search on the subject matter and found most people will consent with your site.

  • cabling technician near me san Antonio,tx
    cabling technician near me san Antonio,tx 2025 年 7 月 30 日 上午4:43

    Hello! I could have sworn I’ve been to this blog before but after browsing through some of the post I realized it’s new to me. Anyways, I’m definitely happy I found it and I’ll be book-marking and checking back frequently!

  • industrial workshop cloth
    industrial workshop cloth 2025 年 7 月 31 日 上午12:49

    I enjoy examining and I believe this website got some really useful stuff on it! .

  • hosting services
    hosting services 2025 年 8 月 7 日 上午11:19

    I like what you guys are up too. Such clever work and reporting! Carry on the excellent works guys I have incorporated you guys to my blogroll. I think it’ll improve the value of my site :)

  • hptoto
    hptoto 2025 年 8 月 16 日 上午3:28

    Thank you, I have recently been searching for information about this topic for ages and yours is the greatest I’ve discovered till now. But, what about the bottom line? Are you sure about the source?

  • toto macau
    toto macau 2025 年 8 月 17 日 下午8:54

    I got what you mean , appreciate it for putting up.Woh I am pleased to find this website through google. “Food is the most primitive form of comfort.” by Sheila Graham.

  • casino games online
    casino games online 2025 年 8 月 19 日 下午1:53

    I’ve been exploring for a little for any high quality articles or blog posts on this kind of area . Exploring in Yahoo I at last stumbled upon this site. Reading this information So i am happy to convey that I’ve a very good uncanny feeling I discovered exactly what I needed. I most certainly will make certain to do not forget this site and give it a look on a constant basis.

  • toto macau
    toto macau 2025 年 8 月 21 日 上午12:20

    I carry on listening to the newscast speak about receiving boundless online grant applications so I have been looking around for the top site to get one. Could you advise me please, where could i acquire some?

  • shorts deportivos mujer
    shorts deportivos mujer 2025 年 8 月 26 日 上午12:19

    I like this post, enjoyed this one regards for putting up.