302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在一系列数学基准评测上,Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时,还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型,并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测,如 GSM8K 和 MATH 之外,还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中,Qwen2-Math-Instruct 在基准测试中表现最佳,证明了数学奖励模型的有效性。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在更复杂的数学竞赛评估(例如 AIME 2024 和 AMC 2023)中,Qwen2-Math-Instruct 在各种设置中也表现良好,包括 Greedy、Maj@64、RM@64 和 RM@256。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

在官方文档中,千问团队也展示了一些竞赛题的示例,比如:

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

据了解,Qwen2-Math目前主要针对英文场景,中英双语和多语言模型正在开发中。另外,根据Qwen2-Math的许可协议,对于72B版本,如果每月活跃用户数超过1亿,是需要向千问团队申请许可。

然而,在302.AIAPI超市中,已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式,支持在线调试,通过302.AI的API超市,用户可以通过简单的API调用来集成复杂的功能,而且提供技术支持和帮助文档,帮助用户解决集成过程中遇到的问题。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

值得一提的是,302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型为用户提供了一个更为便捷的使用途径,对于不熟悉API使用的AI爱好者,可以直接通过302.AI的聊天机器人来使用这一模型,同样是按需付费的模式,无需月费或捆绑套餐,使用户能够灵活地体验和应用这一先进的数学模型。

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

最后,用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示,这道曾经让多个模型蒙圈的题目,不仅没有难倒Qwen2-Math-72B模型,且每一步的解释都比较清楚:

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

随着Qwen2-Math数学模型的推出,它不仅为数学教育和研究领域带来了新的发展机遇,更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现,其意义远超解决单一深奥数学题目的范畴,它为解题者提供了一种全新的思路和方法,通过展示解题过程,帮助用户逐步深入理解数学概念和原理,从而培养用户的逻辑思维和问题解决能力。未来,我们可以期待支持多语言的数学模型出现。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 19 日 下午6:44
Next 2024 年 8 月 20 日 下午6:33

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8340
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3550
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4551
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(16)

  • tlovertonet
    tlovertonet 2025 年 5 月 23 日 上午9:28

    There is noticeably a bundle to know about this. I assume you made certain nice points in features also.

  • Tom Wenger
    Tom Wenger 2025 年 6 月 4 日 下午5:34

    Thank you for the sensible critique. Me & my neighbor were just preparing to do a little research on this. We got a grab a book from our area library but I think I learned more clear from this post. I’m very glad to see such great info being shared freely out there.

  • Elnora Mamaril
    Elnora Mamaril 2025 年 6 月 16 日 下午5:45

    This web site is my breathing in, rattling great design and style and perfect content material.

  • Davis Audas
    Davis Audas 2025 年 6 月 30 日 下午3:39

    You made some good points there. I did a search on the topic and found most folks will agree with your blog.

  • Zachery Burnside
    Zachery Burnside 2025 年 7 月 1 日 上午8:32

    I have to show my passion for your generosity for men and women who really need help on this particular subject matter. Your real commitment to getting the message up and down had been wonderfully significant and have really permitted some individuals much like me to get to their dreams. Your own invaluable recommendations means a lot a person like me and even more to my office workers. Best wishes; from each one of us.

  • Hawaii medical malpractice lawyer
    Hawaii medical malpractice lawyer 2025 年 7 月 24 日 上午9:41

    I’m writing to let you be aware of of the nice discovery my wife’s princess gained checking yuor web blog. She figured out so many pieces, most notably how it is like to have an ideal giving style to get other folks without problems fully understand various extremely tough subject matter. You undoubtedly surpassed our expected results. Thanks for rendering those helpful, dependable, informative and also unique tips on that topic to Jane.

  • Ronna Lemaitre
    Ronna Lemaitre 2025 年 7 月 28 日 下午7:26

    Simply wanna say that this is very useful, Thanks for taking your time to write this.

  • short play script
    short play script 2025 年 7 月 30 日 上午4:03

    You made some clear points there. I did a search on the subject matter and found most people will consent with your site.

  • cabling technician near me san Antonio,tx
    cabling technician near me san Antonio,tx 2025 年 7 月 30 日 上午4:43

    Hello! I could have sworn I’ve been to this blog before but after browsing through some of the post I realized it’s new to me. Anyways, I’m definitely happy I found it and I’ll be book-marking and checking back frequently!

  • industrial workshop cloth
    industrial workshop cloth 2025 年 7 月 31 日 上午12:49

    I enjoy examining and I believe this website got some really useful stuff on it! .

  • hosting services
    hosting services 2025 年 8 月 7 日 上午11:19

    I like what you guys are up too. Such clever work and reporting! Carry on the excellent works guys I have incorporated you guys to my blogroll. I think it’ll improve the value of my site :)

  • hptoto
    hptoto 2025 年 8 月 16 日 上午3:28

    Thank you, I have recently been searching for information about this topic for ages and yours is the greatest I’ve discovered till now. But, what about the bottom line? Are you sure about the source?

  • toto macau
    toto macau 2025 年 8 月 17 日 下午8:54

    I got what you mean , appreciate it for putting up.Woh I am pleased to find this website through google. “Food is the most primitive form of comfort.” by Sheila Graham.

  • casino games online
    casino games online 2025 年 8 月 19 日 下午1:53

    I’ve been exploring for a little for any high quality articles or blog posts on this kind of area . Exploring in Yahoo I at last stumbled upon this site. Reading this information So i am happy to convey that I’ve a very good uncanny feeling I discovered exactly what I needed. I most certainly will make certain to do not forget this site and give it a look on a constant basis.

  • toto macau
    toto macau 2025 年 8 月 21 日 上午12:20

    I carry on listening to the newscast speak about receiving boundless online grant applications so I have been looking around for the top site to get one. Could you advise me please, where could i acquire some?

  • shorts deportivos mujer
    shorts deportivos mujer 2025 年 8 月 26 日 上午12:19

    I like this post, enjoyed this one regards for putting up.