3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。
与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。
有传闻称 QwQ-Plus 的性能优于 QwQ-32B,那不妨直接实测对比看看,除了QwQ-Plus 和 QwQ-32B,我们还选择了 DeepSeek-R1 一起对比测试,目的是更全面地评估这三款模型的实力
模型实测
对比模型:QwQ-Plus 、 QwQ-32B 、DeepSeek-R1
实测1-4使用的工具为:302.AI的模型竞技场
实测5使用工具为:302.AI聊天机器人-Artifacts功能
实测1:汉字结构理解
提示词:一个汉字左右结构,左边木,右边乞,请直接回答这个汉字。
考察点:主要测试模型的文化常识关联性、底层语言结构理解能力以及知识库的广度与精度。
结论:仅 DeepSeek-R1 回答正确,QwQ-Plus 输出了错误答案,QwQ-32B 陷入逻辑循环,无法终止推理,未能输出答案。同时可以发现,参数较小的 QwQ 两个模型在汉字知识库覆盖度与精度还有待提高。
QwQ-Plus :回答错误
QwQ-32B :陷入不断思考,最后只能手动暂停,未能输出答案。
DeepSeek-R1:回答正确,且还对该文字进行了详细解析。
实测2:计算推理测试
提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立
考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。
结论:仅QwQ-Plus 回答正确,而 QwQ-32B 和 DeepSeek-R1则是在思考中已经分析得出结果并不符合题目,但依旧输出错误答案。
QwQ-Plus :通过分析思路、添加括号并验算,最终回答正确。
QwQ-32B :在输出结果中已验算答案不正确,仍输出错误答案。
DeepSeek-R1:DeepSeek-R1 和之前测试一样,明知验算结果不对,仍输出错误答案。
实测3:逻辑思维测试
提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?
考察点:测试模型的逻辑推理能力以及对细节信息的处理。
结论:三个模型答案均是正确的,QwQ-Plus 与 QwQ-32B 的答案对比大致相似。其次,深度思考时间对比排序:QwQ-32B < DeepSeek-R1 <QwQ-Plus。
QwQ-Plus :分析合理,回答正确。
QwQ-32B :分析合理,回答正确。
DeepSeek-R1:分析正确,回答正确。
实测4:推理能力测试
提示词:
有 10 个人站成一列纵队,从 10 顶黄帽子和 9 顶蓝帽子中,取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色,却只能看见站在前面那些人的帽子颜色。
站在最后的第十个人说:“我虽然看见了你们每个人头上的帽子,但仍然不知道自己头上帽子的颜色。”
依此类推,直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是,第一个人却说:“我知道自己头上帽子的颜色了。”
请问:第一个人头上戴的是什么颜色的帽子?他为什么知道呢?
(答案:第一个人戴的是黄色帽子)
考察点:测试逻辑推理与信息传递能力,要求模型通过分析每个人的回答,逐步推导出第一个人帽子的颜色。
结论:三个模型均能得出正确答案,表明它们具备较强的逻辑推理能力,能够理解并运用信息传递的规则进行有效推导。
QwQ-Plus :分析合理,答案正确。
QwQ-32B :分析合理,答案正确。
DeepSeek-R1:分析正确,回答正确。
实测5:编程效果测试
提示词:
请实现一个粒子动画:
- 鼠标移动时生成跟随光点粒子
- 粒子逐渐消失并留下轨迹
- 支持调整粒子颜色和速度的按钮。
结论:DeepSeek-R1 在视觉效果方面表现最佳,QwQ-Plus 在功能完整性和实用性方面更好,QwQ-32B 还有提升空间,但整体功能实现都较为完整。
QwQ-Plus :粒子能够平滑实时跟随光标移动,消失轨迹实现了渐变消失,提供了颜色选择器与速度条滑块,功能实现非常完整且视觉效果较好。
QwQ-32B: 粒子能够跟随光标移动稍稍有延迟,颜色切换还算流畅,整个功能完整,但交互与视觉效果一般。
DeepSeek-R1:粒子跟随光标移动无延迟,可通过按钮切换颜色和速度,但按钮切换速度虽然精准但稍有不便,实用性不够。整体功能实现较完整,交互与视觉效果好。
实测总结:
通过以上实测,可以初步得出以下结论:
(1)复杂任务下 QwQ-32B 因资源受限陷入无限思考
在实测1中发现,QwQ-32B 在面对复杂任务时,会陷入无休止的思考而无法输出答案。这种情况并非个例,例如在回答“1 = 5 2 = 15 3 = 215 4 = 3215 5 =?”这一问题时也出现了类似无限思考的情形。这或许是由于复杂问题解决需要更多的资源,而模型的资源存在限制所致。
(2)QwQ-Plus 在计算推理任务表现卓越
根据实测2的结果得出,在涉及计算的推理任务中,QwQ-Plus 表现出色,表现优于 DeepSeek-R1 和 QwQ-32B,其不仅能够精准地输出正确答案,还能清晰地展示出关键的解题思路。
(3) QwQ-32B 的推理速度优势显著
从实测3的结果能够看出,QwQ-32B 深度思考时间最短。而进一步考察实测4和实测5的数据,QwQ-32B 依旧保持着深度思考时间最短的优异表现。综合多轮测试情况可以看出,QwQ-32B 在三个模型中的推理速度最快,其推理速度的优势显著 。
(4)复杂推理任务里 QwQ 与 DeepSeek-R1的比肩表现
综合实测3、4,面对逻辑思维和复杂的推理任务,三个模型均能成功推导出正确答案。这表明在推理方面,QwQ-32B 和 QwQ-Plus 具备了与 DeepSeek-R1 相媲美的水平。
(5)QwQ-Plus 编程效果综合评估最优
根据实测4效果所示, 从实用性、交互效果等方面综合考量,QwQ-Plus 的表现最为出色,DeepSeek-R1 虽然美观度最佳但功能实用性方面存在一定欠缺,而QwQ-32B 在该案例中的编程能力还有提升的空间。
综上所述,QwQ-Plus 相较于 QwQ-32B ,在稳定性方面略胜一筹,尤其是面对复杂的计算推理任务时;然而,就速度表现而言,QwQ-Plus 和 DeepSeek-R1 则稍逊于 QwQ-32B 。
在与 DeepSeek-R1 的性能对比方面,无论是 QwQ-Plus 还是 QwQ-32B,均表现出与之十分接近的水准,但若要说完全超越,仍存在一定的差距。不过综合比较,将 QwQ-32B 称为 DeepSeek-R1 的平价替代品,这一说法倒是合理的。
在302.AI上使用 QwQ-Plus 和 QwQ-32B 模型
302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式,企业和个人用户可按需灵活选用。
1、使用模型对话
依次点击使用机器人→聊天机器人→ 模型→搜索关键词“qwq”→ 按需选择→创建聊天机器人;
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:使用API→API超市→语言大模型→国产模型/开源模型→查看文档;
QwQ-Plus 的API名称:qwq-plus
QwQ-32B 的API名称:qwq-32b
硅基流动部署的 QwQ-32B 的API名称:Qwen/QwQ-32B