资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。

有传闻称 QwQ-Plus 的性能优于 QwQ-32B,那不妨直接实测对比看看,除了QwQ-Plus 和 QwQ-32B,我们还选择了 DeepSeek-R1 一起对比测试,目的是更全面地评估这三款模型的实力

模型实测

对比模型:QwQ-Plus 、 QwQ-32B 、DeepSeek-R1

实测1-4使用的工具为:302.AI的模型竞技场

实测5使用工具为:302.AI聊天机器人-Artifacts功能

实测1:汉字结构理解

提示词:一个汉字左右结构,左边木,右边乞,请直接回答这个汉字。

考察点:主要测试模型的文化常识关联性、底层语言结构理解能力以及知识库的广度与精度。

结论:仅 DeepSeek-R1 回答正确,QwQ-Plus 输出了错误答案,QwQ-32B 陷入逻辑循环,无法终止推理,未能输出答案。同时可以发现,参数较小的 QwQ 两个模型在汉字知识库覆盖度与精度还有待提高

QwQ-Plus :回答错误

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :陷入不断思考,最后只能手动暂停,未能输出答案

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:回答正确,且还对该文字进行了详细解析。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测2:计算推理测试

提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立

考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

结论:仅QwQ-Plus 回答正确,而 QwQ-32B 和 DeepSeek-R1则是在思考中已经分析得出结果并不符合题目,但依旧输出错误答案。

QwQ-Plus :通过分析思路、添加括号并验算,最终回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :在输出结果中已验算答案不正确,仍输出错误答案。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:DeepSeek-R1 和之前测试一样,明知验算结果不对,仍输出错误答案。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测3:逻辑思维测试

提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?

考察点:测试模型的逻辑推理能力以及对细节信息的处理。

结论:三个模型答案均是正确的,QwQ-Plus 与 QwQ-32B 的答案对比大致相似。其次,深度思考时间对比排序:QwQ-32B < DeepSeek-R1 <QwQ-Plus。

QwQ-Plus :分析合理,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :分析合理,回答正确

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:分析正确,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测4:推理能力测试

提示词:

有 10 个人站成一列纵队,从 10 顶黄帽子和 9 顶蓝帽子中,取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色,却只能看见站在前面那些人的帽子颜色。

站在最后的第十个人说:“我虽然看见了你们每个人头上的帽子,但仍然不知道自己头上帽子的颜色。”

依此类推,直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是,第一个人却说:“我知道自己头上帽子的颜色了。”

请问:第一个人头上戴的是什么颜色的帽子?他为什么知道呢?

考察点:测试逻辑推理与信息传递能力,要求模型通过分析每个人的回答,逐步推导出第一个人帽子的颜色。

结论:三个模型均能得出正确答案,表明它们具备较强的逻辑推理能力,能够理解并运用信息传递的规则进行有效推导。

QwQ-Plus :分析合理,答案正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :分析合理,答案正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:分析正确,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测5:编程效果测试

提示词:

请实现一个粒子动画:

  • 鼠标移动时生成跟随光点粒子
  • 粒子逐渐消失并留下轨迹
  • 支持调整粒子颜色和速度的按钮。

结论:DeepSeek-R1 在视觉效果方面表现最佳,QwQ-Plus 在功能完整性和实用性方面更好,QwQ-32B 还有提升空间,但整体功能实现都较为完整。

QwQ-Plus :粒子能够平滑实时跟随光标移动,消失轨迹实现了渐变消失,提供了颜色选择器与速度条滑块,功能实现非常完整且视觉效果较好。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B: 粒子能够跟随光标移动稍稍有延迟,颜色切换还算流畅,整个功能完整,但交互与视觉效果一般。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:粒子跟随光标移动无延迟,可通过按钮切换颜色和速度,但按钮切换速度虽然精准但稍有不便,实用性不够。整体功能实现较完整,交互与视觉效果好。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测总结:

通过以上实测,可以初步得出以下结论:

(1)复杂任务下 QwQ-32B 因资源受限陷入无限思考

在实测1中发现,QwQ-32B 在面对复杂任务时,会陷入无休止的思考而无法输出答案。这种情况并非个例,例如在回答“1 = 5 2 = 15 3 = 215 4 = 3215 5 =?”这一问题时也出现了类似无限思考的情形。这或许是由于复杂问题解决需要更多的资源,而模型的资源存在限制所致。

(2)QwQ-Plus 在计算推理任务表现卓越

根据实测2的结果得出,在涉及计算的推理任务中,QwQ-Plus 表现出色,表现优于 DeepSeek-R1 和 QwQ-32B,其不仅能够精准地输出正确答案,还能清晰地展示出关键的解题思路。

(3) QwQ-32B 的推理速度优势显著

从实测3的结果能够看出,QwQ-32B 深度思考时间最短。而进一步考察实测4和实测5的数据,QwQ-32B 依旧保持着深度思考时间最短的优异表现。综合多轮测试情况可以看出,QwQ-32B 在三个模型中的推理速度最快,其推理速度的优势显著 。

(4)复杂推理任务里 QwQ 与 DeepSeek-R1的比肩表现

综合实测3、4,面对逻辑思维和复杂的推理任务,三个模型均能成功推导出正确答案。这表明在推理方面,QwQ-32B 和 QwQ-Plus 具备了与 DeepSeek-R1 相媲美的水平。

(5)QwQ-Plus 编程效果综合评估最优

根据实测4效果所示, 从实用性、交互效果等方面综合考量,QwQ-Plus 的表现最为出色,DeepSeek-R1 虽然美观度最佳但功能实用性方面存在一定欠缺,而QwQ-32B 在该案例中的编程能力还有提升的空间。

综上所述,QwQ-Plus 相较于 QwQ-32B ,在稳定性方面略胜一筹,尤其是面对复杂的计算推理任务时;然而,就速度表现而言,QwQ-Plus 和 DeepSeek-R1 则稍逊于 QwQ-32B 。

在与 DeepSeek-R1 的性能对比方面,无论是 QwQ-Plus 还是 QwQ-32B,均表现出与之十分接近的水准,但若要说完全超越,仍存在一定的差距。不过综合比较,将 QwQ-32B 称为 DeepSeek-R1 的平价替代品,这一说法倒是合理的。

在302.AI上使用 QwQ-Plus 和 QwQ-32B 模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→搜索关键词“qwq”→ 按需选择→创建聊天机器人;

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→国产模型/开源模型→查看文档;

QwQ-Plus 的API名称:qwq-plus

QwQ-32B 的API名称:qwq-32b

硅基流动部署的 QwQ-32B 的API名称:Qwen/QwQ-32B

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

Like (0)
302.AI302.AI
Previous 2025 年 3 月 7 日 下午7:28
Next 2025 年 3 月 17 日 上午11:37

相关推荐

  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    60200
  • 资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

    3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

    2025 年 3 月 26 日
    18800
  • 资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

    2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。 在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…

    2025 年 2 月 25 日
    24100
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    2024 年 11 月 20 日
    79700
  • 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

    近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。 7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。 而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。 或许很多人…

    2024 年 8 月 12 日
    42600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注