资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。

有传闻称 QwQ-Plus 的性能优于 QwQ-32B,那不妨直接实测对比看看,除了QwQ-Plus 和 QwQ-32B,我们还选择了 DeepSeek-R1 一起对比测试,目的是更全面地评估这三款模型的实力

模型实测

对比模型:QwQ-Plus 、 QwQ-32B 、DeepSeek-R1

实测1-4使用的工具为:302.AI的模型竞技场

实测5使用工具为:302.AI聊天机器人-Artifacts功能

实测1:汉字结构理解

提示词:一个汉字左右结构,左边木,右边乞,请直接回答这个汉字。

考察点:主要测试模型的文化常识关联性、底层语言结构理解能力以及知识库的广度与精度。

结论:仅 DeepSeek-R1 回答正确,QwQ-Plus 输出了错误答案,QwQ-32B 陷入逻辑循环,无法终止推理,未能输出答案。同时可以发现,参数较小的 QwQ 两个模型在汉字知识库覆盖度与精度还有待提高

QwQ-Plus :回答错误

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :陷入不断思考,最后只能手动暂停,未能输出答案

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:回答正确,且还对该文字进行了详细解析。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测2:计算推理测试

提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立

考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

结论:仅QwQ-Plus 回答正确,而 QwQ-32B 和 DeepSeek-R1则是在思考中已经分析得出结果并不符合题目,但依旧输出错误答案。

QwQ-Plus :通过分析思路、添加括号并验算,最终回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :在输出结果中已验算答案不正确,仍输出错误答案。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:DeepSeek-R1 和之前测试一样,明知验算结果不对,仍输出错误答案。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测3:逻辑思维测试

提示词:一个房间里有三盏灯,门外有三个开关,每个开关对应一盏灯。现在你只能进房间一次,请问如何确定哪个开关对应哪盏灯?

考察点:测试模型的逻辑推理能力以及对细节信息的处理。

结论:三个模型答案均是正确的,QwQ-Plus 与 QwQ-32B 的答案对比大致相似。其次,深度思考时间对比排序:QwQ-32B < DeepSeek-R1 <QwQ-Plus。

QwQ-Plus :分析合理,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :分析合理,回答正确

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:分析正确,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测4:推理能力测试

提示词:

有 10 个人站成一列纵队,从 10 顶黄帽子和 9 顶蓝帽子中,取出 10 顶分别给每个人戴上。每个人都看不见自己头上的帽子颜色,却只能看见站在前面那些人的帽子颜色。

站在最后的第十个人说:“我虽然看见了你们每个人头上的帽子,但仍然不知道自己头上帽子的颜色。”

依此类推,直到第二个人也说不知道自己头上帽子的颜色。出乎意料的是,第一个人却说:“我知道自己头上帽子的颜色了。”

请问:第一个人头上戴的是什么颜色的帽子?他为什么知道呢?

考察点:测试逻辑推理与信息传递能力,要求模型通过分析每个人的回答,逐步推导出第一个人帽子的颜色。

结论:三个模型均能得出正确答案,表明它们具备较强的逻辑推理能力,能够理解并运用信息传递的规则进行有效推导。

QwQ-Plus :分析合理,答案正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B :分析合理,答案正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:分析正确,回答正确。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测5:编程效果测试

提示词:

请实现一个粒子动画:

  • 鼠标移动时生成跟随光点粒子
  • 粒子逐渐消失并留下轨迹
  • 支持调整粒子颜色和速度的按钮。

结论:DeepSeek-R1 在视觉效果方面表现最佳,QwQ-Plus 在功能完整性和实用性方面更好,QwQ-32B 还有提升空间,但整体功能实现都较为完整。

QwQ-Plus :粒子能够平滑实时跟随光标移动,消失轨迹实现了渐变消失,提供了颜色选择器与速度条滑块,功能实现非常完整且视觉效果较好。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

QwQ-32B: 粒子能够跟随光标移动稍稍有延迟,颜色切换还算流畅,整个功能完整,但交互与视觉效果一般。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

DeepSeek-R1:粒子跟随光标移动无延迟,可通过按钮切换颜色和速度,但按钮切换速度虽然精准但稍有不便,实用性不够。整体功能实现较完整,交互与视觉效果好。

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

实测总结:

通过以上实测,可以初步得出以下结论:

(1)复杂任务下 QwQ-32B 因资源受限陷入无限思考

在实测1中发现,QwQ-32B 在面对复杂任务时,会陷入无休止的思考而无法输出答案。这种情况并非个例,例如在回答“1 = 5 2 = 15 3 = 215 4 = 3215 5 =?”这一问题时也出现了类似无限思考的情形。这或许是由于复杂问题解决需要更多的资源,而模型的资源存在限制所致。

(2)QwQ-Plus 在计算推理任务表现卓越

根据实测2的结果得出,在涉及计算的推理任务中,QwQ-Plus 表现出色,表现优于 DeepSeek-R1 和 QwQ-32B,其不仅能够精准地输出正确答案,还能清晰地展示出关键的解题思路。

(3) QwQ-32B 的推理速度优势显著

从实测3的结果能够看出,QwQ-32B 深度思考时间最短。而进一步考察实测4和实测5的数据,QwQ-32B 依旧保持着深度思考时间最短的优异表现。综合多轮测试情况可以看出,QwQ-32B 在三个模型中的推理速度最快,其推理速度的优势显著 。

(4)复杂推理任务里 QwQ 与 DeepSeek-R1的比肩表现

综合实测3、4,面对逻辑思维和复杂的推理任务,三个模型均能成功推导出正确答案。这表明在推理方面,QwQ-32B 和 QwQ-Plus 具备了与 DeepSeek-R1 相媲美的水平。

(5)QwQ-Plus 编程效果综合评估最优

根据实测4效果所示, 从实用性、交互效果等方面综合考量,QwQ-Plus 的表现最为出色,DeepSeek-R1 虽然美观度最佳但功能实用性方面存在一定欠缺,而QwQ-32B 在该案例中的编程能力还有提升的空间。

综上所述,QwQ-Plus 相较于 QwQ-32B ,在稳定性方面略胜一筹,尤其是面对复杂的计算推理任务时;然而,就速度表现而言,QwQ-Plus 和 DeepSeek-R1 则稍逊于 QwQ-32B 。

在与 DeepSeek-R1 的性能对比方面,无论是 QwQ-Plus 还是 QwQ-32B,均表现出与之十分接近的水准,但若要说完全超越,仍存在一定的差距。不过综合比较,将 QwQ-32B 称为 DeepSeek-R1 的平价替代品,这一说法倒是合理的。

在302.AI上使用 QwQ-Plus 和 QwQ-32B 模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→搜索关键词“qwq”→ 按需选择→创建聊天机器人;

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→国产模型/开源模型→查看文档;

QwQ-Plus 的API名称:qwq-plus

QwQ-32B 的API名称:qwq-32b

硅基流动部署的 QwQ-32B 的API名称:Qwen/QwQ-32B

资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

Like (0)
302.AI302.AI
Previous 4天前
Next 2024 年 10 月 15 日 下午5:34

相关推荐

  • 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

    9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升。 根据官方数据显示,两款模型在M…

    2024 年 9 月 26 日
    32500
  • 资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

    时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升。 在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。 但在发布gem…

    2024 年 12 月 3 日
    19000
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    65300
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    35100
  • 资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

    11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。 先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起…

    2024 年 12 月 19 日
    51900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注