资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括:

1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.2%的准确率,显示出其具备研究生水平的科学推理能力;

2、在涵盖综合数学主题的AIME评测中,QwQ以50%的胜率证明其拥有解决数学问题的丰富技能;

3、在全面考察数学解题能力的MATH-500评测中,QwQ斩获90.6%的高分,超越o1-preview和o1-mini;

4、在评估高难度代码生成的LiveCodeBench评测中,QwQ答对一半的题,验证了其实际编程场景中的出色表现。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

> 在302.AI获取:

302.AI迅速跟进消息,在第一时间更新支持了QwQ-32B-Preview模型,用户可以在通过302.AI的聊天机器人直接使用QwQ-32B-Preview或者API超市获取模型的API:

聊天机器人:

登录进入302.AI——点击【使用机器人】——【聊天机器人】——模型下滑到开源模型选择【QwQ-32B-Preview】。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

进入聊天机器人后,点击页面左下角的设置可以打开实时预览功能:

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

API超市:

进入302.AI后——点击【使用API】——【API超市】——【语言大模型】——【开源模型】。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

下滑可以看到已经提供了QwQ-32B-Preview模型的API,大家可以根据需求选择【查看文档】快速接入API或者选择【在线体验】测试模型的参数。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

> 实测对比:

根据官方提供的基准测试结果,QwQ-32B-Preview在推理、数学、编程方面表现都不错,接下来,甚至超越了OpenAI的o1-Preview模型,下面就通过302.AI实测看看是否真的如此。

推理测试:

对比模型:o1-mini、claude-3.5-sonnet-20241022、QwQ-32B-Preview

使用工具:302.AI的模型竞技场

提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

分析:我们从题目中可以得出,房子里只有五个人,而E在打乒乓球,我们都知道乒乓球并不能一个人进行,因此可以推断C是在和E打乒乓球。

o1-mini:回答完全正确;

claude-3.5-sonnet:非常诚实的表示信息不足,无法确定;

QwQ-32B-Preview:经过一段篇幅很长的自我思考后,给出了一个和claude一样的答案:信息不足,无法确定。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

数学测试:

对比模型:o1-preview、claude-3.5-sonnet-20241022、QwQ-32B-Preview

使用工具:302.AI的模型竞技场

题目:资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

分析:这一题是来自2024年AIME数学竞赛的题目,先说下正确答案是236。因为答案较长,以下结果也是以动图的方式给大家展示。

o1-preview:回答正确

QwQ-32B-Preview:回答正确

claude-3.5-sonnet:回答错误

通过对比发现,同样回答正确的情况下,QwQ-32B-Preview的整个回答篇幅冗长,没有o1-preview的答案简洁清晰。

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

编程测试:

对比模型:claude-3.5-sonnet-20241022、QwQ-32B-Preview

使用工具:302.AI聊天机器人

提示词:

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

分析:

claude-3.5-sonnet:基本把提出的需求功能都实现了,且整个页面很美观

QwQ-32B-Preview:生成的代码经过多次调整,代码仍然在关键部分有遗漏,无法运行

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

claude-3.5-sonnet

资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

QwQ-32B-Preview

> 总结

通过以上实测,可初步得出以下结论:

推理测试:在推理测试中,QwQ-32B-Preview虽然展示了详细的思考过程,但是最后却未能回答正确题目,在推理能力上还有进步的空间

数学测试:在数学测试中QwQ-32B-Preview回答正确了题目,尽管与o1-preview相比,回答的简洁性和易读性稍有欠缺,但最终给出的正确答案证明了其在解题上能力还是比较出色的。

编程测试:而在最后的编程测试中,同样的提示词下,claude-3.5-sonnet生成的代码能够直接运行预览效果,而QwQ-32B-Preview生成的代码经过调整后仍无法预览出最终效果,这也显示出了在编程方面,QwQ-32B-Preview仍有不足

综上所述,尽管QwQ-32B-Preview的参数只有32B,但其数学解题能力上非常出色,几乎可以和o1-preview媲美,不过其答案的易读性和简洁性希望能够进一步改进。最后,在推理以及编程方面,QwQ-32B-Preview还没有达到官方宣传的效果,期待后续能够改进!

Like (0)
302.AI302.AI
Previous 2024 年 11 月 29 日 上午10:16
Next 2024 年 12 月 3 日 下午7:38

相关推荐

  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    25800
  • 资讯丨302 AI上线简历制作工具,一款提升求职成功率的利器!

    在中国的求职市场中,有一个广为流传的词汇叫做“金三银四”。这个词语的意思是每年的三月和四月,是人才招聘的高峰期,同时也是求职者寻找工作机会的最佳时机。 求职者如果想要在“金三银四”这个时间里提升自己的求职成功率,首先需要提前准备自己的简历。简历作为求职的敲门砖,承载着求职者的职业经历、教育背景以及个人技能等关键信息。一个精心制作的简历能够有效吸引招聘官的注意…

    2025 年 1 月 6 日
    6600
  • 资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

    12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…

    2024 年 12 月 10 日
    9700
  • 资讯丨一款易用且功能强大的手绘风画图工具——302 AI画图板

    在日常的工作生活中,单纯的文字描述往往难以传达复杂的想法和创意。这些时候,我们常常会利用各种图形来表达我们的观点,例如思维导图、流程图、原型图等。这些图像不仅能够帮助我们理清思路,还能将复杂的信息变得更加直观和易于理解。 > 302.AI AI画图板的优势 302.AI捕捉到了用户的需求,不久前在工具超市中上线了一款AI画图板工具,这一工具在Excal…

    4天前
    4300
  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    2024 年 11 月 18 日
    17300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注