资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBench。其中在MMMU 基准测试中取得了 70.3 的分数,超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 在302.AI上使用

当前302.AI的聊天机器人和API超市均上线了QVQ-72B-Preview模型

302.AI提供按需付费的服务方式,无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型,从而满足自身需求。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行更新,保持与市场的发展同步。以下是在聊天机器人中获取QVQ-72B-Preview模型 的步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择QVQ-72B-Preview模型并确定,最后点击创建聊天机器人按钮;

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

【API超市】

302.AI的API超市涵盖了多种API,且分类明晰。企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取QVQ-72B-Preview的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——选择开源模型

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

2、下滑可以看到已经提供了模型QVQ-72B-Preview的API,可按需选择【查看文档】快速接入API或者【在线体验】测试模型的参数。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 实测对比

为了更直观了解模型,下面会使用302.AI的模型竞技场进行模型对比。

对比模型:QVQ-72B-Preview、Doubao-vision-pro-32k、grok-2-vision-1212;

对比模型均是多模态模型,且价格较为接近。

实测1:图像内容识别

提示词:请问图片中的是什么水果,共有多少个?

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:第一轮是图像内容识别测试,旨在评估模型在视觉感知和理解方面的能力。根据图片,正确答案为5个苹果,有一个苹果隐藏在后侧只微微露出一点。

QVQ-72B-Preview:物体识别正确,但数量回答错误

Doubao-vision-pro-32k:物体识别正确,虽然在输出的答案中非常详细地描述了苹果的外型,但是数量没答对。

grok-2-vision-1212:物体与数量都回答正确

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测2:物理测试

提示词:请根据图片回答问题

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:根据介绍Qwen团队介绍,QVQ-72B-Preview模型非常擅长物理方面的问题。因此,第二轮实测为一道中考物理题。

QVQ-72B-Preview:回答正确,但是输出的回答先是分析题目得出答案,再对答案进行验算,对比其他模型的答案,整体篇幅较长。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Doubao-vision-pro-32k:回答较为简洁清晰且答案正确

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

grok-2-vision-1212:虽然输出的格式很规整,但可惜回答错误。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测3:图形推理测试

提示词:请问图片中问号处应该填什么?

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:这是一个逻辑推理,需要模型找出正确的规律。

QVQ-72B-Preview:首先QVQ最后的答案是正确的,但是这次输出的答案篇幅更长。在得出答案后,还一直寻找其他规律,然后开启反复验算、否定的思路过程。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Doubao-vision-pro-32k:分析错误,寻找的规律一开始就并不成立,最后回答错误,

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

grok-2-vision-1212:分析错误,答案错误。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测中存在的问题:

实测过程中,我们发现模型在面对较为复杂的题目容易陷入无限循环思考,久久无法给出答案,最终只能手动暂停输出。我们尝试在提示词中加入限制“得到答案后不需要进行反复验算”,也无法避免。比如:

面对复杂的数学题目时:

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

面对复杂的图形推理题时:

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 总结:

通过以上实测,可以初步得出以下结论:

内容识别测试:在内容测试中未能给出正确答案,这表明在视觉感知能力方面还存在不足

物理测试:在物理测试中给出了正确答案,展现了出色的物理解题能力

图形推理测试:QVQ-72B-Preview的输出在逻辑推理题上相对冗长,虽然最终得出的答案是正确的,但其推理过程显得有些繁琐

总体来看,QVQ-72B-Preview展现了一定的视觉理解和推理能力,但输出答案过长,用户在使用过程中无法快速获取答案,且过长的答案输出可能包含模型生成的错误或无关信息,从而增加幻觉风险。

此外,Qwen团队还指出,QVQ-72B-Preview模型目前存在“会意外地混合语言或在语言之间切换,从而影响响应的清晰度”的问题,但在实测中我们未遇得到这样的情况。

随着进一步的优化和迭代,期待Qwen团队在未来能够克服现有的不足,带来更优质的多模态模型。

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 25 日 下午7:43
Next 2024 年 12 月 31 日 上午10:35

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2730

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注