资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBench。其中在MMMU 基准测试中取得了 70.3 的分数,超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 在302.AI上使用

当前302.AI的聊天机器人和API超市均上线了QVQ-72B-Preview模型

302.AI提供按需付费的服务方式,无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型,从而满足自身需求。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行更新,保持与市场的发展同步。以下是在聊天机器人中获取QVQ-72B-Preview模型 的步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择QVQ-72B-Preview模型并确定,最后点击创建聊天机器人按钮;

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

【API超市】

302.AI的API超市涵盖了多种API,且分类明晰。企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取QVQ-72B-Preview的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——选择开源模型

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

2、下滑可以看到已经提供了模型QVQ-72B-Preview的API,可按需选择【查看文档】快速接入API或者【在线体验】测试模型的参数。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 实测对比

为了更直观了解模型,下面会使用302.AI的模型竞技场进行模型对比。

对比模型:QVQ-72B-Preview、Doubao-vision-pro-32k、grok-2-vision-1212;

对比模型均是多模态模型,且价格较为接近。

实测1:图像内容识别

提示词:请问图片中的是什么水果,共有多少个?

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:第一轮是图像内容识别测试,旨在评估模型在视觉感知和理解方面的能力。根据图片,正确答案为5个苹果,有一个苹果隐藏在后侧只微微露出一点。

QVQ-72B-Preview:物体识别正确,但数量回答错误

Doubao-vision-pro-32k:物体识别正确,虽然在输出的答案中非常详细地描述了苹果的外型,但是数量没答对。

grok-2-vision-1212:物体与数量都回答正确

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测2:物理测试

提示词:请根据图片回答问题

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:根据介绍Qwen团队介绍,QVQ-72B-Preview模型非常擅长物理方面的问题。因此,第二轮实测为一道中考物理题。

QVQ-72B-Preview:回答正确,但是输出的回答先是分析题目得出答案,再对答案进行验算,对比其他模型的答案,整体篇幅较长。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Doubao-vision-pro-32k:回答较为简洁清晰且答案正确

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

grok-2-vision-1212:虽然输出的格式很规整,但可惜回答错误。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测3:图形推理测试

提示词:请问图片中问号处应该填什么?

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

分析:这是一个逻辑推理,需要模型找出正确的规律。

QVQ-72B-Preview:首先QVQ最后的答案是正确的,但是这次输出的答案篇幅更长。在得出答案后,还一直寻找其他规律,然后开启反复验算、否定的思路过程。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

Doubao-vision-pro-32k:分析错误,寻找的规律一开始就并不成立,最后回答错误,

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

grok-2-vision-1212:分析错误,答案错误。

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

实测中存在的问题:

实测过程中,我们发现模型在面对较为复杂的题目容易陷入无限循环思考,久久无法给出答案,最终只能手动暂停输出。我们尝试在提示词中加入限制“得到答案后不需要进行反复验算”,也无法避免。比如:

面对复杂的数学题目时:

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

面对复杂的图形推理题时:

资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

> 总结:

通过以上实测,可以初步得出以下结论:

内容识别测试:在内容测试中未能给出正确答案,这表明在视觉感知能力方面还存在不足

物理测试:在物理测试中给出了正确答案,展现了出色的物理解题能力

图形推理测试:QVQ-72B-Preview的输出在逻辑推理题上相对冗长,虽然最终得出的答案是正确的,但其推理过程显得有些繁琐

总体来看,QVQ-72B-Preview展现了一定的视觉理解和推理能力,但输出答案过长,用户在使用过程中无法快速获取答案,且过长的答案输出可能包含模型生成的错误或无关信息,从而增加幻觉风险。

此外,Qwen团队还指出,QVQ-72B-Preview模型目前存在“会意外地混合语言或在语言之间切换,从而影响响应的清晰度”的问题,但在实测中我们未遇得到这样的情况。

随着进一步的优化和迭代,期待Qwen团队在未来能够克服现有的不足,带来更优质的多模态模型。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 25 日 下午7:43
Next 2024 年 12 月 31 日 上午10:35

相关推荐

  • 开发故事丨302.AI新工具:AI头像制作的过程和原理解析

    最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。 试用一下: 先来看下如何获取并使用这一工具,以下是具体的步骤: 1、进入3…

    2024 年 11 月 13 日
    55300
  • 资讯丨302.AI与硅基流动合作:用户可在302.AI平台直接使用硅基流动所有模型

    近日,302.AI与硅基流动官方正式达成合作!通过此次合作,用户可以在302.AI平台直接采购或使用硅基流动的模型,享受与硅基流动官方一致的价格,且能够直接使用302.AI平台上的余额进行支付,无需额外充值或支付任何附加费用。 302.AI是一个企业级的AI应用平台,提供按用量付费的服务模式,汇集了全球各类AI模型,开发出多种开箱即用的AI机器人和AI工具。…

    2025 年 1 月 15 日
    44000
  • 资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

    11月初,xAI官宣Grok API开启公测后,我们便对当时列表中唯一的模型grok-beta进行了实测,尽管grok-beta在实测中发现了了一些不足,但其整体表现还是不错的。最近,xAI的API迎来了更新,其API列表中新增了一个名为grok-vision-beta的模型。 根据xAI官方介绍,grok-vision-beta模型是其最新的图像理解模型,…

    2024 年 11 月 29 日
    36700
  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    54100
  • 资讯丨低成本实现虚拟模特换装,电商新神器——302 AI换衣

    随着AI技术的快速发展,市场上出现了一种新型AI工具——AI 换衣。这类工具提供了精确的虚拟试穿能力,且操作简单,逐渐成为电商商家们的新宠。 302.AI紧跟市场发展,近日在工具超市最新上线了一款AI 换衣工具。这一工具能够准确渲染服装细节,并且支持多种服装类别,包括上衣、下装、夹克、连衣裙等。更重要的是,302.AI提供按需付费的使用方式,用户只需要依据自…

    2025 年 1 月 13 日
    27100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注