资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

短短一周时间,阿里通义千问上线了三个模型,先是推出了小参数模型 Qwen2.5-VL-32B-Instruct Qwen2.5-Omni-7B ,紧接着视觉推理模型 QVQ-Max 也正式上线。

官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max 都表现出了不俗的能力。

按照惯例,接下来我们将对QVQ-Max进行实测,并以几天前谷歌推出的Gemini 2.5 Pro模型作为对比参照。

模型实测:

(以下实测对比仅供参考)

实测1:看手相

提示词:帮我看下手相

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

(图片为AI生成)

总结:QVQ-Max模型逐步展开分析,甚至把每条线的走线都描述了出来,似乎有点东西,而Gemini 2.5 Pro则是无法给出答案。

Gemini 2.5 Pro:表示无法给出答案

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

QVQ-Max:模型从基本特征、主要掌纹分析、其他特征、注意事项等逐步展开,十分详细,

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

(PS:手相属于玄学,模型回答仅供参考。)

实测2:趣味看图计算

提示词:请回答杯子有多高?

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

总结:Gemini 2.5 Pro回答正确,而QVQ-Max在初始识别杯子数量就出现了错误,所以最后的答案也是错误的。

Gemini 2.5 Pro:答案正确。

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

QVQ-Max:识别杯子错误,最后答案错误

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

实测3:数学题解答

提示词:请解题

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

总结:在面对数学题时,QVQ-Max陷入无止境思考,无法输出答案,反观Gemini 2.5 Pro则是给出了详细的解析过程并给出正确答案。

Gemini 2.5 Pro:给出了详细的解析过程,答案正确

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

QVQ-Max:一直呈现“思考中”状态,多次尝试依旧无法输出答案

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

实测4:多图片识别

提示词:这几张图片分别是什么?它们有什么关系

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

(图源网络)

总结:两个模型均成功给出了正确答案,精准地识别出了图片内容,并准确阐述了图片之间的关系。在描述图片关系的表达方面,QVQ-Max的表现会略胜一点。

Gemini 2.5 Pro:回答正确。

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

QVQ-Max:图片正确,关系表述正确,回答正确

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

实测5:截图复刻网页

提示词:请根据这个截图复刻出HTML

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

总结:Gemini 2.5 Pro的还原度较高,对应截图生成的按钮均可点击,而QVQ-Max复刻还原度较低,且部分按钮为静止展示。

Gemini 2.5 Pro:还原度达到80%,按钮点击有响应,具备一定的交互效果,整体效果不错

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

QVQ-Max:生成的速度较慢,思考了250秒后才开始生成。最终展示的效果较为简陋,部分按钮仅用于展示,无法点击,整体效果一般

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

实测总结:

看手相趣味看图计算数学题解答多图片识别截图复刻HTML
Gemini 2.5 Pro✔️✔️✔️不错
QVQ-Max✔️✔️一般

(实测结果整理)

根据实测结果,可以初步得出以下结论:

(1)Gemini 2.5 Pro在处理数学推理、复刻网页任务时,展现出了更高的准确性和逻辑性。然而,在像看手相这类具有较强主观性的任务中,它则表现出了一定的局限性,难以像人类一样凭借主观经验做出判断。

(2)QVQ-Max在多模态任务中的数学能力和代码生成相对较弱,不及Gemini 2.5 Pro。但在面对看手相、多图关联分析等需要综合多种信息进行主观判断和创意生成的任务时,却展现出了独特的优势。

(3)综合来看,QVQ-Max和Gemini 2.5 Pro各有千秋,适用于不同的应用场景。QVQ-Max更适合需要深入视觉分析和创意生成的任务,而Gemini 2.5 Pro则相对在逻辑推理的准确性和代码任务更为出色。

在302.AI上使用阿里新模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→ 选择模型QvQ-Max→创建聊天机器人;

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

Qwen2.5-VL-32BQwen2.5-Omni-7B:

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→国产/开源模型→查看文档;

资讯丨阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!

Like (0)
302.AI302.AI
Previous 4天前
Next 2024 年 11 月 6 日 下午7:06

相关推荐

  • 资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

    11月初,xAI官宣Grok API开启公测后,我们便对当时列表中唯一的模型grok-beta进行了实测,尽管grok-beta在实测中发现了了一些不足,但其整体表现还是不错的。最近,xAI的API迎来了更新,其API列表中新增了一个名为grok-vision-beta的模型。 根据xAI官方介绍,grok-vision-beta模型是其最新的图像理解模型,…

    2024 年 11 月 29 日
    36400
  • Ideogram推出2.0版本,连Midjourney都感受到了压力?看看到底有多厉害?!

    8月21日,由Ideogram团队倾力打造的创新型文本生成图像模型 Ideogram 2.0正式发布。 其实早在今年2月,Ideogram团队就发布了Ideogram模型1.0版本,但是其在AI生图领域并未引起太大波澜,但在这一次 Ideogram 2.0版本发布后,Ideogram官方直接在社交媒体平台自信宣称,这一版本比FLUX Pro和DALL·E3要…

    2024 年 8 月 26 日
    50700
  • 资讯丨302 AI红包封面生成工具——1分钟定制出专属红包封面(附全攻略)

    距离春节还有不到半个月的时间,在这阖家团圆的传统佳节里,红包作为传递祝福、表达心意的传统载体,承载着浓厚的年味气息。当我们还在回味纸质红包带来的那份浓浓年味与祝福的温度时,线上红包早已成为人们日常社交、节日庆祝不可或缺的表达心意的方式。而其中,定制专属的线上红包封面更是能够承载个性化的祝福语和独特寓意,为节日增添一份特别的仪式感。 为了帮助用户能够简单、高效…

    2025 年 1 月 14 日
    41500
  • AI PPT工具一键搞定PPT,帮你缓解职场”PPT恐惧症”

    在8月底的《脱口秀和Ta的朋友们》节目中,脱口秀演员赵晓卉的淘汰发言再次出圈,表现甚至比她在脱口秀比赛中的表现更为精彩,被观众称为“淘汰感言区的统治王者” ,在短短几分钟的淘汰感言中接连涌现出的金句,令人印象深刻: “上过班的人,都不会想做 PPT” “我对PPT已经 PPTSD 了” “昨天赢不了PPT、今天交不了 PPT” …… …

    2024 年 9 月 24 日
    37400
  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    38300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注