资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。

据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32kDoubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型,专注于视觉理解和生成领域,适合处理复杂任务,支持32k上下文长度

> 在302.AI上使用

想直接使用Doubao-vision-pro-32k模型,或者接入这一模型的用户,可以在302.AI上获得。目前,302.AI已经提供了Doubao-vision-pro-32k模型,用户可以通过聊天机器人或者API超市等获取使用,而且302.AI提供按需付费的使用方式,无需担心有月费和捆绑套餐,以下就是详细的获取步骤:

【聊天机器人】

进入302.AI,点击使用机器人—聊天机器人——选择模型——在国产模型分类中找到Doubao-vision-pro-32k资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

【API超市】

1、点击使用API—API超市——分类中选择语言大模型——点击国产模型资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

2、下滑可以看到Doubao-vision-pro-32k的API已经在列表中,这里可以根据需求选择查看文档或者在线体验功能,查看文档可帮助用户快速接入模型API或者在线体验则可以更高效地对模型参数进行测试。资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

> 实测:

接下来会通过实测对比模型的表现如何,参与实测的模型有三个:Qwen-VL-Plus、GLM-4V-Plus、Doubao-vision-pro-32k,三个模型均是擅长图像理解的国产模型,且性能相近。

实测1:地点识别

提示词:请问这张图片的地点是哪里?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图片的正确位置为广州市海珠区江南西商业圈,而图片中的广州塔仅为缩小版的装饰。此前因外地游客到广州游玩曾误认为这是真正的广州塔,而在社交媒体平台引起广泛关注,江南西也因此被广大网友认识。

Qwen-VL-Plus:Qwen从周边的环境信息中得出位置是在广州市海珠区,这可以看出模型的基本识别能力没问题的,但是仅仅停留在看图说话的阶段,没有更深入的分析

GLM-4V-Plus:GLM则直接把图片位置当作是广州塔,完全被误导了。

Doubao-vision-pro-32k:豆包整体回答和Qwen差不多,都只是把图片中能看到的信息描述出来,未能进一步识别这是江南西。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测2:卡路里计算

提示词:请计算出图中食物的卡路里

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图中为一个鸡蛋、一杯牛奶、和一根完整的红薯。

Qwen-VL-Plus:Qwen识别出为两个煮熟的鸡蛋和两根红薯,但是在卡路里计算过程中仅计算了一个红薯的卡路里,比较混乱,最终卡路里计算结果是不准确

GLM-4V-Plus:物品识别数量是正确的,最终计算过程也没问题

Doubao-vision-pro-32k:豆包也是识别出了有两根红薯,其实图片中只是完成的一根红薯掰成了两半,所以红薯数量是错误的,最终计算结果也是不准确的。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测3:文字识别

提示词:请识别出图片中的文字

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:

Qwen-VL-Plus:识别中文、英语都完全正确

GLM-4V-Plus:GLM识别结果不够准确,中文多了“点”字,英语luck识别成“look”。

Doubao-vision-pro-32k:豆包英语识别没问题,但是中文少字,少了个“小”字。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测4:梗图理解

提示词:请问这个图片是什么意思?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:这是一道四宫格梗图理解,展示的是人们在生活中存在的拖延现象:

Qwen-VL-Plus:先是描绘了图片的场景,再阐述自己的理解,回答是正确的。

GLM-4V-Plus:GLM在回答最后指出“这个漫画是对拖延症和累的一种轻松表达”,其实漫画并没有展示出累的方面,所以整个理解不够准确的。

Doubao-vision-pro-32k:豆包先是对四格漫画逐一分析,再指出深层含义,可以说整个回答非常有条理,也非常清晰完整的。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测5:图表理解

提示词:广州在2017年的人口是多少?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:从图中可以看到2017年常住人口是1746.27万人。

Qwen-VL-Plus:回答错误,回看整个图表,并没有出现过1490.44万人这个数值,这表明是出现了模型幻觉

GLM-4V-Plus:是三个模型中唯一回答正确的

Doubao-vision-pro-32k:回答错误,同样出现了模型幻觉

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

> 总结:

通过以上五轮实测,可以初步得出以下结论:

地点识别测试:三个模型中,Doubao-vision-pro-32k虽然未能完全正确答出地点,但其在回答时能够对图片中的细节进行描述,展示了一定的理解能力。

卡路里计算测试:Doubao-vision-pro-32k的物品数量识别不够灵活,不如GLM-4V-Plus。

文字识别测试:文字识别测试上,Doubao-vision-pro-32k还有小细节需要注意,会出现遗漏字的情况

梗图理解测试:三个模型中,Doubao-vision-pro-32k在梗图理解方面尤为突出,其对四宫格漫画的分析不仅逻辑清晰,还能深刻揭示出图像所传达的深层含义。

图表理解测试:这一轮测试中,Doubao-vision-pro-32k和Qwen-VL-Plus都出现了模型幻觉的问题,回答了图片中没有出现过的数值。

总的来看,三个国产模型的图片理解能力各有所长,没有完全的胜者。多模态模型的图片理解能力在一定程度上受限于训练数据的质量与多样性,根据实测结果来看,或许模型未来的优化方向可以集中在增强模型对特定领域知识的理解,比如电影、文化和地理等与大众生活更贴切的方面。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 4 日 下午7:45
Next 2024 年 12 月 6 日 下午6:18

相关推荐

  • Runway官宣上线Gen-3 Alpha!无门槛抢先体验

    7月2日凌晨,Runway在社交媒体正式宣布,Gen-3 Alpha全面开放使用! Runway是一家专注于AI视频生成的公司,其推出的Gen系列模型在视频创作领域引起了广泛关注。 据说最新推出的Gen-3 Alpha模型在保真度、一致性和动作表现方面都有重大改进! 都说Gen-3 Alpha很强,那我们先看下来自官网的一段视频: (Prompt:在日本城市…

    2024 年 7 月 12 日
    21100
  • 智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

    8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上…

    2024 年 9 月 2 日
    33000
  • 视频太长不想看怎么办?来试一试AI音视频总结工具

    7月,夸克推出AI搜索并升级“超级搜索框”,在搜索框中加入了多个强大并实用的AI功能。其中的AI视频总结工具,这一工具不仅可以基于视频生成文稿,还能分段总结、生成思维导图以及智能生成课件,辅助用户高效学习。来看看官网的演示: 然而,目前小编只在夸克移动端找到了AI视频总结工具,而且根据页面提示,这一AI视频总结工具仅支持:上传视频和网盘视频两种方式,这意味着…

    2024 年 8 月 7 日
    20100
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    41100
  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    22200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注