资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。

据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32kDoubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型,专注于视觉理解和生成领域,适合处理复杂任务,支持32k上下文长度

> 在302.AI上使用

想直接使用Doubao-vision-pro-32k模型,或者接入这一模型的用户,可以在302.AI上获得。目前,302.AI已经提供了Doubao-vision-pro-32k模型,用户可以通过聊天机器人或者API超市等获取使用,而且302.AI提供按需付费的使用方式,无需担心有月费和捆绑套餐,以下就是详细的获取步骤:

【聊天机器人】

进入302.AI,点击使用机器人—聊天机器人——选择模型——在国产模型分类中找到Doubao-vision-pro-32k资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

【API超市】

1、点击使用API—API超市——分类中选择语言大模型——点击国产模型资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

2、下滑可以看到Doubao-vision-pro-32k的API已经在列表中,这里可以根据需求选择查看文档或者在线体验功能,查看文档可帮助用户快速接入模型API或者在线体验则可以更高效地对模型参数进行测试。资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

> 实测:

接下来会通过实测对比模型的表现如何,参与实测的模型有三个:Qwen-VL-Plus、GLM-4V-Plus、Doubao-vision-pro-32k,三个模型均是擅长图像理解的国产模型,且性能相近。

实测1:地点识别

提示词:请问这张图片的地点是哪里?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图片的正确位置为广州市海珠区江南西商业圈,而图片中的广州塔仅为缩小版的装饰。此前因外地游客到广州游玩曾误认为这是真正的广州塔,而在社交媒体平台引起广泛关注,江南西也因此被广大网友认识。

Qwen-VL-Plus:Qwen从周边的环境信息中得出位置是在广州市海珠区,这可以看出模型的基本识别能力没问题的,但是仅仅停留在看图说话的阶段,没有更深入的分析

GLM-4V-Plus:GLM则直接把图片位置当作是广州塔,完全被误导了。

Doubao-vision-pro-32k:豆包整体回答和Qwen差不多,都只是把图片中能看到的信息描述出来,未能进一步识别这是江南西。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测2:卡路里计算

提示词:请计算出图中食物的卡路里

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图中为一个鸡蛋、一杯牛奶、和一根完整的红薯。

Qwen-VL-Plus:Qwen识别出为两个煮熟的鸡蛋和两根红薯,但是在卡路里计算过程中仅计算了一个红薯的卡路里,比较混乱,最终卡路里计算结果是不准确

GLM-4V-Plus:物品识别数量是正确的,最终计算过程也没问题

Doubao-vision-pro-32k:豆包也是识别出了有两根红薯,其实图片中只是完成的一根红薯掰成了两半,所以红薯数量是错误的,最终计算结果也是不准确的。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测3:文字识别

提示词:请识别出图片中的文字

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:

Qwen-VL-Plus:识别中文、英语都完全正确

GLM-4V-Plus:GLM识别结果不够准确,中文多了“点”字,英语luck识别成“look”。

Doubao-vision-pro-32k:豆包英语识别没问题,但是中文少字,少了个“小”字。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测4:梗图理解

提示词:请问这个图片是什么意思?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:这是一道四宫格梗图理解,展示的是人们在生活中存在的拖延现象:

Qwen-VL-Plus:先是描绘了图片的场景,再阐述自己的理解,回答是正确的。

GLM-4V-Plus:GLM在回答最后指出“这个漫画是对拖延症和累的一种轻松表达”,其实漫画并没有展示出累的方面,所以整个理解不够准确的。

Doubao-vision-pro-32k:豆包先是对四格漫画逐一分析,再指出深层含义,可以说整个回答非常有条理,也非常清晰完整的。

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测5:图表理解

提示词:广州在2017年的人口是多少?

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:从图中可以看到2017年常住人口是1746.27万人。

Qwen-VL-Plus:回答错误,回看整个图表,并没有出现过1490.44万人这个数值,这表明是出现了模型幻觉

GLM-4V-Plus:是三个模型中唯一回答正确的

Doubao-vision-pro-32k:回答错误,同样出现了模型幻觉

资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

> 总结:

通过以上五轮实测,可以初步得出以下结论:

地点识别测试:三个模型中,Doubao-vision-pro-32k虽然未能完全正确答出地点,但其在回答时能够对图片中的细节进行描述,展示了一定的理解能力。

卡路里计算测试:Doubao-vision-pro-32k的物品数量识别不够灵活,不如GLM-4V-Plus。

文字识别测试:文字识别测试上,Doubao-vision-pro-32k还有小细节需要注意,会出现遗漏字的情况

梗图理解测试:三个模型中,Doubao-vision-pro-32k在梗图理解方面尤为突出,其对四宫格漫画的分析不仅逻辑清晰,还能深刻揭示出图像所传达的深层含义。

图表理解测试:这一轮测试中,Doubao-vision-pro-32k和Qwen-VL-Plus都出现了模型幻觉的问题,回答了图片中没有出现过的数值。

总的来看,三个国产模型的图片理解能力各有所长,没有完全的胜者。多模态模型的图片理解能力在一定程度上受限于训练数据的质量与多样性,根据实测结果来看,或许模型未来的优化方向可以集中在增强模型对特定领域知识的理解,比如电影、文化和地理等与大众生活更贴切的方面。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 4 日 下午7:45
Next 2024 年 12 月 6 日 下午6:18

相关推荐

  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    43200
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    37400
  • 视频生成模型神仙打架?到底哪家更胜一筹

    自从OpenAI发布了正在研发和测试中的文生视频大模型Sora后,AI视频生成工具接连“内卷”,开始”神仙打架“模式。 首先,在当地时间6月12日,Luma创始人官宣并发布新视频模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。6月28日,Luma宣布首尾帧制作加入Dream…

    2024 年 7 月 17 日
    52400
  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    38300
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日
    49600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注