302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。

据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32kDoubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型,专注于视觉理解和生成领域,适合处理复杂任务,支持32k上下文长度


> 在302.AI上使用

想直接使用Doubao-vision-pro-32k模型,或者接入这一模型的用户,可以在302.AI上获得。目前,302.AI已经提供了Doubao-vision-pro-32k模型,用户可以通过聊天机器人或者API超市等获取使用,而且302.AI提供按需付费的使用方式,无需担心有月费和捆绑套餐,以下就是详细的获取步骤:

【聊天机器人】

进入302.AI,点击使用机器人—聊天机器人——选择模型——在国产模型分类中找到Doubao-vision-pro-32k302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

【API超市】

1、点击使用API—API超市——分类中选择语言大模型——点击国产模型302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

2、下滑可以看到Doubao-vision-pro-32k的API已经在列表中,这里可以根据需求选择查看文档或者在线体验功能,查看文档可帮助用户快速接入模型API或者在线体验则可以更高效地对模型参数进行测试。302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?


> 实测:

接下来会通过实测对比模型的表现如何,参与实测的模型有三个:Qwen-VL-Plus、GLM-4V-Plus、Doubao-vision-pro-32k,三个模型均是擅长图像理解的国产模型,且性能相近。

实测1:地点识别

提示词:请问这张图片的地点是哪里?

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图片的正确位置为广州市海珠区江南西商业圈,而图片中的广州塔仅为缩小版的装饰。此前因外地游客到广州游玩曾误认为这是真正的广州塔,而在社交媒体平台引起广泛关注,江南西也因此被广大网友认识。

Qwen-VL-Plus:Qwen从周边的环境信息中得出位置是在广州市海珠区,这可以看出模型的基本识别能力没问题的,但是仅仅停留在看图说话的阶段,没有更深入的分析

GLM-4V-Plus:GLM则直接把图片位置当作是广州塔,完全被误导了。

Doubao-vision-pro-32k:豆包整体回答和Qwen差不多,都只是把图片中能看到的信息描述出来,未能进一步识别这是江南西。

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测2:卡路里计算

提示词:请计算出图中食物的卡路里

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:图中为一个鸡蛋、一杯牛奶、和一根完整的红薯。

Qwen-VL-Plus:Qwen识别出为两个煮熟的鸡蛋和两根红薯,但是在卡路里计算过程中仅计算了一个红薯的卡路里,比较混乱,最终卡路里计算结果是不准确

GLM-4V-Plus:物品识别数量是正确的,最终计算过程也没问题

Doubao-vision-pro-32k:豆包也是识别出了有两根红薯,其实图片中只是完成的一根红薯掰成了两半,所以红薯数量是错误的,最终计算结果也是不准确的。

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测3:文字识别

提示词:请识别出图片中的文字

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:

Qwen-VL-Plus:识别中文、英语都完全正确

GLM-4V-Plus:GLM识别结果不够准确,中文多了“点”字,英语luck识别成“look”。

Doubao-vision-pro-32k:豆包英语识别没问题,但是中文少字,少了个“小”字。

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测4:梗图理解

提示词:请问这个图片是什么意思?

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:这是一道四宫格梗图理解,展示的是人们在生活中存在的拖延现象:

Qwen-VL-Plus:先是描绘了图片的场景,再阐述自己的理解,回答是正确的。

GLM-4V-Plus:GLM在回答最后指出“这个漫画是对拖延症和累的一种轻松表达”,其实漫画并没有展示出累的方面,所以整个理解不够准确的。

Doubao-vision-pro-32k:豆包先是对四格漫画逐一分析,再指出深层含义,可以说整个回答非常有条理,也非常清晰完整的。

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

实测5:图表理解

提示词:广州在2017年的人口是多少?

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

分析:从图中可以看到2017年常住人口是1746.27万人。

Qwen-VL-Plus:回答错误,回看整个图表,并没有出现过1490.44万人这个数值,这表明是出现了模型幻觉

GLM-4V-Plus:是三个模型中唯一回答正确的

Doubao-vision-pro-32k:回答错误,同样出现了模型幻觉

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?


> 总结:

通过以上五轮实测,可以初步得出以下结论:

地点识别测试:三个模型中,Doubao-vision-pro-32k虽然未能完全正确答出地点,但其在回答时能够对图片中的细节进行描述,展示了一定的理解能力。

卡路里计算测试:Doubao-vision-pro-32k的物品数量识别不够灵活,不如GLM-4V-Plus。

文字识别测试:文字识别测试上,Doubao-vision-pro-32k还有小细节需要注意,会出现遗漏字的情况

梗图理解测试:三个模型中,Doubao-vision-pro-32k在梗图理解方面尤为突出,其对四宫格漫画的分析不仅逻辑清晰,还能深刻揭示出图像所传达的深层含义。

图表理解测试:这一轮测试中,Doubao-vision-pro-32k和Qwen-VL-Plus都出现了模型幻觉的问题,回答了图片中没有出现过的数值。

总的来看,三个国产模型的图片理解能力各有所长,没有完全的胜者。多模态模型的图片理解能力在一定程度上受限于训练数据的质量与多样性,根据实测结果来看,或许模型未来的优化方向可以集中在增强模型对特定领域知识的理解,比如电影、文化和地理等与大众生活更贴切的方面。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 4 日 下午7:45
Next 2024 年 12 月 6 日 下午6:18

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8170
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3420
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4311
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(8)

  • Vanda Klauer
    Vanda Klauer 2025 年 6 月 4 日 下午3:51

    Hi there! I’m at work surfing around your blog from my new iphone 4! Just wanted to say I love reading your blog and look forward to all your posts! Carry on the outstanding work!

  • Jarrod Gorman
    Jarrod Gorman 2025 年 6 月 30 日 下午10:23

    What i don’t realize is actually how you are now not really a lot more neatly-favored than you may be right now. You’re very intelligent. You know therefore significantly in relation to this matter, made me for my part believe it from a lot of various angles. Its like men and women aren’t fascinated until it is one thing to do with Woman gaga! Your personal stuffs nice. At all times handle it up!

  • auto
    auto 2025 年 7 月 31 日 上午7:43

    I am forever thought about this, thankyou for posting.

  • pet relocation services in bangalore
    pet relocation services in bangalore 2025 年 8 月 13 日 下午5:04

    Hi there, simply became alert to your blog through Google, and located that it’s really informative. I’m gonna be careful for brussels. I will appreciate if you continue this in future. A lot of folks will be benefited out of your writing. Cheers!

  • travel & luggage
    travel & luggage 2025 年 8 月 13 日 下午6:01

    Wow, awesome weblog structure! How long have you ever been blogging for? you made running a blog glance easy. The overall glance of your web site is magnificent, let alone the content!

  • toto togel
    toto togel 2025 年 8 月 21 日 下午12:21

    Great V I should certainly pronounce, impressed with your website. I had no trouble navigating through all the tabs as well as related information ended up being truly simple to do to access. I recently found what I hoped for before you know it at all. Quite unusual. Is likely to appreciate it for those who add forums or something, site theme . a tones way for your customer to communicate. Excellent task..

  • akun demo zeus
    akun demo zeus 2025 年 8 月 22 日 下午12:44

    I have not checked in here for a while because I thought it was getting boring, but the last few posts are great quality so I guess I’ll add you back to my everyday bloglist. You deserve it my friend :)

  • vehicle tuner
    vehicle tuner 2025 年 8 月 23 日 下午6:09

    Excellent post. I was checking constantly this blog and I am impressed! Very helpful info specially the remaining part :) I take care of such information much. I used to be looking for this certain information for a very long time. Thanks and good luck.