资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。

据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

在官方给出的测评结果中显示,DeepSeek-VL2超越了多种视觉语言模型:

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

DeepSeek-VL2 还分别在 OCR、多模态对话、视觉定位三个领域进行了测试。与 InternVL2、DeepSeek-VL、Qwen2-VL等VLM模型相比中,DeepSeek-VL2 通过 MoE 架构在激活参数更少的情况下实现了相似或更好的性能。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

想要了解更多,可以查看模型论文:https://arxiv.org/abs/2412.10302

> 在302.AI上使用

目前,302.AI已经在聊天机器人API超市提供了DeepSeek-VL2模型,满足不同受众用户的需求,且提供按需付费的使用方式,用户无需担心有月费和捆绑套餐,成本更加灵活可控。以下是详细的获取步骤。

【聊天机器人】

用户想要直接使用模型,可以通过302.AI的聊天机器人获得,302.AI的聊天机器人的更新速度与市场同步,提供了多种AI模型,且分类明晰,用户可以快速找到并使用所需的AI模型,无需在不同平台之间切换和搜索,提高了工作效率

1、进入302.ai,登录后在左侧菜单栏点击使用机器人——选择聊天机器人——模型中选择模型DeepSeek-VL2——最后点击确定即可

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

【API超市】

企业用户可以直接通过302.AI提供的接口来调用大模型,并根据自身项目需求快速开发AI应用,大大加快开发和部署速度。以下是在API超市中获取DeepSeek-VL2的详细步骤:

1、进入302.ai后——点击使用API——选择API超市——分类中点击语言大模型——然后选择国产模型

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

2、下滑可以看到已经提供了模型DeepSeek-VL2的API,可以根据需求选择【查看文档】快速接入API或者选择【在线体验】测试模型的参数。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

> 实测对比

为了更好了解模型,接下来我们会使用302.AI的模型竞技场对比模型的表现,本次对比的三个模型均为价格接近的国产模型,来看下模型的表现如何!

对比模型:deepseek-VL2、Qwen-VL-Max、abab7-preview

使用工具:302.AI的模型竞技场(界面如下)

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

实测一:看图说话

提示词:请根据给出的三张图片编写一个大约300字的暖心故事。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

(图片由302.AI生成)

分析:第一轮实测是看图说话,这是DeepSeek官方在宣传文章中展示的实测提醒,我们换了图片后,实测对比看看模型的表现到底如何。这一轮实测主要考察模型是否能正确描述图片中的场景,并合理赋予关系。

Qwen-VL-Max:故事结构比较通顺,但细看人物关系和场景串联并不合理,比如图三的场景中没有女孩的身影,但是却强行和图一中的人物连接在一起。

deepseek-VL2:出现的问题和Qwen模型相似,人物关系和场景串联不合理,此外,deepseek-VL2的描述中还有部分内容偏离了图片,比如可以看到图二的手里没有拿着任何物品,但描述中却写道是手里拿着法棍,还有将人物识别成“妈妈”的角色。

abab7-preview:逻辑通顺,故事人物关系、场景描述都是正确的,并且符合主题,是三个模型中表现最好的

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

实测二:文字识别

提示词:请回答:图片中中文和英文分别写了什么?

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

(图源网络)

分析:这是一道非常简单的文字识别测试,涵盖了中英文,来看三个模型是否能正确识别。

Qwen-VL-Max:英文识别正确,中文识别错了一个字。中文第二句中应该是“昼夜更替”识别出来是“日夜更替”。

deepseek-VL2:英文识别正确,中文识别错误率达到到70%,识别出来的中文逻辑语序都不通顺。

abab7-preview:英文和中文识别均有错误。在这一轮中表现最差的模型,中文部分不是识别而是直接翻译。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

附上正确参考答案:

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

实测三:图形推理

提示词:从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性:

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

分析:传统的图形推理题目,首先需要找到规律,规律一:前四个图形都是外层都是圆形,规律二:圆形内的图形能一笔连续画出。因此正确答案是选项D。

Qwen-VL-Max:答案正确,但是解析的逻辑不够通顺

deepseek-VL2:最后答案正确,同样解析过程逻辑不够通顺

abab7-preview:分析错误,答案错误。

资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

> 总结

通过多轮实测,可以初步得出以下结论:

看图说话:在故事编写时,人物关系与场景描述不如其他模型,整体逻辑联系显得略为牵强。

文字识别:DeepSeek-VL2的英文识别完全正确,但是中文识别上存在一定的错误率

图形推理:尽管最终的答案是正确的,但是解析的过程逻辑不足

总体来看,DeepSeek-VL2在三个模型中的优势并不明显,在文字识别、图形推理和看图编故事方面都有待进一步优化。希望DeepSeek团队可以针对这些问题进行进一步的优化和改进,以提升模型在多模态任务中的表现。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 19 日 下午8:34
Next 2024 年 12 月 24 日 下午6:53

相关推荐

  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    19600
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    18600
  • AI PPT工具一键搞定PPT,帮你缓解职场”PPT恐惧症”

    在8月底的《脱口秀和Ta的朋友们》节目中,脱口秀演员赵晓卉的淘汰发言再次出圈,表现甚至比她在脱口秀比赛中的表现更为精彩,被观众称为“淘汰感言区的统治王者” ,在短短几分钟的淘汰感言中接连涌现出的金句,令人印象深刻: “上过班的人,都不会想做 PPT” “我对PPT已经 PPTSD 了” “昨天赢不了PPT、今天交不了 PPT” …… …

    2024 年 9 月 24 日
    29800
  • 资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

    11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。 先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起…

    2024 年 12 月 19 日
    34100
  • 资讯丨如何1秒钟为大模型API增加长期记忆?限时免费体验!

    众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。但是想让AI真正的成为“人”,记忆又是必不可少的。 短期记忆的实现 现阶段比较普遍的大模型实现记忆方法,就是每次请求时,把聊天记录简单的塞入上下文,让大模型看了聊天记录再进行回答。 但是这么做,…

    2025 年 1 月 17 日
    21100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注