中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。

测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能力,荣获了总分71.95的高分。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考,GPT-4o等国外模型仅作对比参考,不参与排名,虽然这次都还是被GPT-4o压过,但是可以看到差距缺少缩小了很多。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

SuperCLUE 评价称,在基础能力方面,国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有 5 分的差距,需要进一步对多模态深度认知能力做优化提升。

腾讯混元大模型(Tencent Hunyuan)是腾讯研发的一款模型,而这次拿到冠军宝座的Hunyuan-Vision也就是腾讯混元大模型的多模态版本,它能够处理文本、图像等多种模态的数据,具备强大的多模态理解和生成能力。

根据了解,腾讯云提供了腾讯混元大模型各版本的API包括上文提到的Hunyuan-Vision,但是其采用的是用户先使用然后在下个月的1-3号收到账单并进行支付的付费模式。这种付费模式需要用户跟踪和管理服务的账单,这可能会增加管理负担,同时缺乏灵活性,难以根据实际需求调整使用量。而 302.AI的API超市同样也提供了腾讯混元大模型各版本的API,且302.AI的API超市分类清晰,使开发者能快速找到所需的API。比如腾讯混元大模型,属于国产语言大模型,如图:

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

更重要的是,302.AI采用的是按需付费的服务方式,按需付费模式使得费用更加透明,用户可以更容易地预测和规划预算,同时对于使用量波动较大的情况,按需付费能够更灵活地调整成本,降低不必要的开支,而且302.AI的API超市支持在线调试API,这样开发者可以立即看到API调用的结果,有助于快速发现和解决问题。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

此外,腾讯混元大模型中的不同版本各具特色,适用于多样化的使用场景。为了满足用户的这一需求,302.AI的聊天机器人特别提供了多种版本的聊天模型供用户选择,即使不熟悉使用API的用户,也能够根据自己的具体需求和使用场景,快速挑选出最适合的模型进行生成使用。举个例子,比如用户需要代码处理能力的场景,可以选择Hunyuan-Code模型,而需要处理文本、图像等多种模态数据的场景,则可以选择Hunyuan-Vision模型。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后,小编使用302.AI的模型竞技场来对各大模型进行实测,看看Hunyuan-Vision实力如何:

首先第一题,测试各大模型的基础认知能力,第一题属于基础题,三个模型GPT-4o、Qwen-VL-Max和Hunyuan-Vision都回答正确。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

第二题,测试数理逻辑分析-图表推理,Qwen-VL-Max模型回答错误,而GPT-4o和Hunyuan-Vision回答正确,其中Hunyuan-Vision不仅回答正确,还能够指出这是一张广州近10年常住人口走势图。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后一题:用笑话与互联网meme测试模型的应用能力,可以看到首先GPT-4o在识别meme图上的文字就错了,但总的来说解释大概正确,Qwen-VL-Max的解释就显得稍微有点敷衍,而Hunyuan-Vision的把图片中的所有元素都逐一进行解释且都正确,是三个模型中解释最全面的。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

当然,以上只是简单的测评,但是可以看到,Hunyuan-Vision在以上测试中的表现不错,能够在本次的中文多模态大模型SuperCLUE-V基准8月榜单获得第一,展示了Hunyuan-Vision在多模态理解任务上的强大实力,也进一步证明了国内AI模型在相关领域中的竞争力正在不断提升。

尽管此次中文多模态大模型SuperCLUE-V8月榜单中,GPT-4o等国外模型仅作对比参考不参与排名,但是我们可以看到,国内模型与国外模型的差距正在缩小,在人工智能领域,国内的技术研发和创新实力正在迅速崛起,逐渐走向与国际先进水平并驾齐驱的地位。展望未来我们也期待国内更多优秀的人工智能模型能够涌现,共同推动人工智能技术的不断发展和进步。

参考文章:https://baijiahao.baidu.com/s?id=1806505412798723809&wfr=spider&for=pc

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 23 日 下午2:38
Next 2024 年 8 月 26 日 下午6:08

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注