中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。

测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能力,荣获了总分71.95的高分。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考,GPT-4o等国外模型仅作对比参考,不参与排名,虽然这次都还是被GPT-4o压过,但是可以看到差距缺少缩小了很多。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

SuperCLUE 评价称,在基础能力方面,国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有 5 分的差距,需要进一步对多模态深度认知能力做优化提升。

腾讯混元大模型(Tencent Hunyuan)是腾讯研发的一款模型,而这次拿到冠军宝座的Hunyuan-Vision也就是腾讯混元大模型的多模态版本,它能够处理文本、图像等多种模态的数据,具备强大的多模态理解和生成能力。

根据了解,腾讯云提供了腾讯混元大模型各版本的API包括上文提到的Hunyuan-Vision,但是其采用的是用户先使用然后在下个月的1-3号收到账单并进行支付的付费模式。这种付费模式需要用户跟踪和管理服务的账单,这可能会增加管理负担,同时缺乏灵活性,难以根据实际需求调整使用量。而 302.AI的API超市同样也提供了腾讯混元大模型各版本的API,且302.AI的API超市分类清晰,使开发者能快速找到所需的API。比如腾讯混元大模型,属于国产语言大模型,如图:

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

更重要的是,302.AI采用的是按需付费的服务方式,按需付费模式使得费用更加透明,用户可以更容易地预测和规划预算,同时对于使用量波动较大的情况,按需付费能够更灵活地调整成本,降低不必要的开支,而且302.AI的API超市支持在线调试API,这样开发者可以立即看到API调用的结果,有助于快速发现和解决问题。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

此外,腾讯混元大模型中的不同版本各具特色,适用于多样化的使用场景。为了满足用户的这一需求,302.AI的聊天机器人特别提供了多种版本的聊天模型供用户选择,即使不熟悉使用API的用户,也能够根据自己的具体需求和使用场景,快速挑选出最适合的模型进行生成使用。举个例子,比如用户需要代码处理能力的场景,可以选择Hunyuan-Code模型,而需要处理文本、图像等多种模态数据的场景,则可以选择Hunyuan-Vision模型。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后,小编使用302.AI的模型竞技场来对各大模型进行实测,看看Hunyuan-Vision实力如何:

首先第一题,测试各大模型的基础认知能力,第一题属于基础题,三个模型GPT-4o、Qwen-VL-Max和Hunyuan-Vision都回答正确。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

第二题,测试数理逻辑分析-图表推理,Qwen-VL-Max模型回答错误,而GPT-4o和Hunyuan-Vision回答正确,其中Hunyuan-Vision不仅回答正确,还能够指出这是一张广州近10年常住人口走势图。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后一题:用笑话与互联网meme测试模型的应用能力,可以看到首先GPT-4o在识别meme图上的文字就错了,但总的来说解释大概正确,Qwen-VL-Max的解释就显得稍微有点敷衍,而Hunyuan-Vision的把图片中的所有元素都逐一进行解释且都正确,是三个模型中解释最全面的。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

当然,以上只是简单的测评,但是可以看到,Hunyuan-Vision在以上测试中的表现不错,能够在本次的中文多模态大模型SuperCLUE-V基准8月榜单获得第一,展示了Hunyuan-Vision在多模态理解任务上的强大实力,也进一步证明了国内AI模型在相关领域中的竞争力正在不断提升。

尽管此次中文多模态大模型SuperCLUE-V8月榜单中,GPT-4o等国外模型仅作对比参考不参与排名,但是我们可以看到,国内模型与国外模型的差距正在缩小,在人工智能领域,国内的技术研发和创新实力正在迅速崛起,逐渐走向与国际先进水平并驾齐驱的地位。展望未来我们也期待国内更多优秀的人工智能模型能够涌现,共同推动人工智能技术的不断发展和进步。

参考文章:https://baijiahao.baidu.com/s?id=1806505412798723809&wfr=spider&for=pc

(0)
302.AI302.AI
上一篇 2024 年 8 月 23 日 下午2:38
下一篇 2024 年 8 月 26 日 下午6:08

相关推荐

  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    6300
  • 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

    8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 在一系列数学基准评测上,Qwen2-Math-…

    2024 年 8 月 19 日
    7800
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    9800
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    4天前
    2100
  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    6天前
    3300

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注