中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。

测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能力,荣获了总分71.95的高分。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考,GPT-4o等国外模型仅作对比参考,不参与排名,虽然这次都还是被GPT-4o压过,但是可以看到差距缺少缩小了很多。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

SuperCLUE 评价称,在基础能力方面,国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有 5 分的差距,需要进一步对多模态深度认知能力做优化提升。

腾讯混元大模型(Tencent Hunyuan)是腾讯研发的一款模型,而这次拿到冠军宝座的Hunyuan-Vision也就是腾讯混元大模型的多模态版本,它能够处理文本、图像等多种模态的数据,具备强大的多模态理解和生成能力。

根据了解,腾讯云提供了腾讯混元大模型各版本的API包括上文提到的Hunyuan-Vision,但是其采用的是用户先使用然后在下个月的1-3号收到账单并进行支付的付费模式。这种付费模式需要用户跟踪和管理服务的账单,这可能会增加管理负担,同时缺乏灵活性,难以根据实际需求调整使用量。而 302.AI的API超市同样也提供了腾讯混元大模型各版本的API,且302.AI的API超市分类清晰,使开发者能快速找到所需的API。比如腾讯混元大模型,属于国产语言大模型,如图:

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

更重要的是,302.AI采用的是按需付费的服务方式,按需付费模式使得费用更加透明,用户可以更容易地预测和规划预算,同时对于使用量波动较大的情况,按需付费能够更灵活地调整成本,降低不必要的开支,而且302.AI的API超市支持在线调试API,这样开发者可以立即看到API调用的结果,有助于快速发现和解决问题。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

此外,腾讯混元大模型中的不同版本各具特色,适用于多样化的使用场景。为了满足用户的这一需求,302.AI的聊天机器人特别提供了多种版本的聊天模型供用户选择,即使不熟悉使用API的用户,也能够根据自己的具体需求和使用场景,快速挑选出最适合的模型进行生成使用。举个例子,比如用户需要代码处理能力的场景,可以选择Hunyuan-Code模型,而需要处理文本、图像等多种模态数据的场景,则可以选择Hunyuan-Vision模型。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后,小编使用302.AI的模型竞技场来对各大模型进行实测,看看Hunyuan-Vision实力如何:

首先第一题,测试各大模型的基础认知能力,第一题属于基础题,三个模型GPT-4o、Qwen-VL-Max和Hunyuan-Vision都回答正确。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

第二题,测试数理逻辑分析-图表推理,Qwen-VL-Max模型回答错误,而GPT-4o和Hunyuan-Vision回答正确,其中Hunyuan-Vision不仅回答正确,还能够指出这是一张广州近10年常住人口走势图。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

最后一题:用笑话与互联网meme测试模型的应用能力,可以看到首先GPT-4o在识别meme图上的文字就错了,但总的来说解释大概正确,Qwen-VL-Max的解释就显得稍微有点敷衍,而Hunyuan-Vision的把图片中的所有元素都逐一进行解释且都正确,是三个模型中解释最全面的。

中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

当然,以上只是简单的测评,但是可以看到,Hunyuan-Vision在以上测试中的表现不错,能够在本次的中文多模态大模型SuperCLUE-V基准8月榜单获得第一,展示了Hunyuan-Vision在多模态理解任务上的强大实力,也进一步证明了国内AI模型在相关领域中的竞争力正在不断提升。

尽管此次中文多模态大模型SuperCLUE-V8月榜单中,GPT-4o等国外模型仅作对比参考不参与排名,但是我们可以看到,国内模型与国外模型的差距正在缩小,在人工智能领域,国内的技术研发和创新实力正在迅速崛起,逐渐走向与国际先进水平并驾齐驱的地位。展望未来我们也期待国内更多优秀的人工智能模型能够涌现,共同推动人工智能技术的不断发展和进步。

参考文章:https://baijiahao.baidu.com/s?id=1806505412798723809&wfr=spider&for=pc

Like (0)
302.AI302.AI
Previous 2024 年 8 月 23 日 下午2:38
Next 2024 年 8 月 26 日 下午6:08

相关推荐

  • 资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

    在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…

    2025 年 1 月 2 日
    47800
  • 50美金复刻DeepSeek R1?解密背后真正的故事

    一则新闻 今天猛然看到一则新闻标题,大意是李飞飞团队仅用 50 美金就复刻出了一个媲美 R1 的模型。我的第一反应是「不可能,又是什么标题党」;第二反应是「数据应该不是凭空捏造的,索性求证一下?」 然后,我找到了原始论文《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393)。仔细拜读之…

    2025 年 2 月 7 日
    33900
  • AI PPT工具一键搞定PPT,帮你缓解职场”PPT恐惧症”

    在8月底的《脱口秀和Ta的朋友们》节目中,脱口秀演员赵晓卉的淘汰发言再次出圈,表现甚至比她在脱口秀比赛中的表现更为精彩,被观众称为“淘汰感言区的统治王者” ,在短短几分钟的淘汰感言中接连涌现出的金句,令人印象深刻: “上过班的人,都不会想做 PPT” “我对PPT已经 PPTSD 了” “昨天赢不了PPT、今天交不了 PPT” …… …

    2024 年 9 月 24 日
    37000
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    31000
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    26200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注