智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。

GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上,做到与 GPT-4o 等第一梯队模型持平。另外,还采用更精准的长短文本数据混合策略,增强了模型在长文本推理方面的表现。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

此外,基于CogVLM系列模型上的研究经验,智谱研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus,GLM-4V-Plus 除了能理解并分析复杂的视频内容外,同时还具备超强的时间感知能力。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

据官方消息称,GLM-4-Plus即将在清言APP上线体验,但是这个【即将】的具体时间还不明确,而且有些用户会认为,为了体验一个模型而花费时间搜索下载一个应用程序,不仅耗费时间还占用手机空间。为此,小编提供一个更为便捷的方式,无需下载任何应用程序,用户可以直接进入302.AI的官网找到302.AI的聊天机器人使用GLM-4-Plus,目前,302.AI的聊天机器人不仅更新了GLM-4-Plus模式,还同步上线了GLM-4V-Plus模型,用户无需下载任何APP,也不必掌握API的使用方法,即可轻松体验。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

302.AI提供按需付费的服务方式,聊天机器人还可以在高级设置里开启机器人显示消耗,让用户能够实时掌握聊天机器人的使用情况,从而更精确控制费用支出,更灵活控制预算。

接下来,小编就带大家抢先试用下GLM-4-Plus模型:

用经典农夫过河问题测试一下GLM-4-Plus的推理能力,从以下的结果来看,GLM-4-Plus不仅回答正确,甚至还给出了代码模拟这一过程从而检查结果是否正确,小编表示,仿佛看到了读书时代学霸同学做题的情景:

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

再来测试一下GLM-4-Plus语言理解能力,如下图提出杯子和瓶子的相关问题,看下模型能否准确理解人类语言的含义和上下文,根据结果可以看到,GLM-4-Plus的回答是正确,没有被绕晕,可以说在语言理解方面表现也是不错的。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

接下来再简单测试一下GLM-4v-Plus的图片理解能力,上传一张网络搞笑图片让模型分析下笑点。

从回答结果来看,小编觉得这个解释有点过于简略,好像解释了但又好像没有解释(就比如我问为什么要吃饭,你回答因为到吃饭时间了):

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

而同样的问题,提问GPT-4o,得到的回答先是介绍了整个图片中所有的元素,连包装上的文字都能清楚解释,还有形状结构都有提到,最后介绍完所有有关物品后再回答好笑的地方。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

总的来说,通过以上简单的测试,GLM-4-Plus模型在推理能力、语言理解方面的能力都有明显的提升,而GLM-4v-Plus在图片理解方面还有比较大的上升空间。

除此之外,302.AI的API超市的【国产模型】分类区也已经上线了GLM-4-Plus和GLM-4V-Plus的API,同样是按需付费,且支持在线调试,不仅提高了开发效率,还能够降低开发成本。

众所周知,智谱AI是一家成立于2019年的人工智能公司,由清华大学计算机系技术成果转化而来,目前已经成为国内AI大模型领域的领军企业之一。智谱AI发布的GLM-4-Plus和GLM-4V-Plus模型,无论是从技术创新还是应用实践,都展现出了不错的能力,而GLM-4V-Plus更是国内首个通用图像&视频理解模型,未来,希望智谱将继续发挥其在人工智能领域的优势,为用户带来更多惊喜和价值。

参考文章:https://mp.weixin.qq.com/s/f0Wl2qJEqMOxZP3vxdQdJg

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 29 日 下午5:47
Next 2024 年 9 月 3 日 下午7:08

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7690
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2730

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注