智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。

GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上,做到与 GPT-4o 等第一梯队模型持平。另外,还采用更精准的长短文本数据混合策略,增强了模型在长文本推理方面的表现。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

此外,基于CogVLM系列模型上的研究经验,智谱研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus,GLM-4V-Plus 除了能理解并分析复杂的视频内容外,同时还具备超强的时间感知能力。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

据官方消息称,GLM-4-Plus即将在清言APP上线体验,但是这个【即将】的具体时间还不明确,而且有些用户会认为,为了体验一个模型而花费时间搜索下载一个应用程序,不仅耗费时间还占用手机空间。为此,小编提供一个更为便捷的方式,无需下载任何应用程序,用户可以直接进入302.AI的官网找到302.AI的聊天机器人使用GLM-4-Plus,目前,302.AI的聊天机器人不仅更新了GLM-4-Plus模式,还同步上线了GLM-4V-Plus模型,用户无需下载任何APP,也不必掌握API的使用方法,即可轻松体验。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

302.AI提供按需付费的服务方式,聊天机器人还可以在高级设置里开启机器人显示消耗,让用户能够实时掌握聊天机器人的使用情况,从而更精确控制费用支出,更灵活控制预算。

接下来,小编就带大家抢先试用下GLM-4-Plus模型:

用经典农夫过河问题测试一下GLM-4-Plus的推理能力,从以下的结果来看,GLM-4-Plus不仅回答正确,甚至还给出了代码模拟这一过程从而检查结果是否正确,小编表示,仿佛看到了读书时代学霸同学做题的情景:

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

再来测试一下GLM-4-Plus语言理解能力,如下图提出杯子和瓶子的相关问题,看下模型能否准确理解人类语言的含义和上下文,根据结果可以看到,GLM-4-Plus的回答是正确,没有被绕晕,可以说在语言理解方面表现也是不错的。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

接下来再简单测试一下GLM-4v-Plus的图片理解能力,上传一张网络搞笑图片让模型分析下笑点。

从回答结果来看,小编觉得这个解释有点过于简略,好像解释了但又好像没有解释(就比如我问为什么要吃饭,你回答因为到吃饭时间了):

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

而同样的问题,提问GPT-4o,得到的回答先是介绍了整个图片中所有的元素,连包装上的文字都能清楚解释,还有形状结构都有提到,最后介绍完所有有关物品后再回答好笑的地方。

智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

总的来说,通过以上简单的测试,GLM-4-Plus模型在推理能力、语言理解方面的能力都有明显的提升,而GLM-4v-Plus在图片理解方面还有比较大的上升空间。

除此之外,302.AI的API超市的【国产模型】分类区也已经上线了GLM-4-Plus和GLM-4V-Plus的API,同样是按需付费,且支持在线调试,不仅提高了开发效率,还能够降低开发成本。

众所周知,智谱AI是一家成立于2019年的人工智能公司,由清华大学计算机系技术成果转化而来,目前已经成为国内AI大模型领域的领军企业之一。智谱AI发布的GLM-4-Plus和GLM-4V-Plus模型,无论是从技术创新还是应用实践,都展现出了不错的能力,而GLM-4V-Plus更是国内首个通用图像&视频理解模型,未来,希望智谱将继续发挥其在人工智能领域的优势,为用户带来更多惊喜和价值。

参考文章:https://mp.weixin.qq.com/s/f0Wl2qJEqMOxZP3vxdQdJg

(0)
302.AI302.AI
上一篇 2024 年 8 月 29 日 下午5:47
下一篇 2024 年 9 月 3 日 下午7:08

相关推荐

  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    10200
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    5500
  • Runway官宣上线Gen-3 Alpha!无门槛抢先体验

    7月2日凌晨,Runway在社交媒体正式宣布,Gen-3 Alpha全面开放使用! Runway是一家专注于AI视频生成的公司,其推出的Gen系列模型在视频创作领域引起了广泛关注。 据说最新推出的Gen-3 Alpha模型在保真度、一致性和动作表现方面都有重大改进! 都说Gen-3 Alpha很强,那我们先看下来自官网的一段视频: (Prompt:在日本城市…

    2024 年 7 月 12 日
    5400
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    7500
  • 模型竞技场:中秋国庆调休来了,哪个AI能算明白?

    不知不觉中,2024年的时光已悄然流逝了三分之二。 许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。 对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假…

    2024 年 8 月 29 日
    7400

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注