资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

4 月 15 日凌晨,OpenAI 发布了全新 GPT-4.1 系列模型,其中包括:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程、指令遵循和上下文理解方面有显著提升。

与此同时,OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版,因为 GPT-4.1 在许多关键功能上提供了改进或类似的性能,并且成本和延迟更低。弃用时间为三个月后(2025 年 7 月 14 日),以便开发者有时间过渡。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

此外,国内智谱公司还开源了两个新推理模型:GLM-Z1-Air GLM-Z1-AirX,其中官方描述 GLM-Z1-AirX 为国内最快推理模型,推理速度可达 200 tokens/秒,比常规快 8 倍;

按照惯例,接下来我们将对GPT-4.1 以及 GLM-Z1-AirX 进行实测,但由于二者类型和定位不同(GPT-4.1 是通用模型,GLM-Z1-AirX 是推理模型),直接对比不太合理,因此我们根据性能找到的与它们相似或者有可比性的模型:

GPT-4.1 对比模型有:GPT-4o 和 DeepSeek V3.1(即 DeepSeek-V3-0324);

GLM-Z1-AirX 对比模型有:DeepSeek R1 和 Ernie-X1;

实测对比

一、通用模型对比

对比模型:GPT-4.1 & GPT-4o & DeepSeek V3.1

1、弱智吧问题

提示词:我有 6 个鸡蛋,碎了 2 个,煎了 2 个,吃了 2 个,最多还剩几个?

题目解析:如果把每个动作视为独立事件,那将一个鸡蛋也不剩。但题目问的是最多还剩几个,这表明可能有重叠的情况,碎的 2 个鸡蛋正好煎了、吃了,因此在最佳情况下,最多还剩 4 个鸡蛋。

GPT-4.1 :分析合理,回答正确

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

GPT-4o :有点聪明但又不够,最终回答错误

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek V3.1:回答完整、详细且清晰。在解析过程中,确定不同的可能性并进行逐一分析,综合比较各个答案,最终找出符合题目“最大剩余”的正确答案。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

2、鸡蛋+煎饼问题

提示词:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和3块饼,最快一共需要几分钟?

题目解析:这个问题主要考察模型是否知道多个鸡蛋可以一起煮、煎饼可以翻面中途替换,以及煮鸡蛋和煎饼两动作可并行,最后只需选取两者中时长较长的为总时长。

GPT-4.1 :尽管分析中提到“在A或B的一面煎好后立即放入C”这一关键步骤,但后续的优化安排未遵循此步骤,导致最终答案不正确

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

GPT-4o :分析过程和解答思路略显简单,答案不正确

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek V3.1:答案中可以清晰看到,模型在初始安排中识别了不合理之处并迅速进行了调整,最终不仅提供了准确的答案,还分析了应对题目时可能出现的误区。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

3、编程游戏测试:

提示词:创建一个 Flapping Bird 的网页游戏,实现玩家控制和计分系统,在游戏过程中,在屏幕上清晰地显示当前得分。需要包含开始游戏按钮以及游戏说明

题目解析:编程游戏测试的主要目的是评估模型生成的游戏是否具有逻辑合理性,并对比游戏的完整性。

GPT-4.1:游戏设置合理,界面美观,完成度非常高

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

GPT-4o:效果较差,绿色障碍设置不合理,小球无法通过。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek V3.1:游戏逻辑存在问题,小球未触碰到地面和绿色障碍即触发游戏失败。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

二、推理模型对比:

对比模型:GLM-Z1-AirX & DeepSeek R1 & Ernie-X1;

1、脑筋急转弯

提示词:一步一步认真思考:我目前有两根香蕉,我昨天吃掉一根,现在还有几根

题目解析:问题中提到“我目前有两根香蕉”,这是当前的状态。昨天吃掉的香蕉不应该影响“我目前有两根香蕉”这个状态。所以答案是2根。

GLM-Z1-AirX:在正确和错误中反复横跳,表明对题意理解不透彻,最后答案是错误的

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

Ernie-X1:通过逐步分析理清时间线,答案正确

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek R1:推理过程十分完善,进一步推断出昨日应有三根香蕉,回答准确无误

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

2、数学推理

提示词:四个数的和是21,这四个数两两相乘得到的六个积分别是15、18、21、30、35和42。请求出这四个数分别是多少。

题目解析:要解决这一问题,需要找出所有可能的数对使得它们的乘积等于给定的六个积之一,最后验证和。正确答案是:3、5、6和7

GLM-Z1-AirX:首先答案是正确的,但是模型思考过程展示不够清晰可读。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

Ernie-X1:思维链条较为清晰,答案正确,但速度稍缓慢

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek R1:思考分析过程无误,答案正确

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

3、编程游戏测试:

提示词:创建一个 Flapping Bird 的网页游戏,实现玩家控制和计分系统,在游戏过程中,在屏幕上清晰地显示当前得分。需要包含开始游戏按钮以及游戏说明

GLM-Z1-AirX :模型生成的代码有错误,无法预览效果

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

Ernie-X1;游戏存在逻辑缺陷,小球即使碰到绿色障碍物也未触发失败

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

DeepSeek R1 :障碍设计不合理,基本没有可通过的位置。

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

实测总结:

实测结果统计:

GPT-4.1 & GPT-4o & DeepSeek V3.1
弱智吧问题鸡蛋+煎饼问题编程测试
GPT-4.1正确错误效果美观且完整
GPT-4o错误错误障碍设置不合理
DeepSeek V3.1正确正确莫名触发游戏失败
GLM-Z1-AirX & DeepSeek R1 & Ernie-X1
脑筋急转弯数学推理编程测试
GLM-Z1-AirX错误正确,可读性不佳代码有错误,无法预览效果。
Ernie-X1正确正确,但速度较慢碰障碍物未触发游戏游戏失败
DeepSeek R1正确正确障碍设计不合理

根据以上实测结果,可以初步得出以下结论:

一、通用模型对比结论

(1)GPT-4.1 相较 GPT-4o 的能力提升:实测弱智吧问题和编程游戏中,GPT-4.1 表现优于 GPT-4o,能力有明显有提升。

(2) DeepSeek V3.1 在分析问题准确性与理解上优于 GPT-4.1 :DeepSeek V3.1 在面对鸡蛋+煎饼问题任务问题时,不仅给出了正确答案,还对面对题目可能的误区进行了分析,反之 GPT-4.1 却未能正确回答。

(3)GPT-4.1 的编程能力出色:通过编程游戏同一提示词对比的发现,GPT-4.1 生成的游戏界面美观,游戏逻辑合理且完整性最高。

二、推理模型对比结论

(1)GLM-Z1-AirX 的解题短板存在短板:GLM-Z1-AirX 在解题时不够灵活,展示思考链路时文字堆积,可读性较差。

(2)Ernie-X1 速度较慢:虽然 Ernie-X1 模型在实测任务中的表现尚可,但是对比其他两个模型其速度较慢。

如何在302.AI中使用:

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

使用路径:依次点击使用机器人→聊天机器人→ 选择模型 →创建聊天机器人;

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

GLM-Z1-AirX:

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→OpenAI/国产模型→查看文档;

API名称:

GPT-4.1:gpt-4.1/gpt-4.1-2025-04-14

GPT-4.1-mini:gpt-4.1-mini/gpt-4.1-mini-2025-04-14

GPT-4.1-nano:gpt-4.1-nano/gpt-4.1-nano-2025-04-14

GLM-Z1-Air :glm-z1-air

GLM-Z1-AirX:glm-z1-airx

资讯丨最新模型对比测评:GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?

Like (0)
302.AI302.AI
Previous 2025 年 4 月 14 日 下午5:41
Next 1天前

相关推荐

  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    71600
  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    46200
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    33500
  • 大白话聊聊Deepseek R1背后的来龙去脉,必读

    一切的开端 CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。 虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现o1的成功。之前的…

    2025 年 2 月 5 日
    23100
  • 资讯丨不会PS也能秒做矢量图,用302 AI 矢量图生成工具卷翻设计圈!

    在设计领域,矢量图以其高清晰度和灵活性成为不可或缺的设计元素。但传统的矢量图制作过程不仅需要专业的设计工具,还需设计师具备一定的技术水平。 相比传统的矢量图制作方式,302.AI推出的 ⌈ AI矢量图生成 ⌋,不仅操作极其简单,生成的矢量图质量还可达到专业级别。 此外,302.AI还提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用,具备极高…

    2025 年 2 月 18 日
    30100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注