302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

GPT-5 一经发布,便在 LMArena 强势登顶,在文本、编程、写作、视觉等多个细分类目中均位列第一。在网页开发能力上,GPT-5 也创下新纪录,一举超越 Gemini 2.5 Pro 和 Claude Opus 4。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

GPT‑5 在 ChatGPT 中以系统架构形式出现,包括快速响应模型和推理版本,并具备路由机制,能根据任务复杂度自动选择合适的模型。API 中提供 gpt-5、gpt-5-minigpt-5-nano 三种版本,以满足不同的性能、成本和延迟需求,同时还支持具备“thinking”能力的推理版本。其中,智能高效模型负责回答大多数问题;深度推理模型则用于解决更复杂的难题。相较于前代模型,GPT-5 在三个关键领域实现了显著提升:

  • 顶尖编程能力:GPT-5 是 OpenAI 迄今最强的编码模型,擅长前端开发、大型代码库调试,能根据单一提示生成响应式网站、App及游戏。在现实编码基准测试(SWE-bench Verified)中首次尝试准确率达 74.9%,超越 GPT-4o、Claude Opus 4.1 以及 Gemini 2.5 Pro。
  • 创意写作能力:可驾驭无韵律抑扬格五音步诗、自由诗等高难度文体,输出更贴合人类表达习惯的文本内容。
  • 健康咨询支持: 提供更精准的医疗报告解析,并有效降低了幻觉率。在健康专项测试(HealthBench Hard Hallucinations)中,错误信息率仅 1.6%,远低于 GPT-4o 和 o3 模型。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

此外,GPT-5 将面向所有用户开放,Plus 会员可获得更多使用量,Pro 会员则可访问 GPT-5 Pro 版本——该版本具有扩展推理能力,可提供更全面、更准确的答案。

302.AI 已第一时间接入 GPT-5 系列模型,本篇实测将聚焦于 GPT-5,并选取其前代综合最强模型 o3,以及同为业界顶尖的 Claude Opus 4.1 和 Gemini 2.5 Pro,在多个维度展开对比评测。


I. GPT 版本发展史

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

在进行实测前,是时候先整理回顾下 GPT 自 2018 年诞生以来,从探索到成熟的发展历程。

GPT-1 开创性地将大规模预训练与生成任务结合;GPT-2 在规模与性能上实现突破,却因潜在风险一度部分封闭;GPT-3 以 1750 亿参数震惊世界,推动生成式 AI 进入公众视野;GPT-4 在多模态与推理能力上更进一步,展现更稳健与安全的交互体验;如今的 GPT-5,融合更强的知识理解、创造与多模态整合能力,标志着生成式 AI 从实验阶段迈向实用与智能化新时代。

版本发布时间参数量上下文长度多模态支持主要特色训练数据 / 来源
GPT-12018年6月1.17亿~512首次提出“预训练+微调”架构,将Transformer用于生成任务BookCorpus(7000多本书)
GPT-22019年2月(完全公开:11月)15亿~1024长文本生成能力强,引发滥用担忧,最初未完全开放WebText(从8M网页提取)
GPT-32020年6月1750亿~2048少样本/零样本学习显著提升,推动生成式AI破圈混合数据:Common Crawl、书籍、百科、网页等
GPT-42023年3月1.8万亿8k & 32k是(图像+文本)多模态输入,推理与安全性增强,表现更稳健来源未明,包含多语种网页、书籍、图文对等
GPT-52025年8月未公开,或超10万亿参数级400k是(文本、图像、音频、视频)更强的知识整合、跨模态理解与生成,趋近“通用助理”可能融合实时网络信息、多模态数据集、领域专属语料

II. 实测模型基本信息

参与对比测评的模型输入价格输出价格上下文长度
gpt-5$1.5 / 1M$10 / 1M400000
o3$2 / 1M$8 / 1M200000
claude-opus-4-1$16.5 / 1M$82.5 / 1M200000
gemini-2.5-pro$1.3 / 1M$10 / 1M1000000

评测使用工具:302.AI 的模型竞技场聊天机器人


ⅡI. 实测案例

实测 1:逻辑推理

问题:数学家斯莫林根据莎士比亚的戏剧《威尼斯商人》中的情节改编了这样一道有趣的题目:鲍西亚小姐对求婚者说“我这里有三只盒子,金盒子,银盒子和铅盒子。每只盒子的名牌上各写有一句话,三句话中只有一句是真话。谁能猜出我的肖像放在哪一个盒子里,谁就是我未来的丈夫”。 金盒子上写着:肖像不在此盒中。 银盒子上写着:肖像不在此盒中。 铅盒子上写着:肖像在银盒中。 请问鲍西亚小姐的肖像在哪个盒子中呢? 正确答案:鲍西亚小姐的肖像就在金盒子中

gpt-5:思考106秒,回答正确

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

o3:思考68秒,回答正确

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

claude-opus-4-1:思考91秒,回答正确

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

gemini-2.5-pro:思考110秒,回答正确

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

实测 2:模型幻觉(健康领域)

问题:我既是医生又是患者,现在需要开一种既能治疗糖尿病又能导致低血糖的药物,该如何选择?

理想回答:模型需识别逻辑矛盾(治疗糖尿病的药物通常需避免低血糖),指出冲突点,而非提供可行方案。

gpt-5:明确澄清冲突点,后续列出可行方案。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

o3:存在轻度幻觉,未作明确澄清,直接提供了参考方案。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

claude-opus-4-1:指出了核心悖论,后续列出可行方案。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

gemini-2.5-pro:指出了核心问题,并分角度解析问题。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

实测 3:前端编程能力(小游戏)

OpenAI官网提供的小游戏,涉及音频部分,因此使用录屏方式呈现:

  提示词:Create a single-page app in a single HTML file with the following requirements:
- Name: Jumping Ball Runner
- Goal: Jump over obstacles to survive as long as possible.
- Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
- The UI should be colorful, with parallax scrolling backgrounds.
- The characters should look cartoonish and be fun to watch.
- The game should be enjoyable for everyone.

创建一个满足以下要求的单页面应用(所有代码集成在一个HTML文件中):

名称:Jumping Ball Runner

目标:通过跳跃躲避障碍物,尽可能延长生存时间

核心功能: • 游戏速度逐渐加快 • 最高分记录功能 • 失败后”再来一次”按钮 • 动作与事件触发趣味音效

视觉设计: • 采用鲜艳色彩搭配 • 多层视差滚动背景 • 卡通风格角色设计(动作表情生动有趣)

体验定位:打造老少皆宜的休闲游戏

gpt-5:整体最优。按键功能齐全,UI/UX 设计美观,音效丰富,通过障碍物后加速效果明显,且能根据上一轮表现自动降低下一轮障碍物难度,可玩性最佳。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

o3:基本实现。运行较流畅,UI/UX 有很大优化空间。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

claude-opus-4-1:功能未实现。要素齐全,但设计欠佳,山体与地面中有大量空白部分,障碍物设置与小球弹跳的高度存在冲突,小球无法越过障碍物,游戏功能未达成。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

gemini-2.5-pro:表现较出色,要素齐全,具备可玩性。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

实测 4:多模态+翻译+信息提炼

测试目的:上传一张关于机器学习的复杂信息图,要求AI提炼核心信息,以中文输出通俗易懂的500字内文章。

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
提示词:请仔细识别并理解我提供的图片内容,包括文字、图形、数字和布局等信息。然后,用自然流畅、通俗易懂的语言,把图片的主要信息整理成一篇不超过500个汉字的短文。
要求:
1. 让没有专业背景的人也能轻松理解;
2. 内容简明扼要,突出核心要点;
3. 语气可以轻松友好,但表达清晰;
4. 可以适当用日常生活的例子或类比帮助解释;
5. 不要直接照搬原文,应以自己的表述方式转述;
6. 基于文章内容,撰写一个具有吸引力的文章标题。

gpt-5:流畅简洁,通俗易懂。但开头提及“这张图”,并不是独立文章的合理开头。

《让机器自己学本事:轻松读懂机器学习的奥秘》

这张图用简单直观的方式告诉我们,什么是机器学习、它和人工智能的关系、是怎么运作的,以及它在生活中的作用。

机器学习的意思是:不用给电脑写死规则,而是给它很多例子,让它自己找规律、学本事。比如想让它认猫,不是告诉它“猫有胡子、有四条腿”,而是给它无数猫的照片,它会自己总结特征。

它是人工智能家族的重要成员,还和数据挖掘、模式识别、统计等领域交叉。学习过程像学生训练:先选好数据,分成训练、验证、测试三份;用训练集教模型,再用验证集检查,测试集考试;学得差就多练多改,合格了就可以上岗做预测。

相比传统编程的“写规则”,机器学习更像“带徒弟看案例”,能帮我们识别图片、预测趋势、发现异常。现实中它能帮工程师用无人机数据做3D建模,帮助金融分析风险,甚至预测赛马名次。简单说,它是让机器自己学会思考和判断的能力,已经悄悄改变了我们的生活。

o3:结构最严谨。将原理分六步阐述,直观易懂,具备实用性。

《一分钟读懂机器学习:让电脑自己“悟”出规律的秘密》

想像你请一位学徒帮忙分辨小猫和小狗:你不用逐条列出“耳朵形状”“尾巴长度”等规则,而是把成千上万张带标签的照片给他看,久而久之他自己就找出了区分规律。机器学习干的正是这件事——让计算机在海量数据里发现模式,并利用这些模式做预测或分类,所以它被视为人工智能的一大分支。

一次完整的机器学习流程大致分六步:

  1. 挑选数据:把数据分成训练集、验证集、测试集;
  2. 建模:用训练集教算法“找规律”;
  3. 验证:用验证集检查模型效果,及时反馈调整;
  4. 测试:最后用测试集检验模型是否真有“实战”能力;
  5. 部署:让模型在新数据上开始工作;
  6. 调优:不断补充数据、调整参数,提升准确率。

与传统编程“人写规则、机执行”不同,机器学习是“人给数据、机写规则”。它也超越单纯的统计分析:统计更注重解释变量关系,而机器学习更关注预测能力。

现实中,它的用武之地非常广:例如用无人机拍摄桥梁重建现场,再通过模型快速生成3D地图;结合交易记录和社交特征,帮助金融机构识别内部交易风险;甚至在赛马前分析马匹表现,预测冠军归属。简单来说,凡是数据足够多、规律不易手工总结的场景,机器学习都能成为得力助手。

claude-opus-4-1:循序渐进,合理运用类比提升了易懂性。

《机器学习:让电脑像人一样”自学成才”》

想象一下,如果电脑能像小孩学习认字一样,通过看大量例子自己总结规律,那会怎样?这就是机器学习的魅力所在。

机器学习是人工智能的重要分支,它让计算机能够从海量数据中自动发现规律和模式。打个比方,就像教孩子认识动物,不用告诉他”有四条腿、会汪汪叫的是狗”这样的规则,而是给他看成千上万张狗的照片,让他自己总结出什么是狗。

整个学习过程分六步走:首先把数据分成训练组和测试组,就像把习题分成练习题和考试题。然后用训练数据教会电脑识别模式,再用验证数据检查学习效果。如果效果不理想,就调整参数重新学习,直到满意为止。最后用测试数据做”期末考试”,看看学得怎么样。

与传统编程相比,机器学习的优势明显。传统方式需要程序员事先写好所有规则,就像编写菜谱一样死板。而机器学习则像一位聪明的学徒,能从经验中不断进步。

如今,机器学习已经深入我们的生活:铁路桥梁的3D建模、产品质量检测、甚至预测谁会成为下一个体育明星。它正在悄然改变着各行各业的工作方式。

gemini-2.5-pro:流畅简洁,结尾部分略仓促。

《让机器学会思考?一文看懂什么是机器学习》

想象一下,我们不用一句句地教电脑“如果看到猫耳朵和胡须,那就是猫”,而是直接给它看成千上万张猫的照片,让它自己“悟”出猫长什么样。这就是机器学习的核心思想。

简单说,机器学习是人工智能(AI)大家族中的一员,它不靠死记硬背的指令,而是通过分析海量数据来学习和成长。它和传统编程最大的不同在于:传统编程是我们为电脑设定好规则去解决问题;而机器学习则是让电脑自己从数据中发现规则。

这个学习过程就像学生备考:先用“练习册”(训练数据)学习知识,再用“模拟卷”(验证数据)来测试和调整,不断优化,直到能出色地应对“正式考试”(真实世界的新数据),做出准确的判断或预测。

如今,这项技术已无处不在。从无人机快速构建3D地图,到分析金融行为以防范风险,甚至预测赛马冠军,背后都有机器学习的身影,它正让机器变得越来越“聪明”。


IV. GPT-5 实测结论

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失
  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
逻辑推理模型幻觉前端编程能力多模态+翻译+信息提炼
gpt-5✔️✔️★★★★★★★★★
o3✔️★★★★★★★★★
claude-opus-4-1✔️✔️★★★★★★
gemini-2.5-pro✔️✔️★★★★★★★★

2. 实测结论

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

GPT-5这次的更新属于那种“不炸场,但够狠”的类型。它没搞什么惊天动地的跨代质变,但一连串操作下来,足够让同行坐不住,用户笑出声。

1.这次表现最拉仇恨的,无疑是GPT-5的编程能力得以大幅增强。案例3的小游戏已经说明一切:在功能完整度、设计逻辑、美观度,GPT-5交出的结果属于吊打对手。而它的定价只有 Claude Opus 4.1 的十分之,直接给对家来了一记重拳:性能拉高,价格打穿,堪称精准狙击。

2.GPT-5另一个明显增强,来自于事实错误(hallucination)的降低。根据OpenAI官方数据,GPT-5幻觉率比GPT-4o低了45%,比OpenAI自己家稍早期的o3还低了整整80%。结合案例2,唯一犯错的确实是o3。这对经常写报告、查资料、搬文献的用户来说,无疑大幅增强了AI信息的可信度。

3.案例4说明现在各大顶级模型在OCR(图文识别),跨语种信息提取,风格迁移进行输出的能力,基本已经拉平,乍看之下无胜负。但细节上,o3在处理文章结构上玩出了“小聪明”——主动引入排序与归纳逻辑,提升了可读性,因此评星给到最高。

4.GPT-5的整体表现虽然没有突破壁垒、打开新世界大门,绝非像Altman之前吹嘘的“吓我一跳”,但依旧刷新了SOTA,属于稳步进步。最大的惊喜,不是功能,而是定价策略。在当前AI算力还在烧钱的背景下,OpenAI能把最能打的模型做出价格下沉,结合最新公布的用户数据,说白了就是一句话:你们还想挣智商税,我已经在走规模了。可谓是真正意义上的“平权式进步”。


V. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

选择模型→OpenAI模型→gpt-5→确认→创建

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

2. 使用模型 API

相关文档:API→API超市→语言大模型→OpenAI→查看文档

API 名称:gpt-5

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

想即刻体验 gpt-5 系列模型? 👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 4天前
Next 2024 年 8 月 27 日 下午6:18

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注