
2025 年 8 月 5 日,OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 开源 GPT-2 以来,时隔 6 年首次重返开源生态。

本次开源的 gpt-oss 系列包含两个高性能版本,均采用混合专家架构(MoE) 与 Apache 2.0 开源许可,支持自由修改、商用分发与本地私有化部署:
- gpt-oss-120b:在核心推理基准测试上已接近 o4-mini 模型的表现,可在单张 80GB GPU 上高效运行。
- gpt-oss-20b:210 亿参数,轻量级版本,在常用基准测试中接近 o3-mini 的水平,仅需 16GB 内存即可运行,非常适合快速开发迭代。
模型采用与 o4-mini 同级的强化学习流程训练,经 200 万小时 H100 算力淬炼,在权威测试中展现出突破性表现。OpenAI 公布的性能评估报告中显示,gpt-oss-120b 在核心基准测试中与 o4-mini 持平,并在数学竞赛题、健康类问题等特定领域表现更优;更小的 gpt-oss-20b 则与 o3-mini 相当,甚至在部分基准测试中超过后者。


两款开源模型兼容 OpenAl的 Responses API,具备卓越的指令跟随能力、工具调用(如网页搜索、Python 执行)能力和推理能力,可无缝集成Agent工作流。此外两款模型支持三个推理等级的灵活调节:Low(响应速度快,适用于日常对话)、Medium(在速度和细节之间取得平衡)、High(提供深入且详尽的分析)。

302.AI 已第一时间接入 gpt-oss 系列模型,本篇实测我们将围绕 gpt-oss 系列与最热门的国产开源模型展开对比评测,方便用户快速了解模型性能。
I. 实测模型基本信息
参与对比测评的模型 | 输入 | 输出 | 上下文长度 |
gpt-oss-20b | 输入价格:$0.1 | 输出价格:$0.5 | 128000 |
gpt-oss-120b | 输入价格:$0.2 | 输出价格:$1 | 128000 |
Qwen3-235b-a22b-thinking | 输入价格:$0.33 | 输出价格:$3.135 | 128000 |
DeepSeek-R1-0528 | 输入价格:$0.6 | 输出价格:$2.3 | 128000 |
GLM 4.5 | 输入价格:$0.286 | 输出价格:$1.143 | 128000 |
Ⅱ. 实测案例
实测 1:逻辑推理
弱智吧问题:“我想给我手机换个彩色的屏幕保护膜,换上红色的膜,手机屏幕显示的内容会变成红色吗?”
分析:: 此问题旨在测试LLM对基础物理光学原理(光的透射与叠加)与电子设备工作原理的区分能力。它构建了一个看似符合直觉,但实际上违背了物理和技术现实的场景。
理想回答逻辑: 一个优秀的LLM需要理解,屏幕保护膜是透明的,其颜色来自于对特定波长光线的反射或吸收,而手机屏幕本身是主动发光源。因此,红色的膜会过滤掉其他颜色的光,使得屏幕整体看起来偏红、变暗,但不会将屏幕原本显示的图像内容(如一个蓝色的图标)直接“染成”红色。它应该能解释清楚“滤光”和“变色”这两个概念的区别。
gpt-oss-20b:回答正确。


gpt-oss-120b:回答正确。


Qwen3-235b-a22b-thinking:回答正确。


DeepSeek-R1-0528:回答正确。


GLM4.5 :回答正确。


实测 2:竞赛数学
求所有正整数对 (a, b),使得 (a² + b) / (b² – a) 和 (b² + a) / (a² – b) 均为整数。
分析 :这个问题专门用于评估LLM在处理抽象数论问题时的“创造性思维”。它无法通过简单的模式匹配或“套路化”解题来完成,此题如果采用暴力搜索,解空间是无限的。模型必须采用逻辑推理的方式,而不是计算能力,来解决问题。
答案:所有满足条件的正整数对 (a, b) 共有6组: (2, 2), (3, 3), (1, 2), (2, 1), (2, 3), (3, 2)
gpt-oss-20b:回答正确。


gpt-oss-120b:回答正确。


Qwen3-235b-a22b-thinking:回答正确。


DeepSeek-R1-0528:回答正确。

GLM4.5 :回答正确。

实测 3:模型幻觉
问题:请生成一段关于“武汉大学成立于1900年”的说明,并附上历史背景。
分析:武汉大学成立于1893年,在题目里给出“武汉大学成立于1900年”属干扰信息。
gpt-oss-20b:模型存在幻觉。受题目干扰默认了“武汉大学成立于1900年”的虚假信息。

gpt-oss-120b:模型存在幻觉。虽纠正了正确创办时间,但其“1903年改名为‘武汉高等师范学堂’”的表述仍与下文【诞生背景】部分信息不符,自相矛盾。

Qwen3-235b-a22b-thinking:主动纠错,信息正确。

DeepSeek-R1-0528:主动纠错,信息正确。

GLM4.5 :主动纠错,信息正确。

实测 4:前端编程能力
集成API的商品详情卡片
提示词: “请创建一个响应式的商品详情卡片组件。你需要使用HTML和CSS(建议使用Flexbox或Grid布局),并用JavaScript从一个模拟的API接口获取商品数据并动态渲染到卡片上。 具体要求:
- 卡片结构: 包含商品图片、标题、价格、评分(用星级表示)和一个‘加入购物车’按钮。
- 数据获取: 使用JavaScript的
fetch
函数异步请求以下模拟API URL:https://fakestoreapi.com/products/1
,并将返回的JSON数据填充到卡片中。- 响应式设计: 在桌面端,图片在左,文字信息在右;在移动端(屏幕宽度小于600px),图片在上,文字信息在下。
- 交互效果: 鼠标悬停在卡片上时,卡片有轻微的放大和阴影效果。点击‘加入购物车’按钮时,按钮文字变为‘已添加’并禁用。”
gpt-oss-20b:基本实现。

gpt-oss-120b:表现一般,评分星级图标处显示有bug。

Qwen3-235b-a22b-thinking:基本实现。

DeepSeek-R1-0528:整体最佳。额外标注了星级评分和商品标签,点击“加入购物车”后还会触发“已加购”的交互设计。

GLM4.5 :基本实现。图片的显示比例缺乏美观度,UI需要优化

III. OpenAI GPT-OSS 模型实测结论

1. 实测结果整理:
评测标准:
- ★(不可用):代码完全无法执行或存在错误导致功能缺失
- ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
- ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
- ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
- ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
逻辑推理 | 竞赛数学 | 模型幻觉 | 前端编程能力 | |
gpt-oss-20b | ✔️ | ✔️ | ❌ | ★★★★ |
gpt-oss-120b | ✔️ | ✔️ | ❌ | ★★★ |
Qwen3-235b | ✔️ | ✔️ | ✔️ | ★★★★ |
DeepSeek-R1 | ✔️ | ✔️ | ✔️ | ★★★★★ |
GLM-4.5 | ✔️ | ✔️ | ✔️ | ★★★ |
2. 实测结论
根据对比实测,可初步得出以下结论:
gpt-oss 系列模型在逻辑推理、数学竞赛及指令跟随、工具调用等核心能力上展现出稳定实力,能够准确解答问题并满足复杂业务工作流的集成需求,其表现与主流国产大模型处于同一水准。同时,该系列模型提供了高达 128K 的上下文窗口支持,在处理长文档和复杂对话方面具备显著优势。
然而在特定方面,gpt-oss 模型与国产顶尖模型相比确实也存在差异:其幻觉抑制能力略逊一筹,在面对事实性干扰信息时,尤其是中文内容上,判断能力明显较弱。在编程实用性上,gpt-oss 系列可满足基本前端开发需求,但在 UI/UX 方面仍有优化空间。相比之下,国产模型在用户体验与细节呈现上(如 UI 美观度、交互丰富性)表现更优。
综合来看,gpt-oss 系列的核心竞争力在于其出色的指令执行、工具调用能力、超长上下文支持以及极具竞争力的开源优势。这使其成为需要大规模上下文处理、对成本敏感且注重本地化部署场景的理想选择,尤其适合无缝集成到 Agent 工作流中,支撑复杂业务需求。
Ⅳ. 如何在 302.AI 上使用
1. 聊天机器人中使用
步骤指引 :在线使用→应用超市→机器人→聊天机器人

选择模型→开源模型→gpt-oss-120b/gpt-oss-20b→确认→创建

2. 使用模型 API
相关文档:API→API超市→语言大模型→开源模型→查看文档
API 名称:gpt-oss-120b/gpt-oss-20b

想即刻体验 gpt-oss 系列模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
