302.AI 基准实验室 | “草莓”终于现真身了，OpenAI发布最新o1大模型！ -

北京时间9月13日凌晨，OpenAI发布o1大模型，“草莓”终于现真身了，酝酿已久的“草莓”终于面世。

据了解，OpenAI o1模型经过强化学习训练可以执行复杂的推理，还能解决比以前更难的科学、编码和数学问题。官方称，OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI为了突出OpenAI o1推理能力相对于 GPT-4o 的提升，在一系列不同的人工考试和 ML 基准上测试了OpenAI o1模型。结果表明，在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。

o1 在广泛的基准测试上比 GPT-4o 有所改进，包括 54/57 MMLU 子类别，图示出了 7 个以供说明：

OpenAI o1包含了OpenAI o1-preview 和 OpenAI o1-mini两个版本，其中OpenAI o1-mini是一个更小巧、专为代码生成优化的模型。它的设计目标是提供更快、更经济的解决方案，尤其适用于需要推理但不需要广泛世界知识的场景。

目前，想要使用OpenAI o1-preview和OpenAI o1-mini模型，需要成为ChatGPT Plus付费用户，而ChatGPT Plus订阅价格为20美元一个月，然而，OpenAI一直未对中国用户开放使用，如果国内用户想要在官方使用最新的OpenAI o1-preview和OpenAI o1-mini模型会比较困难。

然而，综合性AI服务平台302.AI在聊天机器人中已经同步更新了OpenAI o1-preview和OpenAI o1-mini两种模型，而且提供了按需付费的使用方式，用户无需担心有月费和捆绑套餐，能够更好控制预算。

除此之外，302.AI的模型竞技场也同步更新了这两个模型，302.AI的模型竞技场能够非常直观地对比不同模型的效果。

接下来，小编就通过302.AI的模型竞技场，对比OpenAI o1-preview、OpenAI o1-mini和GPT-4o三种模型的效果：

首先来测试一下三个模型的速度，只是发送简单的问候语，可以明显看到GPT-4o的速度是最快的，其次是OpenAI o1-mini，最慢的则是OpenAI o1-preview模型。

接下来，提问过河问题：“一个男人和一个女人在同一河边，他们有一艘船。他们怎样才能到河的对岸呢？”

这一问题旨在测试AI模型能够提供多少预设情景。

首先是OpenAI o1-preview的回答，可以看到它假设出了多种情况，并根据每种情况进行分析，且分析基本是正确的，最后还会总结给出最后的答案，整个过程非常完整清晰：

而OpenAI o1-mini的回答则是非常简洁，并没有对不同的情况进行预设，默认船的状态是坐得下两个人：

最后是GPT-4o的回答，虽然GPT-4o是能够预设不同的情景，但是对于其中“分开过河”的情景给出的步骤有点“胡说八道”的情况，当船只只能容纳一个人的时候，男人先把船划到对岸，女人一直留着原岸，是无法将划到对岸的船的。

从以上的问题来看，OpenAI o1-preview的思考能力的确是三个模型中最强的，但是对于9.11和9.9谁大的问题，OpenAI o1-preview和OpenAI o1-mini却没有回答正确。

简单地测试之后，可以发现OpenAI o1-preview模型在一定程度上会比GPT-4o模型更有进步，尤其是在上述”过河”问题中尤其明显，但是对于GPT-4o模型存在的模型幻觉问题，比如9.11和9.9谁大的问题，两个新模型的表现却不尽人意。

随着OpenAI最新o1大模型的发布，“草莓”这一神秘代号终于揭开了它的面纱。通过OpenAI o1模型的发布，我们作为受众可以看到，AI技术的发展从未停歇，相信未来，我们可以期待AI技术能够不断突破创新，为人类社会的发展注入更加强劲的动力。

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

发表回复

Diane Schueller 2025 年 6 月 16 日下午5:24
That is the right weblog for anybody who needs to find out about this topic. You notice a lot its nearly arduous to argue with you (not that I truly would want…HaHa). You positively put a brand new spin on a topic thats been written about for years. Nice stuff, simply great!
回复
Serena Arthurs 2025 年 7 月 28 日下午7:59
Enjoyed studying this, very good stuff, thankyou. “We swallow greedily any lie that flatters us, but we sip little by little at a truth we find bitter.” by Denis Diderot.
回复

302.AI 基准实验室 | “草莓”终于现真身了，OpenAI发布最新o1大模型！

👉立即注册免费试用302.AI，开启你的AI之旅！👈

相关推荐

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一 丨302.AI 基准实验室

谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

发表回复

评论（2）

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室