资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

上周,OpenAI在直播中发布了 o 系列新模型:o4-mini o3。

OpenAI表示,o3是他们目前最强大的推理模型,在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型,专注于快速且经济高效的推理,特别在数学、编码和视觉任务中实现了优异的性能。

接下来,我们将在 302.AI 平台上分别对 o4-mini o3 进行实测对比,以评估这两大新模型的性能表现。

模型实测

一、o4-mini实测

(对比模型:DeepSeek R1、o1-mini)

1、简单推理

提示词:

分析下列序列的规律,并填写后续三个元素: 3, 5, 6, 10, 9, 17, 12, 26, 15, ___, ___, ___

题目分析:序列中的规律是交替进行,正确答案为:37, 18, 50。

o4-mini:解析过程较为简洁,答案正确

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

o1-mini:奇偶列规律分析正确,但是数字所在位数数错了,导致最后答案是错误的。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

DeepSeek R1:分析规律正确,答案正确

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

2、模型幻觉测试

提示词:“独在异乡为异客”的前一句是什么?

题目分析:“独在异乡为异客”就是古诗《九月九日忆山东兄弟》的第一句,没有前一句。

o4-mini:答案正确

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

o1-mini:答案错误,存在明显的幻觉

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

DeepSeek R1:回答正确

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

3、编程测试

提示词:请生成一个跑酷游戏,界面必须包含游戏操作说明,开始游戏按钮

o4-mini:游戏界面比较简洁,跳跃正常,观察到右上角的分数随着开始时间一直在增加,不过部分障碍物设置太高,多次尝试仍然是无法越过,这不太合理。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

o1-mini:根据操作说明按下空格键可跳跃,但实操发现空格键并未响应,存在明显逻辑问题。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

DeepSeek R1:按照操作说明可进行跳跃,但是发现障碍物设置并不合理,完全未起到阻碍的作用,游戏存在明显问题。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

其他模型效果:

来看下 o3 的效果,整体还不错。完整度较高,障碍设置合理,分数是根据成功跳过障碍物实时增加的。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

二、o3实测

对比模型:Gemini 2.5 pro、Doubao-1.5-Thinking-Pro-Vision

1、地点识别

提示词:图片是在哪拍摄的?

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

题目解析:对于地标建筑不是特别明显的图片,模型要正确识别难度还是比较大的,图片正确的位置为:位于广州市白云区的麓湖公园。

o3:答案错误。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

Gemini 2.5 pro答案错误。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

Doubao-1.5-Thinking-Pro-Vision:回答正确。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

2、图片推理

提示词:杯子有多高?

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

题目分析:根据图片可知存在两个未知数:一个是杯子的高度(题目所问),另一个是杯子叠加的高度。通过设定未知数可以列出方程,根据两个等式求解,以得出杯子的高度。正确答案为 14 厘米。

o3:回答正确。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

Gemini 2.5 pro回答正确。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

Doubao-1.5-Thinking-Pro-Vision:回答正确。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

3、图片找不同

提示词:图片中共有6处不同,请指出具体在哪里

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

(右侧为答案)

o3:未能准确找出不同之处描述不对。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

(红色圈出的部分是错误的)

Gemini 2.5 pro:正确指出了三处不同。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

(红色圈出的部分是完全错误的)

Doubao-1.5-Thinking-Pro-Vision:正确指出了五处不同。

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

(红色圈出的部分是完全错误的)

实测总结

1、实测结果整理:

o4-mini & DeepSeek R1 & o1-mini
简单推理模型幻觉编程测试
o4-mini正确正确部分障碍物设置过高
o1-min错误错误存在逻辑问题
DeepSeek R1正确正确障碍物设置过于简单
o3 & Gemini 2.5 pro & Doubao-1.5-Thinking-Pro-Vision
地点识别图片推理图片找不同
o3错误正确未能准确找出
Gemini 2.5 pro错误正确正确找出3处,有3处错误
Doubao-1.5-Thinking-Pro-Vision正确正确正确找出5处,有1处错误

2、实测总结:

通过以上实测,可初步得出以下结论:

o4-mini & DeepSeek R1 & o1-mini

(1)o4-mini 较于 o1-mini 有明显的能力提升:在简单推理与模型幻觉测试中,o4-mini 和 DeepSeek R1 在简单推理和模型幻觉测试中均表现出色,o1-mini 则是表现较差。

(2)轻量级模型在编程能力上还有待提升:三个对比模型在编程任务中均存在不足,o4-mini 在障碍物设置方面存在不合理之处,如障碍物过高以至于无法越过,o1-mini存在明显的逻辑问题,而DeepSeek R1则因障碍物设置过于简单而未能有效发挥作用。

o3 & Gemini 2.5 pro & Doubao-1.5-Thinking-Pro-Vision

(1)o3 模型地点识别任务未达到网络预期水平:地点识别任务中处理随手拍摄且缺乏显著地标的图片时,仅Doubao-1.5模型能够提供准确答案。

(2)各模型在常规图片推理方面具备一定能力,但在复杂视觉任务中仍有较大提升空间:在简单图片推理任务中,各模型均能给出正确答案,但在难度较高的找不同测试中,所有模型均未能准确指出所有不同之处。。

如何在302.AI中使用

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

使用路径:依次点击使用机器人→聊天机器人→ 选择模型 →创建聊天机器人;

o3/o4-mini:

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→OpenAI→查看文档;

API名称:

o4-mini:o4-mini

o3:o3

资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

Like (0)
302.AI302.AI
Previous 2025 年 4 月 16 日 下午10:24
Next 2024 年 9 月 23 日 下午6:42

相关推荐

  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    38100
  • 资讯丨302 AI红包封面生成工具——1分钟定制出专属红包封面(附全攻略)

    距离春节还有不到半个月的时间,在这阖家团圆的传统佳节里,红包作为传递祝福、表达心意的传统载体,承载着浓厚的年味气息。当我们还在回味纸质红包带来的那份浓浓年味与祝福的温度时,线上红包早已成为人们日常社交、节日庆祝不可或缺的表达心意的方式。而其中,定制专属的线上红包封面更是能够承载个性化的祝福语和独特寓意,为节日增添一份特别的仪式感。 为了帮助用户能够简单、高效…

    2025 年 1 月 14 日
    48200
  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    46900
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    59100
  • 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

    9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升。 根据官方数据显示,两款模型在M…

    2024 年 9 月 26 日
    37600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注