“草莓”终于现真身了,OpenAI发布最新o1大模型!

北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI为了突出OpenAI o1推理能力相对于 GPT-4o 的提升,在一系列不同的人工考试和 ML 基准上测试了OpenAI o1模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

o1 在广泛的基准测试上比 GPT-4o 有所改进,包括 54/57 MMLU 子类别,图示出了 7 个以供说明:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

OpenAI o1包含了OpenAI o1-preview 和 OpenAI o1-mini两个版本,其中OpenAI o1-mini是一个更小巧、专为代码生成优化的模型。它的设计目标是提供更快、更经济的解决方案,尤其适用于需要推理但不需要广泛世界知识的场景。

目前,想要使用OpenAI o1-preview和OpenAI o1-mini模型,需要成为ChatGPT Plus付费用户,而ChatGPT Plus订阅价格为20美元一个月,然而,OpenAI一直未对中国用户开放使用,如果国内用户想要在官方使用最新的OpenAI o1-preview和OpenAI o1-mini模型会比较困难。

然而,综合性AI服务平台302.AI在聊天机器人中已经同步更新了OpenAI o1-preview和OpenAI o1-mini两种模型,而且提供了按需付费的使用方式,用户无需担心有月费和捆绑套餐,能够更好控制预算。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

除此之外,302.AI的模型竞技场也同步更新了这两个模型,302.AI的模型竞技场能够非常直观地对比不同模型的效果。接下来,小编就通过302.AI的模型竞技场,对比OpenAI o1-preview、OpenAI o1-mini和GPT-4o三种模型的效果:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

首先来测试一下三个模型的速度,只是发送简单的问候语,可以明显看到GPT-4o的速度是最快的,其次是OpenAI o1-mini,最慢的则是OpenAI o1-preview模型。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

接下来,提问过河问题:“一个男人和一个女人在同一河边,他们有一艘船。他们怎样才能到河的对岸呢?”

这一问题旨在测试AI模型能够提供多少预设情景。

首先是OpenAI o1-preview的回答,可以看到它假设出了多种情况,并根据每种情况进行分析,且分析基本是正确的,最后还会总结给出最后的答案,整个过程非常完整清晰:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

而OpenAI o1-mini的回答则是非常简洁,并没有对不同的情况进行预设,默认船的状态是坐得下两个人:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

最后是GPT-4o的回答,虽然GPT-4o是能够预设不同的情景,但是对于其中“分开过河”的情景给出的步骤有点“胡说八道”的情况,当船只只能容纳一个人的时候,男人先把船划到对岸,女人一直留着原岸,是无法将划到对岸的船的。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

从以上的问题来看,OpenAI o1-preview的思考能力的确是三个模型中最强的,但是对于9.11和9.9谁大的问题,OpenAI o1-preview和OpenAI o1-mini却没有回答正确。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

简单地测试之后,可以发现OpenAI o1-preview模型在一定程度上会比GPT-4o模型更有进步,尤其是在上述”过河”问题中尤其明显,但是对于GPT-4o模型存在的模型幻觉问题,比如9.11和9.9谁大的问题,两个新模型的表现却不尽人意。

随着OpenAI最新o1大模型的发布,“草莓”这一神秘代号终于揭开了它的面纱。通过OpenAI o1模型的发布,我们作为受众可以看到,AI技术的发展从未停歇,相信未来,我们可以期待AI技术能够不断突破创新,为人类社会的发展注入更加强劲的动力。

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 9 月 12 日 下午6:23
Next 2024 年 9 月 14 日 下午6:34

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注