“草莓”终于现真身了,OpenAI发布最新o1大模型!

北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI为了突出OpenAI o1推理能力相对于 GPT-4o 的提升,在一系列不同的人工考试和 ML 基准上测试了OpenAI o1模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

o1 在广泛的基准测试上比 GPT-4o 有所改进,包括 54/57 MMLU 子类别,图示出了 7 个以供说明:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

OpenAI o1包含了OpenAI o1-preview 和 OpenAI o1-mini两个版本,其中OpenAI o1-mini是一个更小巧、专为代码生成优化的模型。它的设计目标是提供更快、更经济的解决方案,尤其适用于需要推理但不需要广泛世界知识的场景。

目前,想要使用OpenAI o1-preview和OpenAI o1-mini模型,需要成为ChatGPT Plus付费用户,而ChatGPT Plus订阅价格为20美元一个月,然而,OpenAI一直未对中国用户开放使用,如果国内用户想要在官方使用最新的OpenAI o1-preview和OpenAI o1-mini模型会比较困难。

然而,综合性AI服务平台302.AI在聊天机器人中已经同步更新了OpenAI o1-preview和OpenAI o1-mini两种模型,而且提供了按需付费的使用方式,用户无需担心有月费和捆绑套餐,能够更好控制预算。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

除此之外,302.AI的模型竞技场也同步更新了这两个模型,302.AI的模型竞技场能够非常直观地对比不同模型的效果。接下来,小编就通过302.AI的模型竞技场,对比OpenAI o1-preview、OpenAI o1-mini和GPT-4o三种模型的效果:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

首先来测试一下三个模型的速度,只是发送简单的问候语,可以明显看到GPT-4o的速度是最快的,其次是OpenAI o1-mini,最慢的则是OpenAI o1-preview模型。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

接下来,提问过河问题:“一个男人和一个女人在同一河边,他们有一艘船。他们怎样才能到河的对岸呢?”

这一问题旨在测试AI模型能够提供多少预设情景。

首先是OpenAI o1-preview的回答,可以看到它假设出了多种情况,并根据每种情况进行分析,且分析基本是正确的,最后还会总结给出最后的答案,整个过程非常完整清晰:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

而OpenAI o1-mini的回答则是非常简洁,并没有对不同的情况进行预设,默认船的状态是坐得下两个人:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

最后是GPT-4o的回答,虽然GPT-4o是能够预设不同的情景,但是对于其中“分开过河”的情景给出的步骤有点“胡说八道”的情况,当船只只能容纳一个人的时候,男人先把船划到对岸,女人一直留着原岸,是无法将划到对岸的船的。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

从以上的问题来看,OpenAI o1-preview的思考能力的确是三个模型中最强的,但是对于9.11和9.9谁大的问题,OpenAI o1-preview和OpenAI o1-mini却没有回答正确。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

简单地测试之后,可以发现OpenAI o1-preview模型在一定程度上会比GPT-4o模型更有进步,尤其是在上述”过河”问题中尤其明显,但是对于GPT-4o模型存在的模型幻觉问题,比如9.11和9.9谁大的问题,两个新模型的表现却不尽人意。

随着OpenAI最新o1大模型的发布,“草莓”这一神秘代号终于揭开了它的面纱。通过OpenAI o1模型的发布,我们作为受众可以看到,AI技术的发展从未停歇,相信未来,我们可以期待AI技术能够不断突破创新,为人类社会的发展注入更加强劲的动力。

Like (0)
302.AI302.AI
Previous 2024 年 9 月 12 日 下午6:23
Next 2024 年 9 月 14 日 下午6:34

相关推荐

  • 资讯丨无需再死记硬背Excel公式和函数,302 AI Excel工具帮你解放大脑!

    要说一年中使用Excel表格最多的时候,一定是在季度末或者年度末。这两个时间节点是企业和个人在工作中进行数据整理和分析的关键时刻。在这个阶段,许多人需要对过去一段时间的工作数据进行系统性的整理。然而,对于那些不常使用Excel的人来说,面对复杂的表格和各种公式,往往会感到无从下手,最后只能无奈花费大量时间重新在网络上搜索相关内容学习。 但随着AI技术的发展,…

    2025 年 1 月 3 日
    17700
  • 资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

    12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。 据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k,Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…

    2024 年 12 月 5 日
    32700
  • 资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

    12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBe…

    2024 年 12 月 27 日
    24400
  • 资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

    在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…

    2025 年 1 月 2 日
    30000
  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    22600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注