“草莓”终于现真身了,OpenAI发布最新o1大模型!

北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI为了突出OpenAI o1推理能力相对于 GPT-4o 的提升,在一系列不同的人工考试和 ML 基准上测试了OpenAI o1模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

o1 在广泛的基准测试上比 GPT-4o 有所改进,包括 54/57 MMLU 子类别,图示出了 7 个以供说明:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

OpenAI o1包含了OpenAI o1-preview 和 OpenAI o1-mini两个版本,其中OpenAI o1-mini是一个更小巧、专为代码生成优化的模型。它的设计目标是提供更快、更经济的解决方案,尤其适用于需要推理但不需要广泛世界知识的场景。

目前,想要使用OpenAI o1-preview和OpenAI o1-mini模型,需要成为ChatGPT Plus付费用户,而ChatGPT Plus订阅价格为20美元一个月,然而,OpenAI一直未对中国用户开放使用,如果国内用户想要在官方使用最新的OpenAI o1-preview和OpenAI o1-mini模型会比较困难。

然而,综合性AI服务平台302.AI在聊天机器人中已经同步更新了OpenAI o1-preview和OpenAI o1-mini两种模型,而且提供了按需付费的使用方式,用户无需担心有月费和捆绑套餐,能够更好控制预算。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

除此之外,302.AI的模型竞技场也同步更新了这两个模型,302.AI的模型竞技场能够非常直观地对比不同模型的效果。接下来,小编就通过302.AI的模型竞技场,对比OpenAI o1-preview、OpenAI o1-mini和GPT-4o三种模型的效果:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

首先来测试一下三个模型的速度,只是发送简单的问候语,可以明显看到GPT-4o的速度是最快的,其次是OpenAI o1-mini,最慢的则是OpenAI o1-preview模型。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

接下来,提问过河问题:“一个男人和一个女人在同一河边,他们有一艘船。他们怎样才能到河的对岸呢?”

这一问题旨在测试AI模型能够提供多少预设情景。

首先是OpenAI o1-preview的回答,可以看到它假设出了多种情况,并根据每种情况进行分析,且分析基本是正确的,最后还会总结给出最后的答案,整个过程非常完整清晰:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

而OpenAI o1-mini的回答则是非常简洁,并没有对不同的情况进行预设,默认船的状态是坐得下两个人:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

最后是GPT-4o的回答,虽然GPT-4o是能够预设不同的情景,但是对于其中“分开过河”的情景给出的步骤有点“胡说八道”的情况,当船只只能容纳一个人的时候,男人先把船划到对岸,女人一直留着原岸,是无法将划到对岸的船的。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

从以上的问题来看,OpenAI o1-preview的思考能力的确是三个模型中最强的,但是对于9.11和9.9谁大的问题,OpenAI o1-preview和OpenAI o1-mini却没有回答正确。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

简单地测试之后,可以发现OpenAI o1-preview模型在一定程度上会比GPT-4o模型更有进步,尤其是在上述”过河”问题中尤其明显,但是对于GPT-4o模型存在的模型幻觉问题,比如9.11和9.9谁大的问题,两个新模型的表现却不尽人意。

随着OpenAI最新o1大模型的发布,“草莓”这一神秘代号终于揭开了它的面纱。通过OpenAI o1模型的发布,我们作为受众可以看到,AI技术的发展从未停歇,相信未来,我们可以期待AI技术能够不断突破创新,为人类社会的发展注入更加强劲的动力。

(0)
302.AI302.AI
上一篇 6天前
下一篇 4天前

相关推荐

  • 当FLUX结合LoRA技术,你还分得清现实和AI吗?

    8月初,由Stability AI 前创始成员创立的新公司Black Forest Labs推出了图像生成模型FLUX.1,而FLUX.1模型不仅在生成效果上超越Stable Diffusion,还能与 Midjourney 直接对打。如果想了解FLUX.1模型的朋友可以翻阅小编往期作品,因为今天的主角,不止是FLUX.1。 AI领域一直被形容为“内卷王者”…

    2024 年 8 月 19 日
    6700
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    4200
  • 你真的会使用AI吗?CO-STAR超给力提示词框架,速看

    就在今年5月,新加坡政府科技局(GovTech)组织了首届 GPT-4 提示工程大赛,吸引了超过 400 名杰出的参与者。冠军获得者Sheila Teo分享了如何使用一些简单有效的技巧来优化对ChatGPT的使用。 对于AI使用者来说,结构化的提示词框架能够帮助我们以一种更系统、更明确的方式与 AI 交互。这种清晰性对于确保 AI 系统能准确理解用户的意图至…

    2024 年 7 月 12 日
    7900
  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    2024 年 9 月 11 日
    4000
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    8000

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注