“草莓”终于现真身了,OpenAI发布最新o1大模型!

北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI为了突出OpenAI o1推理能力相对于 GPT-4o 的提升,在一系列不同的人工考试和 ML 基准上测试了OpenAI o1模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

o1 在广泛的基准测试上比 GPT-4o 有所改进,包括 54/57 MMLU 子类别,图示出了 7 个以供说明:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

OpenAI o1包含了OpenAI o1-preview 和 OpenAI o1-mini两个版本,其中OpenAI o1-mini是一个更小巧、专为代码生成优化的模型。它的设计目标是提供更快、更经济的解决方案,尤其适用于需要推理但不需要广泛世界知识的场景。

目前,想要使用OpenAI o1-preview和OpenAI o1-mini模型,需要成为ChatGPT Plus付费用户,而ChatGPT Plus订阅价格为20美元一个月,然而,OpenAI一直未对中国用户开放使用,如果国内用户想要在官方使用最新的OpenAI o1-preview和OpenAI o1-mini模型会比较困难。

然而,综合性AI服务平台302.AI在聊天机器人中已经同步更新了OpenAI o1-preview和OpenAI o1-mini两种模型,而且提供了按需付费的使用方式,用户无需担心有月费和捆绑套餐,能够更好控制预算。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

除此之外,302.AI的模型竞技场也同步更新了这两个模型,302.AI的模型竞技场能够非常直观地对比不同模型的效果。接下来,小编就通过302.AI的模型竞技场,对比OpenAI o1-preview、OpenAI o1-mini和GPT-4o三种模型的效果:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

首先来测试一下三个模型的速度,只是发送简单的问候语,可以明显看到GPT-4o的速度是最快的,其次是OpenAI o1-mini,最慢的则是OpenAI o1-preview模型。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

接下来,提问过河问题:“一个男人和一个女人在同一河边,他们有一艘船。他们怎样才能到河的对岸呢?”

这一问题旨在测试AI模型能够提供多少预设情景。

首先是OpenAI o1-preview的回答,可以看到它假设出了多种情况,并根据每种情况进行分析,且分析基本是正确的,最后还会总结给出最后的答案,整个过程非常完整清晰:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

而OpenAI o1-mini的回答则是非常简洁,并没有对不同的情况进行预设,默认船的状态是坐得下两个人:

“草莓”终于现真身了,OpenAI发布最新o1大模型!

最后是GPT-4o的回答,虽然GPT-4o是能够预设不同的情景,但是对于其中“分开过河”的情景给出的步骤有点“胡说八道”的情况,当船只只能容纳一个人的时候,男人先把船划到对岸,女人一直留着原岸,是无法将划到对岸的船的。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

从以上的问题来看,OpenAI o1-preview的思考能力的确是三个模型中最强的,但是对于9.11和9.9谁大的问题,OpenAI o1-preview和OpenAI o1-mini却没有回答正确。

“草莓”终于现真身了,OpenAI发布最新o1大模型!

简单地测试之后,可以发现OpenAI o1-preview模型在一定程度上会比GPT-4o模型更有进步,尤其是在上述”过河”问题中尤其明显,但是对于GPT-4o模型存在的模型幻觉问题,比如9.11和9.9谁大的问题,两个新模型的表现却不尽人意。

随着OpenAI最新o1大模型的发布,“草莓”这一神秘代号终于揭开了它的面纱。通过OpenAI o1模型的发布,我们作为受众可以看到,AI技术的发展从未停歇,相信未来,我们可以期待AI技术能够不断突破创新,为人类社会的发展注入更加强劲的动力。

Like (0)
302.AI302.AI
Previous 2024 年 9 月 12 日 下午6:23
Next 2024 年 9 月 14 日 下午6:34

相关推荐

  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    43400
  • 资讯丨302 AI红包封面生成工具——1分钟定制出专属红包封面(附全攻略)

    距离春节还有不到半个月的时间,在这阖家团圆的传统佳节里,红包作为传递祝福、表达心意的传统载体,承载着浓厚的年味气息。当我们还在回味纸质红包带来的那份浓浓年味与祝福的温度时,线上红包早已成为人们日常社交、节日庆祝不可或缺的表达心意的方式。而其中,定制专属的线上红包封面更是能够承载个性化的祝福语和独特寓意,为节日增添一份特别的仪式感。 为了帮助用户能够简单、高效…

    2025 年 1 月 14 日
    41200
  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    52800
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日
    32200
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    66000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注