资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整版都拿到了最高分。更值得一提的是,在GPQA Diamond基准测试上,o1 完整版的表现甚至超越了人类专家!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 在302.AI上使用

按照惯例,302.AI第一时间更新了OpenAI o1完整版模型,而且302.AI提供了按需付费的使用方式,没有捆绑套餐、没有月费。下面是具体的获取方式:

进入302.AI——左侧菜单栏点击【使用机器人】——【聊天机器人】——模型选择【o1-plus】——点击【确定】——最后【创建聊天机器人】;

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 实测对比

每次模型一出来,总是被夸得天花乱坠,但真实效果到底是怎么样?还得实测过才知道。下面我们就通过不同方面实测对比,看看OpenAI o1完整版是不是真的是满血版的o1。

实测一:多模态推理

对比模型:o1 完整版和GPT-4o 多模态版

使用工具:302.AI的聊天机器人

提示词:从所给的四个选项中,选择最恰当的一个填入问号处,使之呈现一定的规律性。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这是我国公务考试中的固定图片推理题,同时也可以说是每一个考公人的噩梦,先说一下正确答案为选项C

原因:图形元素组成不同,优先考虑属性规律。九宫格优先按横行来看,第 一行中,三幅图依次为仅轴对称图形、仅中心对称图形、仅轴对称图形;代入第二行验 证,第二行与第一行规律相同。因此,第三行也应该满足此规律,问号处应该填入一个 仅轴对称的图形。A 项为仅中心对称图形,B 项为既轴对称又中心对称图形,D 项为不对称图形,只有C项为仅轴对称图形,所以当选。

GPT-4o多模态:接下来看看GPT-4o的答案,从答案分析中可以看出,模型已经很努力在“瞎掰”了,但很可惜,答案是错误的!即使经过提醒答案不对,GPT-4o还是没能给出正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:o1 完整版一顿分析,给出了错误的答案。不过在经过第二次提醒后,最终纠正了回答,给出了正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测二:数学能力测试

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:

已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB

(1)求sinA;

(2)设AB=5,求AB边上的高。

分析:这是2023年的河北高考题,共有2个小问,先来看下正确答案解析:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:来看下o1 完整版的答案,可以看到答案也是很长,但只答对了第一小问,第二小问回答错误,在经过提醒后,仍未能回答正确。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:再来看看claude-3.5-sonnet的答案,两个小问的答案均回答错误,经过再次提醒答案不正确后,依然无法纠正答案!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:o1 preview居然两个小问都回答正确!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测三:编程检验

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的聊天机器人、编程学习平台

提示词:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这属于专家级难度的编程题目,看下三个模型是否能够通过检验:

o1 完整版:o1完整版输出的代码没有检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型重新纠正后,依然只正确了一半!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:claude输出的代码出现了语法错误,检验失败!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型自行纠正,最后仅对了一半

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:没想到o1 preview再次获胜,代码检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 总结

经过一系列的对比,可以初步得出以下结论:

多模态推理:在多模态推理方面,o1 完整版与GPT-4o都未能给出正确答案,虽然o1 完整版在经过提醒后能够给出正确答案,但在面对此类多模态逻辑推理题目中,模型的局限性还是比较明显

数学能力测试:在数学能力测试中,o1 preview意外地表现出色,超越了o1 完整版

编程检验:在编程能力方面,o1 完整版即使经过二次提醒输出的代码还是未能完全通过检验

今天的实测内容更多地侧重于用户的实际需求,从公务员考试中的图形逻辑题到高考数学题,再到编程题目,都更贴近用户的日常生活。然而,从实测结果来看,o1 完整版在实际应用方面,其能力仍有待进一步的优化和完善。

此外,听说o1 完整版后续还会添加对网页浏览和文件上传等工具的支持,我们可以期待看看!

Like (0)
302.AI302.AI
Previous 2024 年 12 月 10 日 下午6:46
Next 2024 年 12 月 12 日 下午7:18

相关推荐

  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    38200
  • 资讯丨实测对比o4-mini/o3,轻量级o4-mini编程效果到底如何?o3多模态能力到底如何?

    上周,OpenAI在直播中发布了 o 系列新模型:o4-mini 和 o3。 OpenAI表示,o3是他们目前最强大的推理模型,在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型,专注于快速且经济高效的推理,特别在数学、编码和视觉任务中实现了优异的性能。 接下来,我们将在 302.AI 平台上分别对 o4-mini 和 o…

    2天前
    5900
  • 百度发布的升级版Ernie4.0 Turbo模型将与GPT-4竞争?

    6月28日百度WAVE SUMMIT峰会上发布了最新的文心大模型 4.0 Turbo即Ernie 4.0 turbo。 Ernie 4.0 turbo 是2023年10月推出的 Ernie 4.0 模型的升级版,这一新版本在反应速度和性能上有了显著提升。 Ernie 4.0 Turbo的全称为“Enhanced Representation through …

    2024 年 7 月 22 日
    92900
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    61000
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    39700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注