资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整版都拿到了最高分。更值得一提的是,在GPQA Diamond基准测试上,o1 完整版的表现甚至超越了人类专家!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 在302.AI上使用

按照惯例,302.AI第一时间更新了OpenAI o1完整版模型,而且302.AI提供了按需付费的使用方式,没有捆绑套餐、没有月费。下面是具体的获取方式:

进入302.AI——左侧菜单栏点击【使用机器人】——【聊天机器人】——模型选择【o1-plus】——点击【确定】——最后【创建聊天机器人】;

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 实测对比

每次模型一出来,总是被夸得天花乱坠,但真实效果到底是怎么样?还得实测过才知道。下面我们就通过不同方面实测对比,看看OpenAI o1完整版是不是真的是满血版的o1。

实测一:多模态推理

对比模型:o1 完整版和GPT-4o 多模态版

使用工具:302.AI的聊天机器人

提示词:从所给的四个选项中,选择最恰当的一个填入问号处,使之呈现一定的规律性。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这是我国公务考试中的固定图片推理题,同时也可以说是每一个考公人的噩梦,先说一下正确答案为选项C

原因:图形元素组成不同,优先考虑属性规律。九宫格优先按横行来看,第 一行中,三幅图依次为仅轴对称图形、仅中心对称图形、仅轴对称图形;代入第二行验 证,第二行与第一行规律相同。因此,第三行也应该满足此规律,问号处应该填入一个 仅轴对称的图形。A 项为仅中心对称图形,B 项为既轴对称又中心对称图形,D 项为不对称图形,只有C项为仅轴对称图形,所以当选。

GPT-4o多模态:接下来看看GPT-4o的答案,从答案分析中可以看出,模型已经很努力在“瞎掰”了,但很可惜,答案是错误的!即使经过提醒答案不对,GPT-4o还是没能给出正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:o1 完整版一顿分析,给出了错误的答案。不过在经过第二次提醒后,最终纠正了回答,给出了正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测二:数学能力测试

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:

已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB

(1)求sinA;

(2)设AB=5,求AB边上的高。

分析:这是2023年的河北高考题,共有2个小问,先来看下正确答案解析:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:来看下o1 完整版的答案,可以看到答案也是很长,但只答对了第一小问,第二小问回答错误,在经过提醒后,仍未能回答正确。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:再来看看claude-3.5-sonnet的答案,两个小问的答案均回答错误,经过再次提醒答案不正确后,依然无法纠正答案!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:o1 preview居然两个小问都回答正确!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测三:编程检验

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的聊天机器人、编程学习平台

提示词:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这属于专家级难度的编程题目,看下三个模型是否能够通过检验:

o1 完整版:o1完整版输出的代码没有检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型重新纠正后,依然只正确了一半!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:claude输出的代码出现了语法错误,检验失败!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型自行纠正,最后仅对了一半

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:没想到o1 preview再次获胜,代码检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 总结

经过一系列的对比,可以初步得出以下结论:

多模态推理:在多模态推理方面,o1 完整版与GPT-4o都未能给出正确答案,虽然o1 完整版在经过提醒后能够给出正确答案,但在面对此类多模态逻辑推理题目中,模型的局限性还是比较明显

数学能力测试:在数学能力测试中,o1 preview意外地表现出色,超越了o1 完整版

编程检验:在编程能力方面,o1 完整版即使经过二次提醒输出的代码还是未能完全通过检验

今天的实测内容更多地侧重于用户的实际需求,从公务员考试中的图形逻辑题到高考数学题,再到编程题目,都更贴近用户的日常生活。然而,从实测结果来看,o1 完整版在实际应用方面,其能力仍有待进一步的优化和完善。

此外,听说o1 完整版后续还会添加对网页浏览和文件上传等工具的支持,我们可以期待看看!

Like (0)
302.AI302.AI
Previous 2024 年 12 月 10 日 下午6:46
Next 2024 年 12 月 12 日 下午7:18

相关推荐

  • 资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

    12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…

    2024 年 12 月 23 日
    1.5K00
  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    46700
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    37300
  • 可灵AI全面开放,引领视频创作新时代

    7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。 从上线到全面开放,可灵历经了一个多月的时间: 6月10日,快手科技宣布推出了可灵大…

    2024 年 8 月 6 日
    36900
  • 资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

    3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

    2025 年 3 月 26 日
    5100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注