资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整版都拿到了最高分。更值得一提的是,在GPQA Diamond基准测试上,o1 完整版的表现甚至超越了人类专家!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 在302.AI上使用

按照惯例,302.AI第一时间更新了OpenAI o1完整版模型,而且302.AI提供了按需付费的使用方式,没有捆绑套餐、没有月费。下面是具体的获取方式:

进入302.AI——左侧菜单栏点击【使用机器人】——【聊天机器人】——模型选择【o1-plus】——点击【确定】——最后【创建聊天机器人】;

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 实测对比

每次模型一出来,总是被夸得天花乱坠,但真实效果到底是怎么样?还得实测过才知道。下面我们就通过不同方面实测对比,看看OpenAI o1完整版是不是真的是满血版的o1。

实测一:多模态推理

对比模型:o1 完整版和GPT-4o 多模态版

使用工具:302.AI的聊天机器人

提示词:从所给的四个选项中,选择最恰当的一个填入问号处,使之呈现一定的规律性。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这是我国公务考试中的固定图片推理题,同时也可以说是每一个考公人的噩梦,先说一下正确答案为选项C

原因:图形元素组成不同,优先考虑属性规律。九宫格优先按横行来看,第 一行中,三幅图依次为仅轴对称图形、仅中心对称图形、仅轴对称图形;代入第二行验 证,第二行与第一行规律相同。因此,第三行也应该满足此规律,问号处应该填入一个 仅轴对称的图形。A 项为仅中心对称图形,B 项为既轴对称又中心对称图形,D 项为不对称图形,只有C项为仅轴对称图形,所以当选。

GPT-4o多模态:接下来看看GPT-4o的答案,从答案分析中可以看出,模型已经很努力在“瞎掰”了,但很可惜,答案是错误的!即使经过提醒答案不对,GPT-4o还是没能给出正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:o1 完整版一顿分析,给出了错误的答案。不过在经过第二次提醒后,最终纠正了回答,给出了正确答案。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测二:数学能力测试

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:

已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB

(1)求sinA;

(2)设AB=5,求AB边上的高。

分析:这是2023年的河北高考题,共有2个小问,先来看下正确答案解析:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 完整版:来看下o1 完整版的答案,可以看到答案也是很长,但只答对了第一小问,第二小问回答错误,在经过提醒后,仍未能回答正确。

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:再来看看claude-3.5-sonnet的答案,两个小问的答案均回答错误,经过再次提醒答案不正确后,依然无法纠正答案!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:o1 preview居然两个小问都回答正确!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

实测三:编程检验

对比模型:o1完整版、o1 preview、claude-3.5-sonnet-20241022

使用工具:302.AI的聊天机器人、编程学习平台

提示词:

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

分析:这属于专家级难度的编程题目,看下三个模型是否能够通过检验:

o1 完整版:o1完整版输出的代码没有检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型重新纠正后,依然只正确了一半!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

claude-3.5-sonnet:claude输出的代码出现了语法错误,检验失败!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

将错误返回给模型自行纠正,最后仅对了一半

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

o1 preview:没想到o1 preview再次获胜,代码检验通过!

资讯丨在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!

> 总结

经过一系列的对比,可以初步得出以下结论:

多模态推理:在多模态推理方面,o1 完整版与GPT-4o都未能给出正确答案,虽然o1 完整版在经过提醒后能够给出正确答案,但在面对此类多模态逻辑推理题目中,模型的局限性还是比较明显

数学能力测试:在数学能力测试中,o1 preview意外地表现出色,超越了o1 完整版

编程检验:在编程能力方面,o1 完整版即使经过二次提醒输出的代码还是未能完全通过检验

今天的实测内容更多地侧重于用户的实际需求,从公务员考试中的图形逻辑题到高考数学题,再到编程题目,都更贴近用户的日常生活。然而,从实测结果来看,o1 完整版在实际应用方面,其能力仍有待进一步的优化和完善。

此外,听说o1 完整版后续还会添加对网页浏览和文件上传等工具的支持,我们可以期待看看!

Like (0)
302.AI302.AI
Previous 2024 年 12 月 10 日 下午6:46
Next 2024 年 12 月 12 日 下午7:18

相关推荐

  • 资讯丨国产推理模型Hunyuan-T1-Latest对比实测:速度提升,推理与中文理解表现惊艳!

    3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

    2025 年 3 月 26 日
    6300
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    46400
  • 资讯丨302 AI红包封面生成工具——1分钟定制出专属红包封面(附全攻略)

    距离春节还有不到半个月的时间,在这阖家团圆的传统佳节里,红包作为传递祝福、表达心意的传统载体,承载着浓厚的年味气息。当我们还在回味纸质红包带来的那份浓浓年味与祝福的温度时,线上红包早已成为人们日常社交、节日庆祝不可或缺的表达心意的方式。而其中,定制专属的线上红包封面更是能够承载个性化的祝福语和独特寓意,为节日增添一份特别的仪式感。 为了帮助用户能够简单、高效…

    2025 年 1 月 14 日
    42000
  • 资讯丨302.AI视频竞技场:集模型PK与视频生成的多功能竞技场

    当AI视频模型同台竞技,谁将获得最终胜利? 目前,AI视频生成领域涌现出越来越多的新模型,作为使用者是不是常常会面临这样的困惑:“哪个视频模型最符合我的需求?哪个模型的效果更佳?” 为了帮助用户解开这些疑惑,302.AI最新推出了一款工具:视频竞技场。这是一个集成了多种功能的竞技场,用户不仅能够在视频竞技场进行AI模型视频生成能力的比拼,还可以根据自己的需求…

    5天前
    4800
  • 资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

    2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。 在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…

    2025 年 2 月 25 日
    19700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注