资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气,但没想到最近几日接连有新模型发布。

1月20日晚,DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

(DeepSeek-R1技术论文可查看:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)

不知是巧合还是故意,时隔不到两天。

1月22日早上,谷歌带来了加强版推理模型 — gemini-2.0-flash-thinking-exp-01-21。该模型能够在多轮对话和推理中能够自我纠错,减少中间推理与最终答案之间的矛盾,提高了回答的可靠性和一致性。

两个模型在302平台的价格对比:

DeepSeek-R1:输入:0.6 美金/1M ; 输出:2.2 美金/1M;

gemini-2.0-flash-thinking-exp-01-21:输入:0.15 美金/1M ; 输出:0.6 美金/1M;

那么今天我们的对照模型就选择推理模型中的标杆– o1,不过o1的价格昂贵得多,其API调用成本足足是其它两个模型的数倍。如此高昂的成本投入,若无法在性能上实现显著领先,恐怕难以支撑其市场定位。

三个模型价格对比: o1 > DeepSeek-R1 > Gemini

那么实测的结果,是否会和价格一致呢?

模型实测:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:24点游戏

提示词:

请运用四则运算方法,将数字3、3、7、7进行组合运算,使其结果等于24。

考察点:涉及逆向运算的24点题目,如包含除法和分数的,对模型的推理能力有较高要求

(24点游戏规则:给出4个数字,利用四则运算(加、减、乘、除)及括号,使4个数字运算结果为24,每个数字只能用一次。)

o1:回答正确,步骤解析也很清楚。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:回答也是正确的,模型一步步分析后给出完整表达式,最后还验证确认答案。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:回答错误,首先给出了一个错误的答案,经过自我反省后意识到了错误,进而重新思考给出了新的答案。但可惜的是,第二次给出的答案不符合规则,重复使用了数字。这里可以发现,在同样的提示词下,只有Gemini出现了重复使用数字的情况。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

为此,我们在提示词中添加限制条件:每个数字只能使用一次。

然而,可以看到模型仍然忽略了提示词,并且在运算过程中重复使用了数字3,却说每个数学仅使用过一次。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第1轮实测结果:DeepSeek-R1 = o1 > Gemini

实测2:推理逻辑

提示词:

小刘和小红都是张老师的学生,张老师的生日是M月N日,两人都都知道张老师的生日是下列10天中的一天,这十天分别是3月4日、3月5日、3月8日、6月4日、6月7日、9月月1日、9月5日、12月1日、12月2日、12月8日。张老师把M值告诉了小刘,把N值告诉了小红,然后有如下对话:

小刘说:如果我不知道的话小红肯定也不知道。

小红说:刚才我不知道听小刘一说我就知道了。

小刘说:哦那我也知道了。

请根据以上对话推断出张老师的生日是?

A.3月4日。B.3月5日。C.3月8日。

D.9月1日。E.9月5日。

考察点:这道题的逻辑较为复杂,需重点理解题目中对话的含义。

o1-plus:虽然最后给出的答案是正确的,但是仔细看解析过程表达不太易懂,读完甚至感觉有点懵。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

比如在解析中出现了”在听到「月份只能是 3 或 9」”这样的表达,让人误以为是在提示词中出现的条件。实际上这是模型通过第一轮分析后得出的结论:

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:回答正确,整个分析过程逻辑清晰、且非常易懂。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:输出的答案整体篇幅也是较长,逐步进行思考分析,最后给出了正确答案

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第2轮实测结果:DeepSeek-R1 > o1 = Gemini

实测3:编程测试

提示词:

用前端代码实现,让黄色小球在正方形内弹跳,确保正确处理碰撞检测。让正方形缓慢旋转,确保小球停留在正方形内,所有代码放在一起输出。

o1-plus:正确处理碰撞且确保小球停留在正方形内。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:R1生成的效果和o1大差不差,同样能够能正确处理碰撞且确保小球在正方形内活动。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:生成的效果略逊色于另外两个模型,可以看到小球在碰撞时准确性存在不足,出现未触及线却发生反弹的现象。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第3轮实测结果:DeepSeek-R1 = o1 > Gemini

实测结果总结

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在数学任务中表现依次排名:DeepSeek-R1 o1 >>> Gemini。

在24点任务中,DeepSeek-R1和 o1 均给出了正确的答案和解析,而gemini则是在回答的过程中出现了模型幻觉,表现较差

(2)在推理方面表现依次排名:DeepSeek-R1 >o1 = Gemini。

在推理方面,R1的推理解析更加清晰易懂,可读性更强。同时,我们也注意到,推理大模型在展现完整思考过程时,应该考虑如何兼顾提高输出内容的整洁性。因为大多数用户在面对冗长且缺乏重点的输出时,往往难以保持足够的耐心。

(3)在编程方面表现依次排名:DeepSeek-R1 o1 > Gemini。

在编程任务中,R1和 o1的表现相当,而Gemini则略逊色,生成效果的准确度不足。

将这三个结论汇总,可以得出:

三个模型能力对比:DeepSeek-R1 > o1> Gemini

三个模型价格对比: o1 > DeepSeek-R1 > Gemini

就本次实测对比来看,DeepSeek-R1的表现是最好的。Gemini尽管在三个模型中价格最便宜,但是效果却是三个模型中最差的。而DeepSeek-R1能够以远低于o1的价格实现与o1相当的效果,甚至在某些细节之处还可能有所超越,性价比最高。

Deepseek这次在推理模型上的开源发展已经赶超了闭源解决方案,在性能与成本的权衡中更是大大优于国外模型,这极大地鼓舞了国内的AI从业者,期待未来会有更多优秀的国产模型涌现。

以上模型在302.AI上使用:

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Like (0)
302.AI302.AI
Previous 2025 年 1 月 21 日 下午8:17
Next 2024 年 10 月 29 日 下午6:08

相关推荐

  • 资讯丨302.AI正式上线客户端!三个版本可供选择

    随着技术的发展,AI正一点一点融入到我们的日常和生活中,成为我们工作和生活的重要辅助工具。为了给用户带来多样的AI服务体验,11月14日,302.AI正式上线桌面客户端,并提供了以下三个版本给用户选择: 主账户版:支持Windows、Mac系统 子账户版:支持Windows、Mac系统 极简版:仅支持Mac系统 版本介绍: 主账号版: (展示的界面以Wind…

    2024 年 11 月 14 日
    77100
  • 资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

    11月19日,Mistral AI宣布推出新视觉模型——Pixtral Large。 Pixtral Large是基于Mistral Large 2构建,具有124B开放权重的多模态模型,支持128K上下文窗口,能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。 根据Mistral AI提供的Pixtral La…

    2024 年 11 月 21 日
    24200
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    36900
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    39200
  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    19600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注