资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气,但没想到最近几日接连有新模型发布。

1月20日晚,DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

(DeepSeek-R1技术论文可查看:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)

不知是巧合还是故意,时隔不到两天。

1月22日早上,谷歌带来了加强版推理模型 — gemini-2.0-flash-thinking-exp-01-21。该模型能够在多轮对话和推理中能够自我纠错,减少中间推理与最终答案之间的矛盾,提高了回答的可靠性和一致性。

两个模型在302平台的价格对比:

DeepSeek-R1:输入:0.6 美金/1M ; 输出:2.2 美金/1M;

gemini-2.0-flash-thinking-exp-01-21:输入:0.15 美金/1M ; 输出:0.6 美金/1M;

那么今天我们的对照模型就选择推理模型中的标杆– o1,不过o1的价格昂贵得多,其API调用成本足足是其它两个模型的数倍。如此高昂的成本投入,若无法在性能上实现显著领先,恐怕难以支撑其市场定位。

三个模型价格对比: o1 > DeepSeek-R1 > Gemini

那么实测的结果,是否会和价格一致呢?

模型实测:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:24点游戏

提示词:

请运用四则运算方法,将数字3、3、7、7进行组合运算,使其结果等于24。

考察点:涉及逆向运算的24点题目,如包含除法和分数的,对模型的推理能力有较高要求

(24点游戏规则:给出4个数字,利用四则运算(加、减、乘、除)及括号,使4个数字运算结果为24,每个数字只能用一次。)

o1:回答正确,步骤解析也很清楚。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:回答也是正确的,模型一步步分析后给出完整表达式,最后还验证确认答案。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:回答错误,首先给出了一个错误的答案,经过自我反省后意识到了错误,进而重新思考给出了新的答案。但可惜的是,第二次给出的答案不符合规则,重复使用了数字。这里可以发现,在同样的提示词下,只有Gemini出现了重复使用数字的情况。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

为此,我们在提示词中添加限制条件:每个数字只能使用一次。

然而,可以看到模型仍然忽略了提示词,并且在运算过程中重复使用了数字3,却说每个数学仅使用过一次。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第1轮实测结果:DeepSeek-R1 = o1 > Gemini

实测2:推理逻辑

提示词:

小刘和小红都是张老师的学生,张老师的生日是M月N日,两人都都知道张老师的生日是下列10天中的一天,这十天分别是3月4日、3月5日、3月8日、6月4日、6月7日、9月月1日、9月5日、12月1日、12月2日、12月8日。张老师把M值告诉了小刘,把N值告诉了小红,然后有如下对话:

小刘说:如果我不知道的话小红肯定也不知道。

小红说:刚才我不知道听小刘一说我就知道了。

小刘说:哦那我也知道了。

请根据以上对话推断出张老师的生日是?

A.3月4日。B.3月5日。C.3月8日。

D.9月1日。E.9月5日。

考察点:这道题的逻辑较为复杂,需重点理解题目中对话的含义。

o1-plus:虽然最后给出的答案是正确的,但是仔细看解析过程表达不太易懂,读完甚至感觉有点懵。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

比如在解析中出现了”在听到「月份只能是 3 或 9」”这样的表达,让人误以为是在提示词中出现的条件。实际上这是模型通过第一轮分析后得出的结论:

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:回答正确,整个分析过程逻辑清晰、且非常易懂。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:输出的答案整体篇幅也是较长,逐步进行思考分析,最后给出了正确答案

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第2轮实测结果:DeepSeek-R1 > o1 = Gemini

实测3:编程测试

提示词:

用前端代码实现,让黄色小球在正方形内弹跳,确保正确处理碰撞检测。让正方形缓慢旋转,确保小球停留在正方形内,所有代码放在一起输出。

o1-plus:正确处理碰撞且确保小球停留在正方形内。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

DeepSeek-R1:R1生成的效果和o1大差不差,同样能够能正确处理碰撞且确保小球在正方形内活动。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Gemini:生成的效果略逊色于另外两个模型,可以看到小球在碰撞时准确性存在不足,出现未触及线却发生反弹的现象。

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

第3轮实测结果:DeepSeek-R1 = o1 > Gemini

实测结果总结

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在数学任务中表现依次排名:DeepSeek-R1 o1 >>> Gemini。

在24点任务中,DeepSeek-R1和 o1 均给出了正确的答案和解析,而gemini则是在回答的过程中出现了模型幻觉,表现较差

(2)在推理方面表现依次排名:DeepSeek-R1 >o1 = Gemini。

在推理方面,R1的推理解析更加清晰易懂,可读性更强。同时,我们也注意到,推理大模型在展现完整思考过程时,应该考虑如何兼顾提高输出内容的整洁性。因为大多数用户在面对冗长且缺乏重点的输出时,往往难以保持足够的耐心。

(3)在编程方面表现依次排名:DeepSeek-R1 o1 > Gemini。

在编程任务中,R1和 o1的表现相当,而Gemini则略逊色,生成效果的准确度不足。

将这三个结论汇总,可以得出:

三个模型能力对比:DeepSeek-R1 > o1> Gemini

三个模型价格对比: o1 > DeepSeek-R1 > Gemini

就本次实测对比来看,DeepSeek-R1的表现是最好的。Gemini尽管在三个模型中价格最便宜,但是效果却是三个模型中最差的。而DeepSeek-R1能够以远低于o1的价格实现与o1相当的效果,甚至在某些细节之处还可能有所超越,性价比最高。

Deepseek这次在推理模型上的开源发展已经赶超了闭源解决方案,在性能与成本的权衡中更是大大优于国外模型,这极大地鼓舞了国内的AI从业者,期待未来会有更多优秀的国产模型涌现。

以上模型在302.AI上使用:

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

资讯丨最新推理模型PK,DeepSeek-R1/Gemini-Thinking/o1

Like (0)
302.AI302.AI
Previous 2025 年 1 月 21 日 下午8:17
Next 2025 年 2 月 5 日 上午11:15

相关推荐

  • 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

    8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 在一系列数学基准评测上,Qwen2-Math-…

    2024 年 8 月 19 日
    49700
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    28500
  • 资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

    要说近期AI圈里最红的,应该就是来自谷歌的gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型,gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成,还能够通过自然语言对话直接对图像进行修改。 这种把传统的语言大模…

    2025 年 3 月 22 日
    12300
  • 资讯丨当小红书爆火的Recraft新风格与添加背景文字功能结合,会碰撞出什么样的火花?

    最近,302.AI工具超市的AI图片工具箱推出了一个全新的功能——添加背景文字。这一功能的灵感最初来源于苹果设备中壁纸所展现出的分层效果。 在前段时间,一位16岁的高中生也构建了一个应用叫“text-behind-image”,这款应用旨在帮助用户轻松地将文字添加到图像背景中,实现文字与背景图像的融合。在实际体验该应用后,我们发现线上版本无法使用,并且有可能…

    2024 年 11 月 27 日
    60700
  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    47300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注