资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。

最近,各模型厂家都坐不住了,频频出招。

先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。

2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个模型更新:Gemini 2.0 Flash、Gemini 2.0 Flash-Lite、Gemini 2.0 Pro,其中 Gemini 2.0 Pro 具有强大的编码性能和处理复杂指令的能力,比谷歌此前发布的任何模型都具备更好的理解和推理世界知识的能力。

接下来,我们会通过实测对比 o3-mini(medium)、Gemini 2.0 pro 以及 DeepSeek-R1这三个模型各方面的表现,以便各位读者更直观了解三个模型。

首先来看三个模型在302平台的详细价格:

o3-mini:输入:1.1 PTC/1M ; 输出:4.4 PTC/1M

(302.AI提供的 o3-mini 模型默认为 medium 模式)

Gemini 2.0 Pro输入1.3 PTC/1M ; 输出:5.0 PTC/1M

DeepSeek-R1(多来源自动切换):输入:0.6 PTC/1M ; 输出:2.2 PTC/1M

价格对比: Gemini 2.0 Pro > o3-mini > DeepSeek-R1

模型实测:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:日期计算

提示词:

2022年6月5日到2024年11月12日,一共有多少天?

考察点:评估模型在处理实际问题时的逻辑推理和计算能力,难点在于在计算中模型是否能考虑到闰年以及包含起始日期。

o3-mini(medium):o3-mini 回答错误,其提供的答案也较为简单,主要通过代码计算两个时间点之间的间隔,最后运行给出答案。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

Gemini 2.0 pro:Gemini 的回答中存在错误,从输出的答案可以看出,在计算2022年6月的总天数时,遗漏需要包含的6月5日,导致最终计算结果少了一天。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

DeepSeek-R1 :回答正确。从分析中可以看到,R1 在计算2022年6月的天数时加上了6月5日,思考全面,最终计算结果是正确的。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

第1轮实测结果:DeepSeek-R1 > o3-mini = Gemini 2.0 pro

实测2:逻辑推理

提示词:

甲、乙、丙、丁是四位天资极高的艺术家,他们分别是舞蹈家、画家、歌唱家和作家,尚不能确定其中每个人所从事的专业领域。已知:

(1)有一天晚上,甲和丙出席了歌唱家的首次演出;

(2)画家曾为乙和作家两个人画过肖像;

(3)作家正准备写一本甲的传记,他所写的丁传记是畅销书;

(4)甲从来没有见过丙。

下面哪一选项正确地描述了每个人的身份?

A.甲是歌唱家,乙是作家,丙是画家,丁是舞蹈家。

B.甲是舞蹈家,乙是歌唱家,丙是作家,丁是画家。

C.甲是画家,乙是作家,丙是歌唱家,丁是舞蹈家。

D.甲是作家,乙是画家,丙是舞蹈家,丁是歌唱家。

E.甲是歌唱家,乙是画家,丙是作家,丁是舞蹈家。

考察点:测试模型能否理解并信息整合,需要同时考虑多个条件,综合分析以得出结论。

o3-mini(medium):回答错误。从 o3-mini 给出的答案可以看出,该模型在理解条件时出现了偏差,将⌈甲和丙出席了歌唱家的首次演出⌋ 这一条件误解为甲或丙为歌唱家。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

Gemini 2.0 pro:回答正确,答案解析从已知条件中进行假设,最终结合条件确认假设成立,得出最终结论。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

DeepSeek-R1 :回答正确,令人意外的是,R1采用了与上述模型不同的解题策略——答案排除法,模型根据给出的条件,逐一排除不可能的选项,最终剩下的选项为答案,再通过简单检验确认,这种方法更加简便。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

第2轮实测结果:DeepSeek-R1 > Gemini 2.0 pro > o3-mini

实测3:编程测试

提示词:

用前端代码实现让不同颜色的小球在旋转的六边形内弹跳,所有代码需要放在一起输出。

考察点:评估模型生成结果是否符合小球在六边形内弹跳的逻辑,包括碰撞检测及方向调整。

o3-mini(medium):o3-mini 生成的效果符合六边形内部弹跳的要求,小球的弹跳方向和轨迹在碰撞时均符合逻辑

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

Gemini 2.0 pro:从效果可以看出,部分小球弹跳超出了六边形的范围,不符合要求

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

DeepSeek-R1 :R1 的整体效果不尽如人意,界面中小球弹跳的逻辑不够严谨,大部分小球弹跳超出了六边形的范围,不符合要求。

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

第3轮实测结果:o3-mini > Gemini 2.0 pro = DeepSeek-R1

实测结果总结:

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在日期计算任务中表现依次排名:DeepSeek-R1 > o3-mini = Gemini 2.0 pro

只有DeepSeek-R1模型给出了正确的答案,o3-mini 和 Gemini 2.0 pro 在考虑因素上有所不足,未能展示出准确的逻辑计算能力。

(2)在逻辑推理方面表现依次排名:DeepSeek-R1 > Gemini 2.0 pro > o3-mini

在推理过程中,DeepSeek-R1通过采用排除法找到了正确答案,表现更加灵活。而Gemini 2.0 pro 尽管也给出了正确答案,但推理过程中略显冗长,而 o3-mini 未能准确理解前提条件,表现不佳

(3)在编程方面表现依次排名:o3-mini > Gemini 2.0 pro = DeepSeek-R1

在编程任务中o3-mini在六边形内的弹跳逻辑上均符合,效果最好。而 Gemini 2.0 pro 和DeepSeek-R1 则出现了明显的错误,部分小球跳出了六边形的边界。

总的来说,三个模型在实测中展现了不同方面的优势。在逻辑计算与推理方面,DeepSeek-R1优势更明显,但是在编程效果方面则是 o3-mini 效果更好。再回看三个模型的价格对比: Gemini 2.0 Pro > o3-mini > DeepSeek-R1,建议可以参考以上测评并根据自身需求去挑选模型使用。

或许是因为受到了DeepSeek的冲击,各大厂商在推出大模型的时候开始更加注重性价比。模型在提供可靠性能的同时,尽量保持了低成本优势,这对于广大受众来说无疑是一件好事,从前高昂的使用成本让很多用户对于AI望而却步,现在AI技术逐渐成为了大众人人可以用得上的工具。 

随着人工智能技术的不断进步,各大模型的竞争也将更加激烈。未来,我们期待这些模型在性能和应用场景上的进一步拓展,以便更好地服务于各类实际需求。

在302.AI上使用o3-mini和Gemini新系列模型

302.AI的聊天机器人和API超市均上线了o3-miniGemini新系列模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

o3-mini:依次点击使用机器人→聊天机器人→ 模型→o3-mini→ 确定→ 创建聊天机器人;

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

Gemini:依次点击使用机器人→聊天机器人→ 模型→按需选择→ 确定→ 创建聊天机器人;

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→OpenAI/Gemini

资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

Like (0)
302.AI302.AI
Previous 2025 年 2 月 7 日 下午6:40
Next 2025 年 2 月 12 日 下午10:35

相关推荐

  • 可灵AI全面开放,引领视频创作新时代

    7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。 从上线到全面开放,可灵历经了一个多月的时间: 6月10日,快手科技宣布推出了可灵大…

    2024 年 8 月 6 日
    33200
  • Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

    10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。 根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:…

    2024 年 10 月 28 日
    30200
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    38600
  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    32900
  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    47700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注