302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升

根据官方数据显示,两款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一个内部保留的竞赛数学问题集)基准测试中,两个模型都分别取得了约20%的改进。还有,在视觉和代码生成用例中,这两个模型的性能也有所提升(范围为2-7%),特别是在评估视觉理解和Python代码生成时。

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

除此之外,Gemini-1.5-Flash-002速率限制提高到每分钟2,000个请求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分钟1,000个请求(RPM),两个模型的输出速度都提高了2 倍,延迟降低 3 倍。

以下是通过302.AI的模型竞技场对比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的响应速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002对比旧版本速度方面的确有了提升:

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

然而,因为中国大陆限制访问Google服务,国内用户无法在官方网站直接访问或使用Gemini-1.5-Pro-002Gemini-1.5-Flash-002,而302.AI已经在聊天机器人和模型竞技场同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款最新模型,且提供按需付费的服务方式,为用户带来了极大的灵活性和便利性:

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在这个时间点发布,就免不了被拿来和OpenAI的草莓模型作比较。接下来,小编就使用302.AI的模型竞技场,对Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三个模型进行比较,更方便更直观地对比三个模型的回答:

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

由于“草莓”模型o1-preview还无法处理多模态内容,以下测试将注重在数学、理解、推理能力上。

首先,第一题是热身题,提问:“昨天的当天是明天的哪一天?”热身题题目比较简单,第一题三个模型都是回答正确的:

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来正式开始测试数学理解能力,提问:“地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?”

以下三个模型的答案中可以看到,只有o1-preview的回答是正确的,正确答案就是35厘米Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型虽然分析过程稍稍有不同,但给出的答案都是一样的,是错误的。从回答中可以很明显看出两个模型都只是把题目中出现数据进行简单累加,显然没有理解并分析题目的具体情境。

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来继续提问:“3307是质数吗?”

从三个模型给出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐渐有点“胡说八道”,前后的逻辑并不通,提问的是3307是不是质数,Gemini-1.5-Pro-002出的回答解析却是31×107=3317,让人属实觉得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商为整数,且没有余数,但是答案中出现了却分数3/7。只有o1-preview草莓模型给出了正确的解答过程和答案。

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

进行简单的测试之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型在数学、理解能力上还有比较大的上升空间,与o1-preview模型对比之下,差距还是比较明显的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在线调试,开发者无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对API进行实时测试和调试,而且API分类清晰,开发者能快速找到所需的API,节省了大量的时间和精力:

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

AI模型的发展是一个持续进步的过程,而对于用户来说,选择合适的AI模型应该基于具体的应用需求,我们可以期待看到Google在未来的更新中能够进一步提升Gemini系列模型的性能,尤其是在数学和逻辑推理方面。同时,也希望更多的创新和突破能够出现在AI领域,为用户带来更智能、更高效的人工智能体验。

参考文章:https://developers.googleblog.com/zh-hans/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 9 月 25 日 下午7:11
Next 2024 年 9 月 27 日 下午5:16

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8330
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3550
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4531
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注