谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升

根据官方数据显示,两款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一个内部保留的竞赛数学问题集)基准测试中,两个模型都分别取得了约20%的改进。还有,在视觉和代码生成用例中,这两个模型的性能也有所提升(范围为2-7%),特别是在评估视觉理解和Python代码生成时。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

除此之外,Gemini-1.5-Flash-002速率限制提高到每分钟2,000个请求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分钟1,000个请求(RPM),两个模型的输出速度都提高了2 倍,延迟降低 3 倍。

以下是通过302.AI的模型竞技场对比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的响应速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002对比旧版本速度方面的确有了提升:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

然而,因为中国大陆限制访问Google服务,国内用户无法在官方网站直接访问或使用Gemini-1.5-Pro-002Gemini-1.5-Flash-002,而302.AI已经在聊天机器人和模型竞技场同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款最新模型,且提供按需付费的服务方式,为用户带来了极大的灵活性和便利性:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在这个时间点发布,就免不了被拿来和OpenAI的草莓模型作比较。接下来,小编就使用302.AI的模型竞技场,对Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三个模型进行比较,更方便更直观地对比三个模型的回答:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

由于“草莓”模型o1-preview还无法处理多模态内容,以下测试将注重在数学、理解、推理能力上。

首先,第一题是热身题,提问:“昨天的当天是明天的哪一天?”热身题题目比较简单,第一题三个模型都是回答正确的:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来正式开始测试数学理解能力,提问:“地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?”

以下三个模型的答案中可以看到,只有o1-preview的回答是正确的,正确答案就是35厘米Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型虽然分析过程稍稍有不同,但给出的答案都是一样的,是错误的。从回答中可以很明显看出两个模型都只是把题目中出现数据进行简单累加,显然没有理解并分析题目的具体情境。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来继续提问:“3307是质数吗?”

从三个模型给出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐渐有点“胡说八道”,前后的逻辑并不通,提问的是3307是不是质数,Gemini-1.5-Pro-002出的回答解析却是31×107=3317,让人属实觉得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商为整数,且没有余数,但是答案中出现了却分数3/7。只有o1-preview草莓模型给出了正确的解答过程和答案。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

进行简单的测试之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型在数学、理解能力上还有比较大的上升空间,与o1-preview模型对比之下,差距还是比较明显的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在线调试,开发者无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对API进行实时测试和调试,而且API分类清晰,开发者能快速找到所需的API,节省了大量的时间和精力:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

AI模型的发展是一个持续进步的过程,而对于用户来说,选择合适的AI模型应该基于具体的应用需求,我们可以期待看到Google在未来的更新中能够进一步提升Gemini系列模型的性能,尤其是在数学和逻辑推理方面。同时,也希望更多的创新和突破能够出现在AI领域,为用户带来更智能、更高效的人工智能体验。

参考文章:https://developers.googleblog.com/zh-hans/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

Like (0)
302.AI302.AI
Previous 2024 年 9 月 25 日 下午7:11
Next 2024 年 9 月 27 日 下午5:16

相关推荐

  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    22600
  • 资讯丨如何1秒钟为大模型API增加长期记忆?限时免费体验!

    众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。但是想让AI真正的成为“人”,记忆又是必不可少的。 短期记忆的实现 现阶段比较普遍的大模型实现记忆方法,就是每次请求时,把聊天记录简单的塞入上下文,让大模型看了聊天记录再进行回答。 但是这么做,…

    2025 年 1 月 17 日
    21100
  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    36300
  • 百度发布的升级版Ernie4.0 Turbo模型将与GPT-4竞争?

    6月28日百度WAVE SUMMIT峰会上发布了最新的文心大模型 4.0 Turbo即Ernie 4.0 turbo。 Ernie 4.0 turbo 是2023年10月推出的 Ernie 4.0 模型的升级版,这一新版本在反应速度和性能上有了显著提升。 Ernie 4.0 Turbo的全称为“Enhanced Representation through …

    2024 年 7 月 22 日
    68500
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    25400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注