谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升

根据官方数据显示,两款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一个内部保留的竞赛数学问题集)基准测试中,两个模型都分别取得了约20%的改进。还有,在视觉和代码生成用例中,这两个模型的性能也有所提升(范围为2-7%),特别是在评估视觉理解和Python代码生成时。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

除此之外,Gemini-1.5-Flash-002速率限制提高到每分钟2,000个请求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分钟1,000个请求(RPM),两个模型的输出速度都提高了2 倍,延迟降低 3 倍。

以下是通过302.AI的模型竞技场对比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的响应速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002对比旧版本速度方面的确有了提升:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

然而,因为中国大陆限制访问Google服务,国内用户无法在官方网站直接访问或使用Gemini-1.5-Pro-002Gemini-1.5-Flash-002,而302.AI已经在聊天机器人和模型竞技场同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款最新模型,且提供按需付费的服务方式,为用户带来了极大的灵活性和便利性:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在这个时间点发布,就免不了被拿来和OpenAI的草莓模型作比较。接下来,小编就使用302.AI的模型竞技场,对Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三个模型进行比较,更方便更直观地对比三个模型的回答:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

由于“草莓”模型o1-preview还无法处理多模态内容,以下测试将注重在数学、理解、推理能力上。

首先,第一题是热身题,提问:“昨天的当天是明天的哪一天?”热身题题目比较简单,第一题三个模型都是回答正确的:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来正式开始测试数学理解能力,提问:“地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?”

以下三个模型的答案中可以看到,只有o1-preview的回答是正确的,正确答案就是35厘米Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型虽然分析过程稍稍有不同,但给出的答案都是一样的,是错误的。从回答中可以很明显看出两个模型都只是把题目中出现数据进行简单累加,显然没有理解并分析题目的具体情境。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来继续提问:“3307是质数吗?”

从三个模型给出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐渐有点“胡说八道”,前后的逻辑并不通,提问的是3307是不是质数,Gemini-1.5-Pro-002出的回答解析却是31×107=3317,让人属实觉得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商为整数,且没有余数,但是答案中出现了却分数3/7。只有o1-preview草莓模型给出了正确的解答过程和答案。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

进行简单的测试之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型在数学、理解能力上还有比较大的上升空间,与o1-preview模型对比之下,差距还是比较明显的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在线调试,开发者无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对API进行实时测试和调试,而且API分类清晰,开发者能快速找到所需的API,节省了大量的时间和精力:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

AI模型的发展是一个持续进步的过程,而对于用户来说,选择合适的AI模型应该基于具体的应用需求,我们可以期待看到Google在未来的更新中能够进一步提升Gemini系列模型的性能,尤其是在数学和逻辑推理方面。同时,也希望更多的创新和突破能够出现在AI领域,为用户带来更智能、更高效的人工智能体验。

参考文章:https://developers.googleblog.com/zh-hans/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

Like (0)
302.AI302.AI
Previous 2024 年 9 月 25 日 下午7:11
Next 2024 年 9 月 27 日 下午5:16

相关推荐

  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    38400
  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    38700
  • 资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

    2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。 在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…

    2025 年 2 月 25 日
    19600
  • 可灵AI全面开放,引领视频创作新时代

    7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。 从上线到全面开放,可灵历经了一个多月的时间: 6月10日,快手科技宣布推出了可灵大…

    2024 年 8 月 6 日
    37200
  • 资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

    3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…

    2025 年 3 月 21 日
    20300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注