谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升

根据官方数据显示,两款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一个内部保留的竞赛数学问题集)基准测试中,两个模型都分别取得了约20%的改进。还有,在视觉和代码生成用例中,这两个模型的性能也有所提升(范围为2-7%),特别是在评估视觉理解和Python代码生成时。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

除此之外,Gemini-1.5-Flash-002速率限制提高到每分钟2,000个请求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分钟1,000个请求(RPM),两个模型的输出速度都提高了2 倍,延迟降低 3 倍。

以下是通过302.AI的模型竞技场对比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的响应速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002对比旧版本速度方面的确有了提升:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

然而,因为中国大陆限制访问Google服务,国内用户无法在官方网站直接访问或使用Gemini-1.5-Pro-002Gemini-1.5-Flash-002,而302.AI已经在聊天机器人和模型竞技场同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款最新模型,且提供按需付费的服务方式,为用户带来了极大的灵活性和便利性:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在这个时间点发布,就免不了被拿来和OpenAI的草莓模型作比较。接下来,小编就使用302.AI的模型竞技场,对Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三个模型进行比较,更方便更直观地对比三个模型的回答:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

由于“草莓”模型o1-preview还无法处理多模态内容,以下测试将注重在数学、理解、推理能力上。

首先,第一题是热身题,提问:“昨天的当天是明天的哪一天?”热身题题目比较简单,第一题三个模型都是回答正确的:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来正式开始测试数学理解能力,提问:“地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?”

以下三个模型的答案中可以看到,只有o1-preview的回答是正确的,正确答案就是35厘米Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型虽然分析过程稍稍有不同,但给出的答案都是一样的,是错误的。从回答中可以很明显看出两个模型都只是把题目中出现数据进行简单累加,显然没有理解并分析题目的具体情境。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来继续提问:“3307是质数吗?”

从三个模型给出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐渐有点“胡说八道”,前后的逻辑并不通,提问的是3307是不是质数,Gemini-1.5-Pro-002出的回答解析却是31×107=3317,让人属实觉得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商为整数,且没有余数,但是答案中出现了却分数3/7。只有o1-preview草莓模型给出了正确的解答过程和答案。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

进行简单的测试之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型在数学、理解能力上还有比较大的上升空间,与o1-preview模型对比之下,差距还是比较明显的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在线调试,开发者无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对API进行实时测试和调试,而且API分类清晰,开发者能快速找到所需的API,节省了大量的时间和精力:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

AI模型的发展是一个持续进步的过程,而对于用户来说,选择合适的AI模型应该基于具体的应用需求,我们可以期待看到Google在未来的更新中能够进一步提升Gemini系列模型的性能,尤其是在数学和逻辑推理方面。同时,也希望更多的创新和突破能够出现在AI领域,为用户带来更智能、更高效的人工智能体验。

参考文章:https://developers.googleblog.com/zh-hans/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

(0)
302.AI302.AI
上一篇 6天前
下一篇 4天前

相关推荐

  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    9700
  • GPT-4o新版本突然上线,结构化输出是什么?

    8月6日,OpenAI的官网悄悄上线了新版本gpt-4o-2024-08-06模型。去年的DevDay活动中,OpenAI推出了JSON模式,而这次升级的新版本在API中引入了结构化输出,这一新功能旨在确保模型生成的输出与开发人员提供的 JSON 架构完全匹配。 gpt-4o-2024-08-06采用结构化输出的新模型在复杂 JSON 模式跟踪的评估中获得了…

    2024 年 8 月 8 日
    11600
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    19600
  • 百度发布的升级版Ernie4.0 Turbo模型将与GPT-4竞争?

    6月28日百度WAVE SUMMIT峰会上发布了最新的文心大模型 4.0 Turbo即Ernie 4.0 turbo。 Ernie 4.0 turbo 是2023年10月推出的 Ernie 4.0 模型的升级版,这一新版本在反应速度和性能上有了显著提升。 Ernie 4.0 Turbo的全称为“Enhanced Representation through …

    2024 年 7 月 22 日
    17800
  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    12700

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注