谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升

根据官方数据显示,两款模型在MMLU-pro的性能提高了7%,而在MATH和HiddenMath(一个内部保留的竞赛数学问题集)基准测试中,两个模型都分别取得了约20%的改进。还有,在视觉和代码生成用例中,这两个模型的性能也有所提升(范围为2-7%),特别是在评估视觉理解和Python代码生成时。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

除此之外,Gemini-1.5-Flash-002速率限制提高到每分钟2,000个请求(RPM),Gemini-1.5-Pro-002的速率限制提高到每分钟1,000个请求(RPM),两个模型的输出速度都提高了2 倍,延迟降低 3 倍。

以下是通过302.AI的模型竞技场对比Gemini-1.5-Pro-002、Gemini-1.5-Flash-002、Gemini-1.5-Pro和Gemini-1.5-Flash四款模型的响应速度,可以看到Gemini-1.5-Pro-002和Gemini-1.5-Flash-002对比旧版本速度方面的确有了提升:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

然而,因为中国大陆限制访问Google服务,国内用户无法在官方网站直接访问或使用Gemini-1.5-Pro-002Gemini-1.5-Flash-002,而302.AI已经在聊天机器人和模型竞技场同步更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款最新模型,且提供按需付费的服务方式,为用户带来了极大的灵活性和便利性:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

Gemini-1.5-Pro-002和Gemini-1.5-Flash-002既然在这个时间点发布,就免不了被拿来和OpenAI的草莓模型作比较。接下来,小编就使用302.AI的模型竞技场,对Gemini-1.5-Pro-002、Gemini-1.5-Flash-002和“草莓”模型o1-preview三个模型进行比较,更方便更直观地对比三个模型的回答:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

由于“草莓”模型o1-preview还无法处理多模态内容,以下测试将注重在数学、理解、推理能力上。

首先,第一题是热身题,提问:“昨天的当天是明天的哪一天?”热身题题目比较简单,第一题三个模型都是回答正确的:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来正式开始测试数学理解能力,提问:“地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?”

以下三个模型的答案中可以看到,只有o1-preview的回答是正确的,正确答案就是35厘米Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型虽然分析过程稍稍有不同,但给出的答案都是一样的,是错误的。从回答中可以很明显看出两个模型都只是把题目中出现数据进行简单累加,显然没有理解并分析题目的具体情境。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

接下来继续提问:“3307是质数吗?”

从三个模型给出的答案中可以看到,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的回答逐渐有点“胡说八道”,前后的逻辑并不通,提问的是3307是不是质数,Gemini-1.5-Pro-002出的回答解析却是31×107=3317,让人属实觉得莫名其妙;而Gemini-1.5-Flash-002更是,整除的意思是商为整数,且没有余数,但是答案中出现了却分数3/7。只有o1-preview草莓模型给出了正确的解答过程和答案。

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

进行简单的测试之后,可以得出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两个模型在数学、理解能力上还有比较大的上升空间,与o1-preview模型对比之下,差距还是比较明显的。

值得一提的是,302.AI的API超市也更新了Gemini-1.5-Pro-002和Gemini-1.5-Flash-002的API,支持在线调试,开发者无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对API进行实时测试和调试,而且API分类清晰,开发者能快速找到所需的API,节省了大量的时间和精力:

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

AI模型的发展是一个持续进步的过程,而对于用户来说,选择合适的AI模型应该基于具体的应用需求,我们可以期待看到Google在未来的更新中能够进一步提升Gemini系列模型的性能,尤其是在数学和逻辑推理方面。同时,也希望更多的创新和突破能够出现在AI领域,为用户带来更智能、更高效的人工智能体验。

参考文章:https://developers.googleblog.com/zh-hans/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

Like (0)
302.AI302.AI
Previous 2024 年 9 月 25 日 下午7:11
Next 2024 年 9 月 27 日 下午5:16

相关推荐

  • 资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

    最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…

    5天前
    11700
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日
    7600
  • 视频生成模型神仙打架?到底哪家更胜一筹

    自从OpenAI发布了正在研发和测试中的文生视频大模型Sora后,AI视频生成工具接连“内卷”,开始”神仙打架“模式。 首先,在当地时间6月12日,Luma创始人官宣并发布新视频模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。6月28日,Luma宣布首尾帧制作加入Dream…

    2024 年 7 月 17 日
    26000
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    18000
  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    52300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注