资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小的模型。

根据官方介绍,Gemini 2.0 Flash Exp是以Gemini 1.5 Flash的成功为基础,在同样快速的响应时间内增强了模型的性能。值得注意的是,Gemini 2.0 Flash Exp在关键基准测试中甚至比Gemini 1.5 Pro更快,速度是1.5 Pro的2倍!

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

Gemini 2.0 Flash Exp此次还带来了新的功能,除了支持图像、视频和音频等多模态输入外,它还支持多模态输出,比如原生生成的图像与文本混合,以及可操纵的文本到语音(TTS)多语言音频。这意味着,它能够在不同形式的信息之间转换。此外,Gemini 2.0 Flash Exp还支持原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。

> 在302.AI上使用:

目前302.AI已经提供了Gemini 2.0 Flash Exp模型,用户可以通过聊天机器人获得模型直接使用或者进入API超市快速接入模型的API。以下是具体的获取步骤:

聊天机器人

进入302.AI——左侧菜单栏点击使用机器人——点击聊天机器人——模型选择Gemini-2.0-Flash-Exp——点击确定——最后创建聊天机器人即可;

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

API超市

在左侧菜单栏点击使用API——API超市——分类中选择语言大模型——点击Gemini

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

接下来按需选择查看文档或者在线体验,以查看文档为例,进入后支持在线调试,这能够有效帮助用户提高开发效率。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

> 实测对比

既然赶在这个时间点发布,尽管两个模型的价格相差较大,但Gemini 2.0 Flash还是免不了会被用户拿来和o1 完整版对比。那接下来,我们就通过302.AI实测对比看看两个模型到底谁表现更好!除此之外,在下列多模态实测中,我们还选择了grok-vision-beta一起对比,看下三个模型的表现吧:

多模态实测:

对比模型:o1 完整版、gemini-2.0-flash-exp、grok-vision-beta

实测1:信息分析:

提示词:请根据图片回答,

(1)吃饭的人数为多少?

(2)如果我只需要1份炒花甲、1串羊肉串和2份绿茶共需要多少钱?

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:第一轮题目并不难,主要考察模型能否准确识别信息,并通过获得的信息进行简单计算。

o1 完整版:两个问题都回答正确

gemini-2.0-flash-exp:同样两个问题都回答正确

grok-vision-beta:第一小问回答正确,第二小问回答错误,对于物品的价格识别分析错误。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

实测2:图形推理:

提示词:从所给四个选项中,选择最合适的一个填入问号处,使之呈现一定规律性

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:第二轮是图形推理题,在上一篇推文中由于给出的图片推理题目太难以至于没有模型做对,所以这次降低了难度,找了一个相对简单的题目,下面先来看下解析:

第一行与第三行图形相对应位置定义叠加规律为:白+黑=白,白+白=黑,黑+黑=白,黑+白=黑,第二行应用该规律,只有A项符合。因此,选择A选项。

o1 完整版:分析过程很长,最后答案是正确的。

gemini-2.0-flash-exp:分析过程相对o1 完整版更加清晰,回答正确

grok-vision-beta:很可惜,回答错误。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

实测3:复杂任务测试:

提示词:我是一个糖尿病患者,如何用冰箱里的食材做一顿晚饭

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:最后是复杂任务测试,能够全面考察图像识别准确度、大模型逻辑链能力等,看下三个模型的回答:

o1 完整版:o1 完整版的回答比较模板化,在给出的菜谱中出现了很多冰箱里没有的食材,比如小白菜、黄瓜等,可以看出并不是根据冰箱的食材去回答的。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

gemini-2.0-flash-exp:gemini的回答非常出色!首先给出的菜谱中,食材大多数来自提供的图片里的,而且回答的步骤非常详细,甚至在最后还会告诉你为什么这份晚餐适合糖尿病患者以及更多的建议,整个回答清晰、完整。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

grok-vision-beta:grok给出的答案也并不是针对给出的图片回答,回答中的食谱出现了图片中没有的食材,如三文鱼等。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

其他测试:

数学测试

除了多模态测试,我们还针对gemini-2.0-flash-exp数学方面进行了实测,比如在昨天的推文中难倒了o1 完整版的高考数学题,昨天o1 完整版第一次只回答对了第一小问,第二小问回答错误,在经过提醒后,仍无法给出正确答案。

原题目是这样的:

已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB

(1)求sinA;

(2)设AB=5,求AB边上的高。

先给大家看下正确答案:

(1) sinA = (3√10)/10

(2) AB 边上的高为 6。

分析:可以看到,第一次提问时,Gemini 2.0 Flash 第一小问的回答是正确的,但是第二小问回答错误。不过经过一次提醒后,最终两个小问都回答正确了

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

中文支持:

我们在实测Gemini 2.0 Flash Exp的时,也发现了一些问题:例如当我们用中文提问模型的时候,Gemini 2.0 Flash Exp偶尔会出现用英文回答的情况。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

> 总结

通过以上多轮实测,可以初步得出以下结论:

信息分析:在信息分析实测中,Gemini 2.0 Flash表现出色,和o1 完整版不相上下。

图形推理:在图形推理上,对于难度中等的图形推理题,Gemini 2.0 Flash也能够轻松答对

复杂任务测试:而在更复杂的任务上,Gemini 2.0 Flash Exp对比其他模型显然具有更大的优势,其能够更准确地识别信息并提供符合用户需求的解答

其他测试:而除了多模态能力,Gemini 2.0 Flash的数学能力也不错,经过提示后可以迅速纠正错误。但是偶尔出现中文提问英文回答的问题,还有待改善。

总体而言,在多模态方面,Gemini 2.0 Flash对比o1 完整版可以说是更胜一筹。而且,目前Gemini 2.0 Flash在价格上对比o1 完整版,占据明显优势!除此之外,Gemini 2.0 Flash在处理复杂的数学题目时也表现出了优异的适应能力。综合各方面来看,Gemini 2.0 Flash可谓是“性价比之王”!

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2024 年 12 月 11 日 下午7:37
Next 2024 年 12 月 13 日 下午6:58

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2720

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注