12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。
虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小的模型。
根据官方介绍,Gemini 2.0 Flash Exp是以Gemini 1.5 Flash的成功为基础,在同样快速的响应时间内增强了模型的性能。值得注意的是,Gemini 2.0 Flash Exp在关键基准测试中甚至比Gemini 1.5 Pro更快,速度是1.5 Pro的2倍!
Gemini 2.0 Flash Exp此次还带来了新的功能,除了支持图像、视频和音频等多模态输入外,它还支持多模态输出,比如原生生成的图像与文本混合,以及可操纵的文本到语音(TTS)多语言音频。这意味着,它能够在不同形式的信息之间转换。此外,Gemini 2.0 Flash Exp还支持原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。
> 在302.AI上使用:
目前302.AI已经提供了Gemini 2.0 Flash Exp模型,用户可以通过聊天机器人获得模型直接使用或者进入API超市快速接入模型的API。以下是具体的获取步骤:
聊天机器人
进入302.AI——左侧菜单栏点击使用机器人——点击聊天机器人——模型选择Gemini-2.0-Flash-Exp——点击确定——最后创建聊天机器人即可;
API超市
在左侧菜单栏点击使用API——API超市——分类中选择语言大模型——点击Gemini。
接下来按需选择查看文档或者在线体验,以查看文档为例,进入后支持在线调试,这能够有效帮助用户提高开发效率。
> 实测对比
既然赶在这个时间点发布,尽管两个模型的价格相差较大,但Gemini 2.0 Flash还是免不了会被用户拿来和o1 完整版对比。那接下来,我们就通过302.AI实测对比看看两个模型到底谁表现更好!除此之外,在下列多模态实测中,我们还选择了grok-vision-beta一起对比,看下三个模型的表现吧:
多模态实测:
对比模型:o1 完整版、gemini-2.0-flash-exp、grok-vision-beta
实测1:信息分析:
提示词:请根据图片回答,
(1)吃饭的人数为多少?
(2)如果我只需要1份炒花甲、1串羊肉串和2份绿茶共需要多少钱?
分析:第一轮题目并不难,主要考察模型能否准确识别信息,并通过获得的信息进行简单计算。
o1 完整版:两个问题都回答正确。
gemini-2.0-flash-exp:同样两个问题都回答正确。
grok-vision-beta:第一小问回答正确,第二小问回答错误,对于物品的价格识别分析错误。
实测2:图形推理:
提示词:从所给四个选项中,选择最合适的一个填入问号处,使之呈现一定规律性
分析:第二轮是图形推理题,在上一篇推文中由于给出的图片推理题目太难以至于没有模型做对,所以这次降低了难度,找了一个相对简单的题目,下面先来看下解析:
第一行与第三行图形相对应位置定义叠加规律为:白+黑=白,白+白=黑,黑+黑=白,黑+白=黑,第二行应用该规律,只有A项符合。因此,选择A选项。
o1 完整版:分析过程很长,最后答案是正确的。
gemini-2.0-flash-exp:分析过程相对o1 完整版更加清晰,回答正确。
grok-vision-beta:很可惜,回答错误。
实测3:复杂任务测试:
提示词:我是一个糖尿病患者,如何用冰箱里的食材做一顿晚饭
分析:最后是复杂任务测试,能够全面考察图像识别准确度、大模型逻辑链能力等,看下三个模型的回答:
o1 完整版:o1 完整版的回答比较模板化,在给出的菜谱中出现了很多冰箱里没有的食材,比如小白菜、黄瓜等,可以看出并不是根据冰箱的食材去回答的。
gemini-2.0-flash-exp:gemini的回答非常出色!首先给出的菜谱中,食材大多数来自提供的图片里的,而且回答的步骤非常详细,甚至在最后还会告诉你为什么这份晚餐适合糖尿病患者以及更多的建议,整个回答清晰、完整。
grok-vision-beta:grok给出的答案也并不是针对给出的图片回答,回答中的食谱出现了图片中没有的食材,如三文鱼等。
其他测试:
数学测试
除了多模态测试,我们还针对gemini-2.0-flash-exp数学方面进行了实测,比如在昨天的推文中难倒了o1 完整版的高考数学题,昨天o1 完整版第一次只回答对了第一小问,第二小问回答错误,在经过提醒后,仍无法给出正确答案。
原题目是这样的:
已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB
(1)求sinA;
(2)设AB=5,求AB边上的高。
先给大家看下正确答案:
(1) sinA = (3√10)/10
(2) AB 边上的高为 6。
分析:可以看到,第一次提问时,Gemini 2.0 Flash 第一小问的回答是正确的,但是第二小问回答错误。不过经过一次提醒后,最终两个小问都回答正确了!
中文支持:
我们在实测Gemini 2.0 Flash Exp的时,也发现了一些问题:例如当我们用中文提问模型的时候,Gemini 2.0 Flash Exp偶尔会出现用英文回答的情况。
> 总结
通过以上多轮实测,可以初步得出以下结论:
信息分析:在信息分析实测中,Gemini 2.0 Flash表现出色,和o1 完整版不相上下。
图形推理:在图形推理上,对于难度中等的图形推理题,Gemini 2.0 Flash也能够轻松答对。
复杂任务测试:而在更复杂的任务上,Gemini 2.0 Flash Exp对比其他模型显然具有更大的优势,其能够更准确地识别信息并提供符合用户需求的解答
其他测试:而除了多模态能力,Gemini 2.0 Flash的数学能力也不错,经过提示后可以迅速纠正错误。但是偶尔出现中文提问英文回答的问题,还有待改善。
总体而言,在多模态方面,Gemini 2.0 Flash对比o1 完整版可以说是更胜一筹。而且,目前Gemini 2.0 Flash在价格上对比o1 完整版,占据明显优势!除此之外,Gemini 2.0 Flash在处理复杂的数学题目时也表现出了优异的适应能力。综合各方面来看,Gemini 2.0 Flash可谓是“性价比之王”!