资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小的模型。

根据官方介绍,Gemini 2.0 Flash Exp是以Gemini 1.5 Flash的成功为基础,在同样快速的响应时间内增强了模型的性能。值得注意的是,Gemini 2.0 Flash Exp在关键基准测试中甚至比Gemini 1.5 Pro更快,速度是1.5 Pro的2倍!

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

Gemini 2.0 Flash Exp此次还带来了新的功能,除了支持图像、视频和音频等多模态输入外,它还支持多模态输出,比如原生生成的图像与文本混合,以及可操纵的文本到语音(TTS)多语言音频。这意味着,它能够在不同形式的信息之间转换。此外,Gemini 2.0 Flash Exp还支持原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。

> 在302.AI上使用:

目前302.AI已经提供了Gemini 2.0 Flash Exp模型,用户可以通过聊天机器人获得模型直接使用或者进入API超市快速接入模型的API。以下是具体的获取步骤:

聊天机器人

进入302.AI——左侧菜单栏点击使用机器人——点击聊天机器人——模型选择Gemini-2.0-Flash-Exp——点击确定——最后创建聊天机器人即可;

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

API超市

在左侧菜单栏点击使用API——API超市——分类中选择语言大模型——点击Gemini

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

接下来按需选择查看文档或者在线体验,以查看文档为例,进入后支持在线调试,这能够有效帮助用户提高开发效率。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

> 实测对比

既然赶在这个时间点发布,尽管两个模型的价格相差较大,但Gemini 2.0 Flash还是免不了会被用户拿来和o1 完整版对比。那接下来,我们就通过302.AI实测对比看看两个模型到底谁表现更好!除此之外,在下列多模态实测中,我们还选择了grok-vision-beta一起对比,看下三个模型的表现吧:

多模态实测:

对比模型:o1 完整版、gemini-2.0-flash-exp、grok-vision-beta

实测1:信息分析:

提示词:请根据图片回答,

(1)吃饭的人数为多少?

(2)如果我只需要1份炒花甲、1串羊肉串和2份绿茶共需要多少钱?

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:第一轮题目并不难,主要考察模型能否准确识别信息,并通过获得的信息进行简单计算。

o1 完整版:两个问题都回答正确

gemini-2.0-flash-exp:同样两个问题都回答正确

grok-vision-beta:第一小问回答正确,第二小问回答错误,对于物品的价格识别分析错误。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

实测2:图形推理:

提示词:从所给四个选项中,选择最合适的一个填入问号处,使之呈现一定规律性

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:第二轮是图形推理题,在上一篇推文中由于给出的图片推理题目太难以至于没有模型做对,所以这次降低了难度,找了一个相对简单的题目,下面先来看下解析:

第一行与第三行图形相对应位置定义叠加规律为:白+黑=白,白+白=黑,黑+黑=白,黑+白=黑,第二行应用该规律,只有A项符合。因此,选择A选项。

o1 完整版:分析过程很长,最后答案是正确的。

gemini-2.0-flash-exp:分析过程相对o1 完整版更加清晰,回答正确

grok-vision-beta:很可惜,回答错误。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

实测3:复杂任务测试:

提示词:我是一个糖尿病患者,如何用冰箱里的食材做一顿晚饭

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

分析:最后是复杂任务测试,能够全面考察图像识别准确度、大模型逻辑链能力等,看下三个模型的回答:

o1 完整版:o1 完整版的回答比较模板化,在给出的菜谱中出现了很多冰箱里没有的食材,比如小白菜、黄瓜等,可以看出并不是根据冰箱的食材去回答的。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

gemini-2.0-flash-exp:gemini的回答非常出色!首先给出的菜谱中,食材大多数来自提供的图片里的,而且回答的步骤非常详细,甚至在最后还会告诉你为什么这份晚餐适合糖尿病患者以及更多的建议,整个回答清晰、完整。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

grok-vision-beta:grok给出的答案也并不是针对给出的图片回答,回答中的食谱出现了图片中没有的食材,如三文鱼等。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

其他测试:

数学测试

除了多模态测试,我们还针对gemini-2.0-flash-exp数学方面进行了实测,比如在昨天的推文中难倒了o1 完整版的高考数学题,昨天o1 完整版第一次只回答对了第一小问,第二小问回答错误,在经过提醒后,仍无法给出正确答案。

原题目是这样的:

已知在三角形ABC中,A+B=3C,2sin(A-C)=sinB

(1)求sinA;

(2)设AB=5,求AB边上的高。

先给大家看下正确答案:

(1) sinA = (3√10)/10

(2) AB 边上的高为 6。

分析:可以看到,第一次提问时,Gemini 2.0 Flash 第一小问的回答是正确的,但是第二小问回答错误。不过经过一次提醒后,最终两个小问都回答正确了

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

中文支持:

我们在实测Gemini 2.0 Flash Exp的时,也发现了一些问题:例如当我们用中文提问模型的时候,Gemini 2.0 Flash Exp偶尔会出现用英文回答的情况。

资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

> 总结

通过以上多轮实测,可以初步得出以下结论:

信息分析:在信息分析实测中,Gemini 2.0 Flash表现出色,和o1 完整版不相上下。

图形推理:在图形推理上,对于难度中等的图形推理题,Gemini 2.0 Flash也能够轻松答对

复杂任务测试:而在更复杂的任务上,Gemini 2.0 Flash Exp对比其他模型显然具有更大的优势,其能够更准确地识别信息并提供符合用户需求的解答

其他测试:而除了多模态能力,Gemini 2.0 Flash的数学能力也不错,经过提示后可以迅速纠正错误。但是偶尔出现中文提问英文回答的问题,还有待改善。

总体而言,在多模态方面,Gemini 2.0 Flash对比o1 完整版可以说是更胜一筹。而且,目前Gemini 2.0 Flash在价格上对比o1 完整版,占据明显优势!除此之外,Gemini 2.0 Flash在处理复杂的数学题目时也表现出了优异的适应能力。综合各方面来看,Gemini 2.0 Flash可谓是“性价比之王”!

Like (1)
302.AI302.AI
Previous 2024 年 12 月 11 日 下午7:37
Next 2024 年 12 月 13 日 下午6:58

相关推荐

  • 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

    距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…

    2024 年 9 月 27 日
    22200
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    34100
  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    32900
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    30800
  • 资讯丨带你在302.AI玩转Runway新功能Expand Video

    11月底,Runway推出了新功能——Expand Video。这项功能允许用户通过简单的文本提示,在原始视频画面基础上生成额外的视觉内容,并灵活调整视频比例。这和早前很火的“图片扩图”功能非常相似,只不过Expand Video扩的不是静态的图片而是视频。 Expand Video功能的主要特点包括: 1、无缝扩展框架,同时保持视觉一致性,并以…

    5天前
    5400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注