资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

但在发布gemini-exp-1121模型后,立即有网友发出灵魂拷问:

“为什么不直接发布gemini-exp-1121,而是要先发布gemini-exp-1114呢?”

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

这或许也是大家心中疑惑的问题!要知道,就在gemini-exp-1121发布的前一天,OpenAI刚刚推出了GPT-4o的更新版本GPT-4o-2024-11-20,这一时间节点的巧合,让人不得不怀疑DeepMind是否有意在等待OpenAI的更新,以便在此之后再推出他们的模型。

而上周我们在进行grok-vision-beta视觉能力实测的时候,选择了gemini-exp-1121作为实测对比,竟意外发现了gemini-exp-1121视觉方面能力非常出色。今天,我们将通过302.AI进一步实测gemini-exp-1121逻辑推理以及编程方面的能力。

(PS:附上grok-vision-beta视觉能力实测链接:https://mp.weixin.qq.com/s/tuUBTvb7b5w0h378ntbuZA

> 在302.AI上使用

首先,我们先看看如何在302.AI上获得gemini-exp-1121模型:

【聊天机器人】

1、进入302.AI,点击“使用机器人”——“聊天机器人”——选择“模型”——在Gemini分类中找到“gemini-exp-1121”。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、进入聊天机器人后点击页面左下角的设置——可以打开实时预览功能:

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

【API超市】

1、点击“使用API”——“API超市”——“语言大模型”——选择“Gemini”。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、选择“Gemini”可以看到列表中已经提供了gemini-exp-1121模型的API,可以根据需求选择“查看文档”或者“在线体验”功能进一步使用。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

> 实测对比

气氛已经烘托到这了,那接下来我们实测就选择gemini-exp-1114、gpt-4o-2024-11-20、gemini-exp-1121这三个模型,主要测试逻辑推理、编程等方面的表现。

数学理解测试:

提示词:地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

分析:首先这一题目的正确答案是35厘米,看下个模型的答案:

gpt-4o-2024-11-20:分析对了一半,最终回答错误

gemini-exp-1121:思路清晰,回答正确。

gemini-exp-1114:并未理解题目,回答错误。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

逻辑推理测试:

提示词:

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

分析:这是一道经典的逻辑推理测试题,来看下三个模型的回答。

gpt-4o-2024-11-20:分析正确,整体篇幅较长,回答正确。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:分析错误,回答错误。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1114:分析正确且清晰,回答正确。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

编程测试:

使用工具:302.AI的聊天机器人——Artifacts功能;

提示词:用前端代码,制作一个2048游戏,将所有代码都放到一个文件输出

gemini-exp-1114:生成的效果能够通过键盘方向键进行游戏,但页面美观性和完整性稍有欠缺。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:同样提示词下,gemini-exp-1121生成的效果仅仅只能看,无论是使用鼠标还是键盘都不能操作游戏,且没有开始游戏按钮。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gpt-4o-2024-11-20:最后gpt-4o-2024-11-20生成的效果具备了美观性,且能够使用键盘操作,但是美中不足是完整性还有欠缺,缺少了得分提示、开始结束等。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

o1-preview:最后,看下生成效果比较好的o1-preview,整个游戏非常完整,具备开始游戏等按钮、还有记录得分板块,同时还具有操作性。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

> 总结

通过以上实测可以初步得出以下结论:

数学理解测试:在数学测试中,只有gemini-exp-1121模型真正理解题目并给出正确答案,其余的模型只是对数据进行简单累加,并未能够理解并分析题目的具体情境。

逻辑推理测试:在逻辑测试中,gemini-exp-1114的表现比gemini-exp-1121更好,不仅逻辑清晰,分析的答案易理解,而且给出了正确的答案。

编程测试:对于简单的游戏生成,gemini-exp-1121的表现未能令人满意,生成的效果仅为静态界面,不具备操作性。

综上所述,虽然gemini-exp-1121在各个测试中展现出不同程度的优势,但仍有改进的空间。尤其是在编程能力方面,模型需要进一步优化生成代码的质量和复杂性。但令人不解的是,在逻辑测试和编程测试中,前一版本的表现明显比gemini-exp-1121更好,难道是前一版本的算法更加优化?但无论是gemini-exp-1121还是gemini-exp-1114,都仅为实验性模型,我们可以持续关注Google,看看后续是否对模型有改进。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 2 日 下午7:26
Next 2024 年 12 月 4 日 下午7:45

相关推荐

  • 资讯丨带你在302.AI玩转Runway新功能Expand Video

    11月底,Runway推出了新功能——Expand Video。这项功能允许用户通过简单的文本提示,在原始视频画面基础上生成额外的视觉内容,并灵活调整视频比例。这和早前很火的“图片扩图”功能非常相似,只不过Expand Video扩的不是静态的图片而是视频。 Expand Video功能的主要特点包括: 1、无缝扩展框架,同时保持视觉一致性,并以…

    6天前
    5600
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日
    24900
  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日
    29800
  • GPT-4o新版本突然上线,结构化输出是什么?

    8月6日,OpenAI的官网悄悄上线了新版本gpt-4o-2024-08-06模型。去年的DevDay活动中,OpenAI推出了JSON模式,而这次升级的新版本在API中引入了结构化输出,这一新功能旨在确保模型生成的输出与开发人员提供的 JSON 架构完全匹配。 gpt-4o-2024-08-06采用结构化输出的新模型在复杂 JSON 模式跟踪的评估中获得了…

    2024 年 8 月 8 日
    30100
  • Claude升级PDF解析功能,302.AI实际上早已支持

    11月2日,Anthropic在社交媒体平台宣布,在其Claude 3.5 Sonnet 模型中增加了PDF理功能,这一功能不仅能读懂PDF中的文字,还能看懂图表、图片等视觉元素。 目前这一新功能已进入公开测试阶段,用户可以利用该模型来分析PDF文档中的文本和视觉元素(如图像、图表和表格),适用于财务报告、数据分析、法律文件和文档翻译等多种场景。 而这一PD…

    2024 年 11 月 4 日
    28100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注