资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

但在发布gemini-exp-1121模型后,立即有网友发出灵魂拷问:

“为什么不直接发布gemini-exp-1121,而是要先发布gemini-exp-1114呢?”

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

这或许也是大家心中疑惑的问题!要知道,就在gemini-exp-1121发布的前一天,OpenAI刚刚推出了GPT-4o的更新版本GPT-4o-2024-11-20,这一时间节点的巧合,让人不得不怀疑DeepMind是否有意在等待OpenAI的更新,以便在此之后再推出他们的模型。

而上周我们在进行grok-vision-beta视觉能力实测的时候,选择了gemini-exp-1121作为实测对比,竟意外发现了gemini-exp-1121视觉方面能力非常出色。今天,我们将通过302.AI进一步实测gemini-exp-1121逻辑推理以及编程方面的能力。

(PS:附上grok-vision-beta视觉能力实测链接:https://mp.weixin.qq.com/s/tuUBTvb7b5w0h378ntbuZA

> 在302.AI上使用

首先,我们先看看如何在302.AI上获得gemini-exp-1121模型:

【聊天机器人】

1、进入302.AI,点击“使用机器人”——“聊天机器人”——选择“模型”——在Gemini分类中找到“gemini-exp-1121”。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、进入聊天机器人后点击页面左下角的设置——可以打开实时预览功能:

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

【API超市】

1、点击“使用API”——“API超市”——“语言大模型”——选择“Gemini”。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、选择“Gemini”可以看到列表中已经提供了gemini-exp-1121模型的API,可以根据需求选择“查看文档”或者“在线体验”功能进一步使用。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

> 实测对比

气氛已经烘托到这了,那接下来我们实测就选择gemini-exp-1114、gpt-4o-2024-11-20、gemini-exp-1121这三个模型,主要测试逻辑推理、编程等方面的表现。

数学理解测试:

提示词:地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

分析:首先这一题目的正确答案是35厘米,看下个模型的答案:

gpt-4o-2024-11-20:分析对了一半,最终回答错误

gemini-exp-1121:思路清晰,回答正确。

gemini-exp-1114:并未理解题目,回答错误。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

逻辑推理测试:

提示词:

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

分析:这是一道经典的逻辑推理测试题,来看下三个模型的回答。

gpt-4o-2024-11-20:分析正确,整体篇幅较长,回答正确。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:分析错误,回答错误。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1114:分析正确且清晰,回答正确。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

编程测试:

使用工具:302.AI的聊天机器人——Artifacts功能;

提示词:用前端代码,制作一个2048游戏,将所有代码都放到一个文件输出

gemini-exp-1114:生成的效果能够通过键盘方向键进行游戏,但页面美观性和完整性稍有欠缺。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:同样提示词下,gemini-exp-1121生成的效果仅仅只能看,无论是使用鼠标还是键盘都不能操作游戏,且没有开始游戏按钮。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gpt-4o-2024-11-20:最后gpt-4o-2024-11-20生成的效果具备了美观性,且能够使用键盘操作,但是美中不足是完整性还有欠缺,缺少了得分提示、开始结束等。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

o1-preview:最后,看下生成效果比较好的o1-preview,整个游戏非常完整,具备开始游戏等按钮、还有记录得分板块,同时还具有操作性。

资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

> 总结

通过以上实测可以初步得出以下结论:

数学理解测试:在数学测试中,只有gemini-exp-1121模型真正理解题目并给出正确答案,其余的模型只是对数据进行简单累加,并未能够理解并分析题目的具体情境。

逻辑推理测试:在逻辑测试中,gemini-exp-1114的表现比gemini-exp-1121更好,不仅逻辑清晰,分析的答案易理解,而且给出了正确的答案。

编程测试:对于简单的游戏生成,gemini-exp-1121的表现未能令人满意,生成的效果仅为静态界面,不具备操作性。

综上所述,虽然gemini-exp-1121在各个测试中展现出不同程度的优势,但仍有改进的空间。尤其是在编程能力方面,模型需要进一步优化生成代码的质量和复杂性。但令人不解的是,在逻辑测试和编程测试中,前一版本的表现明显比gemini-exp-1121更好,难道是前一版本的算法更加优化?但无论是gemini-exp-1121还是gemini-exp-1114,都仅为实验性模型,我们可以持续关注Google,看看后续是否对模型有改进。

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 2 日 下午7:26
Next 2024 年 12 月 4 日 下午7:45

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2720

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注