302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121，实测竟发现模型能力出现了倒退？

302.AI • 2024 年 12 月 3 日下午7:38 • 基准实验室 • 1013 意见

时隔gemini-exp-1114发布仅一周，谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍，gemini-exp-1121在编码、推理和视觉能力都有提升。

在gemini-exp-1121发布之后，它迅速赢得了Arena榜单的冠军宝座，根据测评结果显示，除了风格控制外，其他方面都位于第一。

但在发布gemini-exp-1121模型后，立即有网友发出灵魂拷问：

“为什么不直接发布gemini-exp-1121，而是要先发布gemini-exp-1114呢？”

这或许也是大家心中疑惑的问题！要知道，就在gemini-exp-1121发布的前一天，OpenAI刚刚推出了GPT-4o的更新版本GPT-4o-2024-11-20，这一时间节点的巧合，让人不得不怀疑DeepMind是否有意在等待OpenAI的更新，以便在此之后再推出他们的模型。

而上周我们在进行grok-vision-beta视觉能力实测的时候，选择了gemini-exp-1121作为实测对比，竟意外发现了gemini-exp-1121视觉方面能力非常出色。今天，我们将通过302.AI进一步实测gemini-exp-1121逻辑推理以及编程方面的能力。

（PS：附上grok-vision-beta视觉能力实测链接：https://mp.weixin.qq.com/s/tuUBTvb7b5w0h378ntbuZA）

> 在302.AI上使用gemini-exp-1121

首先，我们先看看如何在302.AI上获得gemini-exp-1121模型：

【聊天机器人】

1、进入302.AI，点击“使用机器人”——“聊天机器人”——选择“模型”——在Gemini分类中找到“gemini-exp-1121”。

2、进入聊天机器人后点击页面左下角的设置——可以打开实时预览功能：

【API超市】

1、点击“使用API”——“API超市”——“语言大模型”——选择“Gemini”。

2、选择“Gemini”可以看到列表中已经提供了gemini-exp-1121模型的API，可以根据需求选择“查看文档”或者“在线体验”功能进一步使用。

> gemini-exp-1121实测对比

气氛已经烘托到这了，那接下来我们实测就选择gemini-exp-1114、gpt-4o-2024-11-20、gemini-exp-1121这三个模型，主要测试逻辑推理、编程等方面的表现。

数学理解测试：

提示词：地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土，土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

分析：首先这一题目的正确答案是35厘米，看下个模型的答案：

gpt-4o-2024-11-20：分析对了一半，最终回答错误

gemini-exp-1121：思路清晰，回答正确。

gemini-exp-1114：并未理解题目，回答错误。

逻辑推理测试：

提示词：

分析：这是一道经典的逻辑推理测试题，来看下三个模型的回答。

gpt-4o-2024-11-20：分析正确，整体篇幅较长，回答正确。

gemini-exp-1121：分析错误，回答错误。

gemini-exp-1114：分析正确且清晰，回答正确。

编程测试：

使用工具：302.AI的聊天机器人——Artifacts功能；

提示词：用前端代码，制作一个2048游戏，将所有代码都放到一个文件输出

gemini-exp-1114：生成的效果能够通过键盘方向键进行游戏，但页面美观性和完整性稍有欠缺。

gemini-exp-1121：同样提示词下，gemini-exp-1121生成的效果仅仅只能看，无论是使用鼠标还是键盘都不能操作游戏，且没有开始游戏按钮。

gpt-4o-2024-11-20：最后gpt-4o-2024-11-20生成的效果具备了美观性，且能够使用键盘操作，但是美中不足是完整性还有欠缺，缺少了得分提示、开始结束等。

o1-preview：最后，看下生成效果比较好的o1-preview，整个游戏非常完整，具备开始游戏等按钮、还有记录得分板块，同时还具有操作性。

> 总结

通过以上实测可以初步得出以下结论：

数学理解测试：在数学测试中，只有gemini-exp-1121模型真正理解题目并给出正确答案，其余的模型只是对数据进行简单累加，并未能够理解并分析题目的具体情境。

逻辑推理测试：在逻辑测试中，gemini-exp-1114的表现比gemini-exp-1121更好，不仅逻辑清晰，分析的答案易理解，而且给出了正确的答案。

编程测试：对于简单的游戏生成，gemini-exp-1121的表现未能令人满意，生成的效果仅为静态界面，不具备操作性。

综上所述，虽然gemini-exp-1121在各个测试中展现出不同程度的优势，但仍有改进的空间。尤其是在编程能力方面，模型需要进一步优化生成代码的质量和复杂性。但令人不解的是，在逻辑测试和编程测试中，前一版本的表现明显比gemini-exp-1121更好，难道是前一版本的算法更加优化？但无论是gemini-exp-1121还是gemini-exp-1114，都仅为实验性模型，我们可以持续关注Google，看看后续是否对模型有改进。

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

Gemini LLM302.AI 基准实验室 | 模型测评

喜欢 (0)

302.AI

302.AI 基准实验室 | Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1？来实测看看表现

上一页 2024 年 12 月 2 日下午7:26

302.AI 基准实验室 | 实测对比Luma Labs新图像模型，Luma Photon能否胜出？

下一页 2024 年 12 月 4 日下午7:45

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
1.7K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.1K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
3.5K00
谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

12 月 18 日深夜，谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热，但其展现出的性能与成本组合，足以让整个 AI 领域重新审视现有的竞争格局。简而言之，Gemini 3 Flash 做了一件看似矛盾的事：它以一个“轻量版”模型的定位和极低的成本，提供了接近甚至部分超越旗舰模型的顶尖性能。性能：打破“轻量即…
2025 年 12 月 19 日 • 基准实验室
1.6K00

发表回复

Werner Saldi 2025 年 6 月 4 日下午1:36
Yay google is my queen aided me to find this great site! .
回复
developing emotional intelligence as a leader 2025 年 6 月 11 日上午3:38
Thank you for some other informative blog. The place else could I am getting that type of information written in such a perfect approach? I’ve a undertaking that I am just now working on, and I have been at the look out for such info.
回复
Sarah Startup 2025 年 7 月 2 日下午7:22
Excellent weblog here! Additionally your website lots up fast! What web host are you the usage of? Can I get your associate link in your host? I desire my web site loaded up as fast as yours lol
回复
Grand Prairie ac repair 2025 年 8 月 6 日下午6:21
I’ve been browsing online more than 3 hours today, yet I never found any interesting article like yours. It is pretty worth enough for me. In my view, if all webmasters and bloggers made good content as you did, the internet will be much more useful than ever before.
回复
hptoto 2025 年 8 月 16 日上午10:37
I am happy that I observed this site, precisely the right information that I was searching for! .
回复
toto togel 2025 年 8 月 18 日下午5:01
Please let me know if you’re looking for a article author for your site. You have some really good posts and I feel I would be a good asset. If you ever want to take some of the load off, I’d absolutely love to write some material for your blog in exchange for a link back to mine. Please send me an email if interested. Kudos!
回复
alexistogel 2025 年 8 月 21 日上午12:46
Nice post. I was checking continuously this blog and I am impressed! Extremely helpful info specifically the last part :) I care for such info a lot. I was seeking this particular information for a long time. Thank you and good luck.
回复
idn poker 2025 年 8 月 22 日上午5:20
I want reading and I think this website got some genuinely utilitarian stuff on it! .
回复