302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

但在发布gemini-exp-1121模型后,立即有网友发出灵魂拷问:

“为什么不直接发布gemini-exp-1121,而是要先发布gemini-exp-1114呢?”

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

这或许也是大家心中疑惑的问题!要知道,就在gemini-exp-1121发布的前一天,OpenAI刚刚推出了GPT-4o的更新版本GPT-4o-2024-11-20,这一时间节点的巧合,让人不得不怀疑DeepMind是否有意在等待OpenAI的更新,以便在此之后再推出他们的模型。

而上周我们在进行grok-vision-beta视觉能力实测的时候,选择了gemini-exp-1121作为实测对比,竟意外发现了gemini-exp-1121视觉方面能力非常出色。今天,我们将通过302.AI进一步实测gemini-exp-1121逻辑推理以及编程方面的能力。

(PS:附上grok-vision-beta视觉能力实测链接:https://mp.weixin.qq.com/s/tuUBTvb7b5w0h378ntbuZA


> 在302.AI上使用gemini-exp-1121

首先,我们先看看如何在302.AI上获得gemini-exp-1121模型:

【聊天机器人】

1、进入302.AI,点击“使用机器人”——“聊天机器人”——选择“模型”——在Gemini分类中找到“gemini-exp-1121”。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、进入聊天机器人后点击页面左下角的设置——可以打开实时预览功能:

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

【API超市】

1、点击“使用API”——“API超市”——“语言大模型”——选择“Gemini”。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、选择“Gemini”可以看到列表中已经提供了gemini-exp-1121模型的API,可以根据需求选择“查看文档”或者“在线体验”功能进一步使用。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?


> gemini-exp-1121实测对比

气氛已经烘托到这了,那接下来我们实测就选择gemini-exp-1114、gpt-4o-2024-11-20、gemini-exp-1121这三个模型,主要测试逻辑推理、编程等方面的表现。

数学理解测试:

提示词:地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

分析:首先这一题目的正确答案是35厘米,看下个模型的答案:

gpt-4o-2024-11-20:分析对了一半,最终回答错误

gemini-exp-1121:思路清晰,回答正确。

gemini-exp-1114:并未理解题目,回答错误。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

逻辑推理测试:

提示词:

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

分析:这是一道经典的逻辑推理测试题,来看下三个模型的回答。

gpt-4o-2024-11-20:分析正确,整体篇幅较长,回答正确。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:分析错误,回答错误。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1114:分析正确且清晰,回答正确。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

编程测试:

使用工具:302.AI的聊天机器人——Artifacts功能;

提示词:用前端代码,制作一个2048游戏,将所有代码都放到一个文件输出

gemini-exp-1114:生成的效果能够通过键盘方向键进行游戏,但页面美观性和完整性稍有欠缺。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:同样提示词下,gemini-exp-1121生成的效果仅仅只能看,无论是使用鼠标还是键盘都不能操作游戏,且没有开始游戏按钮。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gpt-4o-2024-11-20:最后gpt-4o-2024-11-20生成的效果具备了美观性,且能够使用键盘操作,但是美中不足是完整性还有欠缺,缺少了得分提示、开始结束等。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

o1-preview:最后,看下生成效果比较好的o1-preview,整个游戏非常完整,具备开始游戏等按钮、还有记录得分板块,同时还具有操作性。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?


> 总结

通过以上实测可以初步得出以下结论:

数学理解测试:在数学测试中,只有gemini-exp-1121模型真正理解题目并给出正确答案,其余的模型只是对数据进行简单累加,并未能够理解并分析题目的具体情境。

逻辑推理测试:在逻辑测试中,gemini-exp-1114的表现比gemini-exp-1121更好,不仅逻辑清晰,分析的答案易理解,而且给出了正确的答案。

编程测试:对于简单的游戏生成,gemini-exp-1121的表现未能令人满意,生成的效果仅为静态界面,不具备操作性。

综上所述,虽然gemini-exp-1121在各个测试中展现出不同程度的优势,但仍有改进的空间。尤其是在编程能力方面,模型需要进一步优化生成代码的质量和复杂性。但令人不解的是,在逻辑测试和编程测试中,前一版本的表现明显比gemini-exp-1121更好,难道是前一版本的算法更加优化?但无论是gemini-exp-1121还是gemini-exp-1114,都仅为实验性模型,我们可以持续关注Google,看看后续是否对模型有改进。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 2 日 下午7:26
Next 2024 年 12 月 4 日 下午7:45

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8290
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3450
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4421
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(8)

  • Werner Saldi
    Werner Saldi 2025 年 6 月 4 日 下午1:36

    Yay google is my queen aided me to find this great site! .

  • developing emotional intelligence as a leader
    developing emotional intelligence as a leader 2025 年 6 月 11 日 上午3:38

    Thank you for some other informative blog. The place else could I am getting that type of information written in such a perfect approach? I’ve a undertaking that I am just now working on, and I have been at the look out for such info.

  • Sarah Startup
    Sarah Startup 2025 年 7 月 2 日 下午7:22

    Excellent weblog here! Additionally your website lots up fast! What web host are you the usage of? Can I get your associate link in your host? I desire my web site loaded up as fast as yours lol

  • Grand Prairie ac repair
    Grand Prairie ac repair 2025 年 8 月 6 日 下午6:21

    I’ve been browsing online more than 3 hours today, yet I never found any interesting article like yours. It is pretty worth enough for me. In my view, if all webmasters and bloggers made good content as you did, the internet will be much more useful than ever before.

  • hptoto
    hptoto 2025 年 8 月 16 日 上午10:37

    I am happy that I observed this site, precisely the right information that I was searching for! .

  • toto togel
    toto togel 2025 年 8 月 18 日 下午5:01

    Please let me know if you’re looking for a article author for your site. You have some really good posts and I feel I would be a good asset. If you ever want to take some of the load off, I’d absolutely love to write some material for your blog in exchange for a link back to mine. Please send me an email if interested. Kudos!

  • alexistogel
    alexistogel 2025 年 8 月 21 日 上午12:46

    Nice post. I was checking continuously this blog and I am impressed! Extremely helpful info specifically the last part :) I care for such info a lot. I was seeking this particular information for a long time. Thank you and good luck.

  • idn poker
    idn poker 2025 年 8 月 22 日 上午5:20

    I want reading and I think this website got some genuinely utilitarian stuff on it! .