302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

但在发布gemini-exp-1121模型后,立即有网友发出灵魂拷问:

“为什么不直接发布gemini-exp-1121,而是要先发布gemini-exp-1114呢?”

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

这或许也是大家心中疑惑的问题!要知道,就在gemini-exp-1121发布的前一天,OpenAI刚刚推出了GPT-4o的更新版本GPT-4o-2024-11-20,这一时间节点的巧合,让人不得不怀疑DeepMind是否有意在等待OpenAI的更新,以便在此之后再推出他们的模型。

而上周我们在进行grok-vision-beta视觉能力实测的时候,选择了gemini-exp-1121作为实测对比,竟意外发现了gemini-exp-1121视觉方面能力非常出色。今天,我们将通过302.AI进一步实测gemini-exp-1121逻辑推理以及编程方面的能力。

(PS:附上grok-vision-beta视觉能力实测链接:https://mp.weixin.qq.com/s/tuUBTvb7b5w0h378ntbuZA


> 在302.AI上使用gemini-exp-1121

首先,我们先看看如何在302.AI上获得gemini-exp-1121模型:

【聊天机器人】

1、进入302.AI,点击“使用机器人”——“聊天机器人”——选择“模型”——在Gemini分类中找到“gemini-exp-1121”。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、进入聊天机器人后点击页面左下角的设置——可以打开实时预览功能:

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

【API超市】

1、点击“使用API”——“API超市”——“语言大模型”——选择“Gemini”。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

2、选择“Gemini”可以看到列表中已经提供了gemini-exp-1121模型的API,可以根据需求选择“查看文档”或者“在线体验”功能进一步使用。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?


> gemini-exp-1121实测对比

气氛已经烘托到这了,那接下来我们实测就选择gemini-exp-1114、gpt-4o-2024-11-20、gemini-exp-1121这三个模型,主要测试逻辑推理、编程等方面的表现。

数学理解测试:

提示词:地面上放着20厘米高的砖。我在上面放了一个30厘米高的花盆。花盆里有10厘米深的土,土上面种着5厘米高的幼苗。从地面到苗头的高度是多少厘米?

分析:首先这一题目的正确答案是35厘米,看下个模型的答案:

gpt-4o-2024-11-20:分析对了一半,最终回答错误

gemini-exp-1121:思路清晰,回答正确。

gemini-exp-1114:并未理解题目,回答错误。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

逻辑推理测试:

提示词:

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

分析:这是一道经典的逻辑推理测试题,来看下三个模型的回答。

gpt-4o-2024-11-20:分析正确,整体篇幅较长,回答正确。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:分析错误,回答错误。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1114:分析正确且清晰,回答正确。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

编程测试:

使用工具:302.AI的聊天机器人——Artifacts功能;

提示词:用前端代码,制作一个2048游戏,将所有代码都放到一个文件输出

gemini-exp-1114:生成的效果能够通过键盘方向键进行游戏,但页面美观性和完整性稍有欠缺。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gemini-exp-1121:同样提示词下,gemini-exp-1121生成的效果仅仅只能看,无论是使用鼠标还是键盘都不能操作游戏,且没有开始游戏按钮。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

gpt-4o-2024-11-20:最后gpt-4o-2024-11-20生成的效果具备了美观性,且能够使用键盘操作,但是美中不足是完整性还有欠缺,缺少了得分提示、开始结束等。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

o1-preview:最后,看下生成效果比较好的o1-preview,整个游戏非常完整,具备开始游戏等按钮、还有记录得分板块,同时还具有操作性。

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?


> 总结

通过以上实测可以初步得出以下结论:

数学理解测试:在数学测试中,只有gemini-exp-1121模型真正理解题目并给出正确答案,其余的模型只是对数据进行简单累加,并未能够理解并分析题目的具体情境。

逻辑推理测试:在逻辑测试中,gemini-exp-1114的表现比gemini-exp-1121更好,不仅逻辑清晰,分析的答案易理解,而且给出了正确的答案。

编程测试:对于简单的游戏生成,gemini-exp-1121的表现未能令人满意,生成的效果仅为静态界面,不具备操作性。

综上所述,虽然gemini-exp-1121在各个测试中展现出不同程度的优势,但仍有改进的空间。尤其是在编程能力方面,模型需要进一步优化生成代码的质量和复杂性。但令人不解的是,在逻辑测试和编程测试中,前一版本的表现明显比gemini-exp-1121更好,难道是前一版本的算法更加优化?但无论是gemini-exp-1121还是gemini-exp-1114,都仅为实验性模型,我们可以持续关注Google,看看后续是否对模型有改进。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 2 日 下午7:26
Next 2024 年 12 月 4 日 下午7:45

相关推荐

  • Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室

    今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…

    21小时前 基准实验室
    1190
  • 体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室

    赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…

    3天前 基准实验室
    6740
  • 302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…

    2025 年 9 月 24 日 赛博月刊
    4310
  • 追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室

    美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…

    2025 年 9 月 19 日 基准实验室
    4390

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(8)

  • Werner Saldi
    Werner Saldi 2025 年 6 月 4 日 下午1:36

    Yay google is my queen aided me to find this great site! .

  • developing emotional intelligence as a leader
    developing emotional intelligence as a leader 2025 年 6 月 11 日 上午3:38

    Thank you for some other informative blog. The place else could I am getting that type of information written in such a perfect approach? I’ve a undertaking that I am just now working on, and I have been at the look out for such info.

  • Sarah Startup
    Sarah Startup 2025 年 7 月 2 日 下午7:22

    Excellent weblog here! Additionally your website lots up fast! What web host are you the usage of? Can I get your associate link in your host? I desire my web site loaded up as fast as yours lol

  • Grand Prairie ac repair
    Grand Prairie ac repair 2025 年 8 月 6 日 下午6:21

    I’ve been browsing online more than 3 hours today, yet I never found any interesting article like yours. It is pretty worth enough for me. In my view, if all webmasters and bloggers made good content as you did, the internet will be much more useful than ever before.

  • hptoto
    hptoto 2025 年 8 月 16 日 上午10:37

    I am happy that I observed this site, precisely the right information that I was searching for! .

  • toto togel
    toto togel 2025 年 8 月 18 日 下午5:01

    Please let me know if you’re looking for a article author for your site. You have some really good posts and I feel I would be a good asset. If you ever want to take some of the load off, I’d absolutely love to write some material for your blog in exchange for a link back to mine. Please send me an email if interested. Kudos!

  • alexistogel
    alexistogel 2025 年 8 月 21 日 上午12:46

    Nice post. I was checking continuously this blog and I am impressed! Extremely helpful info specifically the last part :) I care for such info a lot. I was seeking this particular information for a long time. Thank you and good luck.

  • idn poker
    idn poker 2025 年 8 月 22 日 上午5:20

    I want reading and I think this website got some genuinely utilitarian stuff on it! .