302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。

据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

Gemini-exp-1114在处理复杂提示、创意写作、指令遵循、长查询处理以及多轮对话等方面都表现出色,并拿下多个单项第一,比如数学能力评测从第3名升至第1名,超越了学霸o1模型。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

整体胜率热图显示,Gemini-exp-1114对战4o-latest胜率为50%,对战o1-preview胜率为56%,对战Claude-3.5-Sonnet胜率为62%。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料


在302.AI使用Gemini-exp-1114

Gemini-exp-1114发布后,302.AI也在聊天机器人、模型竞技场、API超市迅速上线了Gemini-exp-1114模型。如果用户想要第一时间试用Gemini-exp-1114模型,可以直接选择302.AI的聊天机器人;如果想要进行多模型对比,可以选择模型竞技场;如果想快速接入模型API,则可以选择API超市。

302.AI满足用户的多种选择,并且提供按需付费的服务方式,无需担心月费和捆绑套餐。下面给大家展示获取方式:

聊天机器人

1、进入302.AI——点击“使用机器人”——选择“聊天机器人”——点击模型——选择Gemini-exp-1114模型,最后点击【创建聊天机器人】按钮;

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

2、创建后即可进入聊天机器人,在输入框中输入提示词即可开始聊天。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

3、点击左下角的设置,可以打开Artifacts功能。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

模型竞技场

1、点击“使用工具”——找到“工具超市”——工具分类中选择“工作效率”——选择“模型竞技场”创建工具。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

2、进入模型竞技场后,左侧按需勾选需要竞技的模型,右侧输入框中输入提示词即可看到模型的回答:

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

API超市

1、点击“使用API”——在API分类中选择“语言大模型”——选择Gemini;

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

2、302.AI的语言模型API可以选择查看文档和在线体验功能;

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

点击查看文档可以快速帮助用户了解接入模型API:

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

语言模型API还能够选择在线体验功能,在线体验功能能够快速测试模型的各种参数,界面非常直观、简洁;

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料


Gemini-exp-1114实测对比

接下来,我们就测试一下Gemini-exp-1114,看下是否如传闻所说的这么厉害!

以下前三轮实测包括Gemini-exp-1114共有三个模型进行,为了更直观对比各模型,前三轮我们选择了302.AI的模型竞技场进行实测对比,第四轮选择了302.AI的聊天机器人,使用了Artifacts功能:

实测一:是否存在模型幻觉?

模型对比:o1-preview、o1-mini、gemini-exp-1114

提示词:9.8和9.11哪个大?

分析:都在宣传Gemini-exp-1114的数学能力很强,第一轮测试考虑再三还是决定使用了经典问题“9.8和9.11哪个大”来提问,但没想到Gemini-exp-1114就这样水灵灵“翻车”了,在模型回答的过程中直接错误的计算出80小于11,导致最后答案错误,可以看出存在模型幻觉,而o1-preview和o1-mini的回答均是正确的。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

实测二:视觉能力如何?

模型对比:gpt-4o、gemini-exp-1114、claude-3.5-sonnet-20241022

提示词:2015年人口自然增长率为多少?

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

分析:根据以上题目中的图表可以看到人口自然增长率为绿色折线,其中2015年的自然增长率在5‰上下。首先可以看到GPT-4o和claude-3.5-sonnet的回答都是正确的,而在视觉能力测试中排名第一的gemini-exp-1114回答的是7‰,这个答案更接近2014年或者2016年人口自然增长率,视觉能力并不如测试中其他模型。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

实测三:逻辑推理能力如何?

模型对比:gpt-4o、gemini-exp-1114、claude-3.5-sonnet-20241022

提示词:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

分析:这一题目是一个逻辑推理题,首先我们可以看到,claude-3.5-sonnet并没有进行推理思考,而gpt-4o和gemini-exp-1114都回答正确,这里也提一下,同样回答正确,但是对比发现gemini-exp-1114模型的回答格式看起来更规整舒服。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

实测四:编程能力如何?

使用工具:302.AI的聊天机器人——Artifacts功能;

模型对比:gemini-exp-1114、claude-3.5-sonnet-20241022

提示词:使用react生成一个类似于2048的游戏

先看一下gemini-exp-1114的表现,gemini-exp-1114在生成过程中出现了代码错误,导致生成的代码无法运行的情况,只能把代码丢回给模型自己修正再整合,最后运行的效果如下,可以看到即使可以运行,但是生成的整个2048游戏界面是比较简陋的:

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

再来看看claude-3.5-sonnet生成效果,相比于gemini-exp-1114,claude生成的游戏界面非常干净舒服,在游戏上方还有实时分数和重新开始按钮显示,整个效果可以说完胜gemini-exp-1114。

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料


总结

经过一系列的实测对比,Gemini-exp-1114的表现略有逊色,并不如传闻中这么厉害。从实测一中可以看出Gemini-exp-1114存在着明显的模型幻觉,而在实测二的视觉能力测试中,表现也比较一般;只有在实测三的逻辑推理能力测试表现不错,最后实测四的编码能力,表现也是较差

最后,想跟读者朋友们说,“实践出真知”,在选择模型时,不妨借助工具先进行多维度评估,这样才能根据测评结果更好地寻找适合自己需求的AI方案。


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 11 月 15 日 下午7:27
Next 2024 年 11 月 19 日 下午5:00

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8310
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3470
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4491
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注