302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。

短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1直面对打Gemma 3,该模型参数量仅为24B,且同样具备多模态能力以及多语言处理能力。

Mistral Small 3.1 与 Gemma 3 的性能相似,且均是小参数模型,到底谁更强呢?下面302.AI就带大家实测对比看看 Gemma 3 27B和Mistral Small 3.1模型真实能力。


Gemma 3 27B vs. Mistral Small 3.1模型实测

一、通用能力实测

1、中文语境理解

提示词:“校服上别别别的”里的三个“别”分别是什么意思?

考察点:这是来自“弱智吧”的问题,考察的是模型对于中文词语在具体语境中的理解能力。

总结:对于中文词语在特定语境中的理解,Gemma 3 27B模型的准确率优于Mistral Small 3.1,然而遗憾的是两者均未能提供完全正确的答案

Mistral Small 3.1:只回答正确了第二个“别”字的意思,其余两个理解错误

Gemma 3 27B:回答正确了两个“别”字的意思,第三个理解错误

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

2、推理测试

提示词:

有三个匣子,分别是金匣子、银匣子和铅匣子,其中一个匣子里有宝物。每个匣子上都有一条题词:

金匣子:宝物不在此匣中。银匣子:宝物在金匣中。铅匣子:宝物不在此匣中。

已知这三句话中只有一句是真话。请问宝物在哪个匣子里?

考察点:经典的逻辑推理题目,测试的是模型逻辑思维和推理能力。

总结:Mistral Small 3.1的回答是正确的,而Gemma 3输出的答案尝试两次分析,但逻辑都存在前后矛盾,最终导致回答错误。

Mistral Small 3.1:分析正确,回答正确

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

Gemma 3 27B:Gemma分析直接把自己绕晕了,回答错误

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

3、编程测试

提示词:制作一个碰撞小游戏:页面放置了方块,小球在弹跳,小球碰到方块则得分,方块全部消失即通关。界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

总结:两个模型的生成效果都较一般,但Gemma 3整体还是更完整一点。

Mistral Small 3.1:效果不尽如人意。在初始页面的游戏说明中明确指出,得分规则是通过小球碰撞方块,但实际效果却直接缺少方块元素,整体表现只能算作半成品

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

Gemma 3 27B:整体逻辑是合理的,分数根据小球的弹跳实时更新,但游戏元素超出了屏幕范围,界面显得较为粗糙,而且缺乏用户交互性。

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

参考效果DeepSeek-R1:界面美观、效果完整,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏。

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

二、多模态能力实测

1、内容识别:

提示词:图片中中文和英文分别写了什么?

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

(图源网络)

考察点:测试模型对图片中文字的识别和理解能力,这涉及到大模型的图像识别技术,以及对中英文语言的理解和翻译能力。

总结:两个模型均正确识别出了英文内容,但中文内容识别表现不佳

Mistral Small 3.1:英文内容完全识别正确,但中文部分完全不对

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

Gemma 3 27B:英文内容完全识别正确,但中文部分不正确

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

2、图表分析:

提示词:请根据图表回答,2022年GDP最强的城市是哪个?增速最快的城市是哪个?

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

(图源网络)

考察点:测试模型图表阅读、信息提取以及分析能力。

总结:Mistral Small 3.1在图表理解方面表现更优,Gemma 3 则是只回答正确了GDP最强的城市,未答出增速最快的城市。

Mistral Small 3.1:对于含有少量中文的图表,两个提问模型都给出了正确答案。

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

Gemma 3 27B:第一个问题回答正确,第二个问题回答错误,福州对应的GDP增速应该是4.4%而不是4.5%。

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

3、多模态推理:

提示词:根据规律回答问号处的数字应该填什么?(正确答案是91)

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

(图源网络)

考察点:模型能否识别并理解数字之间的潜在规律或模式,并据此进行推理以找出未知的数字。

总结:Mistral Small 3.1模型“无中生有”了数字,出现了模型幻觉,而Gemma 3回答给出了正确的答案

Mistral Small 3.1:输出的规律里出现了图片中没有的数字,最后答案是错误的,这或许是存在“模型幻觉”。

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

Gemma 3 27B:答案正确

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

实测总结:

通过以上对比实测,可以初步得出以下结论:

通用任务方面:

(1)两模型中文语境理解均存局限

在中文语境理解测试中,两个模型均未能完全理解所有中文字的含义,可得出在处理中文语言环境时的两个模型均存在局限。

(2)Mistral Small 3.1推理能力更优

在推理测试中,Mistral Small 3.1给出了正确答案,展示了较强的逻辑推理能力。而 Gemma 3 多次分析都陷入逻辑矛盾中,逻辑方面的能力仍需增强。

(3)两模型编程效果各方面表现欠佳

在编程测试中,两者的编程效果均不理想。无论是从效果的完整性、交互性还是界面美观度来说,小参数模型上升的空间还较大。

多模态方面:

(1)中文内容识别能力不足

在内容识别任务中,两个模型对中文内容的识别准确度较低。这表明,当处理包含大量中文的多模态任务时,模型的整体表现会受到一定程度的影响。

(2)含有少量中文图表任务的准确度表现

在图表分析任务中,Mistral Small 3.1表现更为出色。图片中仅包含少量中文内容,主要以数字和图形为主,这表明,Mistral Small在处理少量中文内容的任务时,准确度受影响较小。

(3)结合图像与推理的任务Gemma 3表现更优

多模态推理方面,Gemma 3 27B成功推理出了正确的答案,这表明Gemma 3能够在视觉信息和逻辑推理之间建立有效的联系,提供更为准确和全面的解答。

小模型的诞生旨在满足多样化应用场景的需求一般来说,小参数模型在端侧设备适配度上远远高于大参数模型。然而,经过今日的实测发现,当前小参数模型在各类任务中的准确率仍有较大的提升空间。在未来,或许“大模型训练,小模型落地”的模式才是真正的发展方向。


在302.AI上使用 Gemma 3 27b 和 Mistral small 3.1 模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→下滑到“开源模型”→ 按需选择mistral-small-latest/gemma-3-27b-it→创建聊天机器人;

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→开源模型→查看文档;

Gemma 3 27b模型的API名称:gemma-3-27b-it;

Mistral small 3.1的API名称:mistral-small-2503;

302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 3 月 19 日 上午11:18
Next 2025 年 3 月 22 日 上午10:57

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8290
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3450
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4441
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(22)

  • Bell Bubert
    Bell Bubert 2025 年 6 月 4 日 下午2:21

    Im not certain where you are getting your info, but great topic. I must spend a while finding out more or understanding more. Thanks for fantastic info I was searching for this information for my mission.

  • chauffeur privé
    chauffeur privé 2025 年 6 月 6 日 上午9:30

    Thanks a lot for sharing this with all folks you actually recognize what you are talking approximately! Bookmarked. Please additionally seek advice from my web site =). We could have a link exchange contract among us!

  • watch boxing online
    watch boxing online 2025 年 6 月 28 日 上午7:45

    I do agree with all the ideas you’ve presented in your post. They’re very convincing and will definitely work. Still, the posts are too short for beginners. Could you please extend them a bit from next time? Thanks for the post.

  • Lia Burtner
    Lia Burtner 2025 年 7 月 2 日 上午3:17

    I?¦ve recently started a site, the info you provide on this site has helped me greatly. Thanks for all of your time & work.

  • NCAA Football Live Streams
    NCAA Football Live Streams 2025 年 7 月 17 日 下午9:12

    Hi there! This post couldn’t be written any better! Reading through this post reminds me of my previous room mate! He always kept talking about this. I will forward this article to him. Pretty sure he will have a good read. Thank you for sharing!

  • Watch MLB Online
    Watch MLB Online 2025 年 7 月 17 日 下午11:01

    I really prize your piece of work, Great post.

  • Live Football Streaming
    Live Football Streaming 2025 年 7 月 18 日 上午3:44

    It?¦s actually a cool and helpful piece of information. I am satisfied that you simply shared this helpful info with us. Please keep us informed like this. Thank you for sharing.

  • IndyCar Series Live Stream Online
    IndyCar Series Live Stream Online 2025 年 7 月 18 日 下午1:57

    Thanks for helping out, good information.

  • Watch Football Online
    Watch Football Online 2025 年 7 月 18 日 下午7:02

    I will right away grab your rss as I can’t find your email subscription link or e-newsletter service. Do you have any? Please let me know in order that I could subscribe. Thanks.

  • Live MotoGP Stream
    Live MotoGP Stream 2025 年 7 月 19 日 上午5:04

    I reckon something genuinely interesting about your site so I saved to my bookmarks.

  • Free Basketball Streaming
    Free Basketball Streaming 2025 年 7 月 19 日 上午10:22

    I have been browsing on-line greater than three hours today, but I never discovered any fascinating article like yours. It¦s pretty worth enough for me. In my opinion, if all website owners and bloggers made excellent content material as you probably did, the web can be a lot more helpful than ever before.

  • NFL RedZone Stream
    NFL RedZone Stream 2025 年 7 月 19 日 下午3:20

    Exactly what I was searching for, appreciate it for posting.

  • Stream Hockey games online
    Stream Hockey games online 2025 年 7 月 19 日 下午9:17

    I loved as much as you’ll obtain performed right here. The cartoon is tasteful, your authored material stylish. nonetheless, you command get got an edginess over that you wish be handing over the following. ill no doubt come further until now once more since exactly the same nearly very ceaselessly inside of case you defend this hike.

  • Live Rugby Streaming
    Live Rugby Streaming 2025 年 7 月 20 日 下午12:48

    Does your website have a contact page? I’m having trouble locating it but, I’d like to shoot you an e-mail. I’ve got some suggestions for your blog you might be interested in hearing. Either way, great site and I look forward to seeing it develop over time.

  • Stream ATP Tour games online
    Stream ATP Tour games online 2025 年 7 月 21 日 上午2:24

    I got what you intend, appreciate it for posting.Woh I am delighted to find this website through google.

  • Live Tennis Streaming Website
    Live Tennis Streaming Website 2025 年 7 月 21 日 上午7:29

    WONDERFUL Post.thanks for share..more wait .. …

  • Giovanna Rochester
    Giovanna Rochester 2025 年 7 月 28 日 下午5:54

    Today, I went to the beach front with my kids. I found a sea shell and gave it to my 4 year old daughter and said “You can hear the ocean if you put this to your ear.” She put the shell to her ear and screamed. There was a hermit crab inside and it pinched her ear. She never wants to go back! LoL I know this is completely off topic but I had to tell someone!

  • mold damage clean-up
    mold damage clean-up 2025 年 7 月 31 日 上午4:54

    I like this web site so much, saved to fav. “To hold a pen is to be at war.” by Francois Marie Arouet Voltaire.

  • web design
    web design 2025 年 8 月 7 日 上午11:18

    Hello, i think that i saw you visited my site so i got here to “return the favor”.I’m attempting to in finding issues to improve my site!I suppose its ok to use some of your ideas!!

  • situs toto
    situs toto 2025 年 8 月 16 日 上午10:57

    I genuinely enjoy looking at on this web site, it contains superb posts.

  • bandar macau
    bandar macau 2025 年 8 月 16 日 下午12:25

    Glad to be one of many visitants on this awesome website : D.

  • Inmobiliaria en José Ignacio
    Inmobiliaria en José Ignacio 2025 年 8 月 24 日 下午9:04

    It’s really a great and helpful piece of info. I’m glad that you shared this useful information with us. Please keep us up to date like this. Thanks for sharing.