资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。

短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打Gemma 3,该模型参数量仅为24B,且同样具备多模态能力以及多语言处理能力。

Mistral Small 3.1 与 Gemma 3 的性能相似,且均是小参数模型,到底谁更强呢?下面302.AI就带大家实测对比看看 Gemma 3 27B和Mistral Small 3.1模型:

模型实测

一、通用能力实测

1、中文语境理解

提示词:“校服上别别别的”里的三个“别”分别是什么意思?

考察点:这是来自“弱智吧”的问题,考察的是模型对于中文词语在具体语境中的理解能力。

总结:对于中文词语在特定语境中的理解,Gemma 3 27B模型的准确率优于Mistral Small 3.1,然而遗憾的是两者均未能提供完全正确的答案

Mistral Small 3.1:只回答正确了第二个“别”字的意思,其余两个理解错误

Gemma 3 27B:回答正确了两个“别”字的意思,第三个理解错误

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

2、推理测试

提示词:

有三个匣子,分别是金匣子、银匣子和铅匣子,其中一个匣子里有宝物。每个匣子上都有一条题词:

金匣子:宝物不在此匣中。银匣子:宝物在金匣中。铅匣子:宝物不在此匣中。

已知这三句话中只有一句是真话。请问宝物在哪个匣子里?

考察点:经典的逻辑推理题目,测试的是模型逻辑思维和推理能力。

总结:Mistral Small 3.1的回答是正确的,而Gemma 3输出的答案尝试两次分析,但逻辑都存在前后矛盾,最终导致回答错误。

Mistral Small 3.1:分析正确,回答正确

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Gemma 3 27B:Gemma分析直接把自己绕晕了,回答错误

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

3、编程测试

提示词:制作一个碰撞小游戏:页面放置了方块,小球在弹跳,小球碰到方块则得分,方块全部消失即通关。界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

总结:两个模型的生成效果都较一般,但Gemma 3整体还是更完整一点。

Mistral Small 3.1:效果不尽如人意。在初始页面的游戏说明中明确指出,得分规则是通过小球碰撞方块,但实际效果却直接缺少方块元素,整体表现只能算作半成品

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Gemma 3 27B:整体逻辑是合理的,分数根据小球的弹跳实时更新,但游戏元素超出了屏幕范围,界面显得较为粗糙,而且缺乏用户交互性。

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

参考效果DeepSeek-R1:界面美观、效果完整,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏。

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

二、多模态能力实测

1、内容识别:

提示词:图片中中文和英文分别写了什么?

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

(图源网络)

考察点:测试模型对图片中文字的识别和理解能力,这涉及到大模型的图像识别技术,以及对中英文语言的理解和翻译能力。

总结:两个模型均正确识别出了英文内容,但中文内容识别表现不佳

Mistral Small 3.1:英文内容完全识别正确,但中文部分完全不对

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Gemma 3 27B:英文内容完全识别正确,但中文部分不正确

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

2、图表分析:

提示词:请根据图表回答,2022年GDP最强的城市是哪个?增速最快的城市是哪个?

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

(图源网络)

考察点:测试模型图表阅读、信息提取以及分析能力。

总结:Mistral Small 3.1在图表理解方面表现更优,Gemma 3 则是只回答正确了GDP最强的城市,未答出增速最快的城市。

Mistral Small 3.1:对于含有少量中文的图表,两个提问模型都给出了正确答案。

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Gemma 3 27B:第一个问题回答正确,第二个问题回答错误,福州对应的GDP增速应该是4.4%而不是4.5%。

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

3、多模态推理:

提示词:根据规律回答问号处的数字应该填什么?(正确答案是91)

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

(图源网络)

考察点:模型能否识别并理解数字之间的潜在规律或模式,并据此进行推理以找出未知的数字。

总结:Mistral Small 3.1模型“无中生有”了数字,出现了模型幻觉,而Gemma 3回答给出了正确的答案

Mistral Small 3.1:输出的规律里出现了图片中没有的数字,最后答案是错误的,这或许是存在“模型幻觉”。

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Gemma 3 27B:答案正确

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

实测总结:

通过以上对比实测,可以初步得出以下结论:

通用任务方面:

(1)两模型中文语境理解均存局限

在中文语境理解测试中,两个模型均未能完全理解所有中文字的含义,可得出在处理中文语言环境时的两个模型均存在局限。

(2)Mistral Small 3.1推理能力更优

在推理测试中,Mistral Small 3.1给出了正确答案,展示了较强的逻辑推理能力。而 Gemma 3 多次分析都陷入逻辑矛盾中,逻辑方面的能力仍需增强。

(3)两模型编程效果各方面表现欠佳

在编程测试中,两者的编程效果均不理想。无论是从效果的完整性、交互性还是界面美观度来说,小参数模型上升的空间还较大。

多模态方面:

(1)中文内容识别能力不足

在内容识别任务中,两个模型对中文内容的识别准确度较低。这表明,当处理包含大量中文的多模态任务时,模型的整体表现会受到一定程度的影响。

(2)含有少量中文图表任务的准确度表现

在图表分析任务中,Mistral Small 3.1表现更为出色。图片中仅包含少量中文内容,主要以数字和图形为主,这表明,Mistral Small在处理少量中文内容的任务时,准确度受影响较小。

(3)结合图像与推理的任务Gemma 3表现更优

多模态推理方面,Gemma 3 27B成功推理出了正确的答案,这表明Gemma 3能够在视觉信息和逻辑推理之间建立有效的联系,提供更为准确和全面的解答。

小模型的诞生旨在满足多样化应用场景的需求一般来说,小参数模型在端侧设备适配度上远远高于大参数模型。然而,经过今日的实测发现,当前小参数模型在各类任务中的准确率仍有较大的提升空间。在未来,或许“大模型训练,小模型落地”的模式才是真正的发展方向。

在302.AI上使用 Gemma 3 27b 和 Mistral small 3.1 模型

302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→下滑到“开源模型”→ 按需选择mistral-small-latest/gemma-3-27b-it→创建聊天机器人;

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:使用API→API超市→语言大模型→开源模型→查看文档;

Gemma 3 27b模型的API名称:gemma-3-27b-it;

Mistral small 3.1的API名称:mistral-small-2503;

资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

Like (0)
302.AI302.AI
Previous 2025 年 3 月 19 日 上午11:18
Next 2025 年 3 月 22 日 上午10:57

相关推荐

  • 50美金复刻DeepSeek R1?解密背后真正的故事

    一则新闻 今天猛然看到一则新闻标题,大意是李飞飞团队仅用 50 美金就复刻出了一个媲美 R1 的模型。我的第一反应是「不可能,又是什么标题党」;第二反应是「数据应该不是凭空捏造的,索性求证一下?」 然后,我找到了原始论文《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393)。仔细拜读之…

    2025 年 2 月 7 日
    33400
  • 超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

    由于AI训练的特殊性,现阶段大模型都存在以下三个问题: 针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。 在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。 给模型装上眼睛 大模型在行业里可以分为两类: 由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都…

    2025 年 2 月 13 日
    35300
  • 资讯丨302.AI正式上线客户端!三个版本可供选择

    随着技术的发展,AI正一点一点融入到我们的日常和生活中,成为我们工作和生活的重要辅助工具。为了给用户带来多样的AI服务体验,11月14日,302.AI正式上线桌面客户端,并提供了以下三个版本给用户选择: 主账户版:支持Windows、Mac系统 子账户版:支持Windows、Mac系统 极简版:仅支持Mac系统 版本介绍: 主账号版: (展示的界面以Wind…

    2024 年 11 月 14 日
    1.3K00
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    65800
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    20900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注