资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

11月19日,Mistral AI宣布推出新视觉模型——Pixtral Large。

Pixtral Large是基于Mistral Large 2构建,具有124B开放权重的多模态模型,支持128K上下文窗口,能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

根据Mistral AI提供的Pixtral Large在MMMU、MathVista、ChartQA、DocVQA、VQAv2等基准测试的数据,该模型在包括 MathVista、DocVQA 和 VQAv2 在内的多种基准上展现出了最先进的性能

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

其中,在MathVista 基准上,Pixtral Large 实现了69.4%的准确率,优于所有其他模型。在 ChartQA和DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。而在 MM-MT-Bench 上表现Pixtral Large也优于Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

除了发布新模型Pixtral Large,Mistral AI公司还更新了文本模型Mistral Large,并以Mistral Large 24.11的形式更新在HuggingFace,Mistral Large 24.11和Pixtral Large一样支持128K上下文窗口、在长上下文理解、新系统提示和更准确的函数调用方面有显著改进。

Mistral Large 24.11模型突出特点之一就是精通编码,它接受过80多种编码语言的培训,例如 Python、Java、C、C++、Javacsript 和 Bash等。

> 在302.AI上使用获取方式

Mistral AI发布消息后,302.AI在第一时间更新了Pixtral Large和Mistral Large 24.11两个模型,如果想要快速获得这两个模型,可以选择302.AI的聊天机器人;如果想要便捷高效接入模型的API,可以选择我们的API超市,下面是具体的获取方式:

1、聊天机器人进入302.ai后,找到聊天机器人——点击模型——找到开源模型——开源看到Pixtral Large 2411和Mistral Large 2411两个模型,选择需要的模型后点击【确定】即可;

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

2、API超市:找到API超市——在分类中点击【语言大模型】——选择开源模型;

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

(1)点击【查看文档】后,左侧为模型列表,可以看到Pixtral Large 2411和Mistral Large 2411模型,302.AI支持在线调试功能,能够帮助开发者快速测试和验证API接口的功能,提高开发和调试的效率;

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

(2)点击【在线体验】则可以更快捷、高效的测试模型各种参数;

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

> 模型实测

接下来,我们根据模型的性能特点进行实测,看看表现如何?

Pixtral Large 2411

实测1-3均为多模态实测,为了更直观对比模型答案,选择了302.AI的模型竞技场,分别从图表理解、图形推理等方面测试对比模型的表现

对比模型:Pixtral Large 2411、GPT-4o、Llama3.2-90B

使用工具:302.AI的模型竞技场

实测1:理解:

第一轮实测先上传了一张中国四大经济圈GDP增速对比折线图,可以看到图中蓝色线代表的是全国GDP增速。

提示词提问:请问2015年全国GDP增速为多少?

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

分析:第一题还是比较简单,我们可以看到以下包括Pixtral Large 2411在内的三个模型的回答都是正确的,2015年全国GDP增速为7%上下,而Pixtral Large还在回答中指出蓝色线条代表全国的GDP增速,答案更加完整

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

实测2:图形测试:

第二轮实测不只是看图回答,还需要加上简单的计算,给出一张具有多种几何图像的图片

提示词问题:请问图中减去所有紫色物体和红色物体后,剩下多少个物体?

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

分析:这一题的正确答案是11个。看下三个模型的回答,GPT-4o的回答很简短,但给出的答案是错误的,Llama3.2-90B则是表现较差,回答中紫色物体和红色物体的数量均是错的。而今天的主角Pixtral Large的回答让人眼前一亮,不仅回答正确,还完整无误地描述出减去以及剩下的物体形状和颜色

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

实测3:小票测试:

实测3的难度比以上测试都大,获取图片中信息后,还需要对信息进行分析计算才能回答问题。我们先给出一张小票,里面包含了菜品、数量、金额等信息。

提示词提问:请根据图片信息回答,如果我需要买6瓶绿茶+1份炒花甲+1串羊肉串,共需要多少钱?

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

分析:小票图片中只给出了5串羊肉串的价格,而提问的是1串羊肉串,这需要模型获取理解小票信息后做出计算。首先可以看到GPT-4o的回答完全正确,其次是Llama3.2-90B模型的回答,三个单品价格都是错误的,最后的价格也是错误的,最后是Pixtral Large的回答,非常可惜,回答中单品价格和总结果也都是错误的

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

Mistral Large 2411

实测1:编程测试:

PS:实测4主要针对Mistral Large 2411编码能力

对比模型:Mistral Large 2411、Claude-3.5-sonnet

使用工具:302.AI的聊天机器人-Artifacts功能

提示词:

设计一个智慧城市数据监控大屏,react形式实现:

创建实时数据展示

设计告警信息面板

制作地理信息图表

实现数据更新效果

分析1:这里多次尝试用中文提问,Mistral Large 2411都无法生成正确的代码运行,于是切换了英文提示词,终于能成功运行,但是从生成的效果来看,可以说不太理想,虽然实现了实时数据效果,但完全没有页面设计可言。

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

分析2:再看看Claude-3.5-sonnet的生成的效果,不仅实现了实时数据效果,从美学角度上看,画面设计简约大方,非常出色。

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

实测2:文本分析测试:

使用模型:Mistral Large 2411

使用工具:302.AI的聊天机器人

分析:Mistral Large 2411的第二轮是文本分析测试,文本中小说次序打乱并分为了8个片段,需要模型阅读文本后将片段进行排序,可以看到Mistral Large 2411的回答并不是按照提示词排序片段,而是将文本中的内容直接作为答案回答,让人有种“答不对题”的感觉。

资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

> 总结

通过以上四轮实测可以初步得出结论:

多模态实测:Pixtral Large在实测1图表理解和实测2图形推理上表现非常出色,尤其是实测2图形推理问题中,能够对物体数量及特征的正确识别和描述。但在实测3小票信息处理上,Pixtral Large未能准确计算出最终价格,这表明在处理需要复杂运算和多层信息综合的任务时仍有提升空间。

编程实测:在实测中,Mistral Large 2411的表现并不理想,尤其是使用中文进行代码生成时,效果非常差。尽管在切换至英文提示后有所改善,但生成的结果在页面设计方面仍有明显不足

文本分析测试:根据实测可以看出,Mistral Large 2411在长文本分析的表现也是较差的,不止回答错误,还出现与问题完全无关的“答非所问”现象。

总的来说,在此次实测中,Pixtral Large 2411和Mistral Large 2411展现了各自的优势和不足。Pixtral Large在多模态理解上表现出色,Mistral Large 2411则在编码能力和文本分析上显示出一定的局限性。未来我们会继续关注相关动态给大家带来更多AI资讯。

参考文章:

https://mistral.ai/news/pixtral-large/

Like (0)
302.AI302.AI
Previous 2024 年 11 月 20 日 下午6:52
Next 2024 年 11 月 22 日 下午6:11

相关推荐

  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    28000
  • 火星文避雷评价帖,AI到底能不能看懂?!

    AI到底能不能看懂火星文差评!看看哪个模型表现更好! 大家都知道,在《歌手2024》播出的时候,13.8和13.11哪个大的问题难倒了不少AI模型。而最近,AI模型迎来了新一轮考验来了,起因是这样的,为了防止外国人通过翻译软件看懂原意,一些中国人在海外订酒店吃亏后,用火星文提醒同胞不要再来,而这些帖子被截图搬运到了国内的社交媒体平台后很快就火了,引发了不少网…

    2024 年 9 月 29 日
    20900
  • 模型竞技场:中秋国庆调休来了,哪个AI能算明白?

    不知不觉中,2024年的时光已悄然流逝了三分之二。 许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。 对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假…

    2024 年 8 月 29 日
    26100
  • 资讯丨当小红书爆火的Recraft新风格与添加背景文字功能结合,会碰撞出什么样的火花?

    最近,302.AI工具超市的AI图片工具箱推出了一个全新的功能——添加背景文字。这一功能的灵感最初来源于苹果设备中壁纸所展现出的分层效果。 在前段时间,一位16岁的高中生也构建了一个应用叫“text-behind-image”,这款应用旨在帮助用户轻松地将文字添加到图像背景中,实现文字与背景图像的融合。在实际体验该应用后,我们发现线上版本无法使用,并且有可能…

    5天前
    9100
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    22700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注