302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20

gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。

lmarena.ai的大模型竞技场中,gemini-2.5-flash-preview-05-20 综合排名一跃至第二,仅次于自家的 gemini-2.5-pro-preview-05-06 模型。

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

接下来,302.AI团队将对 gemini-2.5-flash-preview-05-20 进行实测。综合多个方面,本次选出的对比模型为: o4-miniclaude-3-7-sonnet-20250219


I. Gemini 2.5-flash vs. o4-mini vs. claude-3-7-sonnet 对比实测

在实测前,展示一下三个模型的在 302.AI 的价格:

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

价格由低至高展示:

输入输出
gemini-2.5-flash-preview-05-200.15 美金/1M3.5 美金/1M
o4-mini1.1 美金/1M4.4 美金/1M
claude-3-7-sonnet-202502193.3 美金/1M16.5 美金/1M

1、弱智吧问题

提示词:一步一步认真思考,目前有两根香蕉,我昨天吃掉一根,现在还有几根

题目解析:问题中提到“我目前有两根香蕉”,这是当前的状态。昨天吃掉的香蕉不应该影响“我目前有两根香蕉”这个状态。所以答案是2根。

o4-mini:回答错误

claude-3-7-sonnet :回答错误

gemini-2.5-flash:回答正确

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

2、数学-24点

提示词:请运用四则运算方法(加、减、乘、除及括号),将数字2,5,5,10进行组合运算,使其结果等于24,每个数字只能使用一次。

题目分析:涉及逆向运算的24点题目,如包含除法和分数的,对模型的推理能力有较高要求,正确答案是(5-2/10)× 5。

o4-mini:回答正确

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

claude-3-7-sonnet :多次尝试后,仍然回答错误

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

gemini-2.5-flash:同样多次尝试后,仍然回答错误

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

看下同为谷歌旗下的 gemini-2.5-pro-preview-05-06 模型答案,解析步骤非常清晰且答案正确,似乎在数学24点问题上,gemini-2.5-pro系列还是比gemini-2.5-flash系列强些。

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

3、图片基础认知

提示词:这张图片出自哪部动漫?请说出图中角色的名字。

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

题目分析:图片基础认知能力测试,参考答案:出自《哪吒之魔童降世》,角色名为哪吒。

o4-mini:两个问题均回答正确

claude-3-7-sonnet :电影名字回答正确,角色名回答错误,存在图片认知幻觉。

gemini-2.5-flash:两个问题均回答正确

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

4、视觉应用

提示词:如果我想收藏这个视频,应该需要点哪个按钮?说出按钮的序号。

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

题目解析:这是模型视觉应用能力的测试,正确答案为3号。

o4-mini:回答正确

claude-3-7-sonnet :回答正确

gemini-2.5-flash:回答正确

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

5、前端编程

提示词:请用前端代码制作一个吃豆人游戏,需要包含游戏说明和游戏开始按钮,所有代码放在一起输出。

o4-mini:与其他模型相比,o4-mini生成的效果较为简单,且没有太多的设置,整体表现稍显逊色

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

claude-3-7-sonnet :界面设计较为美观且清晰,但在实际操作中发现豆子可以穿越黑色管道,该设置不够合理

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

gemini-2.5-flash:实操过程中未出现明显的bug,设置了“幽灵”元素,增加了游戏的趣味性,界面美观清晰,整体表现优秀

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

II. 实测总结

1、实测结果整理:

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)gemini-2.5-flash-preview-05-20 的整体出色。尤其在视觉实测中其准确度高于 o4-mini 和 claude-3-7-sonnet。

(2)在编程任务中,Gemini 2.5-flash 的输出不仅避免了明显的错误,而且在趣味性和美观性上也展现出了更高的水平,这表明其在处理复杂任务时的优势。

(3)而在数学问题,gemini-2.5-flash-preview-05-20 表现逊色于 o4-mini,且面对复杂的数学问题会长篇大论,出现错误。


III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

1、聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人;

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

点击选择模型gemini-2.5-flash-preview-05-20→确定→创建;

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API→API超市→语言大模型→Gemini→查看文档;

API名称:gemini-2.5-flash-preview-05-20

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

想体验 gemini-2.5-flash-preview-05-20 模型?👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评

往期推荐

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 5 月 15 日 下午7:09
Next 2025 年 5 月 23 日 下午7:07

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(3)

  • […] 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强? 302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测… 302.AI 基准实验室丨最新国产视频模型实测对比:Kling 2.0 vs. Vidu Q1 All Rights […]

  • Craig Millraney
    Craig Millraney 2025 年 6 月 4 日 下午2:55

    What i do not realize is in truth how you are not really a lot more well-favored than you might be now. You are so intelligent. You know therefore considerably on the subject of this subject, produced me in my view imagine it from so many varied angles. Its like women and men are not fascinated until it¦s something to do with Woman gaga! Your own stuffs nice. Always deal with it up!

  • transfert orly
    transfert orly 2025 年 6 月 6 日 上午9:42

    Hello! This post couldn’t be written any better! Reading through this post reminds me of my previous room mate! He always kept chatting about this. I will forward this post to him. Fairly certain he will have a good read. Thanks for sharing!