
北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20。
gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。
在lmarena.ai的大模型竞技场中,gemini-2.5-flash-preview-05-20 综合排名一跃至第二,仅次于自家的 gemini-2.5-pro-preview-05-06 模型。

接下来,302.AI团队将对 gemini-2.5-flash-preview-05-20 进行实测。综合多个方面,本次选出的对比模型为: o4-mini 和 claude-3-7-sonnet-20250219。
I. Gemini 2.5-flash vs. o4-mini vs. claude-3-7-sonnet 对比实测
在实测前,展示一下三个模型的在 302.AI 的价格:

价格由低至高展示:
输入 | 输出 | |
gemini-2.5-flash-preview-05-20 | 0.15 美金/1M | 3.5 美金/1M |
o4-mini | 1.1 美金/1M | 4.4 美金/1M |
claude-3-7-sonnet-20250219 | 3.3 美金/1M | 16.5 美金/1M |
1、弱智吧问题
提示词:一步一步认真思考,目前有两根香蕉,我昨天吃掉一根,现在还有几根
题目解析:问题中提到“我目前有两根香蕉”,这是当前的状态。昨天吃掉的香蕉不应该影响“我目前有两根香蕉”这个状态。所以答案是2根。
o4-mini:回答错误。
claude-3-7-sonnet :回答错误
gemini-2.5-flash:回答正确。

2、数学-24点
提示词:请运用四则运算方法(加、减、乘、除及括号),将数字2,5,5,10进行组合运算,使其结果等于24,每个数字只能使用一次。
题目分析:涉及逆向运算的24点题目,如包含除法和分数的,对模型的推理能力有较高要求,正确答案是(5-2/10)× 5。
o4-mini:回答正确

claude-3-7-sonnet :多次尝试后,仍然回答错误

gemini-2.5-flash:同样多次尝试后,仍然回答错误

看下同为谷歌旗下的 gemini-2.5-pro-preview-05-06 模型答案,解析步骤非常清晰且答案正确,似乎在数学24点问题上,gemini-2.5-pro系列还是比gemini-2.5-flash系列强些。

3、图片基础认知
提示词:这张图片出自哪部动漫?请说出图中角色的名字。

(图源网络)
题目分析:图片基础认知能力测试,参考答案:出自《哪吒之魔童降世》,角色名为哪吒。
o4-mini:两个问题均回答正确。
claude-3-7-sonnet :电影名字回答正确,角色名回答错误,存在图片认知幻觉。
gemini-2.5-flash:两个问题均回答正确。

4、视觉应用
提示词:如果我想收藏这个视频,应该需要点哪个按钮?说出按钮的序号。

(图源网络)
题目解析:这是模型视觉应用能力的测试,正确答案为3号。
o4-mini:回答正确。
claude-3-7-sonnet :回答正确。
gemini-2.5-flash:回答正确。

5、前端编程
提示词:请用前端代码制作一个吃豆人游戏,需要包含游戏说明和游戏开始按钮,所有代码放在一起输出。
o4-mini:与其他模型相比,o4-mini生成的效果较为简单,且没有太多的设置,整体表现稍显逊色。

claude-3-7-sonnet :界面设计较为美观且清晰,但在实际操作中发现豆子可以穿越黑色管道,该设置不够合理。

gemini-2.5-flash:实操过程中未出现明显的bug,设置了“幽灵”元素,增加了游戏的趣味性,界面美观清晰,整体表现优秀。

II. 实测总结
1、实测结果整理:

2、实测结论:
基于以上实测结果,可初步得出以下结论:
(1)gemini-2.5-flash-preview-05-20 的整体出色。尤其在视觉实测中其准确度高于 o4-mini 和 claude-3-7-sonnet。
(2)在编程任务中,Gemini 2.5-flash 的输出不仅避免了明显的错误,而且在趣味性和美观性上也展现出了更高的水平,这表明其在处理复杂任务时的优势。
(3)而在数学问题,gemini-2.5-flash-preview-05-20 表现逊色于 o4-mini,且面对复杂的数学问题会长篇大论,出现错误。
III. 如何在302.AI上使用:
302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
1、聊天机器人中使用
步骤指引 :在线使用→应用超市→机器人→聊天机器人;
点击选择模型gemini-2.5-flash-preview-05-20→确定→创建;
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:API→API超市→语言大模型→Gemini→查看文档;
API名称:gemini-2.5-flash-preview-05-20
想体验 gemini-2.5-flash-preview-05-20 模型?👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
