302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。

根据官网展示的价格:

GPT-4o mini的商用价格是每百万输入 tokens 0.15 美元(约1.09元人民币),每百万输出 tokens 0.6 美元(约4.36元人民币),但是目前OpenAI依然限制中国地区的使用

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

其实,ChatGPT之所以在行业内具有这么高的知名度,原版GPT-3.5模型功不可没。但经过一系列升级降价,GPT-3.5 Turbo渐渐落后,同时竞争对手新出的小模型,比如Anthropic的Claude 3 Haiku等,开始抢占市场。

作为对比,GPT-4o的百万Tokens输入/输出价格是5美元/15美元,之前的入门款模型GPT-3.5 Turbo定价是0.5美元/1.5美元。所以最新的GPT-4o mini要比GPT-4o便宜了96%-97%,比起GPT-3.5 Turbo也要便宜60%-70%。正因如此,随着GPT-4o mini,GPT-3.5 Turbo的历史使命到此结束。

回到GPT-4o mini ,据官网介绍,GPT-4o mini 已经在几个关键基准上进行了评估。(图源OpenAI官网)

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

可以看到,在推理任务方面:GPT-4o mini 文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上的GPT-4o mini 得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

其次是数学和编码能力:在测量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。

还有在多模态推理方面, GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

说了这么多,不如实践对比一下,找到302.AI模型竞技场,我们可以看到左侧的模型栏已新增了对GPT-4o-mini的支持,不得不感叹,302.AI模型竞技场的更新速度确实非常快,紧跟实时动态,能够为用户提供最新的模型使用体验。接下来勾选GPT-4o mini 、GPT-4o和GPT-3.5 Turbo简单测试对比下这三个模型,提问:“9.11大于9.9吗?”看下三个模型的回答:

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

第一轮提问,GPT-4o mini和GPT-4o都回答对了!GPT-3.5 Turbo回答错误,接下来继续提问“为什么”,看下结果会不会改变:

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

第二轮提问后,GPT-4o更改了原本对的答案,GPT-3.5 Turbo依旧是保持错误的答案,最终只有GPT-4o mini做对,看来GPT-4o mini的数学能力比GPT-4o强。

值得一提的是,除了模型竞技场的更新,302.AI还为用户提供了单独的GPT-4o mini模型,可以看到,302.AI的聊天机器人目前也已经新增了对GPT-4o-mini的支持,且没有网络限制,按需付费使用,没有捆绑套餐。

302.AI 基准实验室 | OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

GPT-4o mini的发布,以其卓越的性价比,为广泛的商业和个人应用开辟了新天地。该模型在MMLU等推理任务中表现出色,并且具备文本和视觉的多模态支持。随着AI技术的不断进步和成本的进一步降低,我们有理由相信,更加强大、更加经济的AI模型将不断涌现,为各行各业带来深远的影响。

参考文献: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

https://mp.weixin.qq.com/s/47WucKcTcoMKlzNFAcmOnQ


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 7 月 22 日 下午5:39
Next 2024 年 7 月 25 日 下午3:47

相关推荐

  • Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室

    今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…

    1天前 基准实验室
    1390
  • 体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室

    赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…

    4天前 基准实验室
    7040
  • 302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…

    2025 年 9 月 24 日 赛博月刊
    4330
  • 追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室

    美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…

    2025 年 9 月 19 日 基准实验室
    4420

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(2)

  • Snipfeed
    Snipfeed 2025 年 4 月 12 日 下午9:12

    I’m extremely impressed together with your writing talents and
    also with the structure for your blog. Is this a paid subject matter or did you customize it
    yourself? Anyway keep up the excellent high quality writing, it is rare to peer a great weblog like this one nowadays.
    TikTok Algorithm!

  • snow caps weed
    snow caps weed 2025 年 7 月 11 日 上午12:20

    Nice