OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。

根据官网展示的价格:

GPT-4o mini的商用价格是每百万输入 tokens 0.15 美元(约1.09元人民币),每百万输出 tokens 0.6 美元(约4.36元人民币),但是目前OpenAI依然限制中国地区的使用

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

其实,ChatGPT之所以在行业内具有这么高的知名度,原版GPT-3.5模型功不可没。但经过一系列升级降价,GPT-3.5 Turbo渐渐落后,同时竞争对手新出的小模型,比如Anthropic的Claude 3 Haiku等,开始抢占市场。

作为对比,GPT-4o的百万Tokens输入/输出价格是5美元/15美元,之前的入门款模型GPT-3.5 Turbo定价是0.5美元/1.5美元。所以最新的GPT-4o mini要比GPT-4o便宜了96%-97%,比起GPT-3.5 Turbo也要便宜60%-70%。正因如此,随着GPT-4o mini,GPT-3.5 Turbo的历史使命到此结束。

回到GPT-4o mini ,据官网介绍,GPT-4o mini 已经在几个关键基准上进行了评估。(图源OpenAI官网)

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

可以看到,在推理任务方面:GPT-4o mini 文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上的GPT-4o mini 得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

其次是数学和编码能力:在测量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。

还有在多模态推理方面, GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

说了这么多,不如实践对比一下,找到302.AI的模型竞技场,我们可以看到左侧的模型栏已新增了对GPT-4o-mini的支持,不得不感叹,302.AI模型竞技场的更新速度确实非常快,紧跟实时动态,能够为用户提供最新的模型使用体验。接下来勾选GPT-4o mini 、GPT-4o和GPT-3.5 Turbo简单测试对比下这三个模型,提问:“9.11大于9.9吗?”看下三个模型的回答:

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

第一轮提问,GPT-4o mini和GPT-4o都回答对了!GPT-3.5 Turbo回答错误,接下来继续提问“为什么”,看下结果会不会改变:

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

第二轮提问后,GPT-4o更改了原本对的答案,GPT-3.5 Turbo依旧是保持错误的答案,最终只有GPT-4o mini做对,看来GPT-4o mini的数学能力比GPT-4o强。

值得一提的是,除了模型竞技场的更新,302.AI还为用户提供了单独的GPT-4o mini模型,可以看到,302.AI的聊天机器人目前也已经新增了对GPT-4o-mini的支持,且没有网络限制,按需付费使用,没有捆绑套餐。

OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

GPT-4o mini的发布,以其卓越的性价比,为广泛的商业和个人应用开辟了新天地。该模型在MMLU等推理任务中表现出色,并且具备文本和视觉的多模态支持。随着AI技术的不断进步和成本的进一步降低,我们有理由相信,更加强大、更加经济的AI模型将不断涌现,为各行各业带来深远的影响。

参考文献: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

https://mp.weixin.qq.com/s/47WucKcTcoMKlzNFAcmOnQ

Like (0)
302.AI302.AI
Previous 2024 年 7 月 22 日 下午5:39
Next 2024 年 7 月 25 日 下午3:47

相关推荐

  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日
    22300
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    44200
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    40500
  • 资讯丨无需再死记硬背Excel公式和函数,302 AI Excel工具帮你解放大脑!

    要说一年中使用Excel表格最多的时候,一定是在季度末或者年度末。这两个时间节点是企业和个人在工作中进行数据整理和分析的关键时刻。在这个阶段,许多人需要对过去一段时间的工作数据进行系统性的整理。然而,对于那些不常使用Excel的人来说,面对复杂的表格和各种公式,往往会感到无从下手,最后只能无奈花费大量时间重新在网络上搜索相关内容学习。 但随着AI技术的发展,…

    2025 年 1 月 3 日
    28600
  • 资讯丨五个提示词实测对比DeepSeek-V3.1/Gemini-2.5/Claude-3.7,到底谁在前端任务上更胜一筹?

    3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…

    2025 年 3 月 27 日
    32800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注