资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2.50 美元,输出价格为每百万tokens 10 美元,这个价格和GPT-4o-2024-08-06版本是一样的

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

302.AI在GPT-4o-2024-11-20发布后,迅速在聊天机器人和API超市提供了GPT-4o-2024-11-20模型,而且302.AI提供了按需付费的使用方式,无需担心有月费和捆绑套餐。更重要的是,聊天机器人中的GPT-4o-2024-11-20模型目前正限时5折优惠,非常具有性价比!

> 在302.AI上使用:

下面是给大家展示如何在302.AI聊天机器人和API超市获取GPT-4o-2024-11-20模型:

聊天机器人:

1、进入302.ai,点击【使用机器人】——选择【模型】——【gpt-4o-2024-11-20】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

API:

1、进入302.ai,点击【使用API】——【API超市】——【语言大模型】——【OpenAI】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

2、点击后可以看到已经提供了GPT-4o-2024-11-20的API,用户可以选择【查看文档】或者【在线体验】,快速调试或者接入模型的API。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 实测:

传言此次更新的GPT-4o-2024-11-20速度大幅提升,但能力却有所下降,为了验证这一说法,下面我们就来测试一下,看看模型的表现如何?

创意写作测试:

最近,国内综艺《再见爱人4》疯狂刷屏网络,综艺上嘉宾的经典发言也频频在各大网络平台被模仿,而AI模型如果能够对这些互联网流行的经典语句进行模仿,也可以说是互联网时代的一种创意写作。为此,我们整理了最近非常火的《再见爱人》中的嘉宾经典语录,让各模型学习之后吐槽国潮包装外卖。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022、

使用工具:302.AI的模型竞技场

提示词:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

分析:看下三个模型给出的答案,首先我们认为gpt-4o-2024-11-20的答案是最有趣的,不仅把语录中的梗都融合进去,还句句刁钻。claude-3.5-sonnet也是还不错,能够模仿出语录的风格但有些语句逻辑比较矛盾,比如说到塞小零食但是后面又转折到吐槽一次性筷子。最后是gemini-1.5-pro-002,gemini写的评论就是比较简单,只是对语句风格进行了模仿,没有过多的延展。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

创造性思维测试:

第二轮的实测是创造性思维测试,给出条件后,需要模型从已知的词汇中筛选出符合条件的单词。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:你能写6个刚好含有三个“r”的单词吗?

分析:从以下三个模型可以看到,只有gpt-4o-2024-11-20给出的六个单词是完全符合条件的,而gemini-1.5-pro-002模型六个答案中只有一个单词是符合条件的,claude-3.5-sonnet则是出现了“模型幻觉”,先是给出了五个符合条件的单词和一个不符合条件的单词,但紧接着把符合要求的单词错误识别成不符合要求的单词,重新给出的单词也是不符合要求的。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

大海捞针测试:

最后一轮是海底捞针测试,主要是想实测gpt-4o-2024-11-20的文档理解和分析能力。在共2万多字的《小王子》原文中分别在不同位置插入了以下三句话:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

使用工具:302.AI的聊天机器人

提示词:请阅读文档后告诉我:制作完美披萨需要哪些秘密成分?

分析:可以看到模型虽然分析出了文档的内容为《小王子》,但是却没有在文档中找出制作完美披萨需要哪些秘密成分,表现并不理想。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 总结

通过以上三轮实测可以初步得出结论:

创意写作测试:在这次创意写作的测试中,我们通过让模型模仿一些流行的经典语句,进行二次创作,旨在激发灵感和创意。而gpt-4o-2024-11-20展现出的答案,确实让人眼前一亮,生成的文本体现出了对语句的深入理解同时具有独特的风格。

创造性思维测试:第一轮实测中gpt-4o-2024-11-20的表现非常让人印象深刻,展现出了非常高的提示词理解能力和准确性,而同一测试中,其他模型则出现了不同程度的问题,比如给出错误答案、出现模型幻觉等。

大海捞针测试:最后在大海捞针的测试gpt-4o-2024-11-20模型并未通过,非常可惜,并没有能够把藏在文档中的“针”找出。

总的来说,在创造性思维和模仿流行文化的能力上,GPT-4o-2024-11-20的表现无疑是非常出色的。然而,在文档理解和分析能力方面,GPT-4o-2024-11-20的表现并未达到预期,这显示出模型在长文本处理时的局限性。

Like (1)
302.AI302.AI
Previous 2024 年 11 月 22 日 下午7:30
Next 2024 年 11 月 27 日 下午6:32

相关推荐

  • 资讯丨简单几步学会制作超真实的“毒液变身”特效,胆小慎进!

    最近,各社交媒体平台都被一种叫“毒液变身”的特效刷屏了,视频虽然仅有短短几秒钟,却通过生动的画面和动感的特效,给观众带来了强烈的视觉冲击,从而迅速吸引了大量网友的目光。甚至在某些短视频平台上,使用这一特效制作的视频获得了过万的点赞: “毒液变身”特效流行后,许多网友纷纷在线求教程,想要学习如何制作类似的视频。实际上,这些视频效果都是通过最新的视频生成模型——…

    2024 年 12 月 6 日
    22100
  • 资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

    自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…

    2025 年 2 月 10 日
    51600
  • 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?

    9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升。 根据官方数据显示,两款模型在M…

    2024 年 9 月 26 日
    34100
  • 资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

    12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…

    2024 年 12 月 23 日
    1.5K00
  • 资讯丨无需再死记硬背Excel公式和函数,302 AI Excel工具帮你解放大脑!

    要说一年中使用Excel表格最多的时候,一定是在季度末或者年度末。这两个时间节点是企业和个人在工作中进行数据整理和分析的关键时刻。在这个阶段,许多人需要对过去一段时间的工作数据进行系统性的整理。然而,对于那些不常使用Excel的人来说,面对复杂的表格和各种公式,往往会感到无从下手,最后只能无奈花费大量时间重新在网络上搜索相关内容学习。 但随着AI技术的发展,…

    2025 年 1 月 3 日
    26300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注