资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2.50 美元,输出价格为每百万tokens 10 美元,这个价格和GPT-4o-2024-08-06版本是一样的

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

302.AI在GPT-4o-2024-11-20发布后,迅速在聊天机器人和API超市提供了GPT-4o-2024-11-20模型,而且302.AI提供了按需付费的使用方式,无需担心有月费和捆绑套餐。更重要的是,聊天机器人中的GPT-4o-2024-11-20模型目前正限时5折优惠,非常具有性价比!

> 在302.AI上使用:

下面是给大家展示如何在302.AI聊天机器人和API超市获取GPT-4o-2024-11-20模型:

聊天机器人:

1、进入302.ai,点击【使用机器人】——选择【模型】——【gpt-4o-2024-11-20】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

API:

1、进入302.ai,点击【使用API】——【API超市】——【语言大模型】——【OpenAI】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

2、点击后可以看到已经提供了GPT-4o-2024-11-20的API,用户可以选择【查看文档】或者【在线体验】,快速调试或者接入模型的API。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 实测:

传言此次更新的GPT-4o-2024-11-20速度大幅提升,但能力却有所下降,为了验证这一说法,下面我们就来测试一下,看看模型的表现如何?

创意写作测试:

最近,国内综艺《再见爱人4》疯狂刷屏网络,综艺上嘉宾的经典发言也频频在各大网络平台被模仿,而AI模型如果能够对这些互联网流行的经典语句进行模仿,也可以说是互联网时代的一种创意写作。为此,我们整理了最近非常火的《再见爱人》中的嘉宾经典语录,让各模型学习之后吐槽国潮包装外卖。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022、

使用工具:302.AI的模型竞技场

提示词:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

分析:看下三个模型给出的答案,首先我们认为gpt-4o-2024-11-20的答案是最有趣的,不仅把语录中的梗都融合进去,还句句刁钻。claude-3.5-sonnet也是还不错,能够模仿出语录的风格但有些语句逻辑比较矛盾,比如说到塞小零食但是后面又转折到吐槽一次性筷子。最后是gemini-1.5-pro-002,gemini写的评论就是比较简单,只是对语句风格进行了模仿,没有过多的延展。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

创造性思维测试:

第二轮的实测是创造性思维测试,给出条件后,需要模型从已知的词汇中筛选出符合条件的单词。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:你能写6个刚好含有三个“r”的单词吗?

分析:从以下三个模型可以看到,只有gpt-4o-2024-11-20给出的六个单词是完全符合条件的,而gemini-1.5-pro-002模型六个答案中只有一个单词是符合条件的,claude-3.5-sonnet则是出现了“模型幻觉”,先是给出了五个符合条件的单词和一个不符合条件的单词,但紧接着把符合要求的单词错误识别成不符合要求的单词,重新给出的单词也是不符合要求的。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

大海捞针测试:

最后一轮是海底捞针测试,主要是想实测gpt-4o-2024-11-20的文档理解和分析能力。在共2万多字的《小王子》原文中分别在不同位置插入了以下三句话:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

使用工具:302.AI的聊天机器人

提示词:请阅读文档后告诉我:制作完美披萨需要哪些秘密成分?

分析:可以看到模型虽然分析出了文档的内容为《小王子》,但是却没有在文档中找出制作完美披萨需要哪些秘密成分,表现并不理想。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 总结

通过以上三轮实测可以初步得出结论:

创意写作测试:在这次创意写作的测试中,我们通过让模型模仿一些流行的经典语句,进行二次创作,旨在激发灵感和创意。而gpt-4o-2024-11-20展现出的答案,确实让人眼前一亮,生成的文本体现出了对语句的深入理解同时具有独特的风格。

创造性思维测试:第一轮实测中gpt-4o-2024-11-20的表现非常让人印象深刻,展现出了非常高的提示词理解能力和准确性,而同一测试中,其他模型则出现了不同程度的问题,比如给出错误答案、出现模型幻觉等。

大海捞针测试:最后在大海捞针的测试gpt-4o-2024-11-20模型并未通过,非常可惜,并没有能够把藏在文档中的“针”找出。

总的来说,在创造性思维和模仿流行文化的能力上,GPT-4o-2024-11-20的表现无疑是非常出色的。然而,在文档理解和分析能力方面,GPT-4o-2024-11-20的表现并未达到预期,这显示出模型在长文本处理时的局限性。

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2024 年 11 月 22 日 下午7:30
Next 2024 年 11 月 27 日 下午6:32

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2720

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注