资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2.50 美元,输出价格为每百万tokens 10 美元,这个价格和GPT-4o-2024-08-06版本是一样的

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

302.AI在GPT-4o-2024-11-20发布后,迅速在聊天机器人和API超市提供了GPT-4o-2024-11-20模型,而且302.AI提供了按需付费的使用方式,无需担心有月费和捆绑套餐。更重要的是,聊天机器人中的GPT-4o-2024-11-20模型目前正限时5折优惠,非常具有性价比!

> 在302.AI上使用:

下面是给大家展示如何在302.AI聊天机器人和API超市获取GPT-4o-2024-11-20模型:

聊天机器人:

1、进入302.ai,点击【使用机器人】——选择【模型】——【gpt-4o-2024-11-20】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

API:

1、进入302.ai,点击【使用API】——【API超市】——【语言大模型】——【OpenAI】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

2、点击后可以看到已经提供了GPT-4o-2024-11-20的API,用户可以选择【查看文档】或者【在线体验】,快速调试或者接入模型的API。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 实测:

传言此次更新的GPT-4o-2024-11-20速度大幅提升,但能力却有所下降,为了验证这一说法,下面我们就来测试一下,看看模型的表现如何?

创意写作测试:

最近,国内综艺《再见爱人4》疯狂刷屏网络,综艺上嘉宾的经典发言也频频在各大网络平台被模仿,而AI模型如果能够对这些互联网流行的经典语句进行模仿,也可以说是互联网时代的一种创意写作。为此,我们整理了最近非常火的《再见爱人》中的嘉宾经典语录,让各模型学习之后吐槽国潮包装外卖。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022、

使用工具:302.AI的模型竞技场

提示词:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

分析:看下三个模型给出的答案,首先我们认为gpt-4o-2024-11-20的答案是最有趣的,不仅把语录中的梗都融合进去,还句句刁钻。claude-3.5-sonnet也是还不错,能够模仿出语录的风格但有些语句逻辑比较矛盾,比如说到塞小零食但是后面又转折到吐槽一次性筷子。最后是gemini-1.5-pro-002,gemini写的评论就是比较简单,只是对语句风格进行了模仿,没有过多的延展。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

创造性思维测试:

第二轮的实测是创造性思维测试,给出条件后,需要模型从已知的词汇中筛选出符合条件的单词。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:你能写6个刚好含有三个“r”的单词吗?

分析:从以下三个模型可以看到,只有gpt-4o-2024-11-20给出的六个单词是完全符合条件的,而gemini-1.5-pro-002模型六个答案中只有一个单词是符合条件的,claude-3.5-sonnet则是出现了“模型幻觉”,先是给出了五个符合条件的单词和一个不符合条件的单词,但紧接着把符合要求的单词错误识别成不符合要求的单词,重新给出的单词也是不符合要求的。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

大海捞针测试:

最后一轮是海底捞针测试,主要是想实测gpt-4o-2024-11-20的文档理解和分析能力。在共2万多字的《小王子》原文中分别在不同位置插入了以下三句话:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

使用工具:302.AI的聊天机器人

提示词:请阅读文档后告诉我:制作完美披萨需要哪些秘密成分?

分析:可以看到模型虽然分析出了文档的内容为《小王子》,但是却没有在文档中找出制作完美披萨需要哪些秘密成分,表现并不理想。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 总结

通过以上三轮实测可以初步得出结论:

创意写作测试:在这次创意写作的测试中,我们通过让模型模仿一些流行的经典语句,进行二次创作,旨在激发灵感和创意。而gpt-4o-2024-11-20展现出的答案,确实让人眼前一亮,生成的文本体现出了对语句的深入理解同时具有独特的风格。

创造性思维测试:第一轮实测中gpt-4o-2024-11-20的表现非常让人印象深刻,展现出了非常高的提示词理解能力和准确性,而同一测试中,其他模型则出现了不同程度的问题,比如给出错误答案、出现模型幻觉等。

大海捞针测试:最后在大海捞针的测试gpt-4o-2024-11-20模型并未通过,非常可惜,并没有能够把藏在文档中的“针”找出。

总的来说,在创造性思维和模仿流行文化的能力上,GPT-4o-2024-11-20的表现无疑是非常出色的。然而,在文档理解和分析能力方面,GPT-4o-2024-11-20的表现并未达到预期,这显示出模型在长文本处理时的局限性。

Like (1)
302.AI302.AI
Previous 2024 年 11 月 22 日 下午7:30
Next 5天前

相关推荐

  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    17300
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    19400
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    27500
  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    22900
  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    28000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注