资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2.50 美元,输出价格为每百万tokens 10 美元,这个价格和GPT-4o-2024-08-06版本是一样的

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

302.AI在GPT-4o-2024-11-20发布后,迅速在聊天机器人和API超市提供了GPT-4o-2024-11-20模型,而且302.AI提供了按需付费的使用方式,无需担心有月费和捆绑套餐。更重要的是,聊天机器人中的GPT-4o-2024-11-20模型目前正限时5折优惠,非常具有性价比!

> 在302.AI上使用:

下面是给大家展示如何在302.AI聊天机器人和API超市获取GPT-4o-2024-11-20模型:

聊天机器人:

1、进入302.ai,点击【使用机器人】——选择【模型】——【gpt-4o-2024-11-20】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

API:

1、进入302.ai,点击【使用API】——【API超市】——【语言大模型】——【OpenAI】;

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

2、点击后可以看到已经提供了GPT-4o-2024-11-20的API,用户可以选择【查看文档】或者【在线体验】,快速调试或者接入模型的API。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 实测:

传言此次更新的GPT-4o-2024-11-20速度大幅提升,但能力却有所下降,为了验证这一说法,下面我们就来测试一下,看看模型的表现如何?

创意写作测试:

最近,国内综艺《再见爱人4》疯狂刷屏网络,综艺上嘉宾的经典发言也频频在各大网络平台被模仿,而AI模型如果能够对这些互联网流行的经典语句进行模仿,也可以说是互联网时代的一种创意写作。为此,我们整理了最近非常火的《再见爱人》中的嘉宾经典语录,让各模型学习之后吐槽国潮包装外卖。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022、

使用工具:302.AI的模型竞技场

提示词:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

分析:看下三个模型给出的答案,首先我们认为gpt-4o-2024-11-20的答案是最有趣的,不仅把语录中的梗都融合进去,还句句刁钻。claude-3.5-sonnet也是还不错,能够模仿出语录的风格但有些语句逻辑比较矛盾,比如说到塞小零食但是后面又转折到吐槽一次性筷子。最后是gemini-1.5-pro-002,gemini写的评论就是比较简单,只是对语句风格进行了模仿,没有过多的延展。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

创造性思维测试:

第二轮的实测是创造性思维测试,给出条件后,需要模型从已知的词汇中筛选出符合条件的单词。

对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022

使用工具:302.AI的模型竞技场

提示词:你能写6个刚好含有三个“r”的单词吗?

分析:从以下三个模型可以看到,只有gpt-4o-2024-11-20给出的六个单词是完全符合条件的,而gemini-1.5-pro-002模型六个答案中只有一个单词是符合条件的,claude-3.5-sonnet则是出现了“模型幻觉”,先是给出了五个符合条件的单词和一个不符合条件的单词,但紧接着把符合要求的单词错误识别成不符合要求的单词,重新给出的单词也是不符合要求的。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

大海捞针测试:

最后一轮是海底捞针测试,主要是想实测gpt-4o-2024-11-20的文档理解和分析能力。在共2万多字的《小王子》原文中分别在不同位置插入了以下三句话:

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

使用工具:302.AI的聊天机器人

提示词:请阅读文档后告诉我:制作完美披萨需要哪些秘密成分?

分析:可以看到模型虽然分析出了文档的内容为《小王子》,但是却没有在文档中找出制作完美披萨需要哪些秘密成分,表现并不理想。

资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

> 总结

通过以上三轮实测可以初步得出结论:

创意写作测试:在这次创意写作的测试中,我们通过让模型模仿一些流行的经典语句,进行二次创作,旨在激发灵感和创意。而gpt-4o-2024-11-20展现出的答案,确实让人眼前一亮,生成的文本体现出了对语句的深入理解同时具有独特的风格。

创造性思维测试:第一轮实测中gpt-4o-2024-11-20的表现非常让人印象深刻,展现出了非常高的提示词理解能力和准确性,而同一测试中,其他模型则出现了不同程度的问题,比如给出错误答案、出现模型幻觉等。

大海捞针测试:最后在大海捞针的测试gpt-4o-2024-11-20模型并未通过,非常可惜,并没有能够把藏在文档中的“针”找出。

总的来说,在创造性思维和模仿流行文化的能力上,GPT-4o-2024-11-20的表现无疑是非常出色的。然而,在文档理解和分析能力方面,GPT-4o-2024-11-20的表现并未达到预期,这显示出模型在长文本处理时的局限性。

Like (1)
302.AI302.AI
Previous 2024 年 11 月 22 日 下午7:30
Next 2024 年 11 月 27 日 下午6:32

相关推荐

  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    11300
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    24000
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2024 年 11 月 1 日
    32500
  • 模型竞技场:中秋国庆调休来了,哪个AI能算明白?

    不知不觉中,2024年的时光已悄然流逝了三分之二。 许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。 对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假…

    2024 年 8 月 29 日
    29500
  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    60300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注