上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。
GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2.50 美元,输出价格为每百万tokens 10 美元,这个价格和GPT-4o-2024-08-06版本是一样的。
302.AI在GPT-4o-2024-11-20发布后,迅速在聊天机器人和API超市提供了GPT-4o-2024-11-20模型,而且302.AI提供了按需付费的使用方式,无需担心有月费和捆绑套餐。更重要的是,聊天机器人中的GPT-4o-2024-11-20模型目前正限时5折优惠,非常具有性价比!
> 在302.AI上使用:
下面是给大家展示如何在302.AI聊天机器人和API超市获取GPT-4o-2024-11-20模型:
聊天机器人:
1、进入302.ai,点击【使用机器人】——选择【模型】——【gpt-4o-2024-11-20】;
API:
1、进入302.ai,点击【使用API】——【API超市】——【语言大模型】——【OpenAI】;
2、点击后可以看到已经提供了GPT-4o-2024-11-20的API,用户可以选择【查看文档】或者【在线体验】,快速调试或者接入模型的API。
> 实测:
传言此次更新的GPT-4o-2024-11-20速度大幅提升,但能力却有所下降,为了验证这一说法,下面我们就来测试一下,看看模型的表现如何?
创意写作测试:
最近,国内综艺《再见爱人4》疯狂刷屏网络,综艺上嘉宾的经典发言也频频在各大网络平台被模仿,而AI模型如果能够对这些互联网流行的经典语句进行模仿,也可以说是互联网时代的一种创意写作。为此,我们整理了最近非常火的《再见爱人》中的嘉宾经典语录,让各模型学习之后吐槽国潮包装外卖。
对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022、
使用工具:302.AI的模型竞技场
提示词:
分析:看下三个模型给出的答案,首先我们认为gpt-4o-2024-11-20的答案是最有趣的,不仅把语录中的梗都融合进去,还句句刁钻。claude-3.5-sonnet也是还不错,能够模仿出语录的风格但有些语句逻辑比较矛盾,比如说到塞小零食但是后面又转折到吐槽一次性筷子。最后是gemini-1.5-pro-002,gemini写的评论就是比较简单,只是对语句风格进行了模仿,没有过多的延展。
创造性思维测试:
第二轮的实测是创造性思维测试,给出条件后,需要模型从已知的词汇中筛选出符合条件的单词。
对比模型:gpt-4o-2024-11-20、gemini-1.5-pro-002、claude-3.5-sonnet-20241022
使用工具:302.AI的模型竞技场
提示词:你能写6个刚好含有三个“r”的单词吗?
分析:从以下三个模型可以看到,只有gpt-4o-2024-11-20给出的六个单词是完全符合条件的,而gemini-1.5-pro-002模型六个答案中只有一个单词是符合条件的,claude-3.5-sonnet则是出现了“模型幻觉”,先是给出了五个符合条件的单词和一个不符合条件的单词,但紧接着把符合要求的单词错误识别成不符合要求的单词,重新给出的单词也是不符合要求的。
大海捞针测试:
最后一轮是海底捞针测试,主要是想实测gpt-4o-2024-11-20的文档理解和分析能力。在共2万多字的《小王子》原文中分别在不同位置插入了以下三句话:
使用工具:302.AI的聊天机器人
提示词:请阅读文档后告诉我:制作完美披萨需要哪些秘密成分?
分析:可以看到模型虽然分析出了文档的内容为《小王子》,但是却没有在文档中找出制作完美披萨需要哪些秘密成分,表现并不理想。
> 总结
通过以上三轮实测可以初步得出结论:
创意写作测试:在这次创意写作的测试中,我们通过让模型模仿一些流行的经典语句,进行二次创作,旨在激发灵感和创意。而gpt-4o-2024-11-20展现出的答案,确实让人眼前一亮,生成的文本体现出了对语句的深入理解同时具有独特的风格。
创造性思维测试:第一轮实测中gpt-4o-2024-11-20的表现非常让人印象深刻,展现出了非常高的提示词理解能力和准确性,而同一测试中,其他模型则出现了不同程度的问题,比如给出错误答案、出现模型幻觉等。
大海捞针测试:最后在大海捞针的测试gpt-4o-2024-11-20模型并未通过,非常可惜,并没有能够把藏在文档中的“针”找出。
总的来说,在创造性思维和模仿流行文化的能力上,GPT-4o-2024-11-20的表现无疑是非常出色的。然而,在文档理解和分析能力方面,GPT-4o-2024-11-20的表现并未达到预期,这显示出模型在长文本处理时的局限性。