火星文避雷评价帖,AI到底能不能看懂?!

AI到底能不能看懂火星文差评!看看哪个模型表现更好!

大家都知道,在《歌手2024》播出的时候,13.8和13.11哪个大的问题难倒了不少AI模型。而最近,AI模型迎来了新一轮考验来了,起因是这样的,为了防止外国人通过翻译软件看懂原意,一些中国人在海外订酒店吃亏后,用火星文提醒同胞不要再来,而这些帖子被截图搬运到了国内的社交媒体平台后很快就火了,引发了不少网友的讨论,火星避雷帖比如是这样的:

火星文避雷评价帖,AI到底能不能看懂?!

还有这样的:

火星文避雷评价帖,AI到底能不能看懂?!

甚至有网友在评论区无奈表示:“国人都有些看不懂了”。

火星文避雷评价帖,AI到底能不能看懂?!

还有网友尝试将帖子翻译再翻译,发现如果站在外国商家的角度,这是绝对是看不懂的:

火星文避雷评价帖,AI到底能不能看懂?!

这加密程度显然是够了。然而,自从火星避雷帖火起来后,就有国外网友尝试用GPT-4o模型去解密这一段火星文,结果到底怎么样呢?别急,小编今天就带大家实测一下各大模型到底能不能读懂火星文。

为了直观对比各模型的回答,小编选择了302.AI的模型竞技场去进行测试,302.AI的模型竞技场集成了多种主流AI模型,用户可以按需勾选不同的模型同时对同一个问题进行回答,省去了逐个模型注册登录的繁琐流程,方便的同时还能更直观对比不同模型的答案,而且提供按需付费的服务方式,用户可以根据实际用量来支付费用,没有月费或捆绑套餐。

火星文避雷评价帖,AI到底能不能看懂?!

小编接下来勾选七个模型进行测试,分别是o1-preview、GPT-4o、Claude-3.5-sonnet、Qwen-Max、ERNIE-4.0-Tubro、Step-2-16k、Spark Ultra:

火星文避雷评价帖,AI到底能不能看懂?!

接下来输入提问:

以下是加密后的酒店点评文字,请完整解密还原:

“卟崾莱住”

“ф啯亽卟騙ф啯亽!牆壁啝紙①樣薄,這庅匮の價格房間竟嘫恠閣樓,難檤涐媞噹笩洃姑娘?洗澡氺ㄡ尐,廁所の燈茪乜昬黯,哈悧啵特嘟笓涐住のぬ。避雷!嘟卟許莱住!!!”

正确的翻译是这样的:

“不要来住”

“中国人不骗中国人!墙壁和纸一样薄,这么贵的价格房间竟然在阁楼,难道我是当代灰姑娘?洗澡水又少,厕所的灯光也昏暗,哈利波特都比我住的好。避雷!都不许来住!!!”

首先看下“草莓”o1-preview和GPT-4o的表现,两个模型分别都有一点小瑕疵在“难道我是当代灰姑娘”这句话上面:

火星文避雷评价帖,AI到底能不能看懂?!

再来是小编抱以厚望的Claude-3.5-sonnet,解密正确了80%的内容,主要的错误出现在第一句“中国人不骗中国人”还有小细节“灯光”解密成了“灯泡”,但是Claude在最后总结的几点都是正确的:

火星文避雷评价帖,AI到底能不能看懂?!

再来是国内模型,首先是Qwen-Max和Spark Ultra模型,和以上的模型差不多,主要出现在“中国人不骗中国人”以及“难道我是当代灰姑娘”这两句话上:

火星文避雷评价帖,AI到底能不能看懂?!

火星文避雷评价帖,AI到底能不能看懂?!

紧接着是ERNIE-4.0-Tubro,文心一言在进行一番分析后,将“中国人不骗中国人”直接爆改成“俄罗斯人不骗俄罗斯人”,“灰姑娘”变成了“白姑娘”:

火星文避雷评价帖,AI到底能不能看懂?!

最后是表现非常出色的Step-2-16k,回答里找不出一点瑕疵,同时也是本次测试中唯一一个完全正确的模型:

火星文避雷评价帖,AI到底能不能看懂?!

通过本次测试可以判断AI模型是否能够识别和理解非常规的字符组合,而Step-2-16k模型的表现确实令人瞩目,其余六个模型在细节上或多或少都存在一些瑕疵。

想要准确解读火星文的含义,AI模型不仅需要强大的语言文本处理能力,还要对火星文这种特定的网络文化有一定的理解。总之,AI模型对火星文的破解,展示了人工智能在语言处理方面的进步,随着AI的发展,我们期待AI能够在处理全球多种语言和文化现象方面发挥更大的作用。

参考文章:

https://twitter.com/dotey/status/1835910802072592794

https://mp.weixin.qq.com/s/-ruGnlbFLd4Df7RKi_QuRQ

(0)
302.AI302.AI
上一篇 3天前
下一篇 1天前

相关推荐

  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    6800
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    8800
  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    8800
  • 智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

    8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上…

    2024 年 9 月 2 日
    8300
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    9800

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注