模型竞技场:中秋国庆调休来了,哪个AI能算明白?

不知不觉中,2024年的时光已悄然流逝了三分之二。

许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假上班时间,谁能不迷糊?

网友纷纷辣评:“这是写了一串代码吗?”,“比我的心还乱”,”这是不是紧箍咒,念得我头好疼

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

评论区还有网友提出疑问:“就意思中秋比平时无节日月份多一天假。然后国庆比平时无节日月份多两天对吧?”

所以,“除了本来就该放的周末,我们在中秋和国庆这两个假期中实际上是多放了几天假呢?”

对于这个问题,有人说是三天、有人说是四天、也有人说是五天,既然出现了这么多不同的答案,不如借着这个机会考考AI们?前段时间在《歌手》节目引发的“13.8和13.11哪个大”的问题难倒了不少的AI,这次AI们的表现又会怎么样呢?

首先整理下提问的问题:

这是中国 2024 年 9 月 9 日(星期一)开始到 10 月 13 日的放假调休安排:上6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。那么请问除了本来该休的周末,我因为放假多休息了几天?

为了节省时间,避免繁琐的逐一注册和登录流程,以及能够更直观、更便捷地对比不同AI模型的答案,小编使用302.AI的模型竞技场对这次的问题进行测试,302.AI提供按需付费的使用方式,还可以在高级设置里开启是否在机器人端显示消耗,使用模型竞技场不仅省去逐个模型注册登录的繁琐流程,还能够节省更多的成本,更好控制预算。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

302.AI的模型竞技场提供了国内外多种AI模型,分类明晰且模型更新速度非常快。用户只需勾选所需要的模型发送内容即可,此外,302.AI的模型竞技场还支持多轮对话及社区功能,提供给用户更多提问灵感。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

小编勾选了GPT-4o、Claude-3.5-Sonnet、Qwen-Max、Step-2-16k、豆包、文心一言4.0 turbo六种模型,为了公平,每个模型仅提问一次。接下来,就来看下AI模型们的表现:

令人意外的是,开局【GPT-4o】直接来了个大,一顿操作计算解释,最后直接告诉我多放了14天的假(小编心里os:苍天啊,国庆+中秋一共加起来也才10天啊),仔细推敲GPT-4o的计算过程可以发现,GPT-4o莫名其妙先加上9月9日之前的周末,并且将正常周末休息时间加上了调休的休息时间当作总的休息日,实际上,这两部分时间会有重叠不能直接计算的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看完GPT-4o,再来看下【Claude-3.5-Sonnet】,虽然分析过程非常简洁,仅有4个步骤,但是逻辑在线一目了然,回答正确:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

接下来是【Qwen-Max】,明明在提问中已经提到9月9日是星期一,但是Qwen-Max直接假设错误9月1日为周六,而且,Qwen-Max从9月1日开始计算,与GPT-4o出现的问题大致相同,将正常的周末休息时间与调休放假时间区分为两个独立的时间,实际这两个时间里是有重叠的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

而【Step-2-16k对比Qwen-Max和GPT-4o分析过程相对聪明一点,但是由于把9月9日之前的周末休息时间也算进去,导致答案出现了错误。简单地说就是:“理解了但又没完全理解”:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看看【豆包】模型的答案,别看它只有短短几行,它还回答错误了呢!仔细看下解释过程,9月9日到10月13日这期间,周末的天数为5周,总天数是10天,不知道为什么突然冒出来了4周多5天的时间:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

最后是【文心一言4.0 turbo】,看了半天,实在是没看明白整个逻辑,9月9日为星期一的话,上6休3中额外休息一天是没错,但是紧接着上3休2,休息的2天推算可以得出是为正常的周末,正常的周末并不是额外的休息,从这一步开始就出错了,以致后面答案都是错的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

在本次测试的六个模型中,最终只有Claude-3.5-Sonne是回答正确的!

实在没想到,原本是打算让AI帮忙算算明白,但从上面的结果来看,这是把AI越绕越晕了。

既然AI算不明白,还是我们自己算吧,先来看下九月、十月的放假日历。

首先,我们将调休要上班的周末和工作日放假的时间对消,如黑色直线;

接下来再去除原本周末的时间,如黄色直线;

那最后剩下的就是我们多休息时间了,总共是4天

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

虽然在一顿计算后发现经过调休中秋+国庆其实只多放了4天的假期,但是小编还是认为有比没有好,不管是多放几天假,能够有休息时间总是好的。在这个快节奏的时代,人们普遍感受到了工作和学习带来的压力,而节假日正是一个让大家可以暂时放松、陪伴家人和朋友的机会,最后希望大家能够享受假期时光,快乐每一天!

参考文章:https://mp.weixin.qq.com/s/vR0qghu5iYaWkStD1GV-SQ

(0)
302.AI302.AI
上一篇 2024 年 8 月 28 日 下午6:24
下一篇 2024 年 9 月 2 日 下午4:13

相关推荐

  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    6天前
    3300
  • 可灵AI全面开放,引领视频创作新时代

    7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。 从上线到全面开放,可灵历经了一个多月的时间: 6月10日,快手科技宣布推出了可灵大…

    2024 年 8 月 6 日
    6300
  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    13800
  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    6900
  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    18700

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注