模型竞技场:中秋国庆调休来了,哪个AI能算明白?

不知不觉中,2024年的时光已悄然流逝了三分之二。

许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假上班时间,谁能不迷糊?

网友纷纷辣评:“这是写了一串代码吗?”,“比我的心还乱”,”这是不是紧箍咒,念得我头好疼

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

评论区还有网友提出疑问:“就意思中秋比平时无节日月份多一天假。然后国庆比平时无节日月份多两天对吧?”

所以,“除了本来就该放的周末,我们在中秋和国庆这两个假期中实际上是多放了几天假呢?”

对于这个问题,有人说是三天、有人说是四天、也有人说是五天,既然出现了这么多不同的答案,不如借着这个机会考考AI们?前段时间在《歌手》节目引发的“13.8和13.11哪个大”的问题难倒了不少的AI,这次AI们的表现又会怎么样呢?

首先整理下提问的问题:

这是中国 2024 年 9 月 9 日(星期一)开始到 10 月 13 日的放假调休安排:上6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。那么请问除了本来该休的周末,我因为放假多休息了几天?

为了节省时间,避免繁琐的逐一注册和登录流程,以及能够更直观、更便捷地对比不同AI模型的答案,小编使用302.AI的模型竞技场对这次的问题进行测试,302.AI提供按需付费的使用方式,还可以在高级设置里开启是否在机器人端显示消耗,使用模型竞技场不仅省去逐个模型注册登录的繁琐流程,还能够节省更多的成本,更好控制预算。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

302.AI的模型竞技场提供了国内外多种AI模型,分类明晰且模型更新速度非常快。用户只需勾选所需要的模型发送内容即可,此外,302.AI的模型竞技场还支持多轮对话及社区功能,提供给用户更多提问灵感。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

小编勾选了GPT-4o、Claude-3.5-Sonnet、Qwen-Max、Step-2-16k、豆包、文心一言4.0 turbo六种模型,为了公平,每个模型仅提问一次。接下来,就来看下AI模型们的表现:

令人意外的是,开局【GPT-4o】直接来了个大,一顿操作计算解释,最后直接告诉我多放了14天的假(小编心里os:苍天啊,国庆+中秋一共加起来也才10天啊),仔细推敲GPT-4o的计算过程可以发现,GPT-4o莫名其妙先加上9月9日之前的周末,并且将正常周末休息时间加上了调休的休息时间当作总的休息日,实际上,这两部分时间会有重叠不能直接计算的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看完GPT-4o,再来看下【Claude-3.5-Sonnet】,虽然分析过程非常简洁,仅有4个步骤,但是逻辑在线一目了然,回答正确:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

接下来是【Qwen-Max】,明明在提问中已经提到9月9日是星期一,但是Qwen-Max直接假设错误9月1日为周六,而且,Qwen-Max从9月1日开始计算,与GPT-4o出现的问题大致相同,将正常的周末休息时间与调休放假时间区分为两个独立的时间,实际这两个时间里是有重叠的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

而【Step-2-16k对比Qwen-Max和GPT-4o分析过程相对聪明一点,但是由于把9月9日之前的周末休息时间也算进去,导致答案出现了错误。简单地说就是:“理解了但又没完全理解”:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看看【豆包】模型的答案,别看它只有短短几行,它还回答错误了呢!仔细看下解释过程,9月9日到10月13日这期间,周末的天数为5周,总天数是10天,不知道为什么突然冒出来了4周多5天的时间:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

最后是【文心一言4.0 turbo】,看了半天,实在是没看明白整个逻辑,9月9日为星期一的话,上6休3中额外休息一天是没错,但是紧接着上3休2,休息的2天推算可以得出是为正常的周末,正常的周末并不是额外的休息,从这一步开始就出错了,以致后面答案都是错的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

在本次测试的六个模型中,最终只有Claude-3.5-Sonne是回答正确的!

实在没想到,原本是打算让AI帮忙算算明白,但从上面的结果来看,这是把AI越绕越晕了。

既然AI算不明白,还是我们自己算吧,先来看下九月、十月的放假日历。

首先,我们将调休要上班的周末和工作日放假的时间对消,如黑色直线;

接下来再去除原本周末的时间,如黄色直线;

那最后剩下的就是我们多休息时间了,总共是4天

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

虽然在一顿计算后发现经过调休中秋+国庆其实只多放了4天的假期,但是小编还是认为有比没有好,不管是多放几天假,能够有休息时间总是好的。在这个快节奏的时代,人们普遍感受到了工作和学习带来的压力,而节假日正是一个让大家可以暂时放松、陪伴家人和朋友的机会,最后希望大家能够享受假期时光,快乐每一天!

参考文章:https://mp.weixin.qq.com/s/vR0qghu5iYaWkStD1GV-SQ

Like (0)
302.AI302.AI
Previous 2024 年 8 月 28 日 下午6:24
Next 2024 年 9 月 2 日 下午4:13

相关推荐

  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    2024 年 11 月 18 日
    32100
  • 资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

    上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…

    2024 年 11 月 25 日
    37900
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    56300
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日
    49400
  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    43500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注