模型竞技场:中秋国庆调休来了,哪个AI能算明白?

不知不觉中,2024年的时光已悄然流逝了三分之二。

许多打工人和学生党即将迎来中秋和国庆两个假期。放假是件开心的事情,然而,有网友发现,今年的中秋国庆假期放假和调休时间安排颇为复杂,这一话题因此登上了社交平台热搜榜,引发了广泛关注,阅读量激增至4亿,讨论量也高达11.3万。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

对于接下来从九月第二周开始到十月“上6休3上3休2上5休1上2休7再上5休1”的放假上班时间,谁能不迷糊?

网友纷纷辣评:“这是写了一串代码吗?”,“比我的心还乱”,”这是不是紧箍咒,念得我头好疼

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

评论区还有网友提出疑问:“就意思中秋比平时无节日月份多一天假。然后国庆比平时无节日月份多两天对吧?”

所以,“除了本来就该放的周末,我们在中秋和国庆这两个假期中实际上是多放了几天假呢?”

对于这个问题,有人说是三天、有人说是四天、也有人说是五天,既然出现了这么多不同的答案,不如借着这个机会考考AI们?前段时间在《歌手》节目引发的“13.8和13.11哪个大”的问题难倒了不少的AI,这次AI们的表现又会怎么样呢?

首先整理下提问的问题:

这是中国 2024 年 9 月 9 日(星期一)开始到 10 月 13 日的放假调休安排:上6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。那么请问除了本来该休的周末,我因为放假多休息了几天?

为了节省时间,避免繁琐的逐一注册和登录流程,以及能够更直观、更便捷地对比不同AI模型的答案,小编使用302.AI的模型竞技场对这次的问题进行测试,302.AI提供按需付费的使用方式,还可以在高级设置里开启是否在机器人端显示消耗,使用模型竞技场不仅省去逐个模型注册登录的繁琐流程,还能够节省更多的成本,更好控制预算。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

302.AI的模型竞技场提供了国内外多种AI模型,分类明晰且模型更新速度非常快。用户只需勾选所需要的模型发送内容即可,此外,302.AI的模型竞技场还支持多轮对话及社区功能,提供给用户更多提问灵感。

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

小编勾选了GPT-4o、Claude-3.5-Sonnet、Qwen-Max、Step-2-16k、豆包、文心一言4.0 turbo六种模型,为了公平,每个模型仅提问一次。接下来,就来看下AI模型们的表现:

令人意外的是,开局【GPT-4o】直接来了个大,一顿操作计算解释,最后直接告诉我多放了14天的假(小编心里os:苍天啊,国庆+中秋一共加起来也才10天啊),仔细推敲GPT-4o的计算过程可以发现,GPT-4o莫名其妙先加上9月9日之前的周末,并且将正常周末休息时间加上了调休的休息时间当作总的休息日,实际上,这两部分时间会有重叠不能直接计算的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看完GPT-4o,再来看下【Claude-3.5-Sonnet】,虽然分析过程非常简洁,仅有4个步骤,但是逻辑在线一目了然,回答正确:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

接下来是【Qwen-Max】,明明在提问中已经提到9月9日是星期一,但是Qwen-Max直接假设错误9月1日为周六,而且,Qwen-Max从9月1日开始计算,与GPT-4o出现的问题大致相同,将正常的周末休息时间与调休放假时间区分为两个独立的时间,实际这两个时间里是有重叠的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

而【Step-2-16k对比Qwen-Max和GPT-4o分析过程相对聪明一点,但是由于把9月9日之前的周末休息时间也算进去,导致答案出现了错误。简单地说就是:“理解了但又没完全理解”:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

看看【豆包】模型的答案,别看它只有短短几行,它还回答错误了呢!仔细看下解释过程,9月9日到10月13日这期间,周末的天数为5周,总天数是10天,不知道为什么突然冒出来了4周多5天的时间:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

最后是【文心一言4.0 turbo】,看了半天,实在是没看明白整个逻辑,9月9日为星期一的话,上6休3中额外休息一天是没错,但是紧接着上3休2,休息的2天推算可以得出是为正常的周末,正常的周末并不是额外的休息,从这一步开始就出错了,以致后面答案都是错的:

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

在本次测试的六个模型中,最终只有Claude-3.5-Sonne是回答正确的!

实在没想到,原本是打算让AI帮忙算算明白,但从上面的结果来看,这是把AI越绕越晕了。

既然AI算不明白,还是我们自己算吧,先来看下九月、十月的放假日历。

首先,我们将调休要上班的周末和工作日放假的时间对消,如黑色直线;

接下来再去除原本周末的时间,如黄色直线;

那最后剩下的就是我们多休息时间了,总共是4天

模型竞技场:中秋国庆调休来了,哪个AI能算明白?

虽然在一顿计算后发现经过调休中秋+国庆其实只多放了4天的假期,但是小编还是认为有比没有好,不管是多放几天假,能够有休息时间总是好的。在这个快节奏的时代,人们普遍感受到了工作和学习带来的压力,而节假日正是一个让大家可以暂时放松、陪伴家人和朋友的机会,最后希望大家能够享受假期时光,快乐每一天!

参考文章:https://mp.weixin.qq.com/s/vR0qghu5iYaWkStD1GV-SQ

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 8 月 28 日 下午6:24
Next 2024 年 9 月 2 日 下午4:13

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7700
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2730

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注