13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大?

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的数学知识。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

同样在吃瓜的网友看到评论都坐不住了,给出评价:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

既然网友争论不休,那要不拉上AI模型凑凑热闹吧,来看看各大AI大模型对于这个问题是否能回答正确,为了测试多种不同的AI大模型,可以直接使用302.AI的模型竞技场——302.AI的模型竞技场涵盖多种AI模型,使用的时候可以勾选需要的大模型就能进行回答,支持多轮对话,在多轮对话中,AI系统能够根据之前的对话内容理解上下文,并在此基础上提供相关和连贯的响应;且没有月费,按需付费使用。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

小编勾选了OpenAI的GPT-4o、Anthropic最新的Claude-3.5-Sonnet、Google的Gemini-1.5-proMoonshot-v1-8k(Kimi)、字节旗下的豆包Doubao-pro-k、Spark Ultra以及Baichuan4共七种模型,接下来看看它们的表现如何:

首先是GPT-4o,没想到GPT-4o直接就来了个错误答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

继续追问为什么后,更正了自己的答案:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

然后是Claude-3.5-Sonnet、Gemini-1.5-pro,Kimi、豆包、Spark Ultra都回答正确。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

最后是Baichuan4,和GPT-4o一样,先是给出了错误的答案,甚至给出了个比较“离谱”的计算式,但是同样在追问为什么后修正了答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

总结各大AI模型的表现,大部分都是能回答正确且解释清楚,值得注意的是,部分大模型出现了胡说八道的现象,在业界被称为大模型出现幻觉。通过302.AI的模型竞技场,用户可以轻松实现一站式体验,同时调用多个AI模型获取答案,免除了用户逐个访问不同模型官网、注册和充值的繁琐步骤,极大提升了使用效率,节省成本的同时,用户还能够在多个模型的答案中进行筛选和比较,从而提高问题解答的正确率

关于大模型出现幻觉,此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。

通过13.8和13.11的大小比较来探讨AI模型的数学能力,虽然这个问题对于大多数人来说可能显得微不足道,但它却为我们提供了一个深入了解AI处理数学问题能力的窗口。在这个由数据和算法驱动的时代,AI模型的数学能力正变得越来越重要,我们期待AI在未来能够解决更多、更复杂的数学问题,为我们带来更多的惊喜和便利。

参考文章:

https://mp.weixin.qq.com/s/jbXa36DMXX1-92jZyk_0vg

https://mp.weixin.qq.com/s/vekf4WaplQWtsTM2KaJvNg

Like (0)
302.AI302.AI
Previous 2024 年 7 月 17 日 下午4:00
Next 2024 年 7 月 22 日 下午5:39

相关推荐

  • 资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

    最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…

    2024 年 11 月 15 日
    43200
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    35100
  • DeepL推出新一代翻译编辑模型,翻译能力究竟如何?

    7 月 17 日,德国翻译技术公司DeepL宣布推出新一代大型语言模型(也称“LLM”),并宣称质量优于 ChatGPT-4、谷歌和微软。该模型基于专有的大规模语言模型技术和定制的训练数据集,旨在提供更精准的翻译服务。 DeepL官方宣称,通过盲测表明,语言专家通常更青睐 DeepL 的译文,结果显示,DeepL 的译文的首选度是谷歌翻译的 1.3 倍, C…

    2024 年 7 月 29 日
    40500
  • Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

    10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。 根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:…

    2024 年 10 月 28 日
    26000
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日
    59400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注