13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大?

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的数学知识。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

同样在吃瓜的网友看到评论都坐不住了,给出评价:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

既然网友争论不休,那要不拉上AI模型凑凑热闹吧,来看看各大AI大模型对于这个问题是否能回答正确,为了测试多种不同的AI大模型,可以直接使用302.AI的模型竞技场——302.AI的模型竞技场涵盖多种AI模型,使用的时候可以勾选需要的大模型就能进行回答,支持多轮对话,在多轮对话中,AI系统能够根据之前的对话内容理解上下文,并在此基础上提供相关和连贯的响应;且没有月费,按需付费使用。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

小编勾选了OpenAI的GPT-4o、Anthropic最新的Claude-3.5-Sonnet、Google的Gemini-1.5-proMoonshot-v1-8k(Kimi)、字节旗下的豆包Doubao-pro-k、Spark Ultra以及Baichuan4共七种模型,接下来看看它们的表现如何:

首先是GPT-4o,没想到GPT-4o直接就来了个错误答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

继续追问为什么后,更正了自己的答案:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

然后是Claude-3.5-Sonnet、Gemini-1.5-pro,Kimi、豆包、Spark Ultra都回答正确。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

最后是Baichuan4,和GPT-4o一样,先是给出了错误的答案,甚至给出了个比较“离谱”的计算式,但是同样在追问为什么后修正了答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

总结各大AI模型的表现,大部分都是能回答正确且解释清楚,值得注意的是,部分大模型出现了胡说八道的现象,在业界被称为大模型出现幻觉。通过302.AI的模型竞技场,用户可以轻松实现一站式体验,同时调用多个AI模型获取答案,免除了用户逐个访问不同模型官网、注册和充值的繁琐步骤,极大提升了使用效率,节省成本的同时,用户还能够在多个模型的答案中进行筛选和比较,从而提高问题解答的正确率

关于大模型出现幻觉,此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。

通过13.8和13.11的大小比较来探讨AI模型的数学能力,虽然这个问题对于大多数人来说可能显得微不足道,但它却为我们提供了一个深入了解AI处理数学问题能力的窗口。在这个由数据和算法驱动的时代,AI模型的数学能力正变得越来越重要,我们期待AI在未来能够解决更多、更复杂的数学问题,为我们带来更多的惊喜和便利。

参考文章:

https://mp.weixin.qq.com/s/jbXa36DMXX1-92jZyk_0vg

https://mp.weixin.qq.com/s/vekf4WaplQWtsTM2KaJvNg

(0)
302.AI302.AI
上一篇 2024 年 7 月 17 日 下午4:00
下一篇 2024 年 7 月 22 日 下午5:39

相关推荐

  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    6800
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    4200
  • 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

    8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 在一系列数学基准评测上,Qwen2-Math-…

    2024 年 8 月 19 日
    8200
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    6800
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    6000

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注