302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来？不如先来看看AI模型的数学能力怎么样

302.AI • 2024 年 7 月 22 日下午5:34 • 基准实验室 • 596 views

7月13日，最新一期的《歌手》公布排名，孙楠得票13.8%，外国歌手香缇莫得票13.11%，以微小的分数差距引发网友热议:13.8和13.11哪个大？

看了一下评论，居然有不少网友认为是13.11比13.8大，顺带在评论区分析了一番。看到评论的小编，有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”，毕竟这是小学的数学知识。

同样在吃瓜的网友看到评论都坐不住了，给出评价：

既然网友争论不休，那要不拉上AI模型凑凑热闹吧，来看看各大AI大模型对于这个问题是否能回答正确，为了测试多种不同的AI大模型，可以直接使用302.AI的模型竞技场——302.AI的模型竞技场涵盖多种AI模型，使用的时候可以勾选需要的大模型就能进行回答，支持多轮对话，在多轮对话中，AI系统能够根据之前的对话内容理解上下文，并在此基础上提供相关和连贯的响应；且没有月费，按需付费使用。

小编勾选了OpenAI的GPT-4o、Anthropic最新的Claude-3.5-Sonnet、Google的Gemini-1.5-pro、Moonshot-v1-8k（Kimi）、字节旗下的豆包Doubao-pro-k、Spark Ultra以及Baichuan4共七种模型，接下来看看它们的表现如何：

首先是GPT-4o，没想到GPT-4o直接就来了个错误答案。

继续追问为什么后，更正了自己的答案：

然后是Claude-3.5-Sonnet、Gemini-1.5-pro，Kimi、豆包、Spark Ultra都回答正确。

最后是Baichuan4，和GPT-4o一样，先是给出了错误的答案，甚至给出了个比较“离谱”的计算式，但是同样在追问为什么后修正了答案。

总结各大AI模型的表现，大部分都是能回答正确且解释清楚，值得注意的是，部分大模型出现了胡说八道的现象，在业界被称为大模型出现幻觉。通过302.AI的模型竞技场，用户可以轻松实现一站式体验，同时调用多个AI模型获取答案，免除了用户逐个访问不同模型官网、注册和充值的繁琐步骤，极大提升了使用效率，节省成本的同时，用户还能够在多个模型的答案中进行筛选和比较，从而提高问题解答的正确率。

关于大模型出现幻觉，此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。

通过13.8和13.11的大小比较来探讨AI模型的数学能力，虽然这个问题对于大多数人来说可能显得微不足道，但它却为我们提供了一个深入了解AI处理数学问题能力的窗口。在这个由数据和算法驱动的时代，AI模型的数学能力正变得越来越重要，我们期待AI在未来能够解决更多、更复杂的数学问题，为我们带来更多的惊喜和便利。

参考文章：

https://mp.weixin.qq.com/s/jbXa36DMXX1-92jZyk_0vg

https://mp.weixin.qq.com/s/vekf4WaplQWtsTM2KaJvNg

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来？不如先来看看AI模型的数学能力怎么样

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

发表回复

Comments(1)

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来？不如先来看看AI模型的数学能力怎么样

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

相关推荐

302.AI 赛博月刊丨Vol.7 90天定律：从落后到突围，国产AI的崛起周期

302.AI 基准实验室丨三大最新语言模型：Gemini/Doubao/Minimax 高考数学与游戏编程实战测评

302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿

302.AI 基准实验室丨新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果

发表回复

Comments(1)