13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大?

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的数学知识。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

同样在吃瓜的网友看到评论都坐不住了,给出评价:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

既然网友争论不休,那要不拉上AI模型凑凑热闹吧,来看看各大AI大模型对于这个问题是否能回答正确,为了测试多种不同的AI大模型,可以直接使用302.AI的模型竞技场——302.AI的模型竞技场涵盖多种AI模型,使用的时候可以勾选需要的大模型就能进行回答,支持多轮对话,在多轮对话中,AI系统能够根据之前的对话内容理解上下文,并在此基础上提供相关和连贯的响应;且没有月费,按需付费使用。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

小编勾选了OpenAI的GPT-4o、Anthropic最新的Claude-3.5-Sonnet、Google的Gemini-1.5-proMoonshot-v1-8k(Kimi)、字节旗下的豆包Doubao-pro-k、Spark Ultra以及Baichuan4共七种模型,接下来看看它们的表现如何:

首先是GPT-4o,没想到GPT-4o直接就来了个错误答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

继续追问为什么后,更正了自己的答案:

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

然后是Claude-3.5-Sonnet、Gemini-1.5-pro,Kimi、豆包、Spark Ultra都回答正确。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

最后是Baichuan4,和GPT-4o一样,先是给出了错误的答案,甚至给出了个比较“离谱”的计算式,但是同样在追问为什么后修正了答案。

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

总结各大AI模型的表现,大部分都是能回答正确且解释清楚,值得注意的是,部分大模型出现了胡说八道的现象,在业界被称为大模型出现幻觉。通过302.AI的模型竞技场,用户可以轻松实现一站式体验,同时调用多个AI模型获取答案,免除了用户逐个访问不同模型官网、注册和充值的繁琐步骤,极大提升了使用效率,节省成本的同时,用户还能够在多个模型的答案中进行筛选和比较,从而提高问题解答的正确率

关于大模型出现幻觉,此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。

通过13.8和13.11的大小比较来探讨AI模型的数学能力,虽然这个问题对于大多数人来说可能显得微不足道,但它却为我们提供了一个深入了解AI处理数学问题能力的窗口。在这个由数据和算法驱动的时代,AI模型的数学能力正变得越来越重要,我们期待AI在未来能够解决更多、更复杂的数学问题,为我们带来更多的惊喜和便利。

参考文章:

https://mp.weixin.qq.com/s/jbXa36DMXX1-92jZyk_0vg

https://mp.weixin.qq.com/s/vekf4WaplQWtsTM2KaJvNg

(0)
302.AI302.AI
上一篇 2024 年 7 月 17 日 下午4:00
下一篇 2024 年 7 月 22 日 下午5:39

相关推荐

  • 告别繁琐配置,来302.AI一键部署GraphRAG

    您是否遇到过这样的问题?大语言模型回答答非所问,或者直接在胡说八道。这种情况一般是因为大语言模型产生了幻觉。在开发和实际应用中,幻觉问题是一个常见且严重的问题,因为幻觉的存在,会导致回答的可信度大大降低。 幻觉出现的原因通常是模型对于某些特定领域或最新信息缺乏了解的情况下,而RAG(Retrieval-Augmented Generation)技术通过结合检…

    2024 年 10 月 23 日
    10100
  • Runway官宣上线Gen-3 Alpha!无门槛抢先体验

    7月2日凌晨,Runway在社交媒体正式宣布,Gen-3 Alpha全面开放使用! Runway是一家专注于AI视频生成的公司,其推出的Gen系列模型在视频创作领域引起了广泛关注。 据说最新推出的Gen-3 Alpha模型在保真度、一致性和动作表现方面都有重大改进! 都说Gen-3 Alpha很强,那我们先看下来自官网的一段视频: (Prompt:在日本城市…

    2024 年 7 月 12 日
    14200
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2天前
    3800
  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    5天前
    5400
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    28700

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注