302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大?

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的数学知识。

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

同样在吃瓜的网友看到评论都坐不住了,给出评价:

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

既然网友争论不休,那要不拉上AI模型凑凑热闹吧,来看看各大AI大模型对于这个问题是否能回答正确,为了测试多种不同的AI大模型,可以直接使用302.AI模型竞技场——302.AI的模型竞技场涵盖多种AI模型,使用的时候可以勾选需要的大模型就能进行回答,支持多轮对话,在多轮对话中,AI系统能够根据之前的对话内容理解上下文,并在此基础上提供相关和连贯的响应;且没有月费,按需付费使用。

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

小编勾选了OpenAI的GPT-4o、Anthropic最新的Claude-3.5-Sonnet、Google的Gemini-1.5-proMoonshot-v1-8k(Kimi)、字节旗下的豆包Doubao-pro-k、Spark Ultra以及Baichuan4共七种模型,接下来看看它们的表现如何:

首先是GPT-4o,没想到GPT-4o直接就来了个错误答案。

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

继续追问为什么后,更正了自己的答案:

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

然后是Claude-3.5-Sonnet、Gemini-1.5-pro,Kimi、豆包、Spark Ultra都回答正确。

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

最后是Baichuan4,和GPT-4o一样,先是给出了错误的答案,甚至给出了个比较“离谱”的计算式,但是同样在追问为什么后修正了答案。

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

302.AI 基准实验室 | 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

总结各大AI模型的表现,大部分都是能回答正确且解释清楚,值得注意的是,部分大模型出现了胡说八道的现象,在业界被称为大模型出现幻觉。通过302.AI的模型竞技场,用户可以轻松实现一站式体验,同时调用多个AI模型获取答案,免除了用户逐个访问不同模型官网、注册和充值的繁琐步骤,极大提升了使用效率,节省成本的同时,用户还能够在多个模型的答案中进行筛选和比较,从而提高问题解答的正确率

关于大模型出现幻觉,此前,哈尔滨工业大学和华为的研究团队发表的综述论文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。

通过13.8和13.11的大小比较来探讨AI模型的数学能力,虽然这个问题对于大多数人来说可能显得微不足道,但它却为我们提供了一个深入了解AI处理数学问题能力的窗口。在这个由数据和算法驱动的时代,AI模型的数学能力正变得越来越重要,我们期待AI在未来能够解决更多、更复杂的数学问题,为我们带来更多的惊喜和便利。

参考文章:

https://mp.weixin.qq.com/s/jbXa36DMXX1-92jZyk_0vg

https://mp.weixin.qq.com/s/vekf4WaplQWtsTM2KaJvNg


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 7 月 17 日 下午4:00
Next 2024 年 7 月 22 日 下午5:39

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8380
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3560
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4561
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(13)

  • vorbelutrioperbir
    vorbelutrioperbir 2025 年 6 月 12 日 下午10:35

    Great post. I was checking constantly this blog and I am inspired! Very useful info specifically the final section :) I deal with such info a lot. I was looking for this certain info for a very lengthy time. Thank you and best of luck.

  • slot gacor
    slot gacor 2025 年 8 月 15 日 下午4:21

    Hey there this is kind of of off topic but I was wondering if blogs use WYSIWYG editors or if you have to manually code with HTML. I’m starting a blog soon but have no coding know-how so I wanted to get advice from someone with experience. Any help would be greatly appreciated!

  • bandar macau
    bandar macau 2025 年 8 月 16 日 下午2:11

    I’ve recently started a blog, the info you provide on this website has helped me tremendously. Thanks for all of your time & work. “There is a time for many words, and there is also a time for sleep.” by Homer.

  • Reabilitação
    Reabilitação 2025 年 8 月 20 日 上午1:08

    Hi, i believe that i noticed you visited my weblog so i got here to “return the choose”.I’m trying to to find things to improve my web site!I suppose its good enough to make use of a few of your ideas!!

  • Avocats immigration Montréal
    Avocats immigration Montréal 2025 年 8 月 20 日 上午4:58

    Saved as a favorite, I really like your blog!

  • macanempire
    macanempire 2025 年 8 月 20 日 上午5:39

    When I initially commented I clicked the “Notify me when new comments are added” checkbox and now each time a comment is added I get four e-mails with the same comment. Is there any way you can remove people from that service? Appreciate it!

  • Escalade de bloc centre-ville Montréal
    Escalade de bloc centre-ville Montréal 2025 年 8 月 20 日 上午9:31

    F*ckin’ amazing things here. I’m very satisfied to look your post. Thanks so much and i’m taking a look ahead to touch you. Will you please drop me a e-mail?

  • Prodentim
    Prodentim 2025 年 8 月 20 日 上午11:55

    I truly appreciate this post. I have been looking everywhere for this! Thank goodness I found it on Bing. You’ve made my day! Thank you again

  • Dentiste Chicoutimi
    Dentiste Chicoutimi 2025 年 8 月 20 日 下午2:15

    Greetings! I know this is kind of off topic but I was wondering if you knew where I could find a captcha plugin for my comment form? I’m using the same blog platform as yours and I’m having problems finding one? Thanks a lot!

  • Neuro Energizer
    Neuro Energizer 2025 年 8 月 20 日 下午4:01

    I’ll right away grab your rss as I can’t in finding your e-mail subscription link or newsletter service. Do you have any? Please permit me realize so that I may just subscribe. Thanks.

  • Dentiste Ville-Émard
    Dentiste Ville-Émard 2025 年 8 月 20 日 下午5:44

    so much good information on here, : D.

  • Lipovive
    Lipovive 2025 年 8 月 20 日 下午6:49

    Very good written article. It will be useful to anyone who utilizes it, as well as myself. Keep doing what you are doing – looking forward to more posts.

  • performance tuner
    performance tuner 2025 年 8 月 23 日 下午5:28

    I like the valuable info you provide in your articles. I’ll bookmark your weblog and check again here regularly. I am quite sure I’ll learn plenty of new stuff right here! Best of luck for the next!