302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

LongCat-Flash-Chat 具备以下技术亮点:

  1. 创新高效的 MoE 架构

采用混合专家模型(MoE)与“零计算专家”机制。该模型总参数量达 5600 亿,规模远少于 DeepSeek-V3.1、Kimi-K2 等产品,但每个 token 会根据上下文需求动态激活其中一小部分参数(平均约为 270 亿)。这种“按需分配算力”的方式,在保证强大性能的同时,显著提高了计算效率。

  1. 领先的 Agent 任务性能

根据多项基准测试评估,LongCat-Flash-Chat 在 Agent 相关任务中表现突出。在部分 benchmark 上,其工具调用、指令遵循的表现超过 DeepSeek-V3.1、Qwen3 MoE-2507,甚至是闭源的 Claude4 Sonnet,展现出在处理多步推理、工具调用和复杂交互时的显著优势。

  1. 极高的推理速度与极低的推理成本

得益于算法和工程层面的联合设计,LongCat-Flash-Chat 在 H800 显卡上实现了单用户每秒 100+ token 的生成速度。在保持极致生成速度的同时,输出成本低至 5元/百万 token。在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

这款龙猫模型的横空出世,引得网上热议不断,有调侃其继承了美团“快如闪电”的祖传基因,也有人认为其在性能上已经追平 DeepSeek-V3……

302.AI 也第一时间接入了 LongCat-Flash-Chat 模型 API,其实际表现究竟如何,本期测评将针对 LongCat-Flash-Chat,选取行业具有代表性的开源大模型 DeepSeek-V3.1Kimi-K2-0905 以及 gpt-oss-120b 展开对比实测,直观感受其性能差异。


I. 实测模型基本信息

参与对比测评的模型输入价格输出价格上下文长度
LongCat-Flash-Chat$0.2/ 1M$1 / 1M128000
deepseek-V3.1$0.286 / 1M$1.15 / 1M128000
kimi-k2-0905-preview$0.62854 / 1M$2.5146 / 1M256000
gpt-oss-120b$0.2 / 1M$1 / 1M128000

评测使用工具:302.AI 的模型竞技场和聊天机器人


Ⅱ. 实测案例

实测 1:逻辑推理

提示词:8枚金币外观相同,其中1枚是较轻的假币。给你一架没有砝码的天平,最少称几次能找出假币?

答案:2次

解析: 第一次:把8枚分成3组 (3, 3, 2)。称量两组3枚的。 若平衡:假币在剩下的2枚中。第二次称这两枚即可找出较轻者。 若不平衡:假币在较轻的3枚中。从这3枚中任取两枚进行第二次称量:若平衡,剩下那枚是假币;若不平衡,较轻者是假币。

LongCat-Flash-Chat:回答正确。用时最短。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

deepseek-V3.1:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

kimi-k2-0905-preview:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

gpt-oss-120b:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

实测 2:模型幻觉-语义理解

提示词:如果两个小时前,一点过后和一点之前的时间一样长,那么现在是几点?

答案:现在是2点

解析:“一点过后和一点之前的时间一样长”是一个中文语义上的模糊表述,“一点”并不意味着一定是1:00这个时间点,而“时间”也并不意味着一定是“时间段的长度”,也有可能是指“时间点到某个参考点的时间长度”。解题关键在于抛开惯性语义逻辑的干扰,找出那个物理逻辑上的“参考点”。

LongCat-Flash-Chat:用时最短但是回答错误。根据语言惯性将“一点”简单理解为1:00进行推理。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

deepseek-V3.1:回答错误。也是习惯性将“一点”简单理解为1:00进行了复杂公式推理。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

kimi-k2-0905-preview:回答正确。识别出了语义中的模糊表述,抓住“两个小时前”这个客观既定条件,假设了一个对称中心点,使用公式推导出了正确结果。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”
302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

gpt-oss-120b:回答错误

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

实测 3:数学解题

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

答案:A

LongCat-Flash-Chat:回答正确。用时最短。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

deepseek-V3.1:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

kimi-k2-0905-preview:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

gpt-oss-120b:回答正确

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

实测 4:命题写作

提示词:如果鲁迅笔下的“孔乙己”生活在算法推荐时代,他可能会面临何种新的困境?请简要阐述。不超过500字。

LongCat-Flash-Chat:概括性的要点罗列,观点准确但中规中矩,写作风格较平淡。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

deepseek-V3.1:学术论文式作答。有一套系统工整的“总-分”式段落结构,逻辑严密,理论性和专业性大于文学性。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

kimi-k2-0905-preview:满分作文式作答。极强的文学性场景化叙事,运用了隐喻手法来精炼内容,具备一定艺术深度。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

gpt-oss-120b:社科材料式作答。结构工整,从五个维度罗列观点,文风类似于一篇社科分析或调研报告。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

实测 5:前端编程

提示词

构建一个“番茄工作法(Pomodoro)”计时器单页应用的完整代码(HTML、CSS 和 JavaScript)。

核心要求:

  1. 状态与功能:
    1. 实现经典的番茄工作法逻辑:可配置的工作时间(默认 25 分钟)和短休息时间(默认 5 分钟)。
    2. 计时器应具备以下状态:运行中(Work)、暂停(Paused)、休息(Break)。
    3. 实现开始、暂停、重置功能。
    4. 计时器归零时,应自动切换模式(工作->休息或休息->工作)并更新浏览器标签页标题以提醒用户。
  2. 用户界面与交互:
    1. 创建一个直观且美观的环形进度条来可视化剩余时间。
    2. 当前模式(工作/休息)和剩余时间(格式:mm:ss)应清晰可见。
    3. 提供直观的按钮来控制计时器(开始、暂停、重置)。
    4. 提供输入框或按钮,允许用户在工作开始前自定义工作时间和休息时间。

LongCat-Flash-Chat:

基本实现。但是细节处存在bug,导致使用逻辑不流畅(例如开始和暂停共用一个按钮,以及进度条转速过快,与实际时间走势不匹配)

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

deepseek-V3.1:整体效果最佳。功能元素齐全,界面美观,UX体验流畅。模式切换时增加了弹窗提醒。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

kimi-k2-0905-preview:完整实现。功能元素齐全,UX体验流畅,组件布局细节还可进一步优化。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

gpt-oss-120b:基本实现。功能元素齐全,UI还有优化空间。

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

III. LongCat-Flash-Chat 实测结论

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失
  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
逻辑推理模型幻觉数学解题前端编程
LongCat-Flash-Chat✔️✔️★★★
deepseek-V3.1✔️✔️★★★★★
kimi-k2-0905-preview✔️✔️✔️★★★★
gpt-oss-120b✔️✔️★★★★

2. 实测结论

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

根据以上五个维度的对比实测,LongCat-Flash-Chat 的性能特点已逐渐清晰:

首先,“快”但不够精。在几乎所有测试项目中,每次抛出提示词,LongCat-Flash-Chat 都能迅速响应提示词,几乎在眨眼之间就输出完整回复,速度远超正常阅读节奏——这得益于其轻量化结构与动态激活的推理机制。在基础逻辑推断与数学解题类任务中,其输出质量还算过关;但若仔细审视推理过程,不难发现其步骤拆解仍显表层,深度上不及 DeepSeek 等专精推理模型那般层层递进、论证严密。

不过,单就响应体验而言,这种疾速响应确实令人印象深刻,极大提升了体验感。LongCat-Flash-Chat 就类似于班里那种热衷于“抢答”的学生,且并非不动脑子就脱口而出,而是可以保证流畅作答。但其“按需分配算力”的策略限制了思考的深度。它无法像 DeepSeek 或 Kimi 那样能够提出假设、进行自我质疑、再进一步求证,这反映出其推理机制在复杂认知层面的局限性。

其次,虽非庸才,但个性不足。上文进行的五项测试中,LongCat-Flash-Chat 除了在实测 2 中因模糊语义误导而输出错误结论之外,其余任务基本都能达到提示词的要求。尤其在实测 3 的数学解题任务中,LongCat-Flash-Chat 在高速响应的同时给出了正确且完整的步骤,俨然一位效率型“学霸”。然而,其能力短板又非常明显,尤其在实测 4 的命题写作任务中,其表现实在平平无奇,略显呆滞。这种中庸表现反而衬托出了同行的鲜明个性——显得并不那么擅长中文写作的 gpt-oss-120b 都更胜一筹。

最后,速度是优势,而不应当是唯一优势。LongCat-Flash-Chat 在实际任务表现中的速度远胜于质量,也决定了其只适合需要快速响应的轻量级任务和即时交互场景。它在结构化问题等有明确框架的任务中表现可靠,但在需创造性表达、代码生成或深度推演的语境中则显得力有未逮。因此,它的定位侧重于一种“敏捷型工具”——适用于对反馈时效要求高、内容深度门槛不高的应用环境,为用户提供高效但略有折衷的辅助体验。

总的来说,LongCat-Flash-Chat 作为美团在 AI 领域的一次创新迈进,尽管其初次登场展现了一定亮点,但所谓“追平 DeepSeek V3.1”的说法未免言过其实。毕竟模型之间的竞争远不止于“tokens/秒”的速率较量,而是智能深度与综合能力的全方位角逐。


Ⅳ. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引:在线使用→应用超市→机器人→聊天机器人

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

选择模型→开源模型→LongCat-Flash-Chat→确认→创建

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

2. 使用模型 API

相关文档:API→API超市→语言大模型→美团→LongCat-Flash-Chat→查看文档

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”
302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

点击【调试】在线调用 API

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”

想即刻体验 LongCat-Flash-Chat 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 2024 年 7 月 12 日 下午3:15

相关推荐

  • 302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

    继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。 本次更新的 0905 版本具有以下几个亮点: 在…

    2025 年 9 月 5 日 基准实验室
    8570
  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    1.1K0
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    6540
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    7971

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注