美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat，并同步上线了官网。官方资料称，作为一款非思考型基础模型，LongCat-Flash-Chat 仅激活少量参数，性能就可比肩当前主流领先模型，尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度，更擅长处理长耗时的复杂智能体应用。

追平 DeepSeek-V3？美团 LongCat-Flash-Chat 实测：快，但不够“聪明”丨302.AI 基准实验室

LongCat-Flash-Chat 具备以下技术亮点：

创新高效的 MoE 架构

采用混合专家模型（MoE）与“零计算专家”机制。该模型总参数量达 5600 亿，规模远少于 DeepSeek-V3.1、Kimi-K2 等产品，但每个 token 会根据上下文需求动态激活其中一小部分参数（平均约为 270 亿）。这种“按需分配算力”的方式，在保证强大性能的同时，显著提高了计算效率。

领先的 Agent 任务性能

根据多项基准测试评估，LongCat-Flash-Chat 在 Agent 相关任务中表现突出。在部分 benchmark 上，其工具调用、指令遵循的表现超过 DeepSeek-V3.1、Qwen3 MoE-2507，甚至是闭源的 Claude4 Sonnet，展现出在处理多步推理、工具调用和复杂交互时的显著优势。

极高的推理速度与极低的推理成本

得益于算法和工程层面的联合设计，LongCat-Flash-Chat 在 H800 显卡上实现了单用户每秒 100+ token 的生成速度。在保持极致生成速度的同时，输出成本低至 5元/百万 token。在理论上的成本和速度都大幅领先行业同等规模、甚至规模更小的模型。

这款龙猫模型的横空出世，引得网上热议不断，有调侃其继承了美团“快如闪电”的祖传基因，也有人认为其在性能上已经追平 DeepSeek-V3……

302.AI 也第一时间接入了 LongCat-Flash-Chat 模型 API，其实际表现究竟如何，本期测评将针对 LongCat-Flash-Chat，选取行业具有代表性的开源大模型 DeepSeek-V3.1、Kimi-K2-0905 以及 gpt-oss-120b 展开对比实测，直观感受其性能差异。

I. 实测模型基本信息

参与对比测评的模型	输入价格	输出价格	上下文长度
LongCat-Flash-Chat	$0.2/ 1M	$1 / 1M	128000
deepseek-V3.1	$0.286 / 1M	$1.15 / 1M	128000
kimi-k2-0905-preview	$0.62854 / 1M	$2.5146 / 1M	256000
gpt-oss-120b	$0.2 / 1M	$1 / 1M	128000

评测使用工具：302.AI 的模型竞技场和聊天机器人

Ⅱ. 实测案例

实测 1：逻辑推理

提示词：8枚金币外观相同，其中1枚是较轻的假币。给你一架没有砝码的天平，最少称几次能找出假币？
答案：2次
解析：第一次：把8枚分成3组 (3, 3, 2)。称量两组3枚的。若平衡：假币在剩下的2枚中。第二次称这两枚即可找出较轻者。若不平衡：假币在较轻的3枚中。从这3枚中任取两枚进行第二次称量：若平衡，剩下那枚是假币；若不平衡，较轻者是假币。

LongCat-Flash-Chat：回答正确。用时最短。

deepseek-V3.1：回答正确。

kimi-k2-0905-preview：回答正确。

gpt-oss-120b：回答正确。

实测 2：模型幻觉-语义理解

提示词：如果两个小时前，一点过后和一点之前的时间一样长，那么现在是几点？
答案：现在是2点
解析：“一点过后和一点之前的时间一样长”是一个中文语义上的模糊表述，“一点”并不意味着一定是1:00这个时间点，而“时间”也并不意味着一定是“时间段的长度”，也有可能是指“时间点到某个参考点的时间长度”。解题关键在于抛开惯性语义逻辑的干扰，找出那个物理逻辑上的“参考点”。

LongCat-Flash-Chat：用时最短但是回答错误。根据语言惯性将“一点”简单理解为1:00进行推理。

deepseek-V3.1：回答错误。也是习惯性将“一点”简单理解为1:00进行了复杂公式推理。

kimi-k2-0905-preview：回答正确。识别出了语义中的模糊表述，抓住“两个小时前”这个客观既定条件，假设了一个对称中心点，使用公式推导出了正确结果。

gpt-oss-120b：回答错误。

实测 3：数学解题

答案：A

LongCat-Flash-Chat：回答正确。用时最短。

deepseek-V3.1：回答正确。

kimi-k2-0905-preview：回答正确。

gpt-oss-120b：回答正确。

实测 4：命题写作

提示词：如果鲁迅笔下的“孔乙己”生活在算法推荐时代，他可能会面临何种新的困境？请简要阐述。不超过500字。

LongCat-Flash-Chat：概括性的要点罗列，观点准确但中规中矩，写作风格较平淡。

deepseek-V3.1：学术论文式作答。有一套系统工整的“总-分”式段落结构，逻辑严密，理论性和专业性大于文学性。

kimi-k2-0905-preview：满分作文式作答。极强的文学性场景化叙事，运用了隐喻手法来精炼内容，具备一定艺术深度。

gpt-oss-120b：社科材料式作答。结构工整，从五个维度罗列观点，文风类似于一篇社科分析或调研报告。

实测 5：前端编程

提示词：
构建一个“番茄工作法（Pomodoro）”计时器单页应用的完整代码（HTML、CSS 和 JavaScript）。
核心要求：
状态与功能:
实现经典的番茄工作法逻辑：可配置的工作时间（默认 25 分钟）和短休息时间（默认 5 分钟）。
计时器应具备以下状态：运行中（Work）、暂停（Paused）、休息（Break）。
实现开始、暂停、重置功能。
计时器归零时，应自动切换模式（工作->休息或休息->工作）并更新浏览器标签页标题以提醒用户。
用户界面与交互:
创建一个直观且美观的环形进度条来可视化剩余时间。
当前模式（工作/休息）和剩余时间（格式：mm:ss）应清晰可见。
提供直观的按钮来控制计时器（开始、暂停、重置）。
提供输入框或按钮，允许用户在工作开始前自定义工作时间和休息时间。

LongCat-Flash-Chat：

基本实现。但是细节处存在bug，导致使用逻辑不流畅（例如开始和暂停共用一个按钮，以及进度条转速过快，与实际时间走势不匹配）

deepseek-V3.1：整体效果最佳。功能元素齐全，界面美观，UX体验流畅。模式切换时增加了弹窗提醒。

kimi-k2-0905-preview：完整实现。功能元素齐全，UX体验流畅，组件布局细节还可进一步优化。

gpt-oss-120b：基本实现。功能元素齐全，UI还有优化空间。

III. LongCat-Flash-Chat 实测结论

1. 实测结果整理：

评测标准：

★（不可用）：代码完全无法执行或存在错误导致功能缺失
★★（明显缺陷）：基础功能可运行但存在明显 bug，或核心功能未实现
★★★（基本实现）：主要功能可用，但欠缺部分功能，或 UI/UX 需优化
★★★★（完整实现）：功能完整实现，代码规范，交互流畅，达到预期效果
★★★★★（卓越实现）：功能表现超出预期，包含创新性实现或优化

	逻辑推理	模型幻觉	数学解题	前端编程
LongCat-Flash-Chat	✔️	❌	✔️	★★★
deepseek-V3.1	✔️	❌	✔️	★★★★★
kimi-k2-0905-preview	✔️	✔️	✔️	★★★★
gpt-oss-120b	✔️	❌	✔️	★★★★

2. 实测结论

根据以上五个维度的对比实测，LongCat-Flash-Chat 的性能特点已逐渐清晰：

首先，“快”但不够精。在几乎所有测试项目中，每次抛出提示词，LongCat-Flash-Chat 都能迅速响应提示词，几乎在眨眼之间就输出完整回复，速度远超正常阅读节奏——这得益于其轻量化结构与动态激活的推理机制。在基础逻辑推断与数学解题类任务中，其输出质量还算过关；但若仔细审视推理过程，不难发现其步骤拆解仍显表层，深度上不及 DeepSeek 等专精推理模型那般层层递进、论证严密。

不过，单就响应体验而言，这种疾速响应确实令人印象深刻，极大提升了体验感。LongCat-Flash-Chat 就类似于班里那种热衷于“抢答”的学生，且并非不动脑子就脱口而出，而是可以保证流畅作答。但其“按需分配算力”的策略限制了思考的深度。它无法像 DeepSeek 或 Kimi 那样能够提出假设、进行自我质疑、再进一步求证，这反映出其推理机制在复杂认知层面的局限性。

其次，虽非庸才，但个性不足。上文进行的五项测试中，LongCat-Flash-Chat 除了在实测 2 中因模糊语义误导而输出错误结论之外，其余任务基本都能达到提示词的要求。尤其在实测 3 的数学解题任务中，LongCat-Flash-Chat 在高速响应的同时给出了正确且完整的步骤，俨然一位效率型“学霸”。然而，其能力短板又非常明显，尤其在实测 4 的命题写作任务中，其表现实在平平无奇，略显呆滞。这种中庸表现反而衬托出了同行的鲜明个性——显得并不那么擅长中文写作的 gpt-oss-120b 都更胜一筹。

最后，速度是优势，而不应当是唯一优势。LongCat-Flash-Chat 在实际任务表现中的速度远胜于质量，也决定了其只适合需要快速响应的轻量级任务和即时交互场景。它在结构化问题等有明确框架的任务中表现可靠，但在需创造性表达、代码生成或深度推演的语境中则显得力有未逮。因此，它的定位侧重于一种“敏捷型工具”——适用于对反馈时效要求高、内容深度门槛不高的应用环境，为用户提供高效但略有折衷的辅助体验。

总的来说，LongCat-Flash-Chat 作为美团在 AI 领域的一次创新迈进，尽管其初次登场展现了一定亮点，但所谓“追平 DeepSeek V3.1”的说法未免言过其实。毕竟模型之间的竞争远不止于“tokens/秒”的速率较量，而是智能深度与综合能力的全方位角逐。

Ⅳ. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引：在线使用→应用超市→机器人→聊天机器人

选择模型→开源模型→LongCat-Flash-Chat→确认→创建

2. 使用模型 API

相关文档：API→API超市→语言大模型→美团→LongCat-Flash-Chat→查看文档

点击【调试】在线调用 API

想即刻体验 LongCat-Flash-Chat 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

追平 DeepSeek-V3？美团 LongCat-Flash-Chat 实测：快，但不够“聪明”丨302.AI 基准实验室

I. 实测模型基本信息

Ⅱ. 实测案例

实测 1：逻辑推理

实测 2：模型幻觉-语义理解

实测 3：数学解题

实测 4：命题写作

实测 5：前端编程

III. LongCat-Flash-Chat 实测结论

1. 实测结果整理：

2. 实测结论

Ⅳ. 如何在 302.AI 上使用

1. 聊天机器人中使用

2. 使用模型 API

相关推荐

Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

解锁沉浸式翻译的终极形态，自由调用302.AI各大顶尖大模型丨302.AI 实战教程

终结“人机感”，MiniMax Speech 2.6 实测：低延迟+全音色复刻颠覆体验丨302.AI 基准实验室

卷不动全能冠军？MiniMax-M2：用一半的力气，拿下最值钱的阵地丨302.AI 基准实验室

发表回复