302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

本次更新的 0905 版本具有以下几个亮点:

  • Agentic Coding 能力提升:在公开基准测试和真实的编程任务中均展现出更好的性能。
  • 前端编程体验升级。尤以前端开发与工具调用功能为主,生成的网页和图表视觉效果更加美观。
  • 上下文扩展至 256K,能力翻倍,复杂长线任务提供更好的支持。
  • 提供高速版 API支持高达 60-100 Token/s 的输出速度。
  • 更流畅的兼容性。优化了与 Claude Code,Roo Code 等多种智能体框架的集成兼容性。不再有恼人的 cc + k2 vibes,简化 Agentic 工具的使用和编辑文件过程。

在侧重考察真实软件工程任务的 SWE-bench Verified 等基准测试中,Kimi-K2-0905 的跨语言编程能力较之前版本大幅提升并超越了业界领先的 Claude Sonnet 4,标志着其在解决真实世界复杂工程任务、有效运用长上下文窗口、驱动智能体工作流以及验证独特技术路线方面,展现出了接近实用级工程师助手的强大综合能力。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

而在 9 月 5 日,Claude母公司Anthropic突发公告,将停止向中国控股公司提供AI服务,此项新政策也适用于俄罗斯、伊朗和朝鲜等美国的“敌对国家”,为美企首次出台类似限制。

这项基于地缘政治考量的服务限制,对于此前深度依赖或正在评估 Claude 服务的中国企业与开发者社群而言,这一突变既是一次被动的供应链中断,更是一个战略转折点。它以一种近乎强制的方式,促使市场参与者重新审视对海外单一技术路径的依赖风险,并加速将目光转向国内自研的 AI 大模型或其他更为稳定、可靠的国际替代方案。对于 Kimi-K2-0905 而言,上线时间可谓是“恰逢其时”。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

302.AI 今日已第一时间接入 Kimi-K2-0905,支持聊天机器人使用和 API 在线调用。本期内容将围绕 Kimi-K2-0905,与同领域具备代表性的 Claude Opus 4.1,GPT-5 以及 Gemini 2.5 Pro 展开实测对比,方便用户快速了解模型性能。


I. 实测模型基本信息

参与对比测评的模型输入价格输出价格上下文长度
kimi-k2-0905$0.62854/ 1M$2.5146 / 1M256000
claude-opus-4-1$16.5 / 1M$82.5 / 1M200000
gpt-5$1.5 / 1M$10 / 1M400000
gemini-2.5-pro$1.3 / 1M$10 / 1M1000000

评测使用工具:302.AI 的模型竞技场聊天机器人


Ⅱ. 实测案例

实测 1:逻辑/数学推理

提示词:将4个不同的数字排在一起,可以组成24个不同的四位数。将这 24个四位数按从小到大的顺序排列,第二个是5的倍数;按从大到小的顺序排列,第二个是不能被4整除的偶数;按从小到大排列的第五个与第二十个的差在3000 到4000之间。这24个四位数中最大的那个数是多少? 答案:7543

kimi-k2-0905:回答正确

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

claude-opus-4-1:回答正确

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gpt-5:回答正确

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gemini-2.5-pro:回答正确

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

实测 2:前端编程-网页制作

提示词:

请你作为一名资深全栈工程师,使用 HTML, CSS 和 JavaScript 为一个名为“Soundscape”(声境)的独立音乐播客创建一个完整、美观、功能齐全的单页应用(SPA)风格网站。

核心页面结构与功能要求:

  1. 导航栏 (Navbar):
    1. 固定在顶部,包含Logo(用文字“Soundscape”代替)、导航链接(首页、节目、关于、联系)和一个搜索图标。
    2. 当页面滚动时,导航栏应具有背景色变化的效果。
  2. 英雄区 (Hero Section):
    1. 全屏高度,使用一个具有氛围感的深色背景图(在代码中用CSS颜色代替)。
    2. 居中显示一句标语,例如:“Discover Your Sonic Journey”(发现你的声音之旅)。
    3. 包含一个显眼的“开始聆听”按钮。
  3. 最新剧集区 (Latest Episodes):
    1. 展示3个最新的播客剧集卡片。
    2. 每个卡片应包含:剧集标题、发布日期、简短描述和播放时长。
  4. 固定底部播放器 (Fixed Audio Player):
    1. 固定在页面底部,始终可见。
    2. 包含基本控制:播放/暂停、下一首、上一首、进度条、当前时间/总时长、音量控制。
  5. 关于我们区 (About Section)
    1. 简要介绍“Soundscape”播客的理念和主持人。
  6. 页脚 (Footer):
    1. 包含社交媒体图标链接(仅图标)、版权信息和一个回到顶部的按钮。

样式与交互要求:

  • 设计风格: 采用现代、简约的“暗黑模式”设计,主色调为深灰色(#121212),辅色为亮青色(#1db954)用于按钮和焦点状态。
  • 响应式布局: 必须使用 Flexbox 或 CSS Grid 实现完全响应式设计,在手机、平板和桌面设备上均有良好的显示和操作体验。
  • 交互效果:
    • 所有按钮和链接应有悬停(:hover)和点击反馈。
    • 页面滚动时,建议实现元素的淡入效果。

技术栈与交付要求:

  • 使用纯原生技术(HTML、CSS、Vanilla JavaScript)实现,不允许使用任何外部库或框架(如jQuery, React, Bootstrap)。
  • JavaScript 代码必须模块化,组织良好。
  • 最终请提供一个完整的、可直接复制粘贴到.html文件中运行的代码。请在代码中为占位图片和音频链接添加清晰注释。

kimi-k2-0905:实现度较高。功能元素完整,UI工整美观,交互体验流畅。唯一不足在于播放进度条不可拖动。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

claude-opus-4-1:基本实现。界面美观,组件齐全。但交互性能较弱,点击相应按钮基本不会触发响应(如点击“播放”,下方播放器不会显示对应剧集名称);部分UI细节(如播放图标)对齐度一般。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gpt-5:部分元素缺失。板块分布合理,UI美观,交互完整。但出现了非必要元素缺失(“联系”板块社媒渠道不完整、“返回顶部”按钮缺失)

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gemini-2.5-pro:实现度较高。功能元素完整,交互响应正常,界面UI还有优化空间。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

实测 3:前端编程-小游戏

提示词:扮演一位资深前端开发工程师。请创建一个完整、可直接运行的“接水果”小游戏网页。

游戏规则:

– 玩家控制屏幕底部的一个篮子,用鼠标左右移动。

– 水果从屏幕顶部随机位置落下。

– 玩家需要用篮子接住水果,每接住一个得10分。

– 如果水果落地,游戏不结束,但会错过得分。

技术要求:

1. 使用纯HTML、CSS和JavaScript(Vanilla JS)实现,不需要任何外部库。

2. HTML结构清晰,包含:游戏画布(Canvas)、当前分数显示、最高分记录。

3. CSS样式美观,篮子和小球(水果)要有区别色,背景简洁。

功能需求:

– 具有开始/重新开始按钮。

– 实时显示当前分数和最高分。

– 游戏难度随分数增加而逐渐提高(例如水果下落速度加快)。

风格参考:

– 采用简洁明亮的像素风或扁平设计风格。

请输出完整的HTML代码,包含内联的CSS和JavaScript。

kimi-k2-0905:具备基本功能,但是后期水果掉落数量不合理,且出现了掉落延迟bug。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

claude-opus-4-1:基本实现。功能元素完整,但底部篮子灵敏度过高,弱化了控制精准度。此外,UI仍需优化。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gpt-5:实现度较高。功能元素完整,交互体验流畅,游戏难度过渡流畅。自主增加了“miss”数量显示。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

gemini-2.5-pro:实现度一般。UI元素单一,水果元素在掉落过程中由透明色变为棕色,影响了游戏属性。

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

实测 4:前端编程-生成操作系统

提示词:用HTML生成一个移动端操作系统,包含主要常见移动设备的功能性APP,UI采用透明玻璃风格。

kimi-k2-0905:实现度较佳。UI极简,配色统一感强,有透明玻璃效果;包含移动端OS常见功能应用共8款,交互性尚可。

claude-opus-4-1基本实现。共展示20款功能/应用,少部分功能可实现基础点击交互(电话、信息、相机、计算器),其余做空白显示,有界面仍出现乱码。应用背景并未做玻璃透明特效。

gpt-5实现度最佳。交互流畅,UI美观,共展示12款功能/应用。基础功能较为完善,按键基本可用(包括拨号、计算器、计时器、天气切换、添加文件等功能)还自主设定了滑动解锁、个性化外观更改等额外选项。

gemini-2.5-pro未实现。元素功能较少,可实现基础点击交互,但UI/UX表现力过差(如图标未显示,白色字体与背景相混合,排版无逻辑等)。


III. Kimi-K2-0905 实测结论

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失
  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化
逻辑/数学推理网页制作小游戏生成操作系统
kimi-k2-0905✔️★★★★★★★★★★★
claude-opus-4-1✔️★★★★★★★★★★★
gpt-5✔️★★★★★★★★★★★★
gemini-2.5-pro✔️★★★★★★★

2. 实测结论

Kimi-K2-0905:从有力挑战者到并肩领跑者

月之暗面对于Kimi-K2-0905的发布显得相当低调,但其性能的跃迁却足以点燃用户热情。通过本次涵盖逻辑推理、网页制作、游戏开发及操作系统生成等多个维度的测试,我们得以一窥其相较前序版本的显著进步。

在对前代Kimi K2的测试中我们给与了这样的评价:“当面对顶尖选手时,Kimi K2的实力边界也逐渐显现。 它在某些特定任务,如天气应用和可定制仪表盘组件的生成上,已能比claude-3-7-sonnet略胜一筹。但与目前业界公认的旗舰模型claude-sonnet-4(当然还有更强的Opus)相比,Kimi K2在输出的完整性、代码的丰富度以及复杂逻辑处理上仍存在一定差距,后者在这些方面展现出更成熟的掌控力。”

然而,时移势易。本次测试中,Kimi已然褪去青涩,展现出全面成熟的工程能力。

在新一轮的正面交锋中,我们让Kimi-K2-0905直接对垒业界标杆claude-opus-4-1与gpt-5,在前端编程领域的综合实力已达到业界领先水平,与claude-opus-4-1等旗舰模型处于同一竞争力队列。

在网页制作这块,Kimi-K2-0905 和GPT-5, Claude-Opus-4-1都能快速理解视觉结构并生成模块化、可部署的 HTML & CSS 代码,响应式布局也基本到位。

生成操作系统级应用这个测试比较吃模型对复杂结构的理解能力。Kimi-K2-0905 给出的文件结构、初始指令搭建、UI设计也具备较高完成度。

如果说前代的Kimi K2是在奋力追赶,那么全新的Kimi-K2-0905则已成功跻身第一梯队:进一步补全短板,更在部分关键项目上实现了反超。曾经与旗舰模型之间的差距,在本次测试中已被显著弥合,国产大模型,着实未来可期。


Ⅳ. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引 :在线使用→应用超市→机器人→聊天机器人

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

选择模型:国产模型→kimi-k2-0905-preview→确认→创建

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

2. 使用模型 API

相关文档:API→API超市→语言大模型→月之暗面→kimi-k2-0905-preview→查看文档

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄
302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

点击【调试】在线调用 API

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄

想即刻体验 kimi-k2-0905 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2天前
Next 2025 年 4 月 14 日 下午5:41

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    9480
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    4770
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    5731
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.3K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注