302.AI 赛博月刊丨Vol.5 神仙打架，Manus 之后的新玩家们 -

AI 行业大事记

2025 年 5 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊收录 AI 行业大事共 104 件；

② 本文分类中的【模型】均指代语言模型；

③ 本文 Agent、代理、智能体等词语的含义相同；

④ 一般产品接入 MCP 不再单独列出，头部公司的相关协议和集成平台会进行介绍；

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc （期待互动👏👏👏）

👀 4月趋势观察

1. 模型

✦ 基础模型的能力提升已经相对缓慢，各家开始提升其他的指标，例如「1M 上下文」会成为下阶段模型的标配；模型价格也会越来越低，例如GPT-4.1和Gemini-2.5-Flash。

✦ 推理模型的训练，无论是纯文字还是多模态，已经没有太多秘密。接下来，推理模型的能力提升将聚焦 Agent方向，也就是通过连续调用工具来完成一个复杂任务，例如o3和o4-mini。

✦ 推理模型和基础模型的融合是一个大趋势，通过参数来切换推理模式，比切换模型要更加节省资源，例如Qwen3。

✦ 可输出图像的国产全模态模型还未出现。

2. 图像

✦ GPT-Image-1 API终于发布，从我的平台（Jomy，302.AI）数据就可以看到，很多传统图像模型的份额都被GPT-Image-1抢走了。这对传统的图像模型公司是一次很大的冲击。

✦ 传统图像模型，现阶段在文字渲染/角色一致性/本地化部署这几个方面做得更好，更适用于专业商用领域。

3. 视频

✦ 视频生成模型在卷完「可控性」后，开始卷「生成时长」了。可以预见，今年视频模型的单次平均生成时长会突破10s大关。

✦ 随着视频模型的可控性提高，数字人生成也越来越成熟。大家已经不再局限单纯的对口型，开始往生成速度、情绪控制甚至肢体控制的方向继续发展。

4. 音频

✦ 音频领域，大家继续在往更自然、更拟人的方向改进。

✦ 方言和小语种领域刚刚开始发力。

5. 3D

✦ 和上个月一样，3D 生成领域稳定发展中，精细度越来越高，效果越来越好。

6. 机器人

✦ 一场机器人马拉松，让大众看到了人形机器人的真实发展情况。大众对这个行业的预期也回归了理性。

7. 应用

✦ 现在AI应用的开发，基本上就集中在了2个领域：AI编程和Agent。

✦ AI编程已成为强有力的生产工具，也是短期最被看好的应用方向，所以每个大厂都来掺和一脚。

✦ Agent领域出现了一些「类 Manus」应用，例如Genspark和扣子空间；也出现了Agent浏览器这种新型的应用形式，例如 Fellou。

✦ 普通开发者的Agent开发浪潮还未开始。各大云厂商都通过宣传MCP概念先入局，但是现在还缺乏Agent开发的最佳范式。

8. 新闻

✦ 人工智能已经不再是新兴科技，而是国际共识。

✦ AI行业正在从「研究导向」快速地向「应用导向」转变。

🧭 时光机

4 月 1 日

| 模型 |国家天文台 X 阿里巴巴● 金乌国际首个太阳活动研究专用大模型 → 从通用模型到垂直领域的最佳实践之一 👍

| 音频 |MiniMax● Speech-02 语音模型系列，支持 20 万字符长文本→ Minimax 默默做了很多事，但宣发一直不是很给力 😅

| 视频 |Luma AI● Ray2 模型集成 Camera Motion Concepts 技术，文本指令驱动电影级运镜→ 镜头可控性成为视频模型的新标配 🎥

| 视频 |Higgsfield AI● DoP I2V-01-preview 视频生成模型，具有专业运镜效果→ 一家新兴的视频模型公司，视频模板做的非常出色和多样化 👏

| 应用 |Ai2 ● CodeScientist 端到端半自动科学发现系统

| 应用 |Amazon● Nova Act ，浏览器 AI Agent 及开发 SDK

| 融资 |OpenAI 完成 400 亿美元新一轮融资，估值达到 3000 亿美元 → 老大（OpenAI）和老二（Anthropic）的估值差距越来越大 🤐

| 新闻 | OpenAI Academy 在线资源中心免费上线

4 月 2 日

| 模型 |OpenAI● PaperBench基准测试，评估 AI Agent 复现前沿研究的能力（开源）→ Agent 时代需要新的基准测试 🥇

| 音频 |海天瑞声 X 清华大学● Dolphin 语音大模型，专为东方语言设计（开源）→ 一个支持方言的语音转文字模型 🎙

| 视频 |Synchronicity Labs ● Lipsync-2 全球首个零样本唇形同步模型 → sync 主打「视频->视频」对口型，而不是「图片->视频」对口型 ❗❗❗

| 应用 |Genspark AI● Super Agent 通用 AI Agent → 无需邀请码，任何人都可以注册使用，这个体验不错 😎

| 应用 |Rabbit● rabbitOS intern 系统更新 → 又是一个类 Manus 的 Agent 产品 👀

4 月 3 日

| 时间线 | 🧵 中美关税战全面升级，完整回顾本月时间线

| 时间线 | 🧵 美国政府限制 NVIDIA H20 芯片出口，黄仁勋访华商讨方案，完整回顾本月时间线 → 中国可以没有英伟达。但是英伟达不能没有中国。

4 月 4 日

| 图像 |Midjourney●V7（alpha）图像生成模型，提升理解能力与图像质量 → 实测下来，有进步，但不多 🤦‍♂️

| 视频 |Microsoft●Muse 世界模型家族迎来 WHAMM 模型，可以实时生成 AI 游戏→ 还是那个问题，游戏里能走回头路吗 🔙

4 月 5 日

| 应用 |Microsoft● Bing 浏览器上线 Copilot Search 功能 → Bing 要挑战一下 Perplexity 👀

4 月 6 日

| 模型 |Meta● Llama 4 原生多模态模型系列（开源）→ 相比于月底的 Qwen3，Llama 4 没有太多革命性的变化。开源之王的宝座已被阿里夺走 👑

4 月 7 日

| 视频 |阿里巴巴● 通义 LHM 模型，单照片快速生成可控 3D 数字人（开源）→ 效果还比较粗糙，期待进一步升级 💪

| 新闻 |NVIDIA收购初创公司 Lepton AI（贾扬清） → 看来 Nvidia 想亲自下场做 AI 应用层的服务。从卖卡到卖算力 🤙

| 新闻 |Stanford HAI● The 2025 AI Index Report

4 月 8 日

| 模型 |阶跃星辰● Step-R1-V-Mini 多模态推理模型，图像感知能力优秀

| 音频 |Amazon● Nova Sonic 通用音频基础模型，单一框架整合理解和生成能力 → Amazon 模型也全方位覆盖了 🎊

4 月 9 日

| 模型 |Together AI X Agentica Project● DeepCoder-14B 编程推理模型，性能卓越（开源）

| 模型 |Jina AI● jina-reranker-m0 多模态多语言重排器 → 基于 Qwen2-VL-2B 改造而来

| 应用 |阿里巴巴● 阿里云百炼上线业界首个全生命周期 MCP 服务 → 只支持将 MCP 用于阿里云百炼内部的智能体，生态比较封闭 📦

| 应用 |腾讯● 腾讯云上线 AI 开发套件，快速搭建 AI Agent 小程序 → 云厂商都打算入局 Agent 开发生态 👀

| 应用 |Google● Google Cloud Next 25 大会，与 Agent 有关的 A2A、SDK、Google Agentspace… → 模型的声音越来越少，Agent 的声音越来越多 🔊

| 应用 |Google● Firebase Studio 辅助编程 IDE，快速构建与部署全栈应用→ 又一个 Vibe Coding 应用，大厂真的什么都做 🤙

| 应用 |Google● Augment Code 辅助编程插件，支持超长上下文→ 大厂真的什么都做 🤙🤙🤙

| 新闻 | 总理主持召开经济形势专家和企业家座谈会，稚晖君发言

4 月 10 日

| 模型 |月之暗面● Kimi-VL 与 Kimi-VL-Thinking 轻量级视觉语言模型（开源）→ 为视觉推理模型的发展做了一些贡献 🎉

| 模型 |商汤● 日日新 SenseNova V6 多模态融合大模型体系，支持中长视频深度解析→ 上下文最大只有 32K，有点跟不上时代了 🤐

| 模型 |字节跳动● Multi-SWE-bench 基准测试，评估大模型多语言代码修复泛化能力（开源）→ AI 编程领域的基准测试 🥇

4 月 11 日

| 应用 |OpenAI● BrowseComp 基准测试，评估 AI Agent 复杂信息检索能力（开源）→ 更难的基准测试，可以更好地推动 Agent 的进步 🥇

| 应用 |Google● Gemini 模型将支持 MCP 协议 → 不太理解从模型层面支持 MCP 该如何实现，期待 Google 下一步揭晓 👂

4 月 12 日（无）

4 月 13 日

| 模型 |昆仑万维● Skywork-OR1 推理模型系列，显著提升数学与代码任务性能（开源）→ 最大只有 32B，明显是为了本地化部署准备的 🧐

4 月 14 日

| 模型 |字节跳动● Seed-Thinking-v1.5 深度思考模型 → 这个模型就是火山引擎上的 Doubao-1.5-Thinking-Pro 🔍

| 模型 |月之暗面 X Numina● Kimina-Prover 数学定理证明模型，Lean 4 形式化数学证明表现出色（开源）→ 巧合的是，月底 Deepseek 也发布了一个 Prover 模型 🧐

| 模型 |小鹏汽车● 小鹏世界基座模型启动研发 → 自动驾驶企业都在研发自己的世界模型 🚗

| 机器人 |Hugging Face 收购 Pollen Robotics，发售开源人形机器人 Reachy 2→ 看来 Hugging Face 也认为人形机器人会是未来的重要开源方向 🤖

4 月 15 日

| 模型 |智谱●GLM-4 和 GLM-Z1 模型系列（开源），启用全新域名 Z.ai→ 域名看起来就很昂贵 💰

| 模型 |OpenAI● GPT-4.1 模型系列，上下文长度突破 1M→ GPT-4.1 系列明显是一个可生产用的成熟模型。但是，之前的 GPT-4.5 就有些让人困惑了 🤯

| 模型 |腾讯 X 上海交通大学● DeepMath-103K 数学数据集，面向强化学习和高级推理（开源）→ RL 训练又有了开箱即用的好数据集 🥳

| 图像 |字节跳动● Seedream 3.0（Mogao）图像生成模型，原生高清输出与商业级文本效果 → 经测试，中文输出能力又有了提升，实用性再次增强 👍

| 视频 |可灵● 正式迈入 2.0 时代！可灵 2.0（大师版）&& 可图 2.0 模型 → 可灵 2.0 比最初的 1.0 贵了 10 倍，各位觉得值得吗 ❓

| 应用 |阿里巴巴●魔搭上线 MCP 广场，打造最大中文 MCP 服务中心 → 比百炼更开放的平台，支持第三方客户端接入。可惜现阶段还无法自己添加 MCP Server 💪

| 新闻 |小红书● 独立开发者大赛 2025 颁奖

4 月 16 日

| 模型 |上海人工智能实验室● InternVL3（书生·万象3.0）多模态大语言模型系列（开源）

| 应用 |OpenAI● Codex CLI 本地命令行智能编程工具，集成最新推理模型（开源）→ 对标 Claude Code 📍

| 应用 |JetBrains●Junie Agent 编程助手深度集成到 IDE→ AI 编程会成为所有 IDE 的标配 🧐

4 月 17 日

| 模型 |OpenAI● o3 和 o4-mini 视觉推理模型，o 系列旗舰模型 → 经测试，这两个模型工具调用能力有了非常大的进步，利好 Agent 的开发 🥳

| 模型 |字节跳动● 豆包1.5 · 深度思考模型上线

| 模型 |Microsoft● BitNet b1.58 语言模型，低精度架构提升计算效率（开源）→ 如果这条路线可行的话，可能以后，电冰箱里都会装载一个小模型 😎

| 模型 |理想汽车●MindGPT 3.0 深度思考能力媲美 DeepSeek

| 视频 |阿里巴巴● 通义万相 Wan2.1-FLF2V-14B 首尾帧生视频模型（开源）→ 阿里真的很认真地在做开源 👏

| 应用 |字节跳动● UI-TARS-1.5 多模态智能体，增强高阶推理能力（开源）→ 这个模型的原理类似 Claude 的 Computer-Use，通过鼠标和键盘指令来操作电脑 🖥

| 应用 |腾讯●微信上线「元宝」AI 助手，提供智能问答服务 → 这么多天过去了，大家还有在用吗？👀

4 月 18 日

| 模型 |Google● Gemini 2.5 Flash 全混合推理模型 → 新的性价比之王 🥳

| 模型 |Google● Gemma 3 量化感知训练（QAT）新版本系列，本地 GPU 运行

| 图像 |腾讯● InstantCharacter 定制化图像生成插件，角色一致性能力优秀（开源）→ 角色一致性是多模态模型生图（例如 4o）的一大短板 🙅‍♂️

| 视频 |Stanford（Lvmin Zhang）● FramePack 逐帧视频生成框架（开源）→ FramePack 的核心思想应该很快会被各大模型公司借鉴 🧐

| 应用 |Krea AI●上线 3D 创作功能 && 完成 4700 万美元 B 轮融资 → Krea 在 UX 上做得一直非常出色 👏

| 应用 |xAI●Grok 本月 Grok Studio、个性化响应、workspace 等多项更新 → OpenAI 和 Claude 有的功能，Grok 都会立即跟上 👀

| 新闻 |智谱完成北京市人工智能产业投资基金追加投资，Z 基金出资 3 亿支持全球开源社区

4 月 19 日

| 机器人 | 2025 北京亦庄半程马拉松暨人形机器人半程马拉松，天工机器人夺冠 → 第一次让大众看到了现阶段人形机器人的真实发展情况 🤦‍♂️

| 应用 |字节跳动●Coze Space（扣子空间）AI Agent 应用内测 → 意料之中，字节也出了类 Manus 产品 🤙

4 月 20 日（无）

4 月 21 日

| 音频 |Nari Labs● Dia-1.6B TTS 模型，支持情感控制与非语言内容生成（开源）

| 视频 |生树科技● Vidu Q1 视频生成模型上线，支持 1080p 极清画质与电影级运镜

| 视频 |昆仑万维● SkyReels-V2 无限时长电影生成模型（开源）→ 视频模型开始往生成时长的方向努力了 ⏱

| 视频 |Sand.ai●MAGI-1 图生视频模型系列，支持无限延伸与秒级精度时间控制（开源）

| 应用 |秘塔● 推出「今天学点啥」模式，LLM 驱动个性化学习内容生成 → 很好的应用形式 👏 但是生成内容的质量还是需要提升 💪

4 月 22 日

| 应用 |Fellou.ai（谢扬）●Fellou 是全球首款 Agentic Browser（内测）→ 本地浏览器的方案，可以解决一些用户数据的问题 👌

| 新闻 | 教育部更新《普通高等学校本科专业目录（2025年）》，增列人工智能教育新专业

4 月 23 日

| 图像 |Ostris● Flex.2-preview 文生图模型，整合通用控制和图像修复能力（开源）→ 可以作为 ComfyUI 中 Flux 模型的一个替代方案 🎨

| 视频 |MiniMax● Hailuo 上线 Character Reference 功能，单图生成多样化电影级角色视频

| 视频 |Character.AI● AvatarFX 视频生成模型，静态图片生成动态对话角色→ 其实就是对嘴型，类似 Hedra 👄

| 3 D |腾讯●混元 3D 生成模型升至 2.5 版本，支持 4K 高清纹理 → 腾讯在 3D 开源模型这片蓝海中，算是有了自己的一席之地 🏆

4 月2 4 日

| 模型 |昆仑万维● Skywork-R1V 2.0 多模态推理模型（开源）→ 适合本地化部署的多模态推理模型 ✔

| 图像 |OpenAI●gpt-image-1 多模态模型 API 开放 → 此模型上线后，抢了不少传统图像模型的市场 👀

| 应用 |腾讯● CodeBuddy 推出 Craft 软件开发 Agent，自动生成完整的项目代码→ 腾讯也浅尝了一下 AI 编程领域 👀

| 融资 | 蝴蝶效应（Manus）完成 7500 万美元融资，估值达到 5 亿美元 → 有了资本的助力，希望 Manus 可以尽快开放注册

4 月 25 日

| 视频 |Tavus● Hummingbird-0 零样本唇形同步模型 → 类似 Sync 的「视频->视频」对口型 👄

| 新闻 |百度● Create2025 大会发布文心大模型 Turbo 版，心响 App，沧舟 OS，文心杯创业大赛等

| 新闻 |中共中央政治局第二十次集体学习●坚持自立自强，突出应用导向，推动人工智能健康有序发展 → 官方声音：应用导向 ❗❗❗

| 新闻 |2050● 2050@2025 年青人因科技而团聚

4 月 26 日

| 模型 |Lemon Slice X Deepgram● Lemon Slice Live 零样本实时数字人聊天模型 → 优势在于生成速度 ⚡

| 音频 |月之暗面● Kimi-Audio 通用音频基础模型，单一框架处理多样化音频任务（开源）

| 应用 |Cognition Labs（Devin）●DeepWiki 工具免费开放，GitHub 仓库一键转 Wiki 式文档 → 用 AI 将互联网上的信息进行结构化，再分享出来，是个不错的尝试 🥳

4 月 27 日

| 图像 |阶跃星辰●Step1X-Edit 图像编辑大模型（开源）→ 实测效果不错，还支持本地化部署，好评 👏

4 月 28 日（无）

4 月 29 日

| 模型 |阿里巴巴●Qwen3 多模态模型系列，MoE 与 Dense 架构覆盖多参数规模（开源）→ Qwen3 将推理模型和非推理模型进行了融合，MoE 架构在本地运行时又可以获得更高的输出速度。Qwen 将开源模型的标准推向了新的高度，不愧是开源之王 🥳

| 视频 |Higgsfield AI ● Iconic Scenes 功能上线，照片一键融入经典电影场景→ 模板更新很快，质量也非常高 👍

| 应用 |OpenAI● ChatGPT 本月长期记忆、轻量版 Deep Research 及个性化商品推荐等重要更新

| 新闻 | 习近平在上海考察时强调，加快建成具有全球影响力的科技创新高地

4 月 30 日

| 模型 |Amazon● Nova Premier 多模态基础模型的旗舰版本 → 感觉就是 GPT-4.1 的翻版，但比 GPT-4.1 卖得还贵 🤐

| 模型 |DeepSeek● DeepSeek-Prover-V2 数学定理证明模型系列（开源）→ 这个模型，感觉是为了强化学习的训练准备的 🔍

| 模型 |小米● Xiaomi MiMo-7B 推理模型系列（开源）→ RL 已经成为模型训练的主流了 👀

| 模型 |JetBrains● Mellum 代码补全聚焦模型系列首发，全新训练支持 14 种编程语言（开源）→ 自动补全是否好用，是 AI 编程工具的一个核心竞争点 🎯

| 图像 |FASHN AI● FASHN v1.5 虚拟试穿模型与重要升级

| 音频 |沐言智语● Muyan-TTS 零样本语音合成模型，低成本易于二次开发（开源）

| 新闻 |中央网信办部署开展「清朗·整治AI技术滥用」专项行动

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

302.AI 赛博月刊丨Vol.5 神仙打架，Manus 之后的新玩家们