302.AI 赛博月刊丨Vol.5 神仙打架,Manus 之后的新玩家们

302.AI 赛博月刊丨Vol.5 神仙打架,Manus 之后的新玩家们

AI 行业大事记

2025 年 5 月

联合出品:

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心


说明:

① 本期月刊收录 AI 行业大事共 104 件;

② 本文分类中的【模型】均指代语言模型;

③ 本文 Agent、代理、智能体等词语的含义相同;

④ 一般产品接入 MCP 不再单独列出,头部公司的相关协议和集成平台会进行介绍;

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc (期待互动👏👏👏)


👀 4月趋势观察

1. 模型

✦ 基础模型的能力提升已经相对缓慢,各家开始提升其他的指标,例如「1M 上下文」会成为下阶段模型的标配;模型价格也会越来越低,例如GPT-4.1和Gemini-2.5-Flash。

✦ 推理模型的训练,无论是纯文字还是多模态,已经没有太多秘密。接下来,推理模型能力提升将聚焦 Agent方向,也就是通过连续调用工具来完成一个复杂任务,例如o3和o4-mini。

✦ 推理模型和基础模型融合是一个大趋势,通过参数来切换推理模式,比切换模型要更加节省资源,例如Qwen3。

✦ 可输出图像的国产全模态模型还未出现。

2. 图像

✦ GPT-Image-1 API终于发布,从我的平台(Jomy,302.AI)数据就可以看到,很多传统图像模型的份额都被GPT-Image-1抢走了。这对传统的图像模型公司是一次很大的冲击。

✦ 传统图像模型,现阶段在文字渲染/角色一致性/本地化部署这几个方面做得更好,更适用于专业商用领域。

3. 视频

✦ 视频生成模型在卷完「可控性」后,开始卷「生成时长」了。可以预见,今年视频模型的单次平均生成时长会突破10s大关。

✦ 随着视频模型的可控性提高,数字人生成也越来越成熟。大家已经不再局限单纯的对口型,开始往生成速度、情绪控制甚至肢体控制的方向继续发展

4. 音频

✦ 音频领域,大家继续在往更自然更拟人的方向改进。

✦ 方言小语种领域刚刚开始发力。

5. 3D

✦ 和上个月一样,3D 生成领域稳定发展中,精细度越来越高,效果越来越好。

6. 机器人

✦ 一场机器人马拉松,让大众看到了人形机器人的真实发展情况。大众对这个行业的预期也回归了理性。

7. 应用

✦ 现在AI应用的开发,基本上就集中在了2个领域:AI编程和Agent。

✦ AI编程已成为强有力的生产工具,也是短期最被看好的应用方向,所以每个大厂都来掺和一脚。

✦ Agent领域出现了一些「类 Manus」应用,例如Genspark和扣子空间;也出现了Agent浏览器这种新型的应用形式,例如 Fellou。

✦ 普通开发者的Agent开发浪潮还未开始。各大云厂商都通过宣传MCP概念先入局,但是现在还缺乏Agent开发的最佳范式。

8. 新闻

✦ 人工智能已经不再是新兴科技,而是国际共识。

✦ AI行业正在从研究导向快速地向应用导向转变


🧭 时光机

4 月 1 日

| 模型 |国家天文台 X 阿里巴巴● 金乌 国际首个太阳活动研究专用大模型 → 从通用模型到垂直领域的最佳实践之一 👍

| 音频 |MiniMax● Speech-02 语音模型系列,支持 20 万字符长文本→ Minimax 默默做了很多事,但宣发一直不是很给力 😅

| 视频 |Luma AI● Ray2 模型集成 Camera Motion Concepts 技术,文本指令驱动电影级运镜→ 镜头可控性成为视频模型的新标配 🎥

| 视频 |Higgsfield AI● DoP I2V-01-preview 视频生成模型,具有专业运镜效果→ 一家新兴的视频模型公司,视频模板做的非常出色和多样化 👏

| 应用 |Ai2 ● CodeScientist 端到端半自动科学发现系统

| 应用 |Amazon● Nova Act ,浏览器 AI Agent 及开发 SDK

| 融资 |OpenAI 完成 400 亿美元新一轮融资,估值达到 3000 亿美元 → 老大(OpenAI)和老二(Anthropic)的估值差距越来越大 🤐

| 新闻 | OpenAI Academy 在线资源中心免费上线

4 月 2 日

| 模型 |OpenAI● PaperBench基准测试,评估 AI Agent 复现前沿研究的能力(开源)→ Agent 时代需要新的基准测试 🥇

| 音频 |海天瑞声 X 清华大学● Dolphin 语音大模型,专为东方语言设计(开源)→ 一个支持方言的语音转文字模型 🎙

| 视频 |Synchronicity Labs ● Lipsync-2 全球首个零样本唇形同步模型 → sync 主打「视频->视频」对口型,而不是「图片->视频」对口型 ❗❗❗

| 应用 |Genspark AI● Super Agent 通用 AI Agent → 无需邀请码,任何人都可以注册使用,这个体验不错 😎

| 应用 |Rabbit● rabbitOS intern 系统更新 → 又是一个类 Manus 的 Agent 产品 👀

4 月 3 日

| 时间线 | 🧵 中美关税战全面升级,完整回顾本月时间线

| 时间线 | 🧵 美国政府限制 NVIDIA H20 芯片出口,黄仁勋访华商讨方案,完整回顾本月时间线 → 中国可以没有英伟达。但是英伟达不能没有中国。

4 月 4 日

| 图像 |MidjourneyV7(alpha)图像生成模型,提升理解能力与图像质量 → 实测下来,有进步,但不多 🤦‍♂️

| 视频 |MicrosoftMuse 世界模型家族迎来 WHAMM 模型,可以实时生成 AI 游戏→ 还是那个问题,游戏里能走回头路吗 🔙

4 月 5 日

| 应用 |Microsoft● Bing 浏览器上线 Copilot Search 功能 → Bing 要挑战一下 Perplexity 👀

4 月 6 日

| 模型 |Meta● Llama 4 原生多模态模型系列(开源)→ 相比于月底的 Qwen3,Llama 4 没有太多革命性的变化。开源之王的宝座已被阿里夺走 👑

4 月 7 日

| 视频 |阿里巴巴● 通义 LHM 模型,单照片快速生成可控 3D 数字人(开源)→ 效果还比较粗糙,期待进一步升级 💪

| 新闻 |NVIDIA收购初创公司 Lepton AI(贾扬清) → 看来 Nvidia 想亲自下场做 AI 应用层的服务。从卖卡到卖算力 🤙

| 新闻 |Stanford HAI● The 2025 AI Index Report

4 月 8 日

| 模型 |阶跃星辰● Step-R1-V-Mini 多模态推理模型,图像感知能力优秀

| 音频 |Amazon● Nova Sonic 通用音频基础模型,单一框架整合理解和生成能力 → Amazon 模型也全方位覆盖了 🎊

4 月 9 日

| 模型 |Together AI X Agentica Project● DeepCoder-14B 编程推理模型,性能卓越(开源)

| 模型 |Jina AI● jina-reranker-m0 多模态多语言重排器 → 基于 Qwen2-VL-2B 改造而来

| 应用 |阿里巴巴● 阿里云百炼上线业界首个全生命周期 MCP 服务 → 只支持将 MCP 用于阿里云百炼内部的智能体,生态比较封闭 📦

| 应用 |腾讯● 腾讯云上线 AI 开发套件,快速搭建 AI Agent 小程序 → 云厂商都打算入局 Agent 开发生态 👀

| 应用 |Google● Google Cloud Next 25 大会,与 Agent 有关的 A2A、SDK、Google Agentspace… → 模型的声音越来越少,Agent 的声音越来越多 🔊

| 应用 |Google● Firebase Studio 辅助编程 IDE,快速构建与部署全栈应用→ 又一个 Vibe Coding 应用,大厂真的什么都做 🤙

| 应用 |Google● Augment Code 辅助编程插件,支持超长上下文→ 大厂真的什么都做 🤙🤙🤙

| 新闻 | 总理主持召开经济形势专家和企业家座谈会,稚晖君发言

4 月 10 日

| 模型 |月之暗面● Kimi-VL 与 Kimi-VL-Thinking 轻量级视觉语言模型(开源)→ 为视觉推理模型的发展做了一些贡献 🎉

| 模型 |商汤● 日日新 SenseNova V6 多模态融合大模型体系,支持中长视频深度解析→ 上下文最大只有 32K,有点跟不上时代了 🤐

| 模型 |字节跳动● Multi-SWE-bench 基准测试,评估大模型多语言代码修复泛化能力(开源)→ AI 编程领域的基准测试 🥇

4 月 11 日

| 应用 |OpenAI● BrowseComp 基准测试,评估 AI Agent 复杂信息检索能力(开源)→ 更难的基准测试,可以更好地推动 Agent 的进步 🥇

| 应用 |Google● Gemini 模型将支持 MCP 协议 → 不太理解从模型层面支持 MCP 该如何实现,期待 Google 下一步揭晓 👂

4 月 12 日(无)

4 月 13 日

| 模型 |昆仑万维● Skywork-OR1 推理模型系列,显著提升数学与代码任务性能(开源)→ 最大只有 32B,明显是为了本地化部署准备的 🧐

4 月 14 日

| 模型 |字节跳动● Seed-Thinking-v1.5 深度思考模型 → 这个模型就是火山引擎上的 Doubao-1.5-Thinking-Pro 🔍

| 模型 |月之暗面 X Numina● Kimina-Prover 数学定理证明模型,Lean 4 形式化数学证明表现出色(开源)→ 巧合的是,月底 Deepseek 也发布了一个 Prover 模型 🧐

| 模型 |小鹏汽车● 小鹏世界基座模型启动研发 → 自动驾驶企业都在研发自己的世界模型 🚗

| 机器人 |Hugging Face 收购 Pollen Robotics,发售开源人形机器人 Reachy 2→ 看来 Hugging Face 也认为人形机器人会是未来的重要开源方向 🤖

4 月 15 日

| 模型 |智谱GLM-4 和 GLM-Z1 模型系列(开源),启用全新域名 Z.ai→ 域名看起来就很昂贵 💰

| 模型 |OpenAI● GPT-4.1 模型系列,上下文长度突破 1M→ GPT-4.1 系列明显是一个可生产用的成熟模型。但是,之前的 GPT-4.5 就有些让人困惑了 🤯

| 模型 |腾讯 X 上海交通大学● DeepMath-103K 数学数据集,面向强化学习和高级推理(开源)→ RL 训练又有了开箱即用的好数据集 🥳

| 图像 |字节跳动● Seedream 3.0(Mogao)图像生成模型,原生高清输出与商业级文本效果 → 经测试,中文输出能力又有了提升,实用性再次增强 👍

| 视频 |可灵● 正式迈入 2.0 时代!可灵 2.0(大师版)&& 可图 2.0 模型 → 可灵 2.0 比最初的 1.0 贵了 10 倍,各位觉得值得吗 ❓

| 应用 |阿里巴巴魔搭上线 MCP 广场,打造最大中文 MCP 服务中心 → 比百炼更开放的平台,支持第三方客户端接入。可惜现阶段还无法自己添加 MCP Server 💪

| 新闻 |小红书● 独立开发者大赛 2025 颁奖

4 月 16 日

| 模型 |上海人工智能实验室● InternVL3(书生·万象3.0)多模态大语言模型系列(开源)

| 应用 |OpenAI● Codex CLI 本地命令行智能编程工具,集成最新推理模型(开源)→ 对标 Claude Code 📍

| 应用 |JetBrainsJunie Agent 编程助手深度集成到 IDE→ AI 编程会成为所有 IDE 的标配 🧐

4 月 17 日

| 模型 |OpenAI o3 和 o4-mini 视觉推理模型,o 系列旗舰模型 → 经测试,这两个模型工具调用能力有了非常大的进步,利好 Agent 的开发 🥳

| 模型 |字节跳动● 豆包1.5 · 深度思考模型上线

| 模型 |Microsoft● BitNet b1.58 语言模型,低精度架构提升计算效率(开源)→ 如果这条路线可行的话,可能以后,电冰箱里都会装载一个小模型 😎

| 模型 |理想汽车MindGPT 3.0 深度思考能力媲美 DeepSeek

| 视频 |阿里巴巴● 通义万相 Wan2.1-FLF2V-14B 首尾帧生视频模型(开源)→ 阿里真的很认真地在做开源 👏

| 应用 |字节跳动● UI-TARS-1.5 多模态智能体,增强高阶推理能力(开源)→ 这个模型的原理类似 Claude 的 Computer-Use,通过鼠标和键盘指令来操作电脑 🖥

| 应用 |腾讯微信上线「元宝」AI 助手,提供智能问答服务 → 这么多天过去了,大家还有在用吗?👀

4 月 18 日

| 模型 |Google● Gemini 2.5 Flash 全混合推理模型 → 新的性价比之王 🥳

| 模型 |Google● Gemma 3 量化感知训练(QAT)新版本系列,本地 GPU 运行

| 图像 |腾讯● InstantCharacter 定制化图像生成插件,角色一致性能力优秀(开源)→ 角色一致性是多模态模型生图(例如 4o)的一大短板 🙅‍♂️

| 视频 |Stanford(Lvmin Zhang)● FramePack 逐帧视频生成框架(开源)→ FramePack 的核心思想应该很快会被各大模型公司借鉴 🧐

| 应用 |Krea AI上线 3D 创作功能 && 完成 4700 万美元 B 轮融资 → Krea 在 UX 上做得一直非常出色 👏

| 应用 |xAIGrok 本月 Grok Studio、个性化响应、workspace 等多项更新 → OpenAI 和 Claude 有的功能,Grok 都会立即跟上 👀

| 新闻 |智谱完成北京市人工智能产业投资基金追加投资,Z 基金出资 3 亿支持全球开源社区

4 月 19 日

| 机器人 | 2025 北京亦庄半程马拉松暨人形机器人半程马拉松,天工机器人夺冠 → 第一次让大众看到了现阶段人形机器人的真实发展情况 🤦‍♂️

| 应用 |字节跳动Coze Space(扣子空间)AI Agent 应用内测 → 意料之中,字节也出了类 Manus 产品 🤙

4 月 20 日(无)

4 月 21 日

| 音频 |Nari Labs● Dia-1.6B TTS 模型,支持情感控制非语言内容生成(开源)

| 视频 |生树科技● Vidu Q1 视频生成模型上线,支持 1080p 极清画质电影级运镜

| 视频 |昆仑万维● SkyReels-V2 无限时长电影生成模型(开源)→ 视频模型开始往生成时长的方向努力了 ⏱

| 视频 |Sand.aiMAGI-1 图生视频模型系列,支持无限延伸秒级精度时间控制(开源)

| 应用 |秘塔● 推出「今天学点啥」模式,LLM 驱动个性化学习内容生成 → 很好的应用形式 👏 但是生成内容的质量还是需要提升 💪

4 月 22 日

| 应用 |Fellou.ai(谢扬)Fellou 是全球首款 Agentic Browser(内测)→ 本地浏览器的方案,可以解决一些用户数据的问题 👌

| 新闻 | 教育部更新《普通高等学校本科专业目录(2025年)》,增列人工智能教育新专业

4 月 23 日

| 图像 |Ostris● Flex.2-preview 文生图模型,整合通用控制图像修复能力(开源)→ 可以作为 ComfyUI 中 Flux 模型的一个替代方案 🎨

| 视频 |MiniMax● Hailuo 上线 Character Reference 功能,单图生成多样化电影级角色视频

| 视频 |Character.AI● AvatarFX 视频生成模型,静态图片生成动态对话角色→ 其实就是对嘴型,类似 Hedra 👄

| 3 D |腾讯混元 3D 生成模型升至 2.5 版本,支持 4K 高清纹理 → 腾讯在 3D 开源模型这片蓝海中,算是有了自己的一席之地 🏆

4 月2 4 日

| 模型 |昆仑万维● Skywork-R1V 2.0 多模态推理模型(开源)→ 适合本地化部署的多模态推理模型 ✔

| 图像 |OpenAIgpt-image-1 多模态模型 API 开放 → 此模型上线后,抢了不少传统图像模型的市场 👀

| 应用 |腾讯● CodeBuddy 推出 Craft 软件开发 Agent,自动生成完整的项目代码→ 腾讯也浅尝了一下 AI 编程领域 👀

| 融资 | 蝴蝶效应(Manus)完成 7500 万美元融资,估值达到 5 亿美元 → 有了资本的助力,希望 Manus 可以尽快开放注册

4 月 25 日

| 视频 |Tavus● Hummingbird-0 零样本唇形同步模型 → 类似 Sync 的「视频->视频」对口型 👄

| 新闻 |百度● Create2025 大会发布文心大模型 Turbo 版,心响 App,沧舟 OS,文心杯创业大赛等

| 新闻 |中共中央政治局第二十次集体学习坚持自立自强,突出应用导向,推动人工智能健康有序发展 → 官方声音:应用导向 ❗❗❗

| 新闻 |2050● 2050@2025 年青人因科技而团聚

4 月 26 日

| 模型 |Lemon Slice X Deepgram● Lemon Slice Live 零样本实时数字人聊天模型 → 优势在于生成速度 ⚡

| 音频 |月之暗面● Kimi-Audio 通用音频基础模型,单一框架处理多样化音频任务(开源)

| 应用 |Cognition Labs(Devin)DeepWiki 工具免费开放,GitHub 仓库一键转 Wiki 式文档 → 用 AI 将互联网上的信息进行结构化,再分享出来,是个不错的尝试 🥳

4 月 27 日

| 图像 |阶跃星辰Step1X-Edit 图像编辑大模型(开源)→ 实测效果不错,还支持本地化部署,好评 👏

4 月 28 日(无)

4 月 29 日

| 模型 |阿里巴巴Qwen3 多模态模型系列,MoE 与 Dense 架构覆盖多参数规模(开源)→ Qwen3 将推理模型和非推理模型进行了融合,MoE 架构在本地运行时又可以获得更高的输出速度。Qwen 将开源模型的标准推向了新的高度,不愧是开源之王 🥳

| 视频 |Higgsfield AI ● Iconic Scenes 功能上线,照片一键融入经典电影场景→ 模板更新很快,质量也非常高 👍

| 应用 |OpenAI● ChatGPT 本月长期记忆、轻量版 Deep Research 及个性化商品推荐等重要更新

| 新闻 | 习近平在上海考察时强调,加快建成具有全球影响力的科技创新高地

4 月 30 日

| 模型 |Amazon● Nova Premier 多模态基础模型的旗舰版本 → 感觉就是 GPT-4.1 的翻版,但比 GPT-4.1 卖得还贵 🤐

| 模型 |DeepSeek● DeepSeek-Prover-V2 数学定理证明模型系列(开源)→ 这个模型,感觉是为了强化学习的训练准备的 🔍

| 模型 |小米● Xiaomi MiMo-7B 推理模型系列(开源)→ RL 已经成为模型训练的主流了 👀

| 模型 |JetBrains● Mellum 代码补全聚焦模型系列首发,全新训练支持 14 种编程语言(开源)→ 自动补全是否好用,是 AI 编程工具的一个核心竞争点 🎯

| 图像 |FASHN AI● FASHN v1.5 虚拟试穿模型与重要升级

| 音频 |沐言智语● Muyan-TTS 零样本语音合成模型,低成本易于二次开发(开源)

| 新闻 |中央网信办部署开展「清朗·整治AI技术滥用」专项行动


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 赛博月刊丨Vol.5 神仙打架,Manus 之后的新玩家们
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2天前
Next 2024 年 7 月 12 日 下午2:54

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注