302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿 -

AI 行业大事记

2025 年 6 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊期次 2506（2025年6月），整理和分析的是上个月（5月）AI 领域里有重大意义和影响的各类事件；

② 本期月刊共收录 101 条内容；

③ 月刊分类中的「模型」均指代语言模型；

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc （期待互动👏👏👏）

👀 5月AI趋势观察

1. 模型

✦ 基础模型继续小步伐升级，这个月 Claude 4 系列不负众望正式面世，Deepseek R1 也出了小版本更新。

✦ 专注于 Coding 的小模型开始大量出现，并且在一些细分场景超越了大模型。可以预见，垂直领域模型还有非常大的发展空间。

2. 图像

✦ GPT-Image-1 的开源竞争者陆续出现，例如 Hidream-E1 和字节的 Bagel；但最有威胁的还是 Flux-Kontext，在元素一致性上彻底超越了 GPT-Image-1。

✦ 传统图像模型和全模态模型的边界逐渐模糊，GPT-Image-1 的神奇能力也不再是独家专有。

3. 视频/数字人

✦ 这个月最兴奋的进展来自 Google Veo3，第一个可以原生生成人物对话的视频模型，让 AI 视频不再是哑剧。

✦ 开源视频模型在功能上逐渐追赶闭源模型，例如主体参考、元素编辑等等，开闭源的差距在逐渐缩小。

✦ 基于开源视频模型的快速发展，数字人领域的进步也比较明显。数字人现在已经不再是对嘴型，而是根据主体参考重新生成的完整视频。

4. 音频

✦ 音乐生成领域，闭源模型 Suno 还在持续领先，开源模型也在慢慢追赶，但是至今开闭源还有比较大的差距。

✦ 文字转语音（TTS）赛道已经没有太多创新，大家都是 90 分往 95 分努力，未来卷的应该就是性价比了。

5. 3D

✦ 3D 领域开始被模型公司投射注意力，背后应该是因为 3D 建模离商业化路径很短，比较容易产生收益。

✦ Tripo 意识到了只有模型没有应用是不够的，开始亲自下场做原生 AI 3D 应用，直接提供端到端的服务。

6. 机器人

✦ 通过一场机器人拳击赛就能看出，头部机器人公司对于机器人的动作控制已经比较成熟。

✦ 至于如何让机器人不通过预设的程序，而是自发的学会新的动作，世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展，很快有新的突破。

7. 应用

✦ 应用大的方向主要还是集中在 Coding 和 Agent，没有新的范式出现。

✦ 这个月让人眼前一亮的应用是 Lovart.ai，第一个专注于设计的 Agent 产品，生成结果的可用性也不错。可以预见，各个领域的垂直 Agent 产品会是商业化的一条捷径。

✦ AI 浏览器，会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent，那为什么不进一步做成客户端呢。

8. 新闻/融资

✦ 现在已经很少见到模型公司融资的消息了，模型大战已经结束，应用大战已经开启。

✦ Coding 领域大战基本到了尾声，老大 Cursor 不到半年估值翻了 4 倍，老二 Windsurf 已被 OpenAI 收购。

✦ Agent 领域大战才刚刚开始，如同春秋战国时期，百家争鸣。

🧭 5月AI行业时光机

5 月 1 日

| 模型 |NVIDIA● Describe Anything Model（DAM）多模态模型，为图片和视频的指定区域生成描述（开源）→ 别家都是文字生成图片/视频，这个模型却专注于图片/视频生成文字 📺🖼→📝

| 模型 |Microsoft● Phi-4 推理模型，专注数学与编程等复杂推理任务的小模型（开源）→ 体验下来，不如 Qwen3 🙅‍♂️

| 模型 |Amazon● Amazon Nova Premier 教师模型，Nova 系列最强版本

| 图像 |HiDream 智象未来● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型（开源）→ 相当优秀的国产开源图像模型 👍 可惜风头很快就被月底的 flux-Kontext 给盖过去了😥

5 月 2 日

| 图像 |Midjourney● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下，MJ 所剩的唯一优势可能就是审美了 🧐

| 音频 |Suno● Suno v4.5 音乐生成模型，音质与人声全面升级 → Suno 持续保持领先 🚀

| 新闻 |Sequoia Capital（红杉资本）AI Ascent 2025● 汇聚超 100 位 AI 领军人物，探讨行业未来发展

5 月 3 日（无）

5 月 4 日（无）

5 月 5 日（无）

5 月 6 日

| 模型 |智源研究院● 中文互联网语料库 CCI 4.0，扩展为多语种（开源）

| 模型 |智源研究院 X 南开大学● Chinese-LiPS 中文多模态语音识别数据集（开源）

| 模型 |360● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色，感觉是战略性开源 😐

| 应用 |阿里巴巴● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具，但是都陷入了同质化的怪圈 💫

| 融资 |OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发，直接收购了业界老二，是因为老大不肯卖吗 👀

| 融资 |Anysphere（Cursor）完成 9 亿美元融资，估值达到 90 亿美元 → Cursor 估值，每个月都在涨 🚀

5 月 7 日

| 模型 |Mistral AI● Medium 3 多模态模型，高性能、低成本，企业级 AI 新选择

| 模型 |Cognition Labs（Devin）● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型（开源）→ 针对某个细分领域进行后训练的小模型，可以做到「小模型，大效果」🥇

| 模型 |Apple● FastVLM 视觉-语言模型，支持端侧部署（开源）→ 很快就在 WWDC 上见到了这款模型的实际应用，效果不错 👍

| 音频 |阶跃星辰 X ACE Studio● ACE-Step 音乐生成基础模型，消费级显卡可用（开源）→ 实测距离 Suno 还有不小的差距 🎵

| 视频 |HeyGen● Avatar IV 数字人视频生成模型，一张照片+一段文本=逼真的视频 → 与 Hedra 类似，都是用图片生成的数字人 💃

5 月 8 日

| 应用 |阿里巴巴● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配 🔎

| 应用 |魔乐社区● 开放共享的 AI 工具与模型生态平台

| 应用 |Figma Config 2025● Figma 发布 4 项重要更新，Figma Buzz、Figma Draw、Figma Make、Figma Sites

5 月 9 日

| 视频 |腾讯● HunyuanCustom 多模态定制化视频生成模型，保持视频中多主体一致性（开源）→ 人物一致性做的不错，很适合拿来做数字人 👍 就是生成速度很慢 ⏳

| 视频 |Luma AI● Reframe 智能扩展图像视频画面，适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能，现在 Luma 补上了 🎞

| 3 D |Enigma Labs● Multiverse 多人模式游戏模型（全开源）

| 应用 |秘塔AI搜索●讲题功能上线 → 在提升用户体验方面，秘塔的理念极具独创性 👏

5 月 10 日（无）

5 月 11 日（无）

5 月 12 日

| 模型 |Prime Intellect● INTELLECT-2 推理模型，全球首个分布式强化学习训练模型 → 如果分布式能成，训练的门槛将会大大的降低 🎊

| 新闻 |教育部● 发布两项指南，科学规范推进人工智能全学段教育 → AI教育要从娃娃抓起 👶

5 月 13 日

| 模型 |OpenAI● HealthBench 医疗基准测试，评估大模型在医疗健康领域的表现（开源）→ 可以预见，这种高质量的私有数据，会是未来模型差异化的源头 🎯

| 视频 |爱诗科技● Pixverse V4.5 视频生成模型，实现电影级镜头控制 → 继续进步，从而应对可灵的竞争 🎥

| 3 D |昆仑万维● Matrix-Game 可交互视频生成世界模型，推动游戏世界建模（开源）

| 应用 |阿里巴巴● QwenChat 上线网页开发和 Deep Research 功能

| 应用 |Lovart.ai● 首个通用 Design Agent，一句话搞定全链路设计 → 无边画布很适合设计 Agent，用户体验非常不错 👏

| 应用 |Notion● AI Meeting Notes 功能上线，自动转录会议内容并生成结构化摘要 → 会议纪要，真是个刚需的大市场 💰

5 月 14 日

| 模型 |Google● AlphaEvolve 用于算法设计的编程智能体

| 模型 |快手 X 中科院 X 清华大学 X 南京大学● R1-Reward 多模态奖励模型，性能提升 5%-15%（开源）

| 音频 |Stability AI X Arm● Stable Audio Open Small 文本转音频模型，支持移动端快速生成短音频（开源）→ 生成速度是个亮点 ⚡

| 视频 |阿里巴巴● Wan2.1-VACE 视频生成与编辑统一模型，支持全功能生成（开源）→ 把商用模型的秘密都开源出来了 🧐 但生成的视频质量还差点意思 👀

| 3 D |阶跃星辰 X 光影焕像● Step1X-3D 生成大模型，支持高保真可控生成（全开源）→ 阶跃也做 3D 了❗ 3D 这个赛道慢慢开始火热 🔥

| 应用 |面壁智能 X 清华大学● SurveyGO 学术长文本写作工具（开源）→ Long to Long 领域非常不错的实践 👏

5 月 15 日

| 音频 |MiniMax● Speech-02 文本转语音（TTS）模型，音色克隆技术领先全球 → 音色克隆能力很强 🔊

| 融资 |Hedra 完成 3200 万美元 A 轮融资，估值达到 2 亿美元 → 对标 Heygen 🚩

5月 16 日

| 模型 |Windsurf● SWE-1 编程模型，专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中，据说蒸馏了不少其他模型的数据 👂

| 图像 |腾讯● Hunyuan Image 2.0 图像生成模型，实现毫秒级响应 → 质量比之前的 sd-lightning 强，适合拿来做提示词测试 👍

| 视频 |Higgsfield AI● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准 🎯

| 应用 |ElevenLabs● SB-1 无限音效板，可以定制音效的控制面板

| 新闻 |特朗普● 访问中东三国，达成多项大额 AI 交易

5 月 17 日

| 模型 |阿里巴巴● ZeroSearch 强化学习框架，通过模拟搜索引擎提升大模型的搜索能力（开源）

| 应用 |OpenAI● Codex 云端编程智能体，高效处理复杂软件工程任务 → 更偏向专业 Coding辅助，而不是 Vibe Coding 🧐

5 月 18 日

| 新闻 |五源资本● 72 小时 AI 生存挑战，依靠 AI 工具解决生存需求

5 月 19 日

| 视频 |哔哩哔哩● Index-AniSora 动漫视频生成模型，献给二次元世界的礼物（开源）→ 这个模型 B 站做最对味 👀

| 应用 |字节跳动● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server，不够开放 🙅‍♂️

| 应用 |腾讯 QQ 浏览器● QBot 上线，正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔

| 应用 |Flowith● Neo 云端 Agent 系统，首个「无限」智能体

5 月 20 日

| 模型 |字节跳动● Seed-Coder 轻量级编程模型，字节的前沿探索成果（开源）

| 机器人 |智元机器人●EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试（开源）

| 融资 |美图获得阿里巴巴 2.5 亿美元投资，双方达成战略合作 → 阿里投资开始在 AI 应用领域发力 📍

| 模型 |Google I/O 2025● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗，全方位领先 👑

| 模型 |Google I/O 2025● Gemma 3n 多模态模型，移动端优化（开源）

| 图像 |Google I/O 2025● Imagen 4 图像生成模型，实现 2K 高分辨率

| 音频 |Google I/O 2025● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐，无法生成歌曲 🎵

| 视频 |Google I/O 2025● Veo 3 视频生成模型，进入音画同步时代 → 第一个可以自动生成人物配音的视频模型，AI视频不再是哑剧 🔊

| 应用 |Google I/O 2025● Flow 电影级影视片段制作工具，集成了 Google 最先进模型

| 应用 |Google I/O 2025● SynthID Detector 识别 AI 生成内容的检测平台

| 应用 |Google I/O 2025● Jules 异步编程智能体，在云端虚拟机中独立执行任务

| 应用 |Google I/O 2025● Stitch 基于自然语言的 UI 设计与代码生成工具

| 应用 |Google I/O 2025●AI Mode 正式登录 Google Search，搜索从此「千人千面」→ 如此庞大的日活下，背后的算力成本应该相当高昂 💸

5 月 21 日

| 模型 |Mistral AI X All Hands AI● Devstral 编程模型，专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型 👩‍💻

| 图像 |腾讯● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型

| 机器人 |NVIDIA● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型（开源）

| 应用 |字节跳动● 飞书知识问答功能上线，整合企业内资源实现智能解答 → 企业内部的 Deep Search 🔎

| 应用 |腾讯● 腾讯云智能体开发平台（TCADP）上线 → 一个类似 Coze 和 Dify 的平台，但是非常简陋，看不出有什么竞争力 ❓

| 融资 |面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业 🏆

5 月 22 日

| 音频 |Kyutai● Unmute.sh 语音系统，可以为任何文本大语言模型添加语音功能（即将开源）

| 应用 |Mistral AI● Document AI 高精度文档解析工具，成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用 💻

| 应用 |昆仑万维● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用，做 PPT 尤其出色 🧐

| 融资 |LMArena● 完成 1 亿美元种子轮融资，估值达到 6 亿美元

| 融资 |OpenAI以 65 亿美元收购 io，进军 AI 硬件领域

| 新闻 |Microsoft Build 2025● 迈向 AI Agent 时代，构建 Open Agentic Web 成为新愿景

5 月 23 日

| 模型 |Anthropic● Claude Opus 4 和 Claude Sonnet 4 推理模型，专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座 👑

| 模型 |上海人工智能实验室● 书生·思客（InternThinker）围棋推理模型 → 用 LLM 下围棋，有一种奇特的复古感 🧭

| 模型 |字节跳动● Dolphin 文档解析模型，高效精准处理复杂文档（开源）→ 非常利好本地化 RAG 🔎

5 月 24 日（无）

5 月 25 日

| 机器人 | 《CMG世界机器人大赛·系列赛》机甲格斗擂台赛，展现高难度格斗技术 → 比上个月马拉松比赛的机器人，看起来强多了 🤖

5 月 26 日

| 模型 |红杉中国● xbench 基准测试，聚焦真实场景效用与垂类智能体评测（开源）

5 月 27 日

| 音频 |字节跳动● 豆包·语音播客模型（预告）&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然，中文领域最佳 👑

5 月 28 日

| 模型 |Mistral AI● Codestral Embed 代码嵌入模型，性能超越主流方案 → 连 Embedding 模型都有为代码设计的了，Coding 赛道真的火🔥

| 图像 |字节跳动● BAGEL 统一多模态理解与生成模型（开源）→ 人物一致性比 gpt-image-1 强 👍 但其他都远远不如 👎

| 视频 |腾讯● HunyuanVideo-Avatar 语音数字人模型，图像+音频=说话&唱歌的数字人（开源）

| 3 D |Odyssey●实时 3D 互动视频技术（研究预览），延迟仅 40 毫秒，成本低至 1 美元/小时

| 机器人 |北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展，有一个标准了 🤖

| 应用 |昆仑万维● Opera Neon 智能 Agent 浏览器，开启内测

5 月 29 日

| 模型 |DeepSeek● DeepSeek-R1-0528 推理模型「小升级」，思考更深，推理更强 → 还是基于 deepseek-v3 旧版训练的，并不是基于最新的 v3 训练的 🧐

| 视频 |快手● 可灵 2.1 && 可灵 2.1 大师版上线，理解力与生成速度全面升级

| 融资 |Grammarly 完成 10 亿美元融资，加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求，也可以生长出巨头 🚀

5 月 30 日

| 模型 |字节跳动● Web-Bench 编程能力基准测试，评估模型在复杂 Web 全栈任务中的表现（开源）→ 2.1 终于有普通版了 🎊 性价比不错，可以大规模商用了

| 模型 |小米● Xiaomi MiMo-VL 多模态大模型（开源）→ 小米开始在大模型领域发力，表现都比较亮眼 💡

| 图像 |Black Forest Labs● FLUX.1 Kontext 图像生成与编辑模型，角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题，图像编辑领域的 New King 👑

| 音频 |ElevenLabs● Conversational AI 2.0 企业级语音 Agent 平台

| 应用 |Perplexity● Labs 智能体创作平台，一站式生成报告、演示与可视化项目

5 月 31 日

| 3 D |VAST●Tripo Studio 工作站上线，实现一站式 3D 建模 → 从模型到应用，Tripo 要打造 3D 领域的完整生态 🥳

| 应用 |Google● Gemini App（应用）近期重要更新汇总

| 应用 |OpenAI● ChatGPT 近期重要更新汇总

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿