302.AI 赛博月刊丨Vol.7 90天定律：从落后到突围，国产AI的崛起周期

AI 行业大事记

2025 年 7 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊收录 AI 行业大事共 106 件；

② 本文分类中的「模型」均指代语言模型；

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式；

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc（期待互动👏👏👏）

👀 6月AI趋势观察

1. 模型

✦ 这个月顶尖海外模型只有 o3-Pro 发布，给了国产模型一个窗口期，迎头赶上。例如字节的多模态推理模型 Seed-1.6，从功能上已经不输任何海外模型。

✦ 模型在垂直领域峥蓬勃发展，比较热门的是工具调用（Agent）和 Coding，刚好也代表了应用层面的两大热门板块。夸克的高考模型和网易的数学模型也让人眼前一亮，正如我上个月所说，垂直领域的模型还有很多的机会。

2. 图像

✦ Seededit 3.0、OminiGen2 和 Qwen VLo 的出现，代表着 GPT-Image-1 的秘密仅过了 3 个月就已被中国公司完全破解。目前效果上的差异主要来源于训练数据的不同，因此，在图像编辑领域，国产模型的全面超越仅是时间问题。

✦ 从功能的角度来看，图像模型领域的所有拼图已经完备，未来不同厂商的模型，应该就是审美和商业策略的竞争了。

3. 视频

✦ 字节和 Minimax 在视频上继续发力，都推出了新的模型，效果继续小幅度提升，与可灵相比各有千秋。OpenAI 应该想不到，最早由 Sora 开拓的视频领域，现今已是中国人的天下。

✦ 除了 Veo3，目前尚未出现其他能够直接生成有声视频的模型，但可灵已经取得相关的研究进展，估计很快就会面市。

✦ 视频的 Agent 产品开始陆续出现，通过 Agent 去自动拼接和剪辑视频，这可能才是突破视频模型生成时长限制的最优解决方案。

4. 音频

✦ 配音领域，比较亮眼的是字节的语音播客模型，能够生成极为生动的双人对话。可以预见，音频模型在自动化分析情感方面仍然有进一步发展的空间。

✦ 音乐领域，腾讯的开源模型效果已经堪比 Suno 早期的版本，可以预见，Vibe Music 领域很快也会被开源模型拿下。

5. 3D

✦ 这个月只有腾讯继续在 3D 领域进行更新，生成的模型质量又有了一些提高，不愧是游戏行业的领头羊。

6. 机器人

✦ 机器人的大脑（模型）还未成熟，所有研究都在早期阶段。

✦ 两家头部的机器人公司恰好都在这个月完成了大额的融资，预计是在为较长的研发周期做好准备。

7. 应用

✦ Coding 领域竞争激烈，任何一家推出新功能，很快便会被所有竞争对手效仿。几乎所有大厂都推出了自己的 AI Coding 产品，不由得让人联想到当年模型大战的情形。最终受益的还是用户，编程会变得越来越简单。

✦ Agent 领域开始分化。一边分化到了垂直领域，例如专注于信息搜索或多媒体创作的 Agent；另一边分化到了浏览器，因为相比网页，浏览器有更广泛的本地权限可供使用。

✦ 随着端侧模型的发展，端侧应用开始有些起色。首先是苹果在新系统上开放了端侧 AI 的接口，开发者会更加容易开发出 AI 应用。另外，AI 眼镜逐渐成为各厂商常见的数码产品，这会为 AI 应用带来一个巨大的新入口。

8. 新闻/融资

✦ 这个月没有看到任何模型公司获得融资，反而是拿到大额融资的应用公司开始推出自己的模型。未来，模型公司开发应用，而应用公司开发模型将会变得相当普遍。从今往后，可能不必再区分一家公司是从事应用还是模型，只是起点不同，最终殊途同归。

✦ 美国 AI 行业的资本市场已经有些疯狂，过亿美金的跳槽费，20 亿美金的种子轮，百亿美金的投资，这背后有不少都是 Meta 的手笔。这到底是 FOMO 的泡沫，还是 AI 真的可以带来万亿美金的市场？在 25 年中这个节点，这个问题似乎还没有明确的答案。

🧭 6月AI行业时光机

6 月 1 日

| 新闻 |AGI Bar 开业 ，北京中关村迎来「泡沫最大」的 AI 主题酒吧→ 面对面的交流，会比网上的聊天更有意思 🍻

| 应用 |阿里巴巴 上线通义灵码 AI IDE，辅助完成复杂编程任务 → 阿里不再满足于只做其他 IDE 的插件，这次发布了一个完整的 AI IDE 👩‍💻

6 月 2 日

| 视频 |Luma AI Modify Video 视频后期工具，保留动态的同时一键改风格、换场景 → Video2Video 是现在国产模型比较欠缺的地方，Luma 获得了领先 🚀

| 应用 |Character.AI 从文本聊天向多模态世界演进，打造沉浸式角色体验 → AI 陪伴领域已经不满足于文字聊天了，在用更多的模态来增强体验 💕

| 融资 |IBM 收购数据分析初创公司 Seek AI

6 月 3 日

| 模型 |蚂蚁集团 X 清华大学 开源 AReaL-boba² 全异步强化学习训练系统，RL 训练提速 2.77 倍 → 强化学习（RL）训练的基建之一 👍

| 音频 |Fish Audio 发布 OpenAudio S1 并开源 S1 Mini 高可控多语言 TTS 模型

| 视频 |TikTok 上线 Symphony Creative Studio 创意视频生成工具，一键生成 TikTok 广告 → Tiktok 推出此工具，是否意味着其支持平台展示更多 AI 生成的内容呢 ❓

| 机器人 |Hugging Face 开源 SmolVLA 机器人模型，消费级设备本地流畅运行

| 新闻 |Anthropic 中断合作，Windsurf 平台紧急调整 Claude 模型服务 → 对于 AI 应用公司，过度依赖某个闭源模型是一项重大风险因素 💥

6 月 4 日

| 应用 |Mistral Code智能编程客户端，支持私有化微调 → AI IDE 真的是兵家必争之地，而 Mistral 从模型层面找到了差异性 🎯

| 融资 |AMD 收购 AI 软件优化团队 Brium，并整合芯片公司 Untether AI 工程团队 → 希望 AMD 可以在推理方向打破英伟达的垄断 💪

6 月 5 日

| 模型 |阿里巴巴开放 WebDancer 自主多跳推理智能体，从零训练一个 DeepResearch 类智能体

|模型 |EleutherAI 开源 The Common Pile v0.1 语料库（8TB）&& Comma 模型

| 应用 |Anysphere（Cursor）1.0 版本重要更新，支持代码审查与多任务后台处理 → Cursor 终于 1.0 版本了！但其已不再处于最领先地位 👀

6 月 6 日

| 模型 |面壁智能 MiniCPM 4.0 端侧稀疏大模型，7 倍速长文本处理 → 至今还专注于小模型的公司已经不多了 🏆

| 模型 |阿里巴巴 开源 Qwen3 Embedding & Reranker 文本嵌入与排序模型 → Qwen 家族在开源领域的覆盖范围真的非常广泛 👑

| 模型 |小红书 开源 dots.llm1 文本大模型 → 非常彻底的开源，好评，对学术研究帮助很大 🎊

| 图像 |字节跳动 SeedEdit 3.0 通用图像编辑模型，准确遵循编辑指令 → 图像编辑领域，国产模型已经迎头赶上 👏

| 音频 |ElevenLabs Eleven v3 文本转语音模型，最具表现力的 TTS 模型

| 视频 |Higgsfield AI 上线 Higgsfield Speak 数字人视频生成工具，快速制作说话视频 → 效果一流，但最长只能生成 14 秒的视频 🎥

| 应用 |爱诗科技 AIsphere 发布国内版「拍我 AI」视频生成应用 → 先出海，再回国内，成为了 AI 应用公司的一个经典路线 🎠

| 应用 |智谱 AMiner 沉思学术搜索工具，5 分钟生成万字研究报告 → 算是学术论文这个垂直领域的 Deep-Research 🔍

6 月 7 日（无）

6 月 8 日（无）

6 月 9 日

| 模型 |智源研究院 开源悟界 Emu3 原生多模态世界模型，统一多模态的理解与生成 → 可以预见，国产的全模态模型很快就会爆发 🌋

| 模型 |智源研究院 开源悟界 OpenComplex 2 全原子微观生命模型

| 图像 |智源研究院 开源悟界 OmniGen2 统一图像生成模型 → gpt-4o 级别的图像生成，已经不再是秘密 🔑

| 模型 |智源研究院 开源悟界 Video-XL-2 轻量级长视频理解模型 → 模型参数只有 8B，很适合融入本地部署的工作流 👍

| 机器人 |智源研究院 开源悟界 RoboOS 2.0 && RoboBrain 2.0 新一代具身智能系统

| 应用 |智谱 CoCo 企业级智能助手，安全接入内部资源赋能业务

| 应用 |商汤小浣熊 上线 AI 数据分析助手与任务规划助手，交互式分解复杂任务 → 大模型公司做应用，有点降维打击的感觉 🤏

| 融资 |硅基流动 完成数亿元人民币 A 轮融资 → 很好奇，硅基流动拿了这么多钱会投入哪个领域，是模型还是应用呢 🤔

6 月 10 日

| 模型 |Mistral AI 发布 Magistral 多模态推理模型系列

| 图像 |KREA AI推出 Krea 1 图像生成模型，解决 AI 感并支持风格参考 → AI 应用公司开发自身模型，已成为众多应用公司在获得大额融资后，优先考虑的事项 💰

| 应用 |Apple WWDC2025 发布重磅更新，Apple Intelligence 进展缓慢 → Apple 设备即将成为最广泛应用的端侧 AI 模型设备 📱

| 应用 |美团 NoCode AI 页面生成工具，聊天式完成应用开发 → 美团居然也开发了一个 vibe coding 工具❗ 之后会成为美团商家版的功能之一吗 ❓

6 月 11 日

| 模型 |字节跳动 Seed1.6 多模态通用模型，推理能力达到全球第一梯队→ 国产模型中，参数最大的多模态推理模型，字节又一次领先 👏

| 模型 |OpenAI o3-pro 旗舰推理模型，深度思考，高可靠，低成本 → o3-pro 已经不像一个模型了，更像一个 Agent 👀

| 音频 |字节跳动 豆包·语音播客模型，秒级生成双人对话式播客 → 效果非常惊艳，期待尽快开放 API 💯

| 视频 |字节跳动 Seedance 1.0 pro 视频生成基础模型，支持多镜头叙事 → 实测下来，视频领域字节居然也领先了 ❗❗❗

| 应用 |Windsurf 推出 Planning Mode 规划模式，高效处理长周期任务→ AI IDE 已经进入了抄来抄去的阶段，不抄就落后 ⚔

| 应用 |Genspark AI 浏览器，内置超级 AI 与 700+ 工具扩展 → 印证了我上个月的观点：与其做一个网页版的 Agent，那为什么不进一步做个客户端呢 👀

| 应用 |The Browser Company 内测 Dia AI 浏览器，以 AI 为核心重塑浏览体验

6 月 12 日

| 模型 |阿里巴巴 夸克基于高考志愿大模型，精准推荐院校与专业

| 机器人 |Meta V-JEPA 2 自监督世界模型，实现零样本机器人控制 → 零样本机器人控制，是机器人发展的必经之路 🦿

| 应用 |字节跳动 PromptPilot 智能提示词优化平台 → 随着模型的发展，大家发现提示词越来越重要 💡

| 应用 |360 纳米 AI 超级搜索智能体，打破信息壁垒交付答案 → 360 在产品的嗅觉上，确实很灵敏 🧐

| 应用 |Windsurf 浏览器，与编辑器无缝集成的 AI 浏览器 → IDE 也集成浏览器了，意料之外，情理之中 👩‍💻

6 月 13 日

| 应用 |腾讯元宝高考志愿咨询功能上线，可生成专属志愿报告

| 应用 |小红书 站内上线问一问 AI 搜索功能 → 入口过于隐蔽，说明对效果还是不够自信，什么时候可以作为搜索的第一屏呢 ⏳

| 融资 |Scale AI 获得 Meta 重大投资，估值超过 290 亿美元，首席执行官 Alexandr Wang 离职 → Meta 正式开启 AI 战略的新篇章 🚩

6 月 14 日

| 应用 |百度地图 推出小度想想 司机智能体，导航进入全语音自由交互时代

| 3 D |腾讯开源混元 3D 2.1 生成模型，纹理光影升级，支持多材质工业级建模 → 不愧是游戏大厂，这个模型在腾讯内部应该是可以实打实产生效益的 🎮

6 月 15 日

| 视频 |百度罗永浩数字人直播首秀，GMV 超 5500 万的拟真互动突破 → 百度这个数字人的效果确实很出色，让人眼前一亮 👍

6 月 16 日

| 模型 |月之暗面 开源 Kimi-Dev-72B 代码模型，刷新开源代码生成榜单纪录 → 基于通用模型再训练的垂直模型，是一个大趋势 💡

| 音频 |腾讯开源 SongGeneration 音乐生成大模型，高音质、强音乐性、极速生成 → 可以生成带人声的歌曲，生成的歌曲有 Suno-v3.5 的那个味了，离 v4.5 还差一点 🎵

6 月 17 日

| 模型 |Minimax 开源 MiniMax-M1 混合架构推理模型，支持百万级长上下文 → 实测不如字节的 Seed-1.6，但胜在开源 👏

| 应用 |腾讯元宝 AI 编程模式，支持在线运行多种语言→ 支持 Python、C++、Java 等语言在线运行是一个很独特的地方，自己有云就是不一样 ☁

6 月 18 日

| 视频 |Minimax Hailuo 02 视频生成模型，兼具顶尖效果与成本效益 → Minimax 模型覆盖面也相当广，可用性也不错 🎥

| 应用 |Ling 灵宇宙 AI 学伴「小方机」，多模态交互式儿童学习终端 → 让人眼前一亮的硬件形态，我感觉很快会看到面向成年人的版本 👀

| 图像 |Higgsfield AI 开放 Higgsfield Canvas 图像编辑工具，实现像素级产品植入 → 基于自研的图像模型 Soul 做的一个小应用 🖼

| 融资 |Glean 完成 1.5 亿美元 F 轮融资，估值达到 72 亿美元 → 国内暂时还没有对标的公司，国内还都在卷 C 端产品，企业服务算是国内 AI 领域的蓝海 ⛵

| 融资 |Wix 以 8000 万美元现金收购 Base44 → 据说 Base44 只有 8 名员工，人均贡献 1000 万美金 💰

6 月 19 日

| 视频 |Midjourney V1视频生成模型，图像一键生成视频并支持动态调节 → MJ 终于出视频模型了，用户不用再把图片复制到其他平台来生成视频了，视频生成功能逐渐成为图片生成平台的标配 🎥

| 视频 |Niji Video 二次元视频生成模型，图像一键生成动漫风格视频

| 应用 |Minimax Agent通用智能体，具备专家级多步规划能力 → 又一个类 Manus 产品，评价褒贬不一 🤔

| 应用 |智象未来（HiDream）vivago 2.0 平台上线，打造全能型创作助手

| 融资 |宇树科技 完成 C 轮融资交割，投前估值超 100 亿元 → 作为机器人的头部企业，估值相对 AI 行业较为合理 🦿

| 新闻 |筑梦岛 因诱导未成年人产生不良内容被政府约谈

6 月 20 日

| 模型 |月之暗面 Kimi-Researcher 深度研究智能体，具备自主解决复杂问题能力 → 专门为了deep-research 训练的模型，最终效果确实不错 👏

| 应用 |Minimax 发布 Hailuo Video Agent 视频创作智能体，输入想法即可生成完整短片

| 应用 |Meta X Oakley 联合发布 Oakley Meta HSTN 智能运动眼镜，内置 Meta AI 助手 → AI 只是个幌子，本质上想抢占的其实是 GoPro（运动相机）的市场 👓

| 融资 |Thinking Machines Lab 完成 20 亿美元种子轮融资，估值达到 100 亿美元 → 种子轮的金额已经超越了 80% 的上市公司 💰💰💰

6 月 21 日（无）

6 月 22 日（无）

6 月 23 日

| 模型 |网易开源 Confucius3-Math 数学教育模型，能在消费级 GPU 高效运行 → 非常有特色的开源垂直模型，很适合教育领域👍 希望更多企业能够聚焦于开发专业领域的模型，而非通用模型

| 音频 |Minimax 上线 Voice Design 音色设计功能，通过自然语言描述定制音色 → text-to-voice，让世界上不再有相同的音色 🔊

| 应用 |百度文心快码 发布 Comate AI IDE，并且支持设计稿一键转代码

| 融资 |银河通用 完成新一轮 11 亿融资

| 融资 |Harvey 完成 3 亿美元 E 轮融资，估值达到 50 亿美元 → 可以预见，垂直领域还有非常多的机会 🎯

6 月 24 日

| 机器人 |Google 开放 Gemini Robotics On-Device 端侧 VLA 模型，支持微调，本地运行

| 音频 |ElevenLabs 内测 11.ai 语音助理，语音驱动的工作流引擎 → 语音模型公司开始往实时对话的方向发力，最终目标应该是实时对话的 Agent 🧐

| 融资 |Wispr Flow 完成 3000 万美元 A 轮融资 → 语音转文字，尽管听起来简单，但事实上想做好还是颇具挑战性的 🥇

6 月 25 日

| 音频 |ElevenLabs 发布 Voice Design v3 角色配音设计工具，通过文本提示生成任意 AI 声音

| 应用 |Google 推出 Gemini CLI 命令行工具，一款强大的 AI 智能体终端 → Claude Code 火了之后，Google 立刻推出了复刻版，AI Coding 的竞争真的是很激烈 ⚔

| 应用 |FellouWindows 版正式上线，Your First AI Browser on Windows → AI 浏览器，可能会成为继 AI IDE 之后的又一战场 ⚔

| 应用 |商汤推出咔皮记账 AI 财务助手，自动记账与消费复盘

6 月 26 日

| 模型 |Jina AI 开源 Embeddings V4 多模态向量模型，为高级搜索而生 → RAG 领域开始往多模态的方向发展 🚩

| 图像 |Black Forest Labs 开源 FLUX.1 Kontext [dev] 图像编辑模型，性能媲美专有模型 → 虽说是开源，但是有非常严格的商业限制，需要花钱购买商业许可 😐

| 视频 |HeyGen 上线 Video Agent 视频创作助手，一句话生成完整视频

| 应用 |蚂蚁集团 X 支付宝 联合推出 AQ 健康应用，内置名医 AI 分身 → 不知道支付宝如何解决 AI 的幻觉问题呢 🤔

| 图像 |Higgsfield AI 上线 Higgsfield Soul 高美学时尚大片生成工具 → 生成的图像与 Ins 上的图片极为相似，真假难辨👍 再次验证了 Higgsfield 在内容生成方面的敏锐洞察力👏

| 融资 |OpenRouter 完成 4000 万美元（种子轮+A 轮）融资 → 很好奇，他们未来的战略是应用开发还是模型研究呢 ❓

6 月 27 日

| 模型 |Google 开源 Gemma 3n 端侧多模态大模型，2B 内存占用实现卓越性能 → 第一个可以端侧运行的、支持视频分析的模型 📱

| 模型 |快手开源 Kwai Keye-VL 多模态模型，高考数学 140 分 → 作为 8B 的模型，这个表现很出色👍 看来快手不仅仅只有视频模型的研发能力 👀

| 模型 |Zilliz 开源 VDBBench 1.0 向量数据库测试基准，更贴近真实生产场景

| 模型 |腾讯开源混元 A13B 混合推理模型，256K 长文处理与强化 Agent 能力

| 图像 |阿里巴巴 Qwen VLo 多模态统一理解与生成模型，精准理解并支持开放指令编辑 → 短短三个月，全模态模型背后的奥秘已被揭示，目前表现上的差异主要源于训练数据 🧩

| 音频 |快手可灵 Kling-Foley 多模态视频音效生成模型，高同步性立体声生成 → 可以预见，下一个版本的可灵将会和 Veo3 一样，可以直出带声音的视频了 👏

| 应用 |小米 AI 眼镜，集相机、耳机与 AI 交互于一体的智能设备 → 主要功能还是摄像和耳机，AI 功能还远未成熟 👓

| 应用 |Google Labs Doppl AI 虚拟试衣应用，动态展示穿搭效果 → 原理应该就是虚拟穿衣+视频生成 🧐

| 应用 |Google Labs搜索结果支持音频概览（Audio Overviews），用听的方式获取信息 → 对于搜索这类快速响应的场景，语音信息的速度会不会有点太慢了呢 🤔

| 融资 |OpenAI 整合电商 AI 推荐初创公司 Crossing Minds 团队

| 融资 |Suno 收购 AI 数字音频工作站 WavTool → Suno 应该是想往专业音乐创作的方向去发力了，而不仅仅是一个玩具 🎵

6 月 28 日（无）

6 月 29 日（无）

6 月 30 日

| 模型 |百度开源文心 4.5 系列模型，包含 10 款 MoE 及稠密模型

| 模型 |华为开源盘古 7B && 72B MoE 模型，基于昇腾硬件深度优化 → （无论模型如何🍉）能够快速高效的适配华为的显卡，也算是一大特色 🚀

| 应用 |字节跳动 豆包上线「深入研究」功能，支持报告与网页两种呈现样式 → Deep-Research 已经成为各个 C 端产品标配 🔍

| 应用 |Anysphere（Cursor）推出网页与移动端智能体，随时随地处理编程任务 → Cursor 已经不再满足只是一个 IDE，正在往直接交付结果的 Agent产品发展 👏

| 时间线 |Meta 重金投资 Scale AI 并成立 Meta Superintelligence Labs （超级智能实验室）事件始末 → Meta的大手笔让整个AI行业有点「通货膨胀」💰💰💰

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

302.AI 赛博月刊丨Vol.6 围城：模型困局、垂类竞速与 Agent 逐鹿

发表回复

Claribel Tovias 2025 年 7 月 28 日下午7:29
naturally like your web-site but you need to check the spelling on quite a few of your posts. Several of them are rife with spelling issues and I to find it very bothersome to tell the truth however I¦ll definitely come again again.
回复
spunky game 2025 年 8 月 18 日下午12:30
Sprunki Incredibox brings a fresh twist to music mixing with its unique beats and visuals. It’s a must-try for fans of creative gameplay. Check out the fun in Subway Surfers Game too!
回复
Thanh Eroman 2025 年 11 月 3 日上午5:21
F*ckin’ tremendous things here. I am very happy to peer your article. Thank you a lot and i’m taking a look ahead to touch you. Will you kindly drop me a mail?
回复

302.AI 赛博月刊丨Vol.7 90天定律：从落后到突围，国产AI的崛起周期