AI 行业大事记

2025 年 8 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

①本文讨论了 2025 年8月 AI行业的大事，涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。

② 本文分类中的「模型」均指代语言模型；

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式；

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc（期待互动👏👏👏）

👀 8月AI趋势观察

1. 语言模型

✦ 8 月可谓语言模型的集中更新月：OpenAI 发布了 GPT-5 和开源的 GPT-OSS 系列，Claude 上线 Opus-4.1，DeepSeek 推出混合推理模型 V3.1；腾讯、字节、智谱、面壁智能等国内厂商也接连发布了各类开源模型。

✦ 然而，这些新模型的问世，并未给 AI 行业带来质的变化——它们更多只是让现有产品在体验上「好用了一点」。模型能力提升带来的边际价值，正持续递减。

✦ 在新的技术范式出现之前，如何有效降低推理成本，或将成为整个行业的重要趋势。尤其是在垂直领域，针对特定任务的小参数模型，其潜力依然远未被充分挖掘。

2. 图像

✦ Qwen-Image 刚问世不久，风头便被 Nano-Banana（Gemini-2.5-Flash-Image-Preview）抢走。后者在图像一致性上的进步，几乎真真切切地「杀死」了过去大部分的 ComfyUI 工作流。如果说 gpt-image-1 还只是个「玩具」，那么 Nano-Banana 已经具备了作为生产力工具的实力。

✦ 按这个节奏推测，国产模型大概率会在一个月内追平。届时，图片编辑领域将被 AI 完全接管——门槛降至极低，甚至可能免费普及。

✦ 我们或将迎来这样一个互联网：90% 的图片都由 AI 生成，摄影与设计的传统界限将被彻底重塑。

3. 视频

✦ 本月一个明显的趋势是，数字人模型更新与开源的速度明显加快，但基础视频模型变化不大。

✦ 可以预见，数字人技术的成熟也会催生出海量的 AI 商品讲解员与 AI 主播。但问题是——在屏幕另一端的我们，真的想看那么多数字人吗？

4. 音频

✦ 音频领域有点像几个月前的图像领域的状态 —— 缓步前进。AI 音频生成其实还是存在一些小瑕疵——情绪控制、音色一致性、多语种的自然度等。

✦ 正如 Nano-Banana 的出现带来的变革，音频领域的这些问题被完全解决后，可能会诞生一些我们现在没有想象到的应用。

5. 3D

✦ 3D 领域可以分为两个方向来看：单物体生成和世界生成。

✦ 单物体生成，持续在往更精细的工业化生产进步。

✦ 世界生成，又分化为了 2 个派别：一个本质是视频生成（例如 Genie3），一个本质是 3D 生成（例如 Hunyuan-World）。近几个月，这两个方向都有了不小的进展，但最终哪条道路能够胜出，仍难下定论。

6. 具身智能

✦ 人形机器人的进展依旧缓慢，其「大脑」——核心模型尚未成熟。

✦ 英伟达 Jetson Thor 开发套件揭示了它的本质：一台会走路的 AI 一体机。而以现有的硬件参数来看，当前的 AI 算力仍不足以支撑一台人形机器人的全部需求。

7. Agent

✦ 通用 Agent 正在向多 Agent 协作的方向演进。通俗来说，就是让不同垂直的 Agent 以串行和并行的方式，共同解决同一个问题。

✦ 前两个月还颇为火热的 AI 浏览器赛道，本月却明显降温。值得注意的是，Claude 选择推出的是浏览器插件，而非完整浏览器。作为头部模型厂商，这一取舍是否会对其他厂商的战略方向产生直接影响，值得观察。

8. Coding

✦ AI Coding 领域本月呈现出三个值得关注的趋势：

✦ Coding Agent 云端化——如 OpenAI Codex，以及本月推出的 Open SWE。

✦ Coding Agent 终端化——如 Claude Code，以及本月上线的 Cursor CLI。

✦ Agent 交互模式进化——如 JetBrains 推出的跨行自动补全功能和 Claude Code 的解释性编程教学。

9. 应用

✦ 应用方向，国内和海外的公司展示出了完全不同的两种风格：

✦ 国内公司，纷纷为自家产品加上 AI 功能，比如飞书、钉钉、企微，同时悄然收紧了数据权限。

✦ 海外公司，则更注重「集成」，如 Perplexity、Harvey、Cursor 等，对数据共享的态度似乎更加开放。

✦ 商业上，国内巨头这样做无可厚非；可对用户来说，这或许是在悄悄夺走他们的选择权。

10. 新闻/融资

✦ 本月最振奋人心的消息，来自国务院——以十年为周期，为中国 AI 产业的短期、中期和长期发展划定了清晰路线。无数「黄金」正埋藏其中，等待着从业者去探寻与挖掘。

✦ 相比之下，海外市场显得平淡许多。除了 Meta 仍在持续「买买买」外，几乎没有出现新的大额收购。

🧭 8月AI行业时光机

8 月 1 日

| Agent | Genspark 上线 Multi-Agent Orchestration 多智能体编排，实现跨应用协同 → 多 Agent 协作不再是串行，而是可以并行了

| Agent | 360 发布纳米 AI 多智能体蜂群系统，L4 级智能体协同平台

| 应用 | Adobe Photoshop 更新多项 AI 功能，实现更智能高效的创意编辑 → 在图片编辑模型越来越强大的时代，PS 必须从专业使用的角度，来做出一些差异性了

| 新闻 | fal 完成 1.25 亿美元 C 轮融资

8 月 2 日（无）

8 月 3 日（无）

8 月 4 日

| 语言模型 | 腾讯 Hunyuan 小尺寸融合推理模型，0.5/1.8/4/7B 多版本，消费级显卡可以运行（开源）→ 腾讯在大模型领域不算亮眼，去做端侧小模型也算是错位竞争 📌

| 音频 | 小米 MiDashengLM-7B 声音理解大模型，统一理解语音、环境声与音乐（开源）→ 小米这个模型，和传统的 STT 模型风格完全不同，可以说是为明确场景「定制的」

| Agent | 金山办公 推出 WPS 灵犀，原生 Office 办公智能体，用对话重塑生产力 → 支持 Word 和 PPT，期待尽快支持 Excel

| 应用 | 阿里巴巴 发布高德地图 2025，全球首个基于地图的 AI Native 应用 → 体验下来，对话助手并不是地图应用 AI 的最佳实践，并没有比目的地搜索框体验好 ❌

| 应用 | Character.AI Feed，全球首个 AI Native 社交信息流，丰富 AI 娱乐的互动性和创造性 → 把 AI 陪伴的形式，从对话扩展到了信息流，会更有沉浸感

| 应用 | Perplexity X OpenTable 联合推出餐厅智能搜索与一键预订，使用自然语言塑造流畅体验 → 有意思的是，海外是 AI 公司和传统应用公司合作，国内是传统应用公司直接在内部加 AI 能力

8 月 5 日

| 图像 | 阿里巴巴 Qwen-Image 图像生成模型 && Qwen-Image-Edit 图像编辑模型，文本渲染与编辑能力卓越（开源）→ 真正的 gpt-image-1 国产替代品，甚至在中文渲染能力上大大超越

| 图像 | Leonardo 推出 Lucid Origin 图像生成模型，具备高清画质与鲜活色彩 → 生成的图片摄影感很强，在众多生图模型里显得挺特别的

| 音频 | Eleven Labs 发布 Eleven Music 音乐生成模型，支持多语言人声与精细化编辑 → Suno 的有力竞争者来了，AI 音乐生成的 API 不再那么难获得了

| 世界模型 | Google Genie 3 通用世界模型，实时生成高一致性的动态交互环境 → 撕开了一道可以窥见未来虚拟世界的缝隙，令人印象深刻 💥

| Coding | 智谱 Zread 一站式代码理解与技术文档生成工具，基于 GLM-4.5 模型构建 → 智谱版的 deepwiki。近期有种感觉，智谱越来越重视应用开发了

| 应用 | Google X Kaggle 联合推出 Game Arena 大模型策略竞技场，用游戏对决评测智能体推理与适应能力 → 挺新颖的测评方式，确实会比大众问答盲测更能看出模型的推理能力

| 应用 | 腾讯混元 AI 播客，一键生成流畅自然的双人对话播客

| 新闻 | 华为全面开源 CANN，挑战英伟达 CUDA 主导地位 → 希望可以尽快看到，越来越多的国产模型使用我们自己的显卡来进行训练和推理 💪

| 新闻 |- EU AI Act 正式生效，成全球首部全面性 AI 法律 → 全世界开始对 AI 立法，这会对 AI 企业有更高的标准

8 月 6 日

| 语言模型 | Anthropic 升级 Claude Opus 4.1 基础模型，增强推理与编程能力 → Claude 为了狙击 GPT-5，放出了 Opus 4.1，其实功能没有什么更新，就是一些小的进步

| 语言模型 | OpenAI 重返开源模型生态，发布 gpt-oss-120b && gpt-oss-20b 两款模型（开源）→ 受到 DeepSeek 的影响，OpenAI 终于 Open 了一次。有意思的是，他们只提供了 MXFP4 量化版本 👀

| 语言模型 | 面壁智能 MiniCPM-V 4.0 端侧多模态模型，在手机上稳定流畅运行（开源）

| Agent |- Cohere North 企业级智能体平台，私有化部署 + 多源集成 + 流程自动化 → 越来越多的非头部模型企业，不再是只提供模型，而是开始关注更落地的事情了

| Coding |- LangChain 开源 Open SWE 异步云端编程智能体，适合复杂长程的开发任务（开源）→ 异步、云托管的 Agent，可能会是 Agent 的新趋势 📈

| 应用 | Google Gemini Storybook 故事书，一键生成个性化有声童话，自定义插画与风格 → Google 对于 AI 应用的开发能力和产品敏锐度，确实是世界一流的

| 新闻 | NVIDIA 回应称，芯片不存在后门、终止开关和监控软件

8 月 7 日

| 音频 | MiniMax Speech 2.5 语音生成模型，增强多语种表现力与音色复刻能力 → Minimax 的多模态生成模型，相较于其语言模型，更有竞争力

| Coding | Anysphere 推出 Cursor CLI 编程智能体命令行工具，满足不同 IDE 用户需求 → Cursor CLI 相比 Claude Code，可以使用非 Claude 的模型，也算是一种差异化竞争

| 应用 | Google Gemini 上线一系列学习功能，提供视觉化与互动式的 AI 学习体验

| 应用 | 上海人工智能实验室 开源 MinerU2 高精度文档解析引擎（开源）&& MinerU.Chem 化学信息提取工具 → 文档解析是 RAG 的刚需，而 MinerU 作为开源方案，真真切切帮助了不少企业 👊

8 月 8 日

| 语言模型 | OpenAI GPT-5 新一代统一模型，实现智能跃升与效率突破 → 预告了很久的 GPT-5 终于来了，但似乎不像一个大的升级，而更像多个模型的集成

| 音频 | Google Magenta RealTime 实时音乐生成模型，支持音频注入与风格控制（开源）→ 音乐生成居然已经被 Google 卷到了实时生成 🎵

| 世界模型 | NVIDIA Cosmos世界基础模型开发平台，适用于物理 AI（开源）→ 这就是自动驾驶行业最近很火热的 VLA 模型

| 新闻 | 2025 世界机器人大会（2025WRC）

| 新闻 | Meta 收购 AI 音频初创公司 WaveForms → Meta 又采购了，这次还是音频领域，下一次是不是视频了 📺

8 月 9 日（无）

8 月 10 日（无）

8 月 11 日

| 语言模型 | 智谱 GLM-4.5V-106B 视觉推理模型，全场景视觉能力卓越（开源）→ 多模态能力属于全球第一梯队，期待 GLM-5 可以是一个真正的全模态模型 😎

| 语言模型 | 百川 Baichuan-M2 医疗增强大模型，单卡即可私有化部署（开源）→ 小参数的模型在垂直领域打败大模型的案例会越来越多

| 视频 | 昆仑万维 SkyReels-A3 音频驱动数字人生成模型，让数字人说话 60s（开源）→ 越来越多的公司推出数字人模型了，数字人领域也不再有门槛

| 应用 | Harvey 深度融合 iManage 知识库，实现安全高效的 AI 法律内容交互 → 海外应用对于互相集成的态度还是比较开放的 🤝

8 月 12 日

| 语言模型 | 腾讯混元 Large-Vision 多模态理解模型，多语言能力出众

| 3 D | 昆仑万维 Matrix-3D 世界模型，生成自由探索、全景覆盖的 3D 场景（开源）→ 3D 世界模型开始越来越多，本质还是基于 AI 3D 生成模型

| 世界模型 | 昆仑万维 Matrix-Game 2.0 交互式世界模型，实时生成长序列视频（开源）→ 相比 Google Genie 3，缺乏最重要的一个特性：对场景的记忆 🧠

| Agent | Genspark 推出 AI Meeting Notes，全球首款支持 Apple Watch 的一键 AI 会议纪要应用 → Genspark 的开发能力令人佩服，已经发展为了一个大而全的 Agent 产品 ⛓

| 应用 | Anthropic Claude 上线记忆功能，打造更智能的个性化 AI 助手 → Claude 终于也有了自己的记忆功能，期待看到他们关于记忆的技术分享

8 月 13 日

| 语言模型 | Anthropic 升级 Claude Sonnet 4 API，支持 1M Token 超长上下文 → OpenAI、Claude 和 Gemini 主流模型上下文都来到了 1M，国产厂商们抓紧跟进了 💪

| 视频 | Higgsfield AI升级 Draw-to-Video 视频生成功能，无需文本提示 → 大胆猜测一下，原理应该是使用多模态模型分析画面，来生成对应的 I2V 视频提示词，而非直接对视频进行编辑

8 月 14 日

| 视频 | 腾讯 Hunyuan-GameCraft 游戏视频生成工具，实时打造动态游戏场景 → 所以对于玩家来说，未来的游戏不再是预设好的场景，而是不同的平行宇宙

| 应用 | 腾讯元宝全面接入腾讯生态应用，实现能力调用、数据互通与内容融合 → 元宝在整合腾讯生态的数据和产品

| 应用 | Google Gemini 更新 个性化上下文 与 临时聊天 功能，增强个性化聊天体验 → 个性化上下文本质就是记忆，跨会话的记忆已经成为了 Chatbot 的标配 🔑

| 新闻 | 2025世界人形机器人运动会

| 新闻 | 美国政府收购英特尔 10% 股份，强化本土芯片制造控制权

| 新闻 | Cohere 完成 5 亿美元融资 → Cohere 很明显不再只讲大模型的故事了，而他们的新故事也受到了资本市场的认可

8 月 15 日

| Agent | 阿里巴巴 WebWatcher 多模态 Deep Research Agent（开源）

| Coding | Anthropic 更新 Claude Code 和 Claude 学习模式，促进深度理解与技能培养 → Vibe Coding 确实需要更好的人机协作的模式

| 应用 | Whispers from the Star 正式上线 Steam，首款国产 AI 驱动的对话式生存游戏

8 月 16 日（无）

8 月 17 日（无）

8 月 18 日

| 语言模型 | NVIDIA 开源 Nemotron Nano 2 端侧模型，兼具高精度与高效率（开源）→ 明显感觉到，近期各个公司小模型的发布频率，比大模型高多了

| 3 D | Meshy 5 新一代模型，全方位增强 3D 内容生成与编辑能力 → 这个月 3D 生成模型不约而同的迎来了小升级

| Agent | 百度文库 X 百度网盘 联合发布 GenFlow 2.0 全球首个全端通用智能体，百个专家 Agent 协同生成多模态内容

| 应用 | Microsoft Excel 新增 COPILOT 函数，将大模型能力引入电子表格 → 把 AI 作为一个函数公式放到 Excel 里，真是一个既优雅又实用的方案 💎

8 月 19 日

| Coding | JetBrains 为 AI Assistant 引入 Next Edit Suggestions，提供全局性的智能修改建议 → 跨行的自动补全，这种操作更贴近程序员真实的使用习惯

| 应用 | 字节跳动 飞书多维表格独立版上线，支持跨平台集成 → 飞书表格本质其实不是表格，而是个数据库可视化+自动化工具

8 月 20 日

| 3 D | TRIPO 3.0 新一代模型，几何精度与纹理质量全面升级 → AI 3D 生成又向工业化落地迈进了一步 👣

| Agent | 智谱 AutoGLM 2.0 手机智能体，全球首个可在云端自主运行的通用 Agent → 操作云电脑的 Agent 听多了，操作云手机的 Agent 是第一次见

| Agent | Macaron 全球首个生活伙伴型智能体，贴心生成专属应用 → AI 陪伴 + Vibe Coding，一种出乎意料的搭配

| 应用 | 腾讯企业微信 5.0，全面融入 AI 能力的办公平台 → 所有的企业级 IM 都在增加 AI 功能，可是要把效果做好，才能真的让用户用起来

8 月 21 日

| 语言模型 | DeepSeekV3.1 语言模型，Agent 能力与思考效率提升（开源）→ DeepSeek 在 V3.1 将思考模型和非思考融合了，所以应该不会有 R2 了，而是 V4 🧐

| 语言模型 | 字节跳动 Seed-OSS-36B 语言模型，原生支持 512K 长上下文（开源）→ 在这个小模型都玩 MoE 的年代，字节这个模型更像是一次技术展示

| Coding | Cursor X Linear 实现自动任务处理，智能编程助手与项目管理无缝协同

| 应用 | Runway 开放 Game Worlds 交互式叙事体验平台，实时生成个性化剧情 → 十年后是不是就不存在电视剧了，每个人都是导演 🎥

| 硬件 | Made  by  Google 2025 发布 Pixel 10 系列 AI 旗舰手机 && Pixel Watch 4 智能手表 && Gemini for Home 智能家居助手 → Gemini is watching you

| 新闻 | 国务院关于深入实施“人工智能+”行动的意见 → 一份可能会改变未来 10 年的文件，让所有 AI 从业者为之振奋

8 月 22 日

| 世界模型 | Dynamics Lab 开放 Mirage 2 实时生成式世界引擎，上传图片即可步入其中 → Mirage 2 比 Genie 3 更早实现了可玩性，生成式世界模型在这个月也开始井喷

| Agent | 深势科技 X 上海交通大学 X 上海算法创新院 推出 SciMaster 全球首个通用科研智能体，基于 X-Master 开源框架打造

| Coding | 阿里巴巴 Qoder 智能体编程平台，支持 10 万文件检索

| 新闻 | Meta X Midjourney 建立技术合作伙伴关系 → 令人意外的是，Meta 并没有买下 Midjourney

8 月 23 日（无）

8 月 24 日

| 语言模型 | xAI 开源 Grok 2（Grok 2.5）基础模型，预告 Grok 3 即将开源 → 马斯克的大模型开源进展，跟火星移民计划的一样慢悠悠的

8 月 25 日

| 世界模型 | 群核科技发布 SpatiallM 1.5 空间语言模型 && SpatialGen 多视角图像生成模型

| 具身智能 | NVIDIA Jetson Thor 开发套件，为通用机器人解锁实时推理 → 看参数非常适合跑语言模型，期待这个开发套件未来可以变成可以购买的商品

| 应用 | 阿里巴巴 发布AI 钉钉 1.0，宣告全面迈入 AI 原生时代，重构办公产品的形态

8 月 26 日

| 语言模型 | 面壁智能 MiniCPM-V 4.5 端侧多模态模型，实现「高刷」视频理解突破（开源）→ 挺适合本地部署一个用来做视频理解任务，然后自动剪辑视频

| 语言模型 | Character.AI 上线 PipSqueak 角色模型，显著提升用户参与度与留存率

| 语言模型 | Ai2 全面开源 Asta 智能体研究助手系统，加速科学发现（开源）

| 图像 | Google Gemini 2.5 Flash Image 图像编辑模型，增强角色一致性与创意构图能力（nano banana 🍌）→ 这个模型在一致性上又有了新的突破，AI 图片编辑不再是玩具，而是工具了 🎨

| 视频 | HeyGen Avatar IV 数字人模型，精准复刻真人神态与动作 → 作为最早做数字人的公司，现在的领先幅度已经越来越小 💢

| 视频 | sync 发布 lipsync-2-pro 唇形同步模型，支持 4K 高分辨率

| 视频 | 阿里巴巴 Wan2.2-S2V 多模态视频生成模型，音频驱动生成电影级数字人 → 通义每次开源，基本代表这个领域的门槛被真正打下来了

| 硬件 | 阿里巴巴 DingTalk AI，钉钉首款智能硬件，支持实时转写与智能总结 → 又一个 Plaud 的竞争对手，这次是来自阿里

8 月 27 日

| 视频 | 爱诗科技 AIsphere发布 PixVerse V5 视频生成模型，更稳，更真，更灵动

| Agent | Anthropic 内测Claude 浏览器插件，直接在浏览器中执行操作的智能体 → Claude 这个浏览器插件，会不会直接干掉了那些 AI 浏览器呢 ⚡

| 硬件 | Plaud Note Pro 智能笔记设备再升级，智能双模录音与要点标记按钮成亮点 → AI 录音笔的原版终于迎来更新，但整体看来，它并未展现出仿制品更为独特的优势

8 月 28 日

| 语言模型 | Microsoft 推出 MAI-Voice-1 语音生成模型 && MAI-1-preview 基础模型，微软 AI 的独立宣言

| 视频 | 腾讯 Hunyuan-Foley 视频音效生成模型，为无声视频精准配音（开源）→ 无法生成人声，离 Veo3 音效能力还是有很大差距

| Coding | OpenAI Codex 智能编程助手，实现跨平台无缝协作 → Claude Code 太成功了，OpenAI 也按耐不住出手了

| 新闻 | TIME 100 AI 2025，评选全球人工智能领域最具影响力的百大人物

8 月 29 日

| 语言模型 | xAI 推出 Grok Code Fast 1 编程推理模型，专为智能体编程优化 → Grok 也迫不及待的加入了 AI Coding 的战场

| 应用 | Microsoft Copilot 上线深度研究功能，自动化研究并生成结构化报告

8 月 30 日（无）

8 月 31 日

| 应用 | Perplexity 上线 Study Mode（学习模式），个性化引导式学习与进度测验 → 几个大厂都推出了「学习模式」，这也算是 AI 应用的一个新趋势

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

302.AI 赛博月刊丨Vol.9 GPT-5，输给了香蕉