
AI 行业大事记
2025 年 8 月
联合出品:
Jomy @ 302.AI
南乔 @ ShowMeAI
大聪明 @ 赛博禅心
说明:
①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。
② 本文分类中的「模型」均指代语言模型;
③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式;
④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc(期待互动👏👏👏)
👀 8月AI趋势观察
1. 语言模型
✦ 8 月可谓语言模型的集中更新月:OpenAI 发布了 GPT-5 和开源的 GPT-OSS 系列,Claude 上线 Opus-4.1,DeepSeek 推出混合推理模型 V3.1;腾讯、字节、智谱、面壁智能等国内厂商也接连发布了各类开源模型。
✦ 然而,这些新模型的问世,并未给 AI 行业带来质的变化——它们更多只是让现有产品在体验上「好用了一点」。模型能力提升带来的边际价值,正持续递减。
✦ 在新的技术范式出现之前,如何有效降低推理成本,或将成为整个行业的重要趋势。尤其是在垂直领域,针对特定任务的小参数模型,其潜力依然远未被充分挖掘。
2. 图像
✦ Qwen-Image 刚问世不久,风头便被 Nano-Banana(Gemini-2.5-Flash-Image-Preview)抢走。后者在图像一致性上的进步,几乎真真切切地「杀死」了过去大部分的 ComfyUI 工作流。如果说 gpt-image-1 还只是个「玩具」,那么 Nano-Banana 已经具备了作为生产力工具的实力。
✦ 按这个节奏推测,国产模型大概率会在一个月内追平。届时,图片编辑领域将被 AI 完全接管——门槛降至极低,甚至可能免费普及。
✦ 我们或将迎来这样一个互联网:90% 的图片都由 AI 生成,摄影与设计的传统界限将被彻底重塑。
3. 视频
✦ 本月一个明显的趋势是,数字人模型更新与开源的速度明显加快,但基础视频模型变化不大。
✦ 可以预见,数字人技术的成熟也会催生出海量的 AI 商品讲解员与 AI 主播。但问题是——在屏幕另一端的我们,真的想看那么多数字人吗?
4. 音频
✦ 音频领域有点像几个月前的图像领域的状态 —— 缓步前进。AI 音频生成其实还是存在一些小瑕疵——情绪控制、音色一致性、多语种的自然度等。
✦ 正如 Nano-Banana 的出现带来的变革,音频领域的这些问题被完全解决后,可能会诞生一些我们现在没有想象到的应用。
5. 3D
✦ 3D 领域可以分为两个方向来看:单物体生成和世界生成。
✦ 单物体生成,持续在往更精细的工业化生产进步。
✦ 世界生成,又分化为了 2 个派别:一个本质是视频生成(例如 Genie3),一个本质是 3D 生成(例如 Hunyuan-World)。近几个月,这两个方向都有了不小的进展,但最终哪条道路能够胜出,仍难下定论。
6. 具身智能
✦ 人形机器人的进展依旧缓慢,其「大脑」——核心模型尚未成熟。
✦ 英伟达 Jetson Thor 开发套件揭示了它的本质:一台会走路的 AI 一体机。而以现有的硬件参数来看,当前的 AI 算力仍不足以支撑一台人形机器人的全部需求。
7. Agent
✦ 通用 Agent 正在向多 Agent 协作的方向演进。通俗来说,就是让不同垂直的 Agent 以串行和并行的方式,共同解决同一个问题。
✦ 前两个月还颇为火热的 AI 浏览器赛道,本月却明显降温。值得注意的是,Claude 选择推出的是浏览器插件,而非完整浏览器。作为头部模型厂商,这一取舍是否会对其他厂商的战略方向产生直接影响,值得观察。
8. Coding
✦ AI Coding 领域本月呈现出三个值得关注的趋势:
✦ Coding Agent 云端化——如 OpenAI Codex,以及本月推出的 Open SWE。
✦ Coding Agent 终端化——如 Claude Code,以及本月上线的 Cursor CLI。
✦ Agent 交互模式进化——如 JetBrains 推出的跨行自动补全功能和 Claude Code 的解释性编程教学。
9. 应用
✦ 应用方向,国内和海外的公司展示出了完全不同的两种风格:
✦ 国内公司,纷纷为自家产品加上 AI 功能,比如飞书、钉钉、企微,同时悄然收紧了数据权限。
✦ 海外公司,则更注重「集成」,如 Perplexity、Harvey、Cursor 等,对数据共享的态度似乎更加开放。
✦ 商业上,国内巨头这样做无可厚非;可对用户来说,这或许是在悄悄夺走他们的选择权。
10. 新闻/融资
✦ 本月最振奋人心的消息,来自国务院——以十年为周期,为中国 AI 产业的短期、中期和长期发展划定了清晰路线。无数「黄金」正埋藏其中,等待着从业者去探寻与挖掘。
✦ 相比之下,海外市场显得平淡许多。除了 Meta 仍在持续「买买买」外,几乎没有出现新的大额收购。
🧭 8月AI行业时光机
8 月 1 日
| Agent | Genspark 上线 Multi-Agent Orchestration 多智能体编排,实现跨应用协同 → 多 Agent 协作不再是串行,而是可以并行了
| Agent | 360 发布纳米 AI 多智能体蜂群系统,L4 级智能体协同平台
| 应用 | Adobe Photoshop 更新多项 AI 功能,实现更智能高效的创意编辑 → 在图片编辑模型越来越强大的时代,PS 必须从专业使用的角度,来做出一些差异性了
| 新闻 | fal 完成 1.25 亿美元 C 轮融资
8 月 2 日(无)
8 月 3 日(无)
8 月 4 日
| 语言模型 | 腾讯 Hunyuan 小尺寸融合推理模型,0.5/1.8/4/7B 多版本,消费级显卡可以运行(开源)→ 腾讯在大模型领域不算亮眼,去做端侧小模型也算是错位竞争 📌
| 音频 | 小米 MiDashengLM-7B 声音理解大模型,统一理解语音、环境声与音乐(开源)→ 小米这个模型,和传统的 STT 模型风格完全不同,可以说是为明确场景「定制的」
| Agent | 金山办公 推出 WPS 灵犀,原生 Office 办公智能体,用对话重塑生产力 → 支持 Word 和 PPT,期待尽快支持 Excel
| 应用 | 阿里巴巴 发布高德地图 2025,全球首个基于地图的 AI Native 应用 → 体验下来,对话助手并不是地图应用 AI 的最佳实践,并没有比目的地搜索框体验好 ❌
| 应用 | Character.AI Feed,全球首个 AI Native 社交信息流,丰富 AI 娱乐的互动性和创造性 → 把 AI 陪伴的形式,从对话扩展到了信息流,会更有沉浸感
| 应用 | Perplexity X OpenTable 联合推出餐厅智能搜索与一键预订,使用自然语言塑造流畅体验 → 有意思的是,海外是 AI 公司和传统应用公司合作,国内是传统应用公司直接在内部加 AI 能力
8 月 5 日
| 图像 | 阿里巴巴 Qwen-Image 图像生成模型 && Qwen-Image-Edit 图像编辑模型,文本渲染与编辑能力卓越(开源)→ 真正的 gpt-image-1 国产替代品,甚至在中文渲染能力上大大超越
| 图像 | Leonardo 推出 Lucid Origin 图像生成模型,具备高清画质与鲜活色彩 → 生成的图片摄影感很强,在众多生图模型里显得挺特别的
| 音频 | Eleven Labs 发布 Eleven Music 音乐生成模型,支持多语言人声与精细化编辑 → Suno 的有力竞争者来了,AI 音乐生成的 API 不再那么难获得了
| 世界模型 | Google Genie 3 通用世界模型,实时生成高一致性的动态交互环境 → 撕开了一道可以窥见未来虚拟世界的缝隙,令人印象深刻 💥
| Coding | 智谱 Zread 一站式代码理解与技术文档生成工具,基于 GLM-4.5 模型构建 → 智谱版的 deepwiki。近期有种感觉,智谱越来越重视应用开发了
| 应用 | Google X Kaggle 联合推出 Game Arena 大模型策略竞技场,用游戏对决评测智能体推理与适应能力 → 挺新颖的测评方式,确实会比大众问答盲测更能看出模型的推理能力
| 应用 | 腾讯混元 AI 播客,一键生成流畅自然的双人对话播客
| 新闻 | 华为全面开源 CANN,挑战英伟达 CUDA 主导地位 → 希望可以尽快看到,越来越多的国产模型使用我们自己的显卡来进行训练和推理 💪
| 新闻 |- EU AI Act 正式生效,成全球首部全面性 AI 法律 → 全世界开始对 AI 立法,这会对 AI 企业有更高的标准
8 月 6 日
| 语言模型 | Anthropic 升级 Claude Opus 4.1 基础模型,增强推理与编程能力 → Claude 为了狙击 GPT-5,放出了 Opus 4.1,其实功能没有什么更新,就是一些小的进步
| 语言模型 | OpenAI 重返开源模型生态,发布 gpt-oss-120b && gpt-oss-20b 两款模型(开源)→ 受到 DeepSeek 的影响,OpenAI 终于 Open 了一次。有意思的是,他们只提供了 MXFP4 量化版本 👀
| 语言模型 | 面壁智能 MiniCPM-V 4.0 端侧多模态模型,在手机上稳定流畅运行(开源)
| Agent |- Cohere North 企业级智能体平台,私有化部署 + 多源集成 + 流程自动化 → 越来越多的非头部模型企业,不再是只提供模型,而是开始关注更落地的事情了
| Coding |- LangChain 开源 Open SWE 异步云端编程智能体,适合复杂长程的开发任务(开源)→ 异步、云托管的 Agent,可能会是 Agent 的新趋势 📈
| 应用 | Google Gemini Storybook 故事书,一键生成个性化有声童话,自定义插画与风格 → Google 对于 AI 应用的开发能力和产品敏锐度,确实是世界一流的
| 新闻 | NVIDIA 回应称,芯片不存在后门、终止开关和监控软件
8 月 7 日
| 音频 | MiniMax Speech 2.5 语音生成模型,增强多语种表现力与音色复刻能力 → Minimax 的多模态生成模型,相较于其语言模型,更有竞争力
| Coding | Anysphere 推出 Cursor CLI 编程智能体命令行工具,满足不同 IDE 用户需求 → Cursor CLI 相比 Claude Code,可以使用非 Claude 的模型,也算是一种差异化竞争
| 应用 | Google Gemini 上线一系列学习功能,提供视觉化与互动式的 AI 学习体验
| 应用 | 上海人工智能实验室 开源 MinerU2 高精度文档解析引擎(开源)&& MinerU.Chem 化学信息提取工具 → 文档解析是 RAG 的刚需,而 MinerU 作为开源方案,真真切切帮助了不少企业 👊
8 月 8 日
| 语言模型 | OpenAI GPT-5 新一代统一模型,实现智能跃升与效率突破 → 预告了很久的 GPT-5 终于来了,但似乎不像一个大的升级,而更像多个模型的集成
| 音频 | Google Magenta RealTime 实时音乐生成模型,支持音频注入与风格控制(开源)→ 音乐生成居然已经被 Google 卷到了实时生成 🎵
| 世界模型 | NVIDIA Cosmos世界基础模型开发平台,适用于物理 AI(开源)→ 这就是自动驾驶行业最近很火热的 VLA 模型
| 新闻 | 2025 世界机器人大会(2025WRC)
| 新闻 | Meta 收购 AI 音频初创公司 WaveForms → Meta 又采购了,这次还是音频领域,下一次是不是视频了 📺
8 月 9 日(无)
8 月 10 日(无)
8 月 11 日
| 语言模型 | 智谱 GLM-4.5V-106B 视觉推理模型,全场景视觉能力卓越(开源)→ 多模态能力属于全球第一梯队,期待 GLM-5 可以是一个真正的全模态模型 😎
| 语言模型 | 百川 Baichuan-M2 医疗增强大模型,单卡即可私有化部署(开源)→ 小参数的模型在垂直领域打败大模型的案例会越来越多
| 视频 | 昆仑万维 SkyReels-A3 音频驱动数字人生成模型,让数字人说话 60s(开源)→ 越来越多的公司推出数字人模型了,数字人领域也不再有门槛
| 应用 | Harvey 深度融合 iManage 知识库,实现安全高效的 AI 法律内容交互 → 海外应用对于互相集成的态度还是比较开放的 🤝
8 月 12 日
| 语言模型 | 腾讯混元 Large-Vision 多模态理解模型,多语言能力出众
| 3 D | 昆仑万维 Matrix-3D 世界模型,生成自由探索、全景覆盖的 3D 场景(开源)→ 3D 世界模型开始越来越多,本质还是基于 AI 3D 生成模型
| 世界模型 | 昆仑万维 Matrix-Game 2.0 交互式世界模型,实时生成长序列视频(开源)→ 相比 Google Genie 3,缺乏最重要的一个特性:对场景的记忆 🧠
| Agent | Genspark 推出 AI Meeting Notes,全球首款支持 Apple Watch 的一键 AI 会议纪要应用 → Genspark 的开发能力令人佩服,已经发展为了一个大而全的 Agent 产品 ⛓
| 应用 | Anthropic Claude 上线记忆功能,打造更智能的个性化 AI 助手 → Claude 终于也有了自己的记忆功能,期待看到他们关于记忆的技术分享
8 月 13 日
| 语言模型 | Anthropic 升级 Claude Sonnet 4 API,支持 1M Token 超长上下文 → OpenAI、Claude 和 Gemini 主流模型上下文都来到了 1M,国产厂商们抓紧跟进了 💪
| 视频 | Higgsfield AI升级 Draw-to-Video 视频生成功能,无需文本提示 → 大胆猜测一下,原理应该是使用多模态模型分析画面,来生成对应的 I2V 视频提示词,而非直接对视频进行编辑
8 月 14 日
| 视频 | 腾讯 Hunyuan-GameCraft 游戏视频生成工具,实时打造动态游戏场景 → 所以对于玩家来说,未来的游戏不再是预设好的场景,而是不同的平行宇宙
| 应用 | 腾讯元宝 全面接入腾讯生态应用,实现能力调用、数据互通与内容融合 → 元宝在整合腾讯生态的数据和产品
| 应用 | Google Gemini 更新 个性化上下文 与 临时聊天 功能,增强个性化聊天体验 → 个性化上下文本质就是记忆,跨会话的记忆已经成为了 Chatbot 的标配 🔑
| 新闻 | 2025世界人形机器人运动会
| 新闻 | 美国政府收购英特尔 10% 股份,强化本土芯片制造控制权
| 新闻 | Cohere 完成 5 亿美元融资 → Cohere 很明显不再只讲大模型的故事了,而他们的新故事也受到了资本市场的认可
8 月 15 日
| Agent | 阿里巴巴 WebWatcher 多模态 Deep Research Agent(开源)
| Coding | Anthropic 更新 Claude Code 和 Claude 学习模式,促进深度理解与技能培养 → Vibe Coding 确实需要更好的人机协作的模式
| 应用 | Whispers from the Star 正式上线 Steam,首款国产 AI 驱动的对话式生存游戏
8 月 16 日(无)
8 月 17 日(无)
8 月 18 日
| 语言模型 | NVIDIA 开源 Nemotron Nano 2 端侧模型,兼具高精度与高效率(开源)→ 明显感觉到,近期各个公司小模型的发布频率,比大模型高多了
| 3 D | Meshy 5 新一代模型,全方位增强 3D 内容生成与编辑能力 → 这个月 3D 生成模型不约而同的迎来了小升级
| Agent | 百度文库 X 百度网盘 联合发布 GenFlow 2.0 全球首个全端通用智能体,百个专家 Agent 协同生成多模态内容
| 应用 | Microsoft Excel 新增 COPILOT 函数,将大模型能力引入电子表格 → 把 AI 作为一个函数公式放到 Excel 里,真是一个既优雅又实用的方案 💎
8 月 19 日
| Coding | JetBrains 为 AI Assistant 引入 Next Edit Suggestions,提供全局性的智能修改建议 → 跨行的自动补全,这种操作更贴近程序员真实的使用习惯
| 应用 | 字节跳动 飞书多维表格独立版上线,支持跨平台集成 → 飞书表格本质其实不是表格,而是个数据库可视化+自动化工具
8 月 20 日
| 3 D | TRIPO 3.0 新一代模型,几何精度与纹理质量全面升级 → AI 3D 生成又向工业化落地迈进了一步 👣
| Agent | 智谱 AutoGLM 2.0 手机智能体,全球首个可在云端自主运行的通用 Agent → 操作云电脑的 Agent 听多了,操作云手机的 Agent 是第一次见
| Agent | Macaron 全球首个生活伙伴型智能体,贴心生成专属应用 → AI 陪伴 + Vibe Coding,一种出乎意料的搭配
| 应用 | 腾讯企业微信 5.0,全面融入 AI 能力的办公平台 → 所有的企业级 IM 都在增加 AI 功能,可是要把效果做好,才能真的让用户用起来
8 月 21 日
| 语言模型 | DeepSeekV3.1 语言模型,Agent 能力与思考效率提升(开源)→ DeepSeek 在 V3.1 将思考模型和非思考融合了,所以应该不会有 R2 了,而是 V4 🧐
| 语言模型 | 字节跳动 Seed-OSS-36B 语言模型,原生支持 512K 长上下文(开源)→ 在这个小模型都玩 MoE 的年代,字节这个模型更像是一次技术展示
| Coding | Cursor X Linear 实现自动任务处理,智能编程助手与项目管理无缝协同
| 应用 | Runway 开放 Game Worlds 交互式叙事体验平台,实时生成个性化剧情 → 十年后是不是就不存在电视剧了,每个人都是导演 🎥
| 硬件 | Made by Google 2025 发布 Pixel 10 系列 AI 旗舰手机 && Pixel Watch 4 智能手表 && Gemini for Home 智能家居助手 → Gemini is watching you
| 新闻 | 国务院关于深入实施“人工智能+”行动的意见 → 一份可能会改变未来 10 年的文件,让所有 AI 从业者为之振奋
8 月 22 日
| 世界模型 | Dynamics Lab 开放 Mirage 2 实时生成式世界引擎,上传图片即可步入其中 → Mirage 2 比 Genie 3 更早实现了可玩性,生成式世界模型在这个月也开始井喷
| Agent | 深势科技 X 上海交通大学 X 上海算法创新院 推出 SciMaster 全球首个通用科研智能体,基于 X-Master 开源框架打造
| Coding | 阿里巴巴 Qoder 智能体编程平台,支持 10 万文件检索
| 新闻 | Meta X Midjourney 建立技术合作伙伴关系 → 令人意外的是,Meta 并没有买下 Midjourney
8 月 23 日(无)
8 月 24 日
| 语言模型 | xAI 开源 Grok 2(Grok 2.5)基础模型,预告 Grok 3 即将开源 → 马斯克的大模型开源进展,跟火星移民计划的一样慢悠悠的
8 月 25 日
| 世界模型 | 群核科技发布 SpatiallM 1.5 空间语言模型 && SpatialGen 多视角图像生成模型
| 具身智能 | NVIDIA Jetson Thor 开发套件,为通用机器人解锁实时推理 → 看参数非常适合跑语言模型,期待这个开发套件未来可以变成可以购买的商品
| 应用 | 阿里巴巴 发布AI 钉钉 1.0,宣告全面迈入 AI 原生时代,重构办公产品的形态
8 月 26 日
| 语言模型 | 面壁智能 MiniCPM-V 4.5 端侧多模态模型,实现「高刷」视频理解突破(开源)→ 挺适合本地部署一个用来做视频理解任务,然后自动剪辑视频
| 语言模型 | Character.AI 上线 PipSqueak 角色模型,显著提升用户参与度与留存率
| 语言模型 | Ai2 全面开源 Asta 智能体研究助手系统,加速科学发现(开源)
| 图像 | Google Gemini 2.5 Flash Image 图像编辑模型,增强角色一致性与创意构图能力(nano banana 🍌)→ 这个模型在一致性上又有了新的突破,AI 图片编辑不再是玩具,而是工具了 🎨
| 视频 | HeyGen Avatar IV 数字人模型,精准复刻真人神态与动作 → 作为最早做数字人的公司,现在的领先幅度已经越来越小 💢
| 视频 | sync 发布 lipsync-2-pro 唇形同步模型,支持 4K 高分辨率
| 视频 | 阿里巴巴 Wan2.2-S2V 多模态视频生成模型,音频驱动生成电影级数字人 → 通义每次开源,基本代表这个领域的门槛被真正打下来了
| 硬件 | 阿里巴巴 DingTalk AI,钉钉首款智能硬件,支持实时转写与智能总结 → 又一个 Plaud 的竞争对手,这次是来自阿里
8 月 27 日
| 视频 | 爱诗科技 AIsphere发布 PixVerse V5 视频生成模型,更稳,更真,更灵动
| Agent | Anthropic 内测Claude 浏览器插件,直接在浏览器中执行操作的智能体 → Claude 这个浏览器插件,会不会直接干掉了那些 AI 浏览器呢 ⚡
| 硬件 | Plaud Note Pro 智能笔记设备再升级,智能双模录音与要点标记按钮成亮点 → AI 录音笔的原版终于迎来更新,但整体看来,它并未展现出仿制品更为独特的优势
8 月 28 日
| 语言模型 | Microsoft 推出 MAI-Voice-1 语音生成模型 && MAI-1-preview 基础模型,微软 AI 的独立宣言
| 视频 | 腾讯 Hunyuan-Foley 视频音效生成模型,为无声视频精准配音(开源)→ 无法生成人声,离 Veo3 音效能力还是有很大差距
| Coding | OpenAI Codex 智能编程助手,实现跨平台无缝协作 → Claude Code 太成功了,OpenAI 也按耐不住出手了
| 新闻 | TIME 100 AI 2025,评选全球人工智能领域最具影响力的百大人物
8 月 29 日
| 语言模型 | xAI 推出 Grok Code Fast 1 编程推理模型,专为智能体编程优化 → Grok 也迫不及待的加入了 AI Coding 的战场
| 应用 | Microsoft Copilot 上线深度研究功能,自动化研究并生成结构化报告
8 月 30 日(无)
8 月 31 日
| 应用 | Perplexity 上线 Study Mode(学习模式),个性化引导式学习与进度测验 → 几个大厂都推出了「学习模式」,这也算是 AI 应用的一个新趋势
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
