AI 行业大事记

2025 年 8 月

联合出品：

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

①本文讨论了 2025 年7月 AI行业的 103 件大事，涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。

② 本文分类中的「模型」均指代语言模型；

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式；

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc（期待互动👏👏👏）

👀 7月AI趋势观察

1. (语言)模型

✦ 这个月是国产模型爆发月。K2 / GLM-4.5 / Step-3 / Qwen-2507，无论是编程能力、Agent 能力，还是多模态能力，已经完全不输第一梯队的海外模型了。更重要的是：这些国产模型都是开源的。

✦ 海外模型里，马斯克预热了很久的 Grok-4 终于发布。但是大家趁着新鲜体验了一下以后，就没有以后了。

✦ 虽然国产模型距离 SOTA 还有一点点距离，但其出色的性价比和丰富的开源生态，足以让人忽略这点效果差异。2025年7月，我们可以很自信地说：语言模型领域，中美正在进行同等水平的竞争。

2. 图像

✦ 图像领域本月没有让人兴奋的新模型，各家普遍在审美、性价比、一致性方面继续改进。

✦ 现在的图像编辑模型，不仅能理解图片，还能在生成新图片时与参考图片保持不错的一致性。目前，图像编辑类应用的开发难度几乎为 0，竞争差异点居然也落在了提示词上。

3. 视频

✦ 可能是从图像领域获得了灵感？视频领域也出现了更智能的编辑模型——让模型理解视频，并基于自然语言对视频进行修改，成了视频模型的新潮流。我大胆预测一下，最多 2 个月，国产开源的智能视频编辑模型就会出现。

✦ 或许是受限于当前视频生成的原理，视频模型不再卷极致的物理真实性或细节完整度了，而是在往成本更低、生成更快、时长更长的方向在发展。人类逐渐接受了那些细节瑕疵，转而将 AI 视频视作一种全新的创作模式。

4. 音频

✦ 受到其他领域 Generation by Understanding 理念的影响，音频生成领域也有了新趋势：让模型先理解文字，再生成与文字情绪对应的配音。这导致现在的 AI 配音，不仅听起来非常逼真，甚至还有了「情感」和「灵魂」。

5. 3D

✦ 让人眼前一亮的新进展出现在 3D 领域：生成多个可组合的 3D 零部件，再装配成一个高度可控的完整模型。相较于之前单一且复杂的「空壳」，新模式在 3D 动画与工业制造等场景中的实用性大大提升。

✦ 3D 领域另一个新范式：不再满足于捏单个物体，而是直接批量产出 N 个元素，并实时拼装成可交互的完整场景。这是 3D 世界的 Scaling Law。

6. 机器人

✦ 开源项目最能折射行业真实水平。就目前的机器人开源生态来看，机器人行业仍处于较为初级的阶段。

✦ 尽管人形机器人的演示总让人眼花缭乱，以为未来已来。但事实是，我们仍需保持理性，做好长期发展的准备。

7. 应用

✦ Coding 领域最新高频热词：全栈和全自动。类比于自动驾驶分级，AI Coding 同样锚定了 L4 级全自动编程，同样也处于 L2.5 – L3 的发展阶段。

✦ 通用 Agent 赛道本月已无新者入局，但是垂直赛道正加速扩展，尤其是金融和影像两个方向值得重点关注。

8. 新闻/融资

✦ （上个月和）本月 AI 领域的收购新闻突然大量增加。在历史进程里，这是 AI 行业从「春秋」到「战国」的转折点吗？

🧭 7月AI行业时光机

7 月 1 日

| 图像 | Hassan El Mghari 开源 EasyEdit 秒级快速修图的图片编辑工具→ 这位开发者帮 Together 做了挺多不错的应用 Demo

| 应用 | RockFlow 上线 Bobby 生成投资策略并完成交易的智能体 → 金融领域的垂直 Agent 开始大量出现

| 融资 | xAI 完成 100 亿美元债务及股权融资 → 估值达到 1130 亿美元，仅仅次于 OpenAI 和 Anthropic

| 融资 | Grammarly 宣布计划收购 AI 邮件应用 Superhuman → 将一个小的场景做到极致，然后慢慢扩张到更大的场景，也可以变成巨头

7 月 2 日

| 模型 | 智谱开源 GLM-4.1V-Thinking 多模态视觉大模型→ 智谱这个月开始发力开源模型，这是第一波

| 应用 | 百度搜索十年来最大改版 → 这是百度不得不做的防守动作

7 月 3 日

| 应用 | LibLib 发布星流 Agent 多模态创意设计平台（Lovart 中国版）→ 全换成国产模型后，效果与 Lovart 有什么样的差异呢

7 月 4 日

| 音频 | 阿里巴巴 开源 ThinkSound 视觉动态感知的音频生成模型→ 实测无法生成人声对话，离 Veo3 的配音能力还是有差距

| 应用 | Harvey 上线面向法律领域的深度研究功能

7 月 5 日（无）

7 月 6 日

| 音频 | 上海创智学院 X 复旦大学 X 模思智能 联合开源 MOSS-TTSD 对话语音生成模型→ 自动情感控制已经成为 TTS 领域的新趋势

7 月 7 日

| 3 D | 腾讯 Hunyuan3D-PolyGen 美术级高精度 3D 生成模型 → 腾讯在 AI 3D 生成领域持续领先

7 月 8 日

| 模型 | Hugging Face 完全开源 SmolLM3 混合推理小模型→ 开源得很彻底，科研意义大于实用意义的一个模型

| 视频 | Moonvalley Marey 版权合规的影视级视频生成模型 → 使用完全拥有商业授权的素材进行训练，生成的视频是否容易显得平庸呢

7 月 9 日

| 机器人 | Hugging Face 开源 Reachy Mini 桌面机器人 → 在开源模型社区稳坐全球第一后，HF 开始往开源机器人方向探索

| 应用 | Google Gemini 个人助手登录 Wear OS 智能手表 → 作为交互空间很有限的可穿戴设备，基于 AI 的自然语言交互是非常合适的

| 应用 | Perplexity Comet AI 浏览器，融合搜索与智能体任务 → 不知道 Comet 会有哪些原创功能呢？期待！

7 月 10 日

| 模型 | 上海人工智能实验室开源 SFE 科学认知评测基准

| 应用 | Perplexity 集成 Coinbase 实时的加密货币数据 → 搜索产品开始接入一些垂直数据来差异化竞争。而金融又是数据最丰富的领域，自然成为首选

7 月 11 日

| 模型 | 月之暗面 开源 Kimi K2 基础模型，专为编程与 Agent 任务设计→ 这个模型有「小Claude」之称，在开源领域火了一把，打响了 7 月国产模型占领开源领域的第一枪

| 音频 | 哔哩哔哩 宣布开源 IndexTTS2 语音合成模型

| 视频 | 爱诗科技 PixVerse（拍我AI）多关键帧生成功能 → 通过多关键帧将 AI 视频一次生成的时长拉长到 30 秒，很妙的主意

| 图像 | Black Forest Labs 开放 Kontext Komposer 图像场景智能转换工具 → 本质就是预设了一堆提示词模板。可以在网站内通过 F12 来查看提示词

| 应用 | xAIGrok 进入 Polymarket 和 Kalshi 平台，强化金融预测市场的分析能力 → 马斯克在加密货币上，确实比其他公司走得更快

| 融资 | Meta 收购语音初创公司 PlayAI → Meta 不仅到处买人，还开始买企业了

7 月 12 日

| 模型 | xAI 发布 Grok 4 多模态推理模型和 Ani 二次元伴侣 → 发布后就没什么声音了，从性价比/功能上都相对平庸

| 机器人 |- Hugging Face 开源 The Amazing Hand 八自由度人形机器人手

7 月 13 日（无）

7 月 14 日

| 应用 | 美图发布 RoboNeo Agent 一句话搞定影像生产力 → 美图在图片编辑领域有非常多的 Know-How，这是其他创业公司难以企及的

| 应用 | Amazon 发布 Kiro 全流程开发 AI IDE → Kiro 开启了 AI Coding 领域 spec 新潮流

7 月 15 日

| 模型 | LG 开源 EXAONE 4.0 混合推理模型→ 可能是出于国家形象的考虑，韩国人终于有了自己的小模型 🤏

| 音频 | Mistral 开源 Voxtral 语音识别模型→ Mistral 近期开源了一系列性价比很出色的小模型，也算是差异化竞争

| 应用 | 秘塔免费开放深度研究功能开放动态问题链 → 推理路径的可视化做的非常出色，是深度研究领域里让人眼前一亮的产品

| 应用 | Anthropic 上线 Claude Connectors，通过 MCP 协议连接外部服务 → Connector 的概念应该会在 Agent 领域越来越普及

| 应用 | Figma Make 集成 Supabase 实现 AI 驱动的全栈开发 → Supabase 不约而同成为了几个 Agent 产品的共同选择

| 融资 | Cognition（Devin）全面收购 Windsurf→ Windsurf 收购的 Drama 大戏终于落下帷幕 💥

| 新闻 | NVIDIA H20 芯片 2025 年对华供应解禁始末 → 未来中国可以没有英伟达，但是英伟达不能没有中国。

7 月 16 日

| 视频 | Runway Act-Two 高精度运动捕捉模型 → 实测下来，比 Act-One 动作模仿更加细腻，多了很多原模型忽略的细节动作

| 视频 | Lightricks 开源 LTXV 实时视频生成模型，生成 60 秒原生长视频→ 确实可以生成 60 秒的视频，但是内容同质化严重，像是为了长而长

| 应用 | Anthropic 发布金融行业数据分析方案（Claude for Financial Services ）→ Anthropic 开始往垂直 Agent 领域进行尝试。先通用，再垂直。

| 应用 | MiniMax Agent 推出全栈开发功能 → Minimax 这个通用 Agent 产品的亮点在于优秀的后端能力，做到不仅仅是个前端 Demo

7 月 17 日

| 应用 | Google 再次升级 AI Mode，集成深度研究和学习功能 → Google 不仅模型出色，产品也是顶级水平 💯

| 应用 | 特工宇宙上线观猹平台，AI 产品的大众点评 → 流量侧还需努力，这样开发者才有动力发布

| 融资 | Lovable 完成 2 亿美元 A 轮融资，估值达 18 亿美元

7 月 18 日

| 应用 | OpenAI 发布 ChatGPT agent 任务处理智能体系统 → 通用 Agent 基本模式，已经演变为每项任务启动一台虚拟机

| 模型 | Upstage 实验室发布 Solar Pro 2 韩语增强的混合推理模型

| 视频 | Decart 正式开放 MirageLSD 实时交互式视频生成模型 → 一个实时的 AI 视频滤镜，40 毫秒的延迟已经低于中美之间的通信延迟了，非常夸张 😱

| 融资 | Anysphere（Cursor）人才收购初创公司 Koala → AI Coding 这个领域，还是 B 端才有真正的付费能力

7 月 19 日

| 3 D | Scenario 上线 PartCrafter 智能部件分割功能，一键生成可编辑 3D 组件 → 3D 生成的新趋势：生成单个 3D 模型 → 生成多个 3D 零部件 → 最终组成一个 3D 模型

7 月 20 日（无）

7 月 21 日

| 模型 | 快手 KAT-V1 自动思考大模型，自动切换思考形态 → 如何控制思维链的长度，一直是推理模型的一大工程难点 🚩

| 应用 | TRAE SOLO 2.0 发布，全流程自动化编程智能体 → 国产 Coding Agent 从功能上也赶上了海外的产品

7 月 22 日

| 机器人 | 字节跳动 发布 Seed GR-3 通用机器人模型 & ByteMini 双臂机器人

| 应用 | 腾讯 CodeBuddy 全栈开发 AI IDE

| 应用 | 智源研究院 开放 FlagRelease 大模型自动迁移平台 → 「不再受制于单一硬件厂商」是指谁呢 👀

7 月 23 日

| 模型 | 阿里巴巴 开源 Qwen3-Coder 编程模型刷新开源 SOTA→ 模型和产品其实不错的，但是被「爆账单」的事情给掩盖了不少光芒 😥

| 模型 | 上海科学智能研究院 X 复旦大学 X 无限光年 联合开放星河启智科学智能开放平台

| 图像 | Neta.art（捏Ta）开源 Neta Lumina 轻量级动漫文生图模型

| 音频 | BosonAI（李沐）开源 Higgs Audio V2 多模态音频模型→ 实测下来，此模型无需额外提示词指引，可以直接理解文本内容并生成对应情感的配音，效果不错 🏆

| 视频 | Hedra Live Avatars 基于图像的实时交互数字人方案 → 简单的说，就是可以和 AI 虚拟人物面对面的打视频了

| 应用 | 零一万物 万智平台发布企业级 Agent 智能体解决方案

| 新闻 | AdventureX 2025 全球黑客松（第二届）在杭州举办

| 新闻 | 美国发布 AI Action Plan，巩固其全球领导地位

7 月 24 日

| 模型 | 阿里巴巴 Qwen-MT 高性能多语言机器翻译模型 → 阿里对于商业价值比较高的模型，开始渐渐地不开源了

| 模型 | RWKV 开源 RWKV7-G0 7.2B 纯 RNN 架构推理模型

| 图像 | Higgsfield Steal 图像复刻浏览器插件 → 本质上是一个图片提示词反推工具

| 音频 | 字节跳动 Seed LiveInterpret 2.0 端到端低延迟同声传译模型

| 应用 | Microsoft 上线 GitHub Spark 全栈应用开发工具 → 全栈开发能力，逐渐成为 AI Coding 工具的标配。

| 融资 | 像素绽放 完成 B3 轮战略融资 → AI PPT 下一步，是不是 AI Excel 或 AI Word 呢

7 月 25 日

| 应用 | 上海人工智能实验室 开放 Intern-Discovery 书生科学发现平台 → 垂直数据+垂直工具=垂直Agent

| 3 D | 群核科技 开源 InteriorGS 适用于智能体自由运动的大规模 3D 数据集 → 感觉可以很快应用在扫地机器人上

| 机器人 | 上海人工智能实验室 发布 Intern-Robotics 一脑多形的具身智能全栈引擎

| 应用 | Google Labs 上线 Opal 基于自然语言开发 Mini 应用 → 用自然语言创建和编辑工作流，国内产品可以开始学起来了

| 应用 | Anysphere（Cursor）开放 Bugbot AI 代码审查工具 → 以前是 AI Coding+人Review，现在可以 AI Coding+AI Review，闭环了

| 应用 | 财联社 X 阶跃星辰 联合发布财跃星辰「AI小财神」，最新上线金融深度研究Pro

7 月 26 日

| 模型 | 上海创智学院 X 无问芯穹 联合开源 Megrez2.0 终端本征大模型

| 模型 | 上海创智学院 X 华东师范大学 联合开源启创•InnoSpark 1.0 教育专用大模型

| 音频 | 阶跃星辰 Step-Audio 2 理解/推理/生成三合一的端到端语音模型 → 看了演示视频，真人感很强，反应迅速，有跟真人聊天的感觉了 💬

| 视频 | Runway Aleph 自然语言智能视频编辑系统 → 自然语言的视频编辑，会是视频模型的新标配功能

| 应用 | 京东开源 JoyAgent 端到端企业级通用智能体

| 新闻 | 世界人工智能大会 WAIC 2025 暨人工智能全球治理高级别会议在上海成功举行

7 月 27 日

| 模型 | 上海人工智能实验室 开源 Intern-S1 多模态科研大模型→ 书生系列在科研方向发力，和 Qwen 系列开始有差异化

| 3 D | 腾讯混元 3D 世界模型 1.0 开源，最新可交互 3D 世界生成模型→ 之前是生成一个物体，现在是生成 N 个物体组成一个场景

| 应用 | 阿里巴巴 发布夸克 AI 眼镜，融合阿里生态的自研旗舰硬件

7 月 28 日

| 模型 | 智谱开源 GLM-4.5 推理/编程/智能体三合一模型→ GLM-4.5 的发布，让国产模型彻底占领了开源榜单 🏆

| 视频 | 阿里巴巴 开源通义万相 Wan2.2 视频生成模型→ 视频模型也开始玩 MoE 了

| 应用 | 扣子（Coze）开源核心引擎→ 虽然被吐槽开源的不够彻底，但是其核心源码已经相当有价值了

| 应用 | 金山 WPS 灵犀原生 Office 办公智能体

| 融资 | E2B 完成 2100 万美元 A 轮融资 → 乘着 Manus 的东风，虚拟机成为了通用 Agent 的必备基建

7 月 29 日

| 应用 | Microsoft Edge 浏览器推出 Copilot 模式 → AI 公司做 AI 浏览器。传统公司在浏览器加上 AI 功能。大家更看好哪条路呢 ❓

7 月 30 日

| 图像 | 昆仑万维●开源 Skywork UniPic 多模态统一预训练模型→ 又一个中国版的 gpt-image-1，优势是模型特别小，只有 1.5B

| 视频 | Luma 上线基于自然语言的视频编辑功能→ Runway 有的功能，Luma 必须也有

| 应用 | OpenAI ChatGPT 上线互动学习模式 → 提示词也可以达到差不多的效果

| 应用 | NotebookLM上线视频概览生成幻灯片摘要

7 月 31 日

| 模型 | GoogleGemini 开放Deep Think 高阶数学推理模型（IMO 金牌）

| 模型 | 阶跃星辰 开源 Step 3 多模态推理模型→ 算是第一个国产的开源多模态推理大模型

| 模型 | 小红书 开源 dots.ocr 多语言文档解析模型→ 实测效果确实 SOTA，小红书还真有东西 🍠

| 模型 | 阿里巴巴 开源 Qwen-0527 继续发布 235B、30B、4B 系列模型→ 把原来的混合推理模型拆开了，也就是未来的混合推理不是靠模型内部，而是靠路由

| 图像 | Black Forest Labs X Krea AI 联合开源 FLUX.1 Krea [dev] 高真实感文生图模型→ 在图像模型领域，美学风格也是很重要的差异性

| 图像 | Ideogram Character 单张参考图的角色一致性模型 → 有点像换脸，电商行业的刚需

| 应用 | Genspark 上线 AI Slides 2.0 演示文稿生成工具，提供数百套模板 → 又回归了「套模板」这种最原始的方式。看来靠 HTML 生成的「PPT」，无法绕过二次编辑这个槛 🤔

| 应用 | Manus 上线 Wide Research 数百个项目并行研究系统 → 从串行架构到并行架构，是 Agent 发展的必然。可是在 2025 年这个时间点，成本能 Hold 住么？

| 应用 | NEO 机器学习工程师智能体 → 本质就是一个垂直编程领域的 Agent，适用用户比较窄

| 应用 | Jenova 转型 MCP 生态多工具智能协作平台

| 新闻 | Figma 成功上市，首日股价飙升 250%

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

302.AI 赛博月刊丨Vol.8 攻守易形：当开源变成中国主场