
AI 行业大事记
2025 年 8 月
联合出品:
Jomy @ 302.AI
南乔 @ ShowMeAI
大聪明 @ 赛博禅心
说明:
①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。
② 本文分类中的「模型」均指代语言模型;
③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式;
④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc(期待互动👏👏👏)
👀 7月AI趋势观察
1. (语言)模型
✦ 这个月是国产模型爆发月。K2 / GLM-4.5 / Step-3 / Qwen-2507,无论是编程能力、Agent 能力,还是多模态能力,已经完全不输第一梯队的海外模型了。更重要的是:这些国产模型都是开源的。
✦ 海外模型里,马斯克预热了很久的 Grok-4 终于发布。但是大家趁着新鲜体验了一下以后,就没有以后了。
✦ 虽然国产模型距离 SOTA 还有一点点距离,但其出色的性价比和丰富的开源生态,足以让人忽略这点效果差异。2025年7月,我们可以很自信地说:语言模型领域,中美正在进行同等水平的竞争。
2. 图像
✦ 图像领域本月没有让人兴奋的新模型,各家普遍在审美、性价比、一致性方面继续改进。
✦ 现在的图像编辑模型,不仅能理解图片,还能在生成新图片时与参考图片保持不错的一致性。目前,图像编辑类应用的开发难度几乎为 0,竞争差异点居然也落在了提示词上。
3. 视频
✦ 可能是从图像领域获得了灵感?视频领域也出现了更智能的编辑模型——让模型理解视频,并基于自然语言对视频进行修改,成了视频模型的新潮流。我大胆预测一下,最多 2 个月,国产开源的智能视频编辑模型就会出现。
✦ 或许是受限于当前视频生成的原理,视频模型不再卷极致的物理真实性或细节完整度了,而是在往成本更低、生成更快、时长更长的方向在发展。人类逐渐接受了那些细节瑕疵,转而将 AI 视频视作一种全新的创作模式。
4. 音频
✦ 受到其他领域 Generation by Understanding 理念的影响,音频生成领域也有了新趋势:让模型先理解文字,再生成与文字情绪对应的配音。这导致现在的 AI 配音,不仅听起来非常逼真,甚至还有了「情感」和「灵魂」。
5. 3D
✦ 让人眼前一亮的新进展出现在 3D 领域:生成多个可组合的 3D 零部件,再装配成一个高度可控的完整模型。相较于之前单一且复杂的「空壳」,新模式在 3D 动画与工业制造等场景中的实用性大大提升。
✦ 3D 领域另一个新范式:不再满足于捏单个物体,而是直接批量产出 N 个元素,并实时拼装成可交互的完整场景。这是 3D 世界的 Scaling Law。
6. 机器人
✦ 开源项目最能折射行业真实水平。就目前的机器人开源生态来看,机器人行业仍处于较为初级的阶段。
✦ 尽管人形机器人的演示总让人眼花缭乱,以为未来已来。但事实是,我们仍需保持理性,做好长期发展的准备。
7. 应用
✦ Coding 领域最新高频热词:全栈和全自动。类比于自动驾驶分级,AI Coding 同样锚定了 L4 级全自动编程,同样也处于 L2.5 – L3 的发展阶段。
✦ 通用 Agent 赛道本月已无新者入局,但是垂直赛道正加速扩展,尤其是金融和影像两个方向值得重点关注。
8. 新闻/融资
✦ (上个月和)本月 AI 领域的收购新闻突然大量增加。在历史进程里,这是 AI 行业从「春秋」到「战国」的转折点吗?
🧭 7月AI行业时光机
7 月 1 日
| 图像 | Hassan El Mghari 开源 EasyEdit 秒级快速修图的图片编辑工具→ 这位开发者帮 Together 做了挺多不错的应用 Demo
| 应用 | RockFlow 上线 Bobby 生成投资策略并完成交易的智能体 → 金融领域的垂直 Agent 开始大量出现
| 融资 | xAI 完成 100 亿美元债务及股权融资 → 估值达到 1130 亿美元,仅仅次于 OpenAI 和 Anthropic
| 融资 | Grammarly 宣布计划收购 AI 邮件应用 Superhuman → 将一个小的场景做到极致,然后慢慢扩张到更大的场景,也可以变成巨头
7 月 2 日
| 模型 | 智谱 开源 GLM-4.1V-Thinking 多模态视觉大模型→ 智谱这个月开始发力开源模型,这是第一波
| 应用 | 百度搜索十年来最大改版 → 这是百度不得不做的防守动作
7 月 3 日
| 应用 | LibLib 发布星流 Agent 多模态创意设计平台(Lovart 中国版)→ 全换成国产模型后,效果与 Lovart 有什么样的差异呢
7 月 4 日
| 音频 | 阿里巴巴 开源 ThinkSound 视觉动态感知的音频生成模型→ 实测无法生成人声对话,离 Veo3 的配音能力还是有差距
| 应用 | Harvey 上线面向法律领域的深度研究功能
7 月 5 日(无)
7 月 6 日
| 音频 | 上海创智学院 X 复旦大学 X 模思智能 联合开源 MOSS-TTSD 对话语音生成模型→ 自动情感控制已经成为 TTS 领域的新趋势
7 月 7 日
| 3 D | 腾讯 Hunyuan3D-PolyGen 美术级高精度 3D 生成模型 → 腾讯在 AI 3D 生成领域持续领先
7 月 8 日
| 模型 | Hugging Face 完全开源 SmolLM3 混合推理小模型→ 开源得很彻底,科研意义大于实用意义的一个模型
| 视频 | Moonvalley Marey 版权合规的影视级视频生成模型 → 使用完全拥有商业授权的素材进行训练,生成的视频是否容易显得平庸呢
7 月 9 日
| 机器人 | Hugging Face 开源 Reachy Mini 桌面机器人 → 在开源模型社区稳坐全球第一后,HF 开始往开源机器人方向探索
| 应用 | Google Gemini 个人助手登录 Wear OS 智能手表 → 作为交互空间很有限的可穿戴设备,基于 AI 的自然语言交互是非常合适的
| 应用 | Perplexity Comet AI 浏览器,融合搜索与智能体任务 → 不知道 Comet 会有哪些原创功能呢?期待!
7 月 10 日
| 模型 | 上海人工智能实验室开源 SFE 科学认知评测基准
| 应用 | Perplexity 集成 Coinbase 实时的加密货币数据 → 搜索产品开始接入一些垂直数据来差异化竞争。而金融又是数据最丰富的领域,自然成为首选
7 月 11 日
| 模型 | 月之暗面 开源 Kimi K2 基础模型,专为编程与 Agent 任务设计→ 这个模型有「小Claude」之称,在开源领域火了一把,打响了 7 月国产模型占领开源领域的第一枪
| 音频 | 哔哩哔哩 宣布开源 IndexTTS2 语音合成模型
| 视频 | 爱诗科技 PixVerse(拍我AI)多关键帧生成功能 → 通过多关键帧将 AI 视频一次生成的时长拉长到 30 秒,很妙的主意
| 图像 | Black Forest Labs 开放 Kontext Komposer 图像场景智能转换工具 → 本质就是预设了一堆提示词模板。可以在网站内通过 F12 来查看提示词
| 应用 | xAIGrok 进入 Polymarket 和 Kalshi 平台,强化金融预测市场的分析能力 → 马斯克在加密货币上,确实比其他公司走得更快
| 融资 | Meta 收购语音初创公司 PlayAI → Meta 不仅到处买人,还开始买企业了
7 月 12 日
| 模型 | xAI 发布 Grok 4 多模态推理模型和 Ani 二次元伴侣 → 发布后就没什么声音了,从性价比/功能上都相对平庸
| 机器人 |- Hugging Face 开源 The Amazing Hand 八自由度人形机器人手
7 月 13 日(无)
7 月 14 日
| 应用 | 美图 发布 RoboNeo Agent 一句话搞定影像生产力 → 美图在图片编辑领域有非常多的 Know-How,这是其他创业公司难以企及的
| 应用 | Amazon 发布 Kiro 全流程开发 AI IDE → Kiro 开启了 AI Coding 领域 spec 新潮流
7 月 15 日
| 模型 | LG 开源 EXAONE 4.0 混合推理模型→ 可能是出于国家形象的考虑,韩国人终于有了自己的小模型 🤏
| 音频 | Mistral 开源 Voxtral 语音识别模型→ Mistral 近期开源了一系列性价比很出色的小模型,也算是差异化竞争
| 应用 | 秘塔 免费开放深度研究功能开放动态问题链 → 推理路径的可视化做的非常出色,是深度研究领域里让人眼前一亮的产品
| 应用 | Anthropic 上线 Claude Connectors,通过 MCP 协议连接外部服务 → Connector 的概念应该会在 Agent 领域越来越普及
| 应用 | Figma Make 集成 Supabase 实现 AI 驱动的全栈开发 → Supabase 不约而同成为了几个 Agent 产品的共同选择
| 融资 | Cognition(Devin)全面收购 Windsurf→ Windsurf 收购的 Drama 大戏终于落下帷幕 💥
| 新闻 | NVIDIA H20 芯片 2025 年对华供应解禁始末 → 未来中国可以没有英伟达,但是英伟达不能没有中国。
7 月 16 日
| 视频 | Runway Act-Two 高精度运动捕捉模型 → 实测下来,比 Act-One 动作模仿更加细腻,多了很多原模型忽略的细节动作
| 视频 | Lightricks 开源 LTXV 实时视频生成模型,生成 60 秒原生长视频→ 确实可以生成 60 秒的视频,但是内容同质化严重,像是为了长而长
| 应用 | Anthropic 发布金融行业数据分析方案(Claude for Financial Services )→ Anthropic 开始往垂直 Agent 领域进行尝试。先通用,再垂直。
| 应用 | MiniMax Agent 推出全栈开发功能 → Minimax 这个通用 Agent 产品的亮点在于优秀的后端能力,做到不仅仅是个前端 Demo
7 月 17 日
| 应用 | Google 再次升级 AI Mode,集成深度研究和学习功能 → Google 不仅模型出色,产品也是顶级水平 💯
| 应用 | 特工宇宙上线观猹平台,AI 产品的大众点评 → 流量侧还需努力,这样开发者才有动力发布
| 融资 | Lovable 完成 2 亿美元 A 轮融资,估值达 18 亿美元
7 月 18 日
| 应用 | OpenAI 发布 ChatGPT agent 任务处理智能体系统 → 通用 Agent 基本模式,已经演变为每项任务启动一台虚拟机
| 模型 | Upstage 实验室发布 Solar Pro 2 韩语增强的混合推理模型
| 视频 | Decart 正式开放 MirageLSD 实时交互式视频生成模型 → 一个实时的 AI 视频滤镜,40 毫秒的延迟已经低于中美之间的通信延迟了,非常夸张 😱
| 融资 | Anysphere(Cursor)人才收购初创公司 Koala → AI Coding 这个领域,还是 B 端才有真正的付费能力
7 月 19 日
| 3 D | Scenario 上线 PartCrafter 智能部件分割功能,一键生成可编辑 3D 组件 → 3D 生成的新趋势:生成单个 3D 模型 → 生成多个 3D 零部件 → 最终组成一个 3D 模型
7 月 20 日(无)
7 月 21 日
| 模型 | 快手 KAT-V1 自动思考大模型,自动切换思考形态 → 如何控制思维链的长度,一直是推理模型的一大工程难点 🚩
| 应用 | TRAE SOLO 2.0 发布,全流程自动化编程智能体 → 国产 Coding Agent 从功能上也赶上了海外的产品
7 月 22 日
| 机器人 | 字节跳动 发布 Seed GR-3 通用机器人模型 & ByteMini 双臂机器人
| 应用 | 腾讯 CodeBuddy 全栈开发 AI IDE
| 应用 | 智源研究院 开放 FlagRelease 大模型自动迁移平台 → 「不再受制于单一硬件厂商」是指谁呢 👀
7 月 23 日
| 模型 | 阿里巴巴 开源 Qwen3-Coder 编程模型刷新开源 SOTA→ 模型和产品其实不错的,但是被「爆账单」的事情给掩盖了不少光芒 😥
| 模型 | 上海科学智能研究院 X 复旦大学 X 无限光年 联合开放星河启智科学智能开放平台
| 图像 | Neta.art(捏Ta)开源 Neta Lumina 轻量级动漫文生图模型
| 音频 | BosonAI(李沐)开源 Higgs Audio V2 多模态音频模型→ 实测下来,此模型无需额外提示词指引,可以直接理解文本内容并生成对应情感的配音,效果不错 🏆
| 视频 | Hedra Live Avatars 基于图像的实时交互数字人方案 → 简单的说,就是可以和 AI 虚拟人物面对面的打视频了
| 应用 | 零一万物 万智平台发布企业级 Agent 智能体解决方案
| 新闻 | AdventureX 2025 全球黑客松(第二届)在杭州举办
| 新闻 | 美国发布 AI Action Plan,巩固其全球领导地位
7 月 24 日
| 模型 | 阿里巴巴 Qwen-MT 高性能多语言机器翻译模型 → 阿里对于商业价值比较高的模型,开始渐渐地不开源了
| 模型 | RWKV 开源 RWKV7-G0 7.2B 纯 RNN 架构推理模型
| 图像 | Higgsfield Steal 图像复刻浏览器插件 → 本质上是一个图片提示词反推工具
| 音频 | 字节跳动 Seed LiveInterpret 2.0 端到端低延迟同声传译模型
| 应用 | Microsoft 上线 GitHub Spark 全栈应用开发工具 → 全栈开发能力,逐渐成为 AI Coding 工具的标配。
| 融资 | 像素绽放 完成 B3 轮战略融资 → AI PPT 下一步,是不是 AI Excel 或 AI Word 呢
7 月 25 日
| 应用 | 上海人工智能实验室 开放 Intern-Discovery 书生科学发现平台 → 垂直数据+垂直工具=垂直Agent
| 3 D | 群核科技 开源 InteriorGS 适用于智能体自由运动的大规模 3D 数据集 → 感觉可以很快应用在扫地机器人上
| 机器人 | 上海人工智能实验室 发布 Intern-Robotics 一脑多形的具身智能全栈引擎
| 应用 | Google Labs 上线 Opal 基于自然语言开发 Mini 应用 → 用自然语言创建和编辑工作流,国内产品可以开始学起来了
| 应用 | Anysphere(Cursor)开放 Bugbot AI 代码审查工具 → 以前是 AI Coding+人Review,现在可以 AI Coding+AI Review,闭环了
| 应用 | 财联社 X 阶跃星辰 联合发布财跃星辰「AI小财神」,最新上线金融深度研究Pro
7 月 26 日
| 模型 | 上海创智学院 X 无问芯穹 联合开源 Megrez2.0 终端本征大模型
| 模型 | 上海创智学院 X 华东师范大学 联合开源 启创•InnoSpark 1.0 教育专用大模型
| 音频 | 阶跃星辰 Step-Audio 2 理解/推理/生成三合一的端到端语音模型 → 看了演示视频,真人感很强,反应迅速,有跟真人聊天的感觉了 💬
| 视频 | Runway Aleph 自然语言智能视频编辑系统 → 自然语言的视频编辑,会是视频模型的新标配功能
| 应用 | 京东 开源 JoyAgent 端到端企业级通用智能体
| 新闻 | 世界人工智能大会 WAIC 2025 暨人工智能全球治理高级别会议在上海成功举行
7 月 27 日
| 模型 | 上海人工智能实验室 开源 Intern-S1 多模态科研大模型→ 书生系列在科研方向发力,和 Qwen 系列开始有差异化
| 3 D | 腾讯混元 3D 世界模型 1.0 开源,最新可交互 3D 世界生成模型→ 之前是生成一个物体,现在是生成 N 个物体组成一个场景
| 应用 | 阿里巴巴 发布夸克 AI 眼镜,融合阿里生态的自研旗舰硬件
7 月 28 日
| 模型 | 智谱 开源 GLM-4.5 推理/编程/智能体三合一模型→ GLM-4.5 的发布,让国产模型彻底占领了开源榜单 🏆
| 视频 | 阿里巴巴 开源通义万相 Wan2.2 视频生成模型→ 视频模型也开始玩 MoE 了
| 应用 | 扣子(Coze)开源核心引擎→ 虽然被吐槽开源的不够彻底,但是其核心源码已经相当有价值了
| 应用 | 金山 WPS 灵犀原生 Office 办公智能体
| 融资 | E2B 完成 2100 万美元 A 轮融资 → 乘着 Manus 的东风,虚拟机成为了通用 Agent 的必备基建
7 月 29 日
| 应用 | Microsoft Edge 浏览器推出 Copilot 模式 → AI 公司做 AI 浏览器。传统公司在浏览器加上 AI 功能。大家更看好哪条路呢 ❓
7 月 30 日
| 图像 | 昆仑万维●开源 Skywork UniPic 多模态统一预训练模型→ 又一个中国版的 gpt-image-1,优势是模型特别小,只有 1.5B
| 视频 | Luma 上线基于自然语言的视频编辑功能→ Runway 有的功能,Luma 必须也有
| 应用 | OpenAI ChatGPT 上线互动学习模式 → 提示词也可以达到差不多的效果
| 应用 | NotebookLM上线视频概览生成幻灯片摘要
7 月 31 日
| 模型 | GoogleGemini 开放Deep Think 高阶数学推理模型(IMO 金牌)
| 模型 | 阶跃星辰 开源 Step 3 多模态推理模型→ 算是第一个国产的开源多模态推理大模型
| 模型 | 小红书 开源 dots.ocr 多语言文档解析模型→ 实测效果确实 SOTA,小红书还真有东西 🍠
| 模型 | 阿里巴巴 开源 Qwen-0527 继续发布 235B、30B、4B 系列模型→ 把原来的混合推理模型拆开了,也就是未来的混合推理不是靠模型内部,而是靠路由
| 图像 | Black Forest Labs X Krea AI 联合开源 FLUX.1 Krea [dev] 高真实感文生图模型→ 在图像模型领域,美学风格也是很重要的差异性
| 图像 | Ideogram Character 单张参考图的角色一致性模型 → 有点像换脸,电商行业的刚需
| 应用 | Genspark 上线 AI Slides 2.0 演示文稿生成工具,提供数百套模板 → 又回归了「套模板」这种最原始的方式。看来靠 HTML 生成的「PPT」,无法绕过二次编辑这个槛 🤔
| 应用 | Manus 上线 Wide Research 数百个项目并行研究系统 → 从串行架构到并行架构,是 Agent 发展的必然。可是在 2025 年这个时间点,成本能 Hold 住么?
| 应用 | NEO 机器学习工程师智能体 → 本质就是一个垂直编程领域的 Agent,适用用户比较窄
| 应用 | Jenova 转型 MCP 生态多工具智能协作平台
| 新闻 | Figma 成功上市,首日股价飙升 250%
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
