302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

AI 行业大事记

2025 年 8 月

联合出品:

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。

② 本文分类中的「模型」均指代语言模型;

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式;

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc(期待互动👏👏👏)


👀 7月AI趋势观察

1. (语言)模型

✦ 这个月是国产模型爆发月K2 / GLM-4.5 / Step-3 / Qwen-2507,无论是编程能力、Agent 能力,还是多模态能力,已经完全不输第一梯队的海外模型了。更重要的是:这些国产模型都是开源的

✦ 海外模型里,马斯克预热了很久的 Grok-4 终于发布。但是大家趁着新鲜体验了一下以后,就没有以后了。

✦ 虽然国产模型距离 SOTA 还有一点点距离,但其出色的性价比和丰富的开源生态,足以让人忽略这点效果差异。2025年7月,我们可以很自信地说:语言模型领域,中美正在进行同等水平的竞争。

2. 图像

✦ 图像领域本月没有让人兴奋的新模型,各家普遍在审美、性价比、一致性方面继续改进。

✦ 现在的图像编辑模型,不仅能理解图片,还能在生成新图片时与参考图片保持不错的一致性。目前,图像编辑类应用的开发难度几乎为 0,竞争差异点居然也落在了提示词上。

3. 视频

✦ 可能是从图像领域获得了灵感?视频领域也出现了更智能的编辑模型——让模型理解视频,并基于自然语言对视频进行修改,成了视频模型的新潮流。我大胆预测一下,最多 2 个月,国产开源的智能视频编辑模型就会出现。

✦ 或许是受限于当前视频生成的原理,视频模型不再卷极致的物理真实性或细节完整度了,而是在往成本更低、生成更快、时长更长的方向在发展。人类逐渐接受了那些细节瑕疵,转而将 AI 视频视作一种全新的创作模式。

4. 音频

✦ 受到其他领域 Generation by Understanding 理念的影响,音频生成领域也有了新趋势:让模型先理解文字,再生成与文字情绪对应的配音。这导致现在的 AI 配音,不仅听起来非常逼真,甚至还有了「情感」和「灵魂」。

5. 3D

✦ 让人眼前一亮的新进展出现在 3D 领域:生成多个可组合的 3D 零部件,再装配成一个高度可控的完整模型。相较于之前单一且复杂的「空壳」,新模式在 3D 动画与工业制造等场景中的实用性大大提升。

✦ 3D 领域另一个新范式:不再满足于捏单个物体,而是直接批量产出 N 个元素,并实时拼装成可交互的完整场景。这是 3D 世界的 Scaling Law。

6. 机器人

✦ 开源项目最能折射行业真实水平。就目前的机器人开源生态来看,机器人行业仍处于较为初级的阶段

✦ 尽管人形机器人的演示总让人眼花缭乱,以为未来已来。但事实是,我们仍需保持理性,做好长期发展的准备

7. 应用

✦ Coding 领域最新高频热词:全栈全自动。类比于自动驾驶分级,AI Coding 同样锚定了 L4 级全自动编程,同样也处于 L2.5 – L3 的发展阶段。

✦ 通用 Agent 赛道本月已无新者入局,但是垂直赛道正加速扩展,尤其是金融影像两个方向值得重点关注。

8. 新闻/融资

✦ (上个月和)本月 AI 领域的收购新闻突然大量增加。在历史进程里,这是 AI 行业从「春秋」到「战国」的转折点吗?


🧭 7月AI行业时光机

7 月 1 日

图像 | Hassan El Mghari 开源 EasyEdit 秒级快速修图的图片编辑工具→ 这位开发者帮 Together 做了挺多不错的应用 Demo

应用 | RockFlow 上线 Bobby 生成投资策略并完成交易的智能体 → 金融领域的垂直 Agent 开始大量出现

融资 | xAI 完成 100 亿美元债务及股权融资 → 估值达到 1130 亿美元,仅仅次于 OpenAI 和 Anthropic

融资 | Grammarly 宣布计划收购 AI 邮件应用 Superhuman → 将一个小的场景做到极致,然后慢慢扩张到更大的场景,也可以变成巨头

7 月 2 日

模型 | 智谱 开源 GLM-4.1V-Thinking 多模态视觉大模型→ 智谱这个月开始发力开源模型,这是第一波

应用 | 百度搜索十年来最大改版 → 这是百度不得不做的防守动作

7 月 3 日

应用 | LibLib 发布星流 Agent 多模态创意设计平台(Lovart 中国版)→ 全换成国产模型后,效果与 Lovart 有什么样的差异呢

7 月 4 日

音频 | 阿里巴巴 开源 ThinkSound 视觉动态感知的音频生成模型→ 实测无法生成人声对话,离 Veo3 的配音能力还是有差距

应用 | Harvey 上线面向法律领域的深度研究功能

7 月 5 日(无)

7 月 6 日

音频 | 上海创智学院 X 复旦大学 X 模思智能 联合开源 MOSS-TTSD 对话语音生成模型→ 自动情感控制已经成为 TTS 领域的新趋势

7 月 7 日

3 D | 腾讯 Hunyuan3D-PolyGen 美术级高精度 3D 生成模型 → 腾讯在 AI 3D 生成领域持续领先

7 月 8 日

模型 | Hugging Face 完全开源 SmolLM3 混合推理小模型→ 开源得很彻底,科研意义大于实用意义的一个模型

视频 | Moonvalley Marey 版权合规的影视级视频生成模型 → 使用完全拥有商业授权的素材进行训练,生成的视频是否容易显得平庸呢

7 月 9 日

机器人 | Hugging Face 开源 Reachy Mini 桌面机器人 → 在开源模型社区稳坐全球第一后,HF 开始往开源机器人方向探索

应用 | Google Gemini 个人助手登录 Wear OS 智能手表 → 作为交互空间很有限的可穿戴设备,基于 AI 的自然语言交互是非常合适的

应用 | Perplexity Comet AI 浏览器,融合搜索与智能体任务 → 不知道 Comet 会有哪些原创功能呢?期待!

7 月 10 日

模型 | 上海人工智能实验室开源 SFE 科学认知评测基准

应用 | Perplexity 集成 Coinbase 实时的加密货币数据 → 搜索产品开始接入一些垂直数据来差异化竞争。而金融又是数据最丰富的领域,自然成为首选

7 月 11 日

模型 | 月之暗面 开源 Kimi K2 基础模型,专为编程与 Agent 任务设计→ 这个模型有「小Claude」之称,在开源领域火了一把,打响了 7 月国产模型占领开源领域的第一枪

音频 | 哔哩哔哩 宣布开源 IndexTTS2 语音合成模型

视频 | 爱诗科技 PixVerse(拍我AI)多关键帧生成功能 → 通过多关键帧将 AI 视频一次生成的时长拉长到 30 秒,很妙的主意

图像 | Black Forest Labs 开放 Kontext Komposer 图像场景智能转换工具 → 本质就是预设了一堆提示词模板。可以在网站内通过 F12 来查看提示词

应用 | xAIGrok 进入 Polymarket  Kalshi 平台,强化金融预测市场的分析能力 → 马斯克在加密货币上,确实比其他公司走得更快

融资 | Meta 收购语音初创公司 PlayAI → Meta 不仅到处买人,还开始买企业了

7 月 12 日

模型 | xAI 发布 Grok 4 多模态推理模型和 Ani 二次元伴侣 → 发布后就没什么声音了,从性价比/功能上都相对平庸

机器人 |-  Hugging Face 开源 The Amazing Hand 八自由度人形机器人手

7 月 13 日(无)

7 月 14 日

应用 | 美图 发布 RoboNeo Agent 一句话搞定影像生产力 → 美图在图片编辑领域有非常多的 Know-How,这是其他创业公司难以企及的

应用 | Amazon 发布 Kiro 全流程开发 AI IDE → Kiro 开启了 AI Coding 领域 spec 新潮流

7 月 15 日

模型 | LG 开源 EXAONE 4.0 混合推理模型→ 可能是出于国家形象的考虑,韩国人终于有了自己的小模型 🤏

音频 | Mistral 开源 Voxtral 语音识别模型→ Mistral 近期开源了一系列性价比很出色的小模型,也算是差异化竞争

应用 | 秘塔 免费开放深度研究功能开放动态问题链 → 推理路径的可视化做的非常出色,是深度研究领域里让人眼前一亮的产品

应用 | Anthropic 上线 Claude Connectors,通过 MCP 协议连接外部服务 → Connector 的概念应该会在 Agent 领域越来越普及

应用 | Figma Make 集成 Supabase 实现 AI 驱动的全栈开发 → Supabase 不约而同成为了几个 Agent 产品的共同选择

融资 | Cognition(Devin)全面收购 Windsurf→ Windsurf 收购的 Drama 大戏终于落下帷幕 💥

新闻 | NVIDIA H20 芯片 2025 年对华供应解禁始末 → 未来中国可以没有英伟达,但是英伟达不能没有中国。

7 月 16 日

视频 | Runway Act-Two 高精度运动捕捉模型 → 实测下来,比 Act-One 动作模仿更加细腻,多了很多原模型忽略的细节动作

视频 | Lightricks 开源 LTXV 实时视频生成模型,生成 60 秒原生长视频→ 确实可以生成 60 秒的视频,但是内容同质化严重,像是为了长而长

应用 | Anthropic 发布金融行业数据分析方案(Claude for Financial Services )→ Anthropic 开始往垂直 Agent 领域进行尝试。先通用,再垂直。

应用 | MiniMax Agent 推出全栈开发功能 → Minimax 这个通用 Agent 产品的亮点在于优秀的后端能力,做到不仅仅是个前端 Demo

7 月 17 日

应用 | Google 再次升级 AI Mode,集成深度研究学习功能 → Google 不仅模型出色,产品也是顶级水平 💯

应用 | 特工宇宙上线观猹平台,AI 产品的大众点评 → 流量侧还需努力,这样开发者才有动力发布

融资 | Lovable 完成 2 亿美元 A 轮融资,估值达 18 亿美元

7 月 18 日

应用 | OpenAI 发布 ChatGPT agent 任务处理智能体系统 → 通用 Agent 基本模式,已经演变为每项任务启动一台虚拟机

模型 | Upstage 实验室发布 Solar Pro 2 韩语增强的混合推理模型

视频 | Decart 正式开放 MirageLSD 实时交互式视频生成模型 → 一个实时的 AI 视频滤镜,40 毫秒的延迟已经低于中美之间的通信延迟了,非常夸张 😱

融资 | Anysphere(Cursor)人才收购初创公司 Koala → AI Coding 这个领域,还是 B 端才有真正的付费能力

7 月 19 日

3 D | Scenario 上线 PartCrafter 智能部件分割功能,一键生成可编辑 3D 组件 → 3D 生成的新趋势:生成单个 3D 模型 → 生成多个 3D 零部件 → 最终组成一个 3D 模型

7 月 20 日(无)

7 月 21 日

模型 | 快手 KAT-V1 自动思考大模型,自动切换思考形态 → 如何控制思维链的长度,一直是推理模型的一大工程难点 🚩

应用 | TRAE SOLO 2.0 发布全流程自动化编程智能体 → 国产 Coding Agent 从功能上也赶上了海外的产品

7 月 22 日

机器人 | 字节跳动 发布 Seed GR-3 通用机器人模型 & ByteMini 双臂机器人

应用 | 腾讯 CodeBuddy 全栈开发 AI IDE

应用 | 智源研究院 开放 FlagRelease 大模型自动迁移平台 → 「不再受制于单一硬件厂商」是指谁呢 👀

7 月 23 日

模型 | 阿里巴巴 开源 Qwen3-Coder 编程模型刷新开源 SOTA→ 模型和产品其实不错的,但是被「爆账单」的事情给掩盖了不少光芒 😥

模型 | 上海科学智能研究院 X 复旦大学 X 无限光年 联合开放星河启智科学智能开放平台

图像 | Neta.art(捏Ta)开源 Neta Lumina 轻量级动漫文生图模型

音频 | BosonAI(李沐)开源 Higgs Audio V2 多模态音频模型→ 实测下来,此模型无需额外提示词指引,可以直接理解文本内容并生成对应情感的配音,效果不错 🏆

视频 | Hedra Live Avatars 基于图像的实时交互数字人方案 → 简单的说,就是可以和 AI 虚拟人物面对面的打视频了

应用 | 零一万物 万智平台发布企业级 Agent 智能体解决方案

新闻 | AdventureX 2025 全球黑客松(第二届)在杭州举办

新闻 | 美国发布 AI Action Plan,巩固其全球领导地位

7 月 24 日

模型 | 阿里巴巴 Qwen-MT 高性能多语言机器翻译模型 → 阿里对于商业价值比较高的模型,开始渐渐地不开源了

模型 | RWKV 开源 RWKV7-G0 7.2B 纯 RNN 架构推理模型

图像 | Higgsfield Steal 图像复刻浏览器插件 → 本质上是一个图片提示词反推工具

音频 | 字节跳动 Seed LiveInterpret 2.0 端到端低延迟同声传译模型

应用 | Microsoft 上线 GitHub Spark 全栈应用开发工具 → 全栈开发能力,逐渐成为 AI Coding 工具的标配。

融资 | 像素绽放 完成 B3 轮战略融资 → AI PPT 下一步,是不是 AI Excel 或 AI Word 呢

7 月 25 日

应用 | 上海人工智能实验室 开放 Intern-Discovery 书生科学发现平台 → 垂直数据+垂直工具=垂直Agent

3 D | 群核科技 开源 InteriorGS 适用于智能体自由运动的大规模 3D 数据集 → 感觉可以很快应用在扫地机器人上

机器人 | 上海人工智能实验室 发布 Intern-Robotics 一脑多形的具身智能全栈引擎

应用 | Google Labs 上线 Opal 基于自然语言开发 Mini 应用 → 用自然语言创建和编辑工作流,国内产品可以开始学起来了

应用 | Anysphere(Cursor)开放 Bugbot AI 代码审查工具 → 以前是 AI Coding+人Review,现在可以 AI Coding+AI Review,闭环了

应用 | 财联社 X 阶跃星辰 联合发布财跃星辰「AI小财神」,最新上线金融深度研究Pro

7 月 26 日

模型 | 上海创智学院 X 无问芯穹 联合开源 Megrez2.0 终端本征大模型

模型 | 上海创智学院 X 华东师范大学 联合开源 启创•InnoSpark 1.0 教育专用大模型

音频 | 阶跃星辰 Step-Audio 2 理解/推理/生成三合一的端到端语音模型 → 看了演示视频,真人感很强,反应迅速,有跟真人聊天的感觉了 💬

视频 | Runway Aleph 自然语言智能视频编辑系统 → 自然语言的视频编辑,会是视频模型的新标配功能

应用 | 京东 开源 JoyAgent 端到端企业级通用智能体

新闻 | 世界人工智能大会 WAIC 2025 暨人工智能全球治理高级别会议在上海成功举行

7 月 27 日

模型 | 上海人工智能实验室 开源 Intern-S1 多模态科研大模型→ 书生系列在科研方向发力,和 Qwen 系列开始有差异化

3 D | 腾讯混元 3D 世界模型 1.0 开源,最新可交互 3D 世界生成模型→ 之前是生成一个物体,现在是生成 N 个物体组成一个场景

应用 | 阿里巴巴 发布夸克 AI 眼镜,融合阿里生态的自研旗舰硬件

7 月 28 日

模型 | 智谱 开源 GLM-4.5 推理/编程/智能体三合一模型→ GLM-4.5 的发布,让国产模型彻底占领了开源榜单 🏆

视频 | 阿里巴巴 开源通义万相 Wan2.2 视频生成模型→ 视频模型也开始玩 MoE 了

应用 | 扣子(Coze)开源核心引擎→ 虽然被吐槽开源的不够彻底,但是其核心源码已经相当有价值了

应用 | 金山 WPS 灵犀原生 Office 办公智能体

融资 | E2B 完成 2100 万美元 A 轮融资 → 乘着 Manus 的东风,虚拟机成为了通用 Agent 的必备基建

7 月 29 日

应用 | Microsoft Edge 浏览器推出 Copilot 模式 → AI 公司做 AI 浏览器。传统公司在浏览器加上 AI 功能。大家更看好哪条路呢 ❓

7 月 30 日

图像 | 昆仑万维●开源 Skywork UniPic 多模态统一预训练模型→ 又一个中国版的 gpt-image-1,优势是模型特别小,只有 1.5B

视频 | Luma 上线基于自然语言的视频编辑功能→ Runway 有的功能,Luma 必须也有

应用 | OpenAI ChatGPT 上线互动学习模式 → 提示词也可以达到差不多的效果

应用 | NotebookLM上线视频概览生成幻灯片摘要

7 月 31 日

模型 | GoogleGemini 开放Deep Think 高阶数学推理模型(IMO 金牌

模型 | 阶跃星辰 开源 Step 3 多模态推理模型→ 算是第一个国产的开源多模态推理大模型

模型 | 小红书 开源 dots.ocr 多语言文档解析模型→ 实测效果确实 SOTA,小红书还真有东西 🍠

模型 | 阿里巴巴 开源 Qwen-0527 继续发布 235B、30B、4B 系列模型→ 把原来的混合推理模型拆开了,也就是未来的混合推理不是靠模型内部,而是靠路由

图像 | Black Forest Labs X Krea AI 联合开源 FLUX.1 Krea [dev] 高真实感文生图模型→ 在图像模型领域,美学风格也是很重要的差异性

图像 | Ideogram Character 单张参考图的角色一致性模型 → 有点像换脸,电商行业的刚需

应用 | Genspark 上线 AI Slides 2.0 演示文稿生成工具,提供数百套模板 → 又回归了「套模板」这种最原始的方式。看来靠 HTML 生成的「PPT」,无法绕过二次编辑这个槛 🤔

应用 | Manus 上线 Wide Research 数百个项目并行研究系统 → 从串行架构到并行架构,是 Agent 发展的必然。可是在 2025 年这个时间点,成本能 Hold 住么?

应用 | NEO 机器学习工程师智能体 → 本质就是一个垂直编程领域的 Agent,适用用户比较窄

应用 | Jenova 转型 MCP 生态多工具智能协作平台

新闻 | Figma 成功上市,首日股价飙升 250%


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 2025 年 4 月 25 日 下午6:58

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注