302.AI 赛博月刊丨Vol.7 90天定律:从落后到突围,国产AI的崛起周期

302.AI 赛博月刊丨Vol.7 90天定律:从落后到突围,国产AI的崛起周期

AI 行业大事记

2025 年 7 月

联合出品:

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心

说明:

① 本期月刊收录 AI 行业大事共 106 件;

② 本文分类中的「模型」均指代语言模型;

③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种方式;

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc(期待互动👏👏👏)


👀 6月AI趋势观察

1. 模型

✦ 这个月顶尖海外模型只有 o3-Pro 发布,给了国产模型一个窗口期,迎头赶上。例如字节的多模态推理模型 Seed-1.6,从功能上已经不输任何海外模型。

✦ 模型在垂直领域峥蓬勃发展,比较热门的是工具调用(Agent)和 Coding,刚好也代表了应用层面的两大热门板块。夸克的高考模型和网易的数学模型也让人眼前一亮,正如我上个月所说,垂直领域的模型还有很多的机会

2. 图像

✦ Seededit 3.0、OminiGen2 和 Qwen VLo 的出现,代表着 GPT-Image-1 的秘密仅过了 3 个月就已被中国公司完全破解。目前效果上的差异主要来源于训练数据的不同,因此,在图像编辑领域,国产模型的全面超越仅是时间问题。

✦ 从功能的角度来看,图像模型领域的所有拼图已经完备,未来不同厂商的模型,应该就是审美和商业策略的竞争了。

3. 视频

✦ 字节和 Minimax 在视频上继续发力,都推出了新的模型,效果继续小幅度提升,与可灵相比各有千秋。OpenAI 应该想不到,最早由 Sora 开拓的视频领域,现今已是中国人的天下。

✦ 除了 Veo3,目前尚未出现其他能够直接生成有声视频的模型,但可灵已经取得相关的研究进展,估计很快就会面市。

✦ 视频的 Agent 产品开始陆续出现,通过 Agent 去自动拼接和剪辑视频,这可能才是突破视频模型生成时长限制的最优解决方案。

4. 音频

✦ 配音领域,比较亮眼的是字节的语音播客模型,能够生成极为生动的双人对话。可以预见,音频模型在自动化分析情感方面仍然有进一步发展的空间。

✦ 音乐领域,腾讯的开源模型效果已经堪比 Suno 早期的版本,可以预见,Vibe Music 领域很快也会被开源模型拿下。

5. 3D

✦ 这个月只有腾讯继续在 3D 领域进行更新,生成的模型质量又有了一些提高,不愧是游戏行业的领头羊

6. 机器人

✦ 机器人的大脑(模型)还未成熟,所有研究都在早期阶段。

✦ 两家头部的机器人公司恰好都在这个月完成了大额的融资,预计是在为较长的研发周期做好准备。

7. 应用

✦ Coding 领域竞争激烈,任何一家推出新功能,很快便会被所有竞争对手效仿。几乎所有大厂都推出了自己的 AI Coding 产品,不由得让人联想到当年模型大战的情形。最终受益的还是用户,编程会变得越来越简单。

✦ Agent 领域开始分化。一边分化到了垂直领域,例如专注于信息搜索或多媒体创作的 Agent;另一边分化到了浏览器,因为相比网页,浏览器有更广泛的本地权限可供使用。

✦ 随着端侧模型的发展,端侧应用开始有些起色。首先是苹果在新系统上开放了端侧 AI 的接口,开发者会更加容易开发出 AI 应用。另外,AI 眼镜逐渐成为各厂商常见的数码产品,这会为 AI 应用带来一个巨大的新入口。

8. 新闻/融资

✦ 这个月没有看到任何模型公司获得融资,反而是拿到大额融资的应用公司开始推出自己的模型。未来,模型公司开发应用,而应用公司开发模型将会变得相当普遍。从今往后,可能不必再区分一家公司是从事应用还是模型,只是起点不同,最终殊途同归。

✦ 美国 AI 行业的资本市场已经有些疯狂,过亿美金的跳槽费,20 亿美金的种子轮,百亿美金的投资,这背后有不少都是 Meta 的手笔。这到底是 FOMO 的泡沫,还是 AI 真的可以带来万亿美金的市场?在 25 年中这个节点,这个问题似乎还没有明确的答案。


🧭 6月AI行业 时光机

6 月 1 日

| 新闻 |AGI Bar 开业 ,北京中关村迎来「泡沫最大」的 AI 主题酒吧→ 面对面的交流,会比网上的聊天更有意思 🍻

| 应用 |阿里巴巴 上线通义灵码 AI IDE,辅助完成复杂编程任务 → 阿里不再满足于只做其他 IDE 的插件,这次发布了一个完整的 AI IDE 👩‍💻

6 月 2 日

| 视频 |Luma AI Modify Video 视频后期工具,保留动态的同时一键改风格、换场景 → Video2Video 是现在国产模型比较欠缺的地方,Luma 获得了领先 🚀

| 应用 |Character.AI 从文本聊天向多模态世界演进,打造沉浸式角色体验 → AI 陪伴领域已经不满足于文字聊天了,在用更多的模态来增强体验 💕

| 融资 |IBM 收购数据分析初创公司 Seek AI

6 月 3 日

| 模型 |蚂蚁集团 X 清华大学 开源 AReaL-boba² 全异步强化学习训练系统,RL 训练提速 2.77 倍 → 强化学习(RL)训练的基建之一 👍

| 音频 |Fish Audio 发布 OpenAudio S1 并开源 S1 Mini 高可控多语言 TTS 模型

| 视频 |TikTok 上线 Symphony Creative Studio 创意视频生成工具,一键生成 TikTok 广告 → Tiktok 推出此工具,是否意味着其支持平台展示更多 AI 生成的内容呢 ❓

| 机器人 |Hugging Face 开源 SmolVLA 机器人模型,消费级设备本地流畅运行

| 新闻 |Anthropic 中断合作,Windsurf 平台紧急调整 Claude 模型服务 → 对于 AI 应用公司,过度依赖某个闭源模型是一项重大风险因素 💥

6 月 4 日

| 应用 |Mistral Code智能编程客户端,支持私有化微调 → AI IDE 真的是兵家必争之地,而 Mistral 从模型层面找到了差异性 🎯

| 融资 |AMD 收购 AI 软件优化团队 Brium,并整合芯片公司 Untether AI 工程团队 → 希望 AMD 可以在推理方向打破英伟达的垄断 💪

6 月 5 日

| 模型 |阿里巴巴开放 WebDancer 自主多跳推理智能体,从零训练一个 DeepResearch 类智能体

|模型 |EleutherAI 开源 The Common Pile v0.1 语料库(8TB)&& Comma 模型

| 应用 |Anysphere(Cursor)1.0 版本重要更新,支持代码审查与多任务后台处理 → Cursor 终于 1.0 版本了!但其已不再处于最领先地位 👀

6 月 6 日

| 模型 |面壁智能 MiniCPM 4.0 端侧稀疏大模型,7 倍速长文本处理 → 至今还专注于小模型的公司已经不多了 🏆

| 模型 |阿里巴巴 开源 Qwen3 Embedding & Reranker 文本嵌入与排序模型 → Qwen 家族在开源领域的覆盖范围真的非常广泛 👑

| 模型 |小红书 开源 dots.llm1 文本大模型 → 非常彻底的开源,好评,对学术研究帮助很大 🎊

| 图像 |字节跳动 SeedEdit 3.0 通用图像编辑模型,准确遵循编辑指令 → 图像编辑领域,国产模型已经迎头赶上 👏

| 音频 |ElevenLabs Eleven v3 文本转语音模型,最具表现力的 TTS 模型

| 视频 |Higgsfield AI 上线 Higgsfield Speak 数字人视频生成工具,快速制作说话视频 → 效果一流,但最长只能生成 14 秒的视频 🎥

| 应用 |爱诗科技 AIsphere 发布国内版「拍我 AI」视频生成应用 → 先出海,再回国内,成为了 AI 应用公司的一个经典路线 🎠

| 应用 |智谱 AMiner 沉思学术搜索工具,5 分钟生成万字研究报告 → 算是学术论文这个垂直领域的 Deep-Research 🔍

6 月 7 日(无)

6 月 8 日(无)

6 月 9 日

| 模型 |智源研究院 开源悟界 Emu3 原生多模态世界模型,统一多模态的理解与生成 → 可以预见,国产的全模态模型很快就会爆发 🌋

| 模型 |智源研究院 开源悟界 OpenComplex 2 全原子微观生命模型

| 图像 |智源研究院 开源悟界 OmniGen2 统一图像生成模型 → gpt-4o 级别的图像生成,已经不再是秘密 🔑

| 模型 |智源研究院 开源悟界 Video-XL-2 轻量级长视频理解模型 → 模型参数只有 8B,很适合融入本地部署的工作流 👍

| 机器人 |智源研究院 开源悟界 RoboOS 2.0 && RoboBrain 2.0 新一代具身智能系统

| 应用 |智谱 CoCo 企业级智能助手,安全接入内部资源赋能业务

| 应用 |商汤小浣熊 上线 AI 数据分析助手任务规划助手,交互式分解复杂任务 → 大模型公司做应用,有点降维打击的感觉 🤏

| 融资 |硅基流动 完成数亿元人民币 A 轮融资 → 很好奇,硅基流动拿了这么多钱会投入哪个领域,是模型还是应用呢 🤔

6 月 10 日

| 模型 |Mistral AI 发布 Magistral 多模态推理模型系列

| 图像 |KREA AI推出 Krea 1 图像生成模型,解决 AI 感并支持风格参考 → AI 应用公司开发自身模型,已成为众多应用公司在获得大额融资后,优先考虑的事项 💰

| 应用 |Apple WWDC2025 发布重磅更新,Apple Intelligence 进展缓慢 → Apple 设备即将成为最广泛应用的端侧 AI 模型设备 📱

| 应用 |美团 NoCode AI 页面生成工具,聊天式完成应用开发 → 美团居然也开发了一个 vibe coding 工具❗ 之后会成为美团商家版的功能之一吗 ❓

6 月 11 日

| 模型 |字节跳动 Seed1.6 多模态通用模型,推理能力达到全球第一梯队→ 国产模型中,参数最大的多模态推理模型,字节又一次领先 👏

| 模型 |OpenAI o3-pro 旗舰推理模型,深度思考,高可靠,低成本 → o3-pro 已经不像一个模型了,更像一个 Agent 👀

| 音频 |字节跳动 豆包·语音播客模型,秒级生成双人对话式播客 → 效果非常惊艳,期待尽快开放 API 💯

| 视频 |字节跳动 Seedance 1.0 pro 视频生成基础模型,支持多镜头叙事 → 实测下来,视频领域字节居然也领先了 ❗❗❗

| 应用 |Windsurf 推出 Planning Mode 规划模式,高效处理长周期任务→ AI IDE 已经进入了抄来抄去的阶段,不抄就落后 ⚔

| 应用 |Genspark AI 浏览器,内置超级 AI 与 700+ 工具扩展 → 印证了我上个月的观点:与其做一个网页版的 Agent,那为什么不进一步做个客户端呢 👀

| 应用 |The Browser Company 内测 Dia AI 浏览器,以 AI 为核心重塑浏览体验

6 月 12 日

| 模型 |阿里巴巴 夸克基于高考志愿大模型,精准推荐院校与专业

| 机器人 |Meta V-JEPA 2 自监督世界模型,实现零样本机器人控制 → 零样本机器人控制,是机器人发展的必经之路 🦿

| 应用 |字节跳动 PromptPilot 智能提示词优化平台 → 随着模型的发展,大家发现提示词越来越重要 💡

| 应用 |360 纳米 AI 超级搜索智能体,打破信息壁垒交付答案 → 360 在产品的嗅觉上,确实很灵敏 🧐

| 应用 |Windsurf 浏览器与编辑器无缝集成的 AI 浏览器 → IDE 也集成浏览器了,意料之外,情理之中 👩‍💻

6 月 13 日

| 应用 |腾讯 元宝高考志愿咨询功能上线,可生成专属志愿报告

| 应用 |小红书 站内上线 问一问 AI 搜索功能 → 入口过于隐蔽,说明对效果还是不够自信,什么时候可以作为搜索的第一屏呢 ⏳

| 融资 |Scale AI 获得 Meta 重大投资,估值超过 290 亿美元,首席执行官 Alexandr Wang 离职 → Meta 正式开启 AI 战略的新篇章 🚩

6 月 14 日

| 应用 |百度地图 推出 小度想想 司机智能体,导航进入全语音自由交互时代

| 3 D |腾讯 开源混元 3D 2.1 生成模型,纹理光影升级,支持多材质工业级建模 → 不愧是游戏大厂,这个模型在腾讯内部应该是可以实打实产生效益的 🎮

6 月 15 日

| 视频 |百度罗永浩数字人直播首秀,GMV 超 5500 万的拟真互动突破 → 百度这个数字人的效果确实很出色,让人眼前一亮 👍

6 月 16 日

| 模型 |月之暗面 开源 Kimi-Dev-72B 代码模型,刷新开源代码生成榜单纪录 → 基于通用模型再训练的垂直模型,是一个大趋势 💡

| 音频 |腾讯 开源 SongGeneration 音乐生成大模型,高音质、强音乐性、极速生成 → 可以生成带人声的歌曲,生成的歌曲有 Suno-v3.5 的那个味了,离 v4.5 还差一点 🎵

6 月 17 日

| 模型 |Minimax 开源 MiniMax-M1 混合架构推理模型,支持百万级长上下文 → 实测不如字节的 Seed-1.6,但胜在开源 👏

| 应用 |腾讯 元宝 AI 编程模式,支持在线运行多种语言→ 支持 Python、C++、Java 等语言在线运行是一个很独特的地方,自己有云就是不一样 ☁

6 月 18 日

| 视频 |Minimax Hailuo 02 视频生成模型,兼具顶尖效果与成本效益 → Minimax 模型覆盖面也相当广,可用性也不错 🎥

| 应用 |Ling 灵宇宙 AI 学伴「小方机」,多模态交互式儿童学习终端 → 让人眼前一亮的硬件形态,我感觉很快会看到面向成年人的版本 👀

| 图像 |Higgsfield AI 开放 Higgsfield Canvas 图像编辑工具,实现像素级产品植入 → 基于自研的图像模型 Soul 做的一个小应用 🖼

| 融资 |Glean 完成 1.5 亿美元 F 轮融资,估值达到 72 亿美元 → 国内暂时还没有对标的公司,国内还都在卷 C 端产品,企业服务算是国内 AI 领域的蓝海 ⛵

| 融资 |Wix 以 8000 万美元现金收购 Base44 → 据说 Base44 只有 8 名员工,人均贡献 1000 万美金 💰

6 月 19 日

| 视频 |Midjourney V1视频生成模型,图像一键生成视频并支持动态调节 → MJ 终于出视频模型了,用户不用再把图片复制到其他平台来生成视频了,视频生成功能逐渐成为图片生成平台的标配 🎥

| 视频 |Niji Video 二次元视频生成模型,图像一键生成动漫风格视频

| 应用 |Minimax Agent通用智能体,具备专家级多步规划能力 → 又一个类 Manus 产品,评价褒贬不一 🤔

| 应用 |智象未来(HiDream)vivago 2.0 平台上线,打造全能型创作助手

| 融资 |宇树科技 完成 C 轮融资交割,投前估值超 100 亿元 → 作为机器人的头部企业,估值相对 AI 行业较为合理 🦿

| 新闻 |筑梦岛 因诱导未成年人产生不良内容被政府约谈

6 月 20 日

| 模型 |月之暗面 Kimi-Researcher 深度研究智能体,具备自主解决复杂问题能力 → 专门为了deep-research 训练的模型,最终效果确实不错 👏

| 应用 |Minimax 发布 Hailuo Video Agent 视频创作智能体,输入想法即可生成完整短片

| 应用 |Meta X Oakley 联合发布 Oakley Meta HSTN 智能运动眼镜,内置 Meta AI 助手 → AI 只是个幌子,本质上想抢占的其实是 GoPro(运动相机)的市场 👓

| 融资 |Thinking Machines Lab 完成 20 亿美元种子轮融资,估值达到 100 亿美元 → 种子轮的金额已经超越了 80% 的上市公司 💰💰💰

6 月 21 日(无)

6 月 22 日(无)

6 月 23 日

| 模型 |网易 开源 Confucius3-Math 数学教育模型,能在消费级 GPU 高效运行 → 非常有特色的开源垂直模型,很适合教育领域👍 希望更多企业能够聚焦于开发专业领域的模型,而非通用模型

| 音频 |Minimax 上线 Voice Design 音色设计功能,通过自然语言描述定制音色 → text-to-voice,让世界上不再有相同的音色 🔊

| 应用 |百度文心快码 发布 Comate AI IDE,并且支持设计稿一键转代码

| 融资 |银河通用 完成新一轮 11 亿融资

| 融资 |Harvey 完成 3 亿美元 E 轮融资,估值达到 50 亿美元 → 可以预见,垂直领域还有非常多的机会 🎯

6 月 24 日

| 机器人 |Google 开放 Gemini Robotics On-Device 端侧 VLA 模型,支持微调,本地运行

| 音频 |ElevenLabs 内测 11.ai 语音助理,语音驱动的工作流引擎 → 语音模型公司开始往实时对话的方向发力,最终目标应该是实时对话的 Agent 🧐

| 融资 |Wispr Flow 完成 3000 万美元 A 轮融资 → 语音转文字,尽管听起来简单,但事实上想做好还是颇具挑战性的 🥇

6 月 25 日

| 音频 |ElevenLabs 发布 Voice Design v3 角色配音设计工具,通过文本提示生成任意 AI 声音

| 应用 |Google 推出 Gemini CLI 命令行工具,一款强大的 AI 智能体终端 → Claude Code 火了之后,Google 立刻推出了复刻版,AI Coding 的竞争真的是很激烈 ⚔

| 应用 |FellouWindows 版正式上线,Your First AI Browser on Windows → AI 浏览器,可能会成为继 AI IDE 之后的又一战场 ⚔

| 应用 |商汤 推出咔皮记账 AI 财务助手,自动记账与消费复盘

6 月 26 日

| 模型 |Jina AI 开源 Embeddings V4 多模态向量模型,为高级搜索而生 → RAG 领域开始往多模态的方向发展 🚩

| 图像 |Black Forest Labs 开源 FLUX.1 Kontext [dev] 图像编辑模型,性能媲美专有模型 → 虽说是开源,但是有非常严格的商业限制,需要花钱购买商业许可 😐

| 视频 |HeyGen 上线 Video Agent 视频创作助手,一句话生成完整视频

| 应用 |蚂蚁集团 X 支付宝 联合推出 AQ 健康应用,内置名医 AI 分身 → 不知道支付宝如何解决 AI 的幻觉问题呢 🤔

| 图像 |Higgsfield AI 上线 Higgsfield Soul 高美学时尚大片生成工具 → 生成的图像与 Ins 上的图片极为相似,真假难辨👍 再次验证了 Higgsfield 在内容生成方面的敏锐洞察力👏

| 融资 |OpenRouter 完成 4000 万美元(种子轮+A 轮)融资 → 很好奇,他们未来的战略是应用开发还是模型研究呢 ❓

6 月 27 日

| 模型 |Google 开源 Gemma 3n 端侧多模态大模型,2B 内存占用实现卓越性能 → 第一个可以端侧运行的、支持视频分析的模型 📱

| 模型 |快手 开源 Kwai Keye-VL 多模态模型,高考数学 140 分 → 作为 8B 的模型,这个表现很出色👍 看来快手不仅仅只有视频模型的研发能力 👀

| 模型 |Zilliz 开源 VDBBench 1.0 向量数据库测试基准,更贴近真实生产场景

| 模型 |腾讯 开源混元 A13B 混合推理模型,256K 长文处理与强化 Agent 能力

| 图像 |阿里巴巴 Qwen VLo 多模态统一理解与生成模型,精准理解并支持开放指令编辑 → 短短三个月,全模态模型背后的奥秘已被揭示,目前表现上的差异主要源于训练数据 🧩

| 音频 |快手可灵 Kling-Foley 多模态视频音效生成模型,高同步性立体声生成 → 可以预见,下一个版本的可灵将会和 Veo3 一样,可以直出带声音的视频了 👏

| 应用 |小米 AI 眼镜,集相机、耳机与 AI 交互于一体的智能设备 → 主要功能还是摄像和耳机,AI 功能还远未成熟 👓

| 应用 |Google Labs Doppl AI 虚拟试衣应用,动态展示穿搭效果 → 原理应该就是虚拟穿衣+视频生成 🧐

| 应用 |Google Labs搜索结果支持音频概览(Audio Overviews),用听的方式获取信息 → 对于搜索这类快速响应的场景,语音信息的速度会不会有点太慢了呢 🤔

| 融资 |OpenAI 整合电商 AI 推荐初创公司 Crossing Minds 团队

| 融资 |Suno 收购 AI 数字音频工作站 WavTool → Suno 应该是想往专业音乐创作的方向去发力了,而不仅仅是一个玩具 🎵

6 月 28 日(无)

6 月 29 日(无)

6 月 30 日

| 模型 |百度 开源文心 4.5 系列模型,包含 10 款 MoE 及稠密模型

| 模型 |华为 开源盘古 7B && 72B MoE 模型,基于昇腾硬件深度优化 → (无论模型如何🍉)能够快速高效的适配华为的显卡,也算是一大特色 🚀

| 应用 |字节跳动 豆包上线「深入研究」功能,支持报告与网页两种呈现样式 → Deep-Research 已经成为各个 C 端产品标配 🔍

| 应用 |Anysphere(Cursor)推出网页与移动端智能体,随时随地处理编程任务 → Cursor 已经不再满足只是一个 IDE,正在往直接交付结果的 Agent产品发展 👏

| 时间线 |Meta 重金投资 Scale AI 并成立 Meta Superintelligence Labs (超级智能实验室)事件始末 → Meta的大手笔让整个AI行业有点「通货膨胀」💰💰💰


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 5小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注