302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿

302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿

AI 行业大事记

2025 年 6 月

联合出品:

Jomy @ 302.AI

南乔 @ ShowMeAI

大聪明 @ 赛博禅心


说明:

① 本期月刊期次 2506(2025年6月),整理和分析的是上个月(5月)AI 领域里有重大意义和影响的各类事件;

② 本期月刊共收录 101 条内容;

③ 月刊分类中的「模型」均指代语言模型;

④ 完整版内容欢迎前往 WaytoAGI 专区查看「赛博月刊」飞书版 或关注302.AI公众号阅读→ https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc (期待互动👏👏👏)


👀 5月AI趋势观察

1. 模型

✦ 基础模型继续小步伐升级,这个月 Claude 4 系列不负众望正式面世,Deepseek R1 也出了小版本更新。

✦ 专注于 Coding 的小模型开始大量出现,并且在一些细分场景超越了大模型。可以预见,垂直领域模型还有非常大的发展空间。

2. 图像

✦ GPT-Image-1 的开源竞争者陆续出现,例如 Hidream-E1 和字节的 Bagel;但最有威胁的还是 Flux-Kontext,在元素一致性上彻底超越了 GPT-Image-1。

✦ 传统图像模型和全模态模型的边界逐渐模糊,GPT-Image-1 的神奇能力也不再是独家专有。

3. 视频/数字人

✦ 这个月最兴奋的进展来自 Google Veo3第一个可以原生生成人物对话的视频模型,让 AI 视频不再是哑剧。

✦ 开源视频模型在功能上逐渐追赶闭源模型,例如主体参考、元素编辑等等,开闭源的差距在逐渐缩小

✦ 基于开源视频模型的快速发展,数字人领域的进步也比较明显。数字人现在已经不再是对嘴型,而是根据主体参考重新生成的完整视频。

4. 音频

✦ 音乐生成领域,闭源模型 Suno 还在持续领先,开源模型也在慢慢追赶,但是至今开闭源还有比较大的差距

✦ 文字转语音(TTS)赛道已经没有太多创新,大家都是 90 分往 95 分努力,未来卷的应该就是性价比了。

5. 3D

✦ 3D 领域开始被模型公司投射注意力,背后应该是因为 3D 建模离商业化路径很短,比较容易产生收益

✦ Tripo 意识到了只有模型没有应用是不够的,开始亲自下场做原生 AI 3D 应用,直接提供端到端的服务。

6. 机器人

✦ 通过一场机器人拳击赛就能看出,头部机器人公司对于机器人的动作控制已经比较成熟

✦ 至于如何让机器人不通过预设的程序,而是自发的学会新的动作,世界模型应该是必不可少的。这个领域应该会随着自动驾驶领域的发展,很快有新的突破

7. 应用

✦ 应用大的方向主要还是集中在 Coding 和 Agent,没有新的范式出现。

✦ 这个月让人眼前一亮的应用是 Lovart.ai,第一个专注于设计的 Agent 产品,生成结果的可用性也不错。可以预见,各个领域的垂直 Agent 产品会是商业化的一条捷径

✦ AI 浏览器,会成为大厂之间 Agent 的另一个战场。与其做一个网页版的 Agent,那为什么不进一步做成客户端呢。

8. 新闻/融资

✦ 现在已经很少见到模型公司融资的消息了,模型大战已经结束,应用大战已经开启

✦ Coding 领域大战基本到了尾声,老大 Cursor 不到半年估值翻了 4 倍,老二 Windsurf 已被 OpenAI 收购。

✦ Agent 领域大战才刚刚开始,如同春秋战国时期,百家争鸣。


🧭 5月AI行业时光机

5 月 1 日

| 模型 |NVIDIA● Describe Anything Model(DAM)多模态模型,为图片和视频的指定区域生成描述(开源)→ 别家都是文字生成图片/视频,这个模型却专注于图片/视频生成文字 📺🖼→📝

| 模型 |Microsoft● Phi-4 推理模型,专注数学与编程等复杂推理任务的小模型(开源)→ 体验下来,不如 Qwen3 🙅‍♂️

| 模型 |Amazon● Amazon Nova Premier 教师模型,Nova 系列最强版本

| 图像 |HiDream 智象未来● HiDream-I1 图像生成模型 && HiDream-E1 交互编辑模型(开源)→ 相当优秀的国产开源图像模型 👍 可惜风头很快就被月底的 flux-Kontext 给盖过去了😥

5 月 2 日

| 图像 |Midjourney● Omni-Reference 全向参考功能 && MJ 近期重要更新汇总 → 在真正的全模态模型的猛烈攻势下,MJ 所剩的唯一优势可能就是审美了 🧐

| 音频 |Suno● Suno v4.5 音乐生成模型,音质与人声全面升级 → Suno 持续保持领先 🚀

| 新闻 |Sequoia Capital(红杉资本)AI Ascent 2025● 汇聚超 100 位 AI 领军人物,探讨行业未来发展

5 月 3 日(无)
5 月 4 日(无)
5 月 5 日(无)
5 月 6 日

| 模型 |智源研究院● 中文互联网语料库 CCI 4.0,扩展为多语种(开源)

| 模型 |智源研究院 X 南开大学● Chinese-LiPS 中文多模态语音识别数据集(开源)

| 模型 |360● 360Zhinao3-7B 新系列模型升级 && O1.5 推理模型开源 → 没有什么特色,感觉是战略性开源 😐

| 应用 |阿里巴巴● 通义灵码编程智能体上线 → 每个巨头都要做自己的 AI Coding 工具,但是都陷入了同质化的怪圈 💫

| 融资 |OpenAI 斥资 30 亿美元收购编程应用 Windsurf → OpenAI 没有选择自己开发,直接收购了业界老二,是因为老大不肯卖吗 👀

| 融资 |Anysphere(Cursor)完成 9 亿美元融资,估值达到 90 亿美元 → Cursor 估值,每个月都在涨 🚀

5 月 7 日

| 模型 |Mistral AI● Medium 3 多模态模型,高性能、低成本,企业级 AI 新选择

| 模型 |Cognition Labs(Devin)● Kevin-32B 用于编写 CUDA Kernel 的多轮强化学习模型(开源)→ 针对某个细分领域进行后训练的小模型,可以做到「小模型,大效果」🥇

| 模型 |Apple● FastVLM 视觉-语言模型,支持端侧部署(开源)→ 很快就在 WWDC 上见到了这款模型的实际应用,效果不错 👍

| 音频 |阶跃星辰 X ACE Studio● ACE-Step 音乐生成基础模型,消费级显卡可用(开源)→ 实测距离 Suno 还有不小的差距 🎵

| 视频 |HeyGen● Avatar IV 数字人视频生成模型,一张照片+一段文本=逼真的视频 → 与 Hedra 类似,都是用图片生成的数字人 💃

5 月 8 日

| 应用 |阿里巴巴● 夸克「深度搜索」升级 &&「深度研究」上线 → Deep (Re)Search 逐渐成为各家的标配 🔎

| 应用 |魔乐社区● 开放共享的 AI 工具与模型生态平台

| 应用 |Figma Config 2025● Figma 发布 4 项重要更新,Figma Buzz、Figma Draw、Figma Make、Figma Sites

5 月 9 日

| 视频 |腾讯● HunyuanCustom 多模态定制化视频生成模型,保持视频中多主体一致性(开源)→ 人物一致性做的不错,很适合拿来做数字人 👍 就是生成速度很慢 ⏳

| 视频 |Luma AI● Reframe 智能扩展图像视频画面,适配多平台尺寸需求 → 之前 Runway 已经上线了这个功能,现在 Luma 补上了 🎞

| 3 D |Enigma Labs● Multiverse 多人模式游戏模型(全开源)

| 应用 |秘塔AI搜索讲题功能上线 → 在提升用户体验方面,秘塔的理念极具独创性 👏

5 月 10 日(无)
5 月 11 日(无)
5 月 12 日

| 模型 |Prime Intellect● INTELLECT-2 推理模型,全球首个分布式强化学习训练模型 → 如果分布式能成,训练的门槛将会大大的降低 🎊

| 新闻 |教育部● 发布两项指南,科学规范推进人工智能全学段教育 → AI教育要从娃娃抓起 👶

5 月 13 日

| 模型 |OpenAI● HealthBench 医疗基准测试,评估大模型在医疗健康领域的表现(开源)→ 可以预见,这种高质量的私有数据,会是未来模型差异化的源头 🎯

| 视频 |爱诗科技● Pixverse V4.5 视频生成模型,实现电影级镜头控制 → 继续进步,从而应对可灵的竞争 🎥

| 3 D |昆仑万维● Matrix-Game 可交互视频生成世界模型,推动游戏世界建模(开源)

| 应用 |阿里巴巴● QwenChat 上线网页开发和 Deep Research 功能

| 应用 |Lovart.ai● 首个通用 Design Agent,一句话搞定全链路设计 → 无边画布很适合设计 Agent,用户体验非常不错 👏

| 应用 |Notion● AI Meeting Notes 功能上线,自动转录会议内容并生成结构化摘要 → 会议纪要,真是个刚需的大市场 💰

5 月 14 日

| 模型 |Google● AlphaEvolve 用于算法设计的编程智能体

| 模型 |快手 X 中科院 X 清华大学 X 南京大学● R1-Reward 多模态奖励模型,性能提升 5%-15%(开源)

| 音频 |Stability AI X Arm● Stable Audio Open Small 文本转音频模型,支持移动端快速生成短音频(开源)→ 生成速度是个亮点 ⚡

| 视频 |阿里巴巴● Wan2.1-VACE 视频生成与编辑统一模型,支持全功能生成(开源)→ 把商用模型的秘密都开源出来了 🧐 但生成的视频质量还差点意思 👀

| 3 D |阶跃星辰 X 光影焕像● Step1X-3D 生成大模型,支持高保真可控生成(全开源)→ 阶跃也做 3D 了❗ 3D 这个赛道慢慢开始火热 🔥

| 应用 |面壁智能 X 清华大学● SurveyGO 学术长文本写作工具(开源)→ Long to Long 领域非常不错的实践 👏

5 月 15 日

| 音频 |MiniMax● Speech-02 文本转语音(TTS)模型,音色克隆技术领先全球 → 音色克隆能力很强 🔊

| 融资 |Hedra 完成 3200 万美元 A 轮融资,估值达到 2 亿美元 → 对标 Heygen 🚩

5月 16 日

| 模型 |Windsurf● SWE-1 编程模型,专注于复杂的软件工程任务 → AI Coding 公司推出自己的模型在意料之中,据说蒸馏了不少其他模型的数据 👂

| 图像 |腾讯● Hunyuan Image 2.0 图像生成模型,实现毫秒级响应 → 质量比之前的 sd-lightning 强,适合拿来做提示词测试 👍

| 视频 |Higgsfield AI● Higgsfield Ads 将产品图片转为专业的广告视频 → Higgisfield 对商用需求的把握非常精准 🎯

| 应用 |ElevenLabs● SB-1 无限音效板,可以定制音效的控制面板

| 新闻 |特朗普● 访问中东三国,达成多项大额 AI 交易

5 月 17 日

| 模型 |阿里巴巴● ZeroSearch 强化学习框架,通过模拟搜索引擎提升大模型的搜索能力(开源)

| 应用 |OpenAI● Codex 云端编程智能体,高效处理复杂软件工程任务 → 更偏向专业 Coding辅助,而不是 Vibe Coding 🧐

5 月 18 日

| 新闻 |五源资本● 72 小时 AI 生存挑战,依靠 AI 工具解决生存需求

5 月 19 日

| 视频 |哔哩哔哩● Index-AniSora 动漫视频生成模型,献给二次元世界的礼物(开源)→ 这个模型 B 站做最对味 👀

| 应用 |字节跳动● 火山引擎 MCP Servers 大模型生态广场发布 → 暂时不支持第三方 MCP Server,不够开放 🙅‍♂️

| 应用 |腾讯 QQ 浏览器● QBot 上线,正式升级为 AI 浏览器 → 浏览器也是 AI 厂商的必争之地 ⚔

| 应用 |Flowith● Neo 云端 Agent 系统,首个「无限」智能体

5 月 20 日

| 模型 |字节跳动● Seed-Coder 轻量级编程模型,字节的前沿探索成果(开源)

| 机器人 |智元机器人EVAC 基于机器人动作序列驱动的具身世界模型 && EWMBench 具身世界模型基准测试(开源)

| 融资 |美图获得阿里巴巴 2.5 亿美元投资,双方达成战略合作 → 阿里投资开始在 AI 应用领域发力 📍

| 模型 |Google I/O 2025● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升级 → Google 彻底打了个翻身仗,全方位领先 👑

| 模型 |Google I/O 2025● Gemma 3n 多模态模型,移动端优化(开源)

| 图像 |Google I/O 2025● Imagen 4 图像生成模型,实现 2K 高分辨率

| 音频 |Google I/O 2025● Lyria 2 音乐生成模型 && Lyria RealTime 交互式音乐生成应用 → 只能生成没有人声的音乐,无法生成歌曲 🎵

| 视频 |Google I/O 2025● Veo 3 视频生成模型,进入音画同步时代 → 第一个可以自动生成人物配音的视频模型,AI视频不再是哑剧 🔊

| 应用 |Google I/O 2025● Flow 电影级影视片段制作工具,集成了 Google 最先进模型

| 应用 |Google I/O 2025● SynthID Detector 识别 AI 生成内容的检测平台

| 应用 |Google I/O 2025● Jules 异步编程智能体,在云端虚拟机中独立执行任务

| 应用 |Google I/O 2025● Stitch 基于自然语言的 UI 设计代码生成工具

| 应用 |Google I/O 2025AI Mode 正式登录 Google Search,搜索从此「千人千面」→ 如此庞大的日活下,背后的算力成本应该相当高昂 💸

5 月 21 日

| 模型 |Mistral AI X All Hands AI● Devstral 编程模型,专注于复杂的软件工程任务 → 又一个专注于 Coding 的小模型 👩‍💻

| 图像 |腾讯● 混元游戏视觉生成平台 && Hunyuan-Game 工业级游戏内容资产生成模型

| 机器人 |NVIDIA● Cosmos-Reason1-7B 面向机器人技术的视觉-语言推理模型(开源)

| 应用 |字节跳动● 飞书知识问答功能上线,整合企业内资源实现智能解答 → 企业内部的 Deep Search 🔎

| 应用 |腾讯● 腾讯云智能体开发平台(TCADP)上线 → 一个类似 Coze 和 Dify 的平台,但是非常简陋,看不出有什么竞争力 ❓

| 融资 |面壁智能完成新一轮数亿元融资 → 全球为数不多专注端侧小模型的企业 🏆

5 月 22 日

| 音频 |Kyutai● Unmute.sh 语音系统,可以为任何文本大语言模型添加语音功能(即将开源)

| 应用 |Mistral AI● Document AI 高精度文档解析工具,成本低至 1 美元 2000 页 → 一个基于 OCR 模型 API 实现的简单应用 💻

| 应用 |昆仑万维● Skywork Super Agents 天工超级智能体上线 → 又一个类 Manus 应用,做 PPT 尤其出色 🧐

| 融资 |LMArena● 完成 1 亿美元种子轮融资,估值达到 6 亿美元

| 融资 |OpenAI以 65 亿美元收购 io,进军 AI 硬件领域

| 新闻 |Microsoft Build 2025● 迈向 AI Agent 时代,构建 Open Agentic Web 成为新愿景

5 月 23 日

| 模型 |Anthropic● Claude Opus 4 和 Claude Sonnet 4 推理模型,专注持续性推理与复杂任务执行 → 重夺编程模型之王的宝座 👑

| 模型 |上海人工智能实验室● 书生·思客(InternThinker)围棋推理模型 → 用 LLM 下围棋,有一种奇特的复古感 🧭

| 模型 |字节跳动● Dolphin 文档解析模型,高效精准处理复杂文档(开源)→ 非常利好本地化 RAG 🔎

5 月 24 日(无)
5 月 25 日

| 机器人 | 《CMG世界机器人大赛·系列赛》机甲格斗擂台赛,展现高难度格斗技术 → 比上个月马拉松比赛的机器人,看起来强多了 🤖 

5 月 26 日

| 模型 |红杉中国● xbench 基准测试,聚焦真实场景效用与垂类智能体评测(开源)

5 月 27 日

| 音频 |字节跳动● 豆包·语音播客模型(预告)&& 扣子空间 Agent 播客制作功能上线 → 语音播客模型的语气非常真实自然,中文领域最佳 👑

5 月 28 日

| 模型 |Mistral AI● Codestral Embed 代码嵌入模型,性能超越主流方案 → 连 Embedding 模型都有为代码设计的了,Coding 赛道真的火🔥 

| 图像 |字节跳动● BAGEL 统一多模态理解与生成模型(开源)→ 人物一致性比 gpt-image-1 强 👍 但其他都远远不如 👎

| 视频 |腾讯● HunyuanVideo-Avatar 语音数字人模型,图像+音频=说话&唱歌的数字人(开源)

| 3 D |Odyssey实时 3D 互动视频技术(研究预览),延迟仅 40 毫秒,成本低至 1 美元/小时

| 机器人 |北京人形机器人创新中心牵头制定全球首个《人形机器人智能化分级》→ 人形机器人的发展,有一个标准了 🤖

| 应用 |昆仑万维● Opera Neon 智能 Agent 浏览器,开启内测

5 月 29 日

| 模型 |DeepSeek● DeepSeek-R1-0528 推理模型「小升级」,思考更深,推理更强 → 还是基于 deepseek-v3 旧版训练的,并不是基于最新的 v3 训练的 🧐

| 视频 |快手● 可灵 2.1 && 可灵 2.1 大师版上线,理解力与生成速度全面升级

| 融资 |Grammarly 完成 10 亿美元融资,加速 AI 产品升级与平台化转型 → 一个看似简单的语法纠错需求,也可以生长出巨头 🚀

5 月 30 日

| 模型 |字节跳动● Web-Bench 编程能力基准测试,评估模型在复杂 Web 全栈任务中的表现(开源)→ 2.1 终于有普通版了 🎊 性价比不错,可以大规模商用了

| 模型 |小米● Xiaomi MiMo-VL 多模态大模型(开源)→ 小米开始在大模型领域发力,表现都比较亮眼 💡

| 图像 |Black Forest Labs● FLUX.1 Kontext 图像生成与编辑模型,角色一致性能力亮眼 → 解决了 gpt-image-1 人物一致性的问题,图像编辑领域的 New King 👑

| 音频 |ElevenLabs● Conversational AI 2.0 企业级语音 Agent 平台

| 应用 |Perplexity● Labs 智能体创作平台,一站式生成报告、演示与可视化项目

5 月 31 日

| 3 D |VASTTripo Studio 工作站上线,实现一站式 3D 建模 → 从模型到应用,Tripo 要打造 3D 领域的完整生态 🥳

| 应用 |Google● Gemini App(应用)近期重要更新汇总

| 应用 |OpenAI● ChatGPT 近期重要更新汇总


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 赛博月刊丨Vol.6 围城:模型困局、垂类竞速与 Agent 逐鹿
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2天前
Next 2024 年 8 月 16 日 下午6:50

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注