302.AI | 特色专栏 由302.AI团队及业内专家组撰稿,希望用最通俗的文字,揭示复杂技术背后的简单本质。
Veo 3.1评测:Google的0.1次迭代能否撬动Sora 2的王座?丨302.AI 基准实验室
10月16日,就在AI视频领域的军备竞赛仍聚焦于 Sora 2 音画同步所加入的高拟真度赛道时,Google 经过数日网上泄密与舆论发酵后,突然强势切入战局,公开释出其视频生成模型的全新迭代——Veo 3.1,此次升级旨在系统性地提升视频生成的几大重要维度:导演级的叙事控制能力、电影级的音频质量,以及更高的场景真实感。Veo 3.1的正式推出,无疑进一步拉高…
别再只谈电影级画质,Sora 2评测:当AI开始真正讲中文、做导演,真实感什么水平? 丨302.AI 基准实验室
国庆假期第一天,当AI视频领域的热度还聚焦在Kling 2.5拿下SOTA,Wan2.5大获好评之时,OpenAI再次以“核弹级”的发布,将视频生成技术推向了全新的叙事维度——Sora 2,一个不仅能看见“世界”,更能听懂“世界”的视频模型。 自Sora初次亮相以来,凭借对物理世界近乎“复刻”的模拟能力,彻底改写了AI视频生成的质量标杆。然而,在AIGC创作…
Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室
今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室
赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…
国产AI视频“2.5时代”首战:Wan2.5的“电影感”与Kling 2.5的“稳定美学”,能否击败Veo 3?丨302.AI 基准实验室
时值九月尾声,国产 AI 视频模型领域再度活跃,似乎正蓄势待发,欲在国庆之际交出一份令人瞩目的阶段性答卷。9 月 23 日至 24 日,可灵与阿里相继发布了其最新升级的视频生成模型——Kling 2.5 Turbo 与 Wan2.5-Preview。两款模型不约而同地将版本号锁定在“2.5”,似乎也预示着 AI 视频生成技术已正式迈入“2.5 时代”。 先来…
AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
近日,腾讯混元团队开源了其最新图像模型 Flux-1-SRPO,这款模型是基于黑森林 Flux-DEV 微调的文生图模型,其全称为 Semantic Relative Preference Optimization(语义相对偏好优化),旨在解决当前 AI 生图模型在人像生成方面的油腻皮肤质感和“AI味”常态。 针对人像生成优化,混元团队提出的创新型 Dire…
视频版“一键换装”来了!动作生成模型Wan2.2-Animate测评丨302.AI 基准实验室
仅靠一张图片就能制作电影?通义万相于 9 月 19 日开源了其角色动画驱动模型 Wan2.2-Animate —— 一款能够实现一键迁移角色动态的强大模型。其核心能力就是把人物角色的动作、神态,精准迁移到任意角色身上,从而实现让一张静态图复刻任何视频里的动作,主演任何视频里的场景。 AI 视频生成技术普及以来,如何让作品中的角色动态叙事更完整、更真实,这一直…
302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉
AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…
原生音画 vs. 后期配音:AI视频“声”存之战,Veo 3 对比 Kling音频模型评测丨302.AI 基准实验室
AI 视频生成技术今年在以前所未有的速度进行迭代,当你惊叹于互联网上天马行空的视觉作品并尝试自己付诸实践时,却尴尬地发现,绝大数多数视频模型在画质与动效上表现力惊人,而其生成的世界却陷入了一种诡异的沉寂——大部分主流模型都无法实现音视频一体生成。这就意味着我们虽手握造梦的权力,却被迫成为了“无声电影时代”的遗民。不禁想到一句经典广告语,“没声音,再好的戏也出…
追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室
美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…