Elevenlabs

当准确率不再是唯一标准：三款主流STT语音转文字模型实测横评丨302.AI 基准实验室

在当前多模态 AI 已逐步攻克视觉与复杂逻辑推理的背景下，语音识别系统对于口音、噪声等变量所表现出的脆弱性，依然是该领域一个亟待攻克的核心挑战。当 AI 能看图、能推理，为何听懂一段带口音的对话依然如此之难？这是所有开发者和用户共同的痛点。在语音转文字（STT）领域，我们似乎总面临一种“技术悖论”：模型能力在纸面上飞速进步，但在真实的会议室、嘈杂的街头、充…
2025 年 11 月 10 日 • 基准实验室
2.3K00
终结“人机感”，MiniMax Speech 2.6 实测：低延迟+全音色复刻颠覆体验丨302.AI 基准实验室

从机械单调的合成音，到略带情感的 AI 助手，AI 语音的竞赛始终聚焦于说得更“快”与更“像”的极限。然而，旧有的标杆正在被颠覆：MiniMax 于 10 月 30 日掷出其最新语音模型Speech 2.6，将端到端延迟一举压缩至 250 毫秒以下，重新定义了实时语音交互的速率标准。在人类日常对话中，自然停顿介于 300-500 毫秒之间，而 250 毫秒更…
2025 年 11 月 3 日 • 基准实验室
2.4K10
2025年AI音乐模型评测：孤独的Suno与国产模型的追赶者们丨302.AI 基准实验室

在开始这篇万字长文前，可以先看两则我刚剪的短视频，配乐均来自本篇评测中生成的 AI 音乐案例，能对目前的 AI 音乐质量有个直接的认知。相信我若不说明，能一耳朵辨别出这是 AI 音乐的人，恐怕寥寥无几。放眼今天的 AIGC 版图，图像/视频领域早已卷得飞起，这周刚被万千用户追捧的 SOTA 模型很可能下周就被新的竞品完爆，潮起又潮落。然而当我们把视线挪到 …
2025 年 9 月 18 日 • 基准实验室
4.9K00

Elevenlabs

当准确率不再是唯一标准：三款主流STT语音转文字模型实测横评丨302.AI 基准实验室

终结“人机感”，MiniMax Speech 2.6 实测：低延迟+全音色复刻颠覆体验丨302.AI 基准实验室

2025年AI音乐模型评测：孤独的Suno与国产模型的追赶者们丨302.AI 基准实验室