LLM
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
11月25日,当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时,Anthropic 携其王炸产品 Claude Opus 4.5 强势回归,并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型,编程能力超越人类专家。 Claude 系列最引人瞩目的王牌,始终是它在编程领域的统治级表现。在权威的真实世界软…
卷完参数卷“人格”?Grok 4.1 实测:情商满点,编程大幅提升丨302.AI 基准实验室
上周当整个 AI 圈的目光聚焦在 Google、OpenAI 两巨头的版本迭代时,xAI 再次以它标志性的突袭方式于 11 月 18 日凌晨向所有用户免费开放了 Grok 4.1 系列模型。这代表着在短短四个月内,Grok 4 系列完成了一次关键升级,并且这一升级,向外界清晰地传递出 xAI 独特的竞争策略:大模型的下一个前沿,或许不再是冰冷的算力与参数,而…
Doubao-Seed-Code 实测:卷价格、卷跑分,却卷不动真实代码?丨302.AI 基准实验室
今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队,后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战,MiniMax 也推出最新力作MiniMax-M2,实力登顶开源榜首。不难发现,这些如投石入湖般接连涌现的模型,在发布时无一例外地强调自身在编程能力上的显著提升。 这一趋势清晰…
Kimi K2 Thinking 实测:复杂推理已堪大用,深度编程尚待提升丨302.AI 基准实验室
2025年的夏天,当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”(Agentic Intelligence)时,一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面(Moonshot AI)公司于2025年7月11日发布的突破性开源大语言模型,不仅是业界第一个宣称达到万亿参数的大模型,总参数量高达惊人的1.04万亿,更重要的是…
解锁沉浸式翻译的终极形态,自由调用302.AI各大顶尖大模型丨302.AI 实战教程
提起具备AI翻译功能的浏览器插件,相信许多中国用户已经对“沉浸式翻译”(Immersive Translate)这款神器耳熟能详了。这个插件是由中国独立开发者Owen主导的个人项目(GitHub ID:immersive-translate),在2023年首次亮相后,很快凭借其出色的用户体验和口碑传播,成为浏览器扩展领域的黑马,迅速走红。 沉浸式翻译的核心理…
终结“人机感”,MiniMax Speech 2.6 实测:低延迟+全音色复刻颠覆体验丨302.AI 基准实验室
从机械单调的合成音,到略带情感的 AI 助手,AI 语音的竞赛始终聚焦于说得更“快”与更“像”的极限。然而,旧有的标杆正在被颠覆:MiniMax 于 10 月 30 日掷出其最新语音模型Speech 2.6,将端到端延迟一举压缩至 250 毫秒以下,重新定义了实时语音交互的速率标准。在人类日常对话中,自然停顿介于 300-500 毫秒之间,而 250 毫秒更…
卷不动全能冠军?MiniMax-M2:用一半的力气,拿下最值钱的阵地丨302.AI 基准实验室
MiniMax 日前正式开源了其专为编程任务与 Agent 工作流优化设计的大模型 MiniMax-M2。该模型采用 MoE 混合专家架构,官方称其为“小模型”,是因为仅凭 100 亿激活参数,即可实现媲美顶尖模型的端到端工具调用能力,而其轻量级形态使得部署和扩展变得比以往更加轻松。 MiniMax M2 定位明确,旨在成为 AI 编程与 Agent 开发领…
Doubao-Seed-Translation翻译模型实测:距离真正的“翻译大师”还有多远?丨302.AI 基准实验室
字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation,支持包括中、英、日、韩、德、法等 28 种语言互译,基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1,而在多语言综合表现上,甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro,展现出国际一流的翻译水准。…
Sonnet 4 平替?Claude Haiku 4.5 实测杀疯了:性能不输,价格砍半丨302.AI 基准实验室
距 Claude Sonnet 4 问鼎业界编程翘楚五个月后,Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5,并宣称该模型在编码性能上已媲美 Sonnet 4,而价格仅为后者的三分之一,速度更是提升一倍以上,堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室
今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…