LLM
懂交付,更懂质感:MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室
12 月 23 日,MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。 与许多大模型发布会执着于罗列通用知识得分不同,M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上,官方定位直言不讳:为真实世界的复杂任务而生。显然,这不仅仅是一次常规的版本迭代,更像是 MiniMax 在…
302.AI客户端:零配置,支持任意模型,最适合新手的Vibe Coding工具 | 新品发布
在AI行业飞速发展的2025 年,最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。 所谓 Vibe Coding,即“氛围感编程”——你只需使用自然语言描述需求,AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙,让每一位普通人都能跳过晦涩的编程语言,亲手打造专属应用。 为Vibe Coding打造的工具也层出不穷,在 Cursor、L…
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室
随着2025年接近尾声,大模型领域的竞争未见放缓,反而迎来了一波重磅更新。今日凌晨,智谱突袭发布了其新一代旗舰模型——GLM-4.7,以一系列 SOTA 表现,为今年的开源战场献上了堪称“压轴”的力作。 此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作,不仅在多项国际主流基准测试中横扫开源榜单,更以任务交付为核心,致力于成为开发者手中真正高效、可靠…
谷歌的“普惠核弹”:Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室
12 月 18 日深夜,谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热,但其展现出的性能与成本组合,足以让整个 AI 领域重新审视现有的竞争格局。 简而言之,Gemini 3 Flash 做了一件看似矛盾的事:它以一个“轻量版”模型的定位和极低的成本,提供了接近甚至部分超越旗舰模型的顶尖性能。 性能:打破“轻量即…
OpenAI 十周年答卷 GPT-5.2 实测:颠覆神话不再,未来使命何往?丨302.AI 基准实验室
正值成立十周年之际,OpenAI 于12月12日突袭发布新一代大模型GPT-5.2 系列,而这距离上一代 GPT-5.1 的发布仅过去一个月。在此期间,Gemini 3 与 Claude Opus 4.5 轮番炸场的内卷周期里,行业竞争已陷入胶着,往日发布即颠覆的市场震撼力正在边际递减。 OpenAI 此次并未选择单纯堆砌参数,而是首次祭出了三版本细分的精准…
GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室
智谱 AI 于 12 月 8 日正式开源了其新一代多模态模型 GLM-4.6V 系列,包含面向高性能场景的 106B 版本与轻量本地部署的 9B Flash 版。此次升级不仅将训练上下文窗口一举推至 128K tokens,更在模型架构中做了一个关键变革:让工具调用(Function Call)成为视觉模型的原生能力。这意味着,模型不再止步于识别图像,而是能…
实测开源标杆 DeepSeek-V3.2:在“效率”与“深度”之间寻找新平衡丨302.AI 基准实验室
刚进入12月,DeepSeek 又一次无预告地发布了备受期待的 V3.2 系列模型—— DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale,距离上次9月末发布Deepseek-V3.2-Exp仅过去2个月。本次更新不仅是技术迭代的成果,更像是一次针对大模型能力天花板的主动探索。两款模型师出同门,却有着清晰的分工:一个追求高效实用的日…
价格直降 66%,性能仍是天花板?Claude Opus 4.5 这一波“降价打击”让谁慌了?丨302.AI 基准实验室
11月25日,当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时,Anthropic 携其王炸产品 Claude Opus 4.5 强势回归,并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型,编程能力超越人类专家。 Claude 系列最引人瞩目的王牌,始终是它在编程领域的统治级表现。在权威的真实世界软…
卷完参数卷“人格”?Grok 4.1 实测:情商满点,编程大幅提升丨302.AI 基准实验室
上周当整个 AI 圈的目光聚焦在 Google、OpenAI 两巨头的版本迭代时,xAI 再次以它标志性的突袭方式于 11 月 18 日凌晨向所有用户免费开放了 Grok 4.1 系列模型。这代表着在短短四个月内,Grok 4 系列完成了一次关键升级,并且这一升级,向外界清晰地传递出 xAI 独特的竞争策略:大模型的下一个前沿,或许不再是冰冷的算力与参数,而…
Doubao-Seed-Code 实测:卷价格、卷跑分,却卷不动真实代码?丨302.AI 基准实验室
今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队,后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战,MiniMax 也推出最新力作MiniMax-M2,实力登顶开源榜首。不难发现,这些如投石入湖般接连涌现的模型,在发布时无一例外地强调自身在编程能力上的显著提升。 这一趋势清晰…