LLM

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
1.6K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.1K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
3.4K00
谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

12 月 18 日深夜，谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热，但其展现出的性能与成本组合，足以让整个 AI 领域重新审视现有的竞争格局。简而言之，Gemini 3 Flash 做了一件看似矛盾的事：它以一个“轻量版”模型的定位和极低的成本，提供了接近甚至部分超越旗舰模型的顶尖性能。性能：打破“轻量即…
2025 年 12 月 19 日 • 基准实验室
1.6K00
OpenAI 十周年答卷 GPT-5.2 实测：颠覆神话不再，未来使命何往？丨302.AI 基准实验室

正值成立十周年之际，OpenAI 于12月12日突袭发布新一代大模型GPT-5.2 系列，而这距离上一代 GPT-5.1 的发布仅过去一个月。在此期间，Gemini 3 与 Claude Opus 4.5 轮番炸场的内卷周期里，行业竞争已陷入胶着，往日发布即颠覆的市场震撼力正在边际递减。 OpenAI 此次并未选择单纯堆砌参数，而是首次祭出了三版本细分的精准…
2025 年 12 月 15 日 • 基准实验室
95300
GLM-4.6V 实测：当视觉模型学会“动手”，它离“顶尖”还差什么？丨302.AI 基准实验室

智谱 AI 于 12 月 8 日正式开源了其新一代多模态模型 GLM-4.6V 系列，包含面向高性能场景的 106B 版本与轻量本地部署的 9B Flash 版。此次升级不仅将训练上下文窗口一举推至 128K tokens，更在模型架构中做了一个关键变革：让工具调用（Function Call）成为视觉模型的原生能力。这意味着，模型不再止步于识别图像，而是能…
2025 年 12 月 12 日 • 基准实验室
1.8K00
实测开源标杆 DeepSeek-V3.2：在“效率”与“深度”之间寻找新平衡丨302.AI 基准实验室

刚进入12月，DeepSeek 又一次无预告地发布了备受期待的 V3.2 系列模型—— DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale，距离上次9月末发布Deepseek-V3.2-Exp仅过去2个月。本次更新不仅是技术迭代的成果，更像是一次针对大模型能力天花板的主动探索。两款模型师出同门，却有着清晰的分工：一个追求高效实用的日…
2025 年 12 月 2 日 • 基准实验室
3.6K00
价格直降 66%，性能仍是天花板？Claude Opus 4.5 这一波“降价打击”让谁慌了？丨302.AI 基准实验室

11月25日，当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时，Anthropic 携其王炸产品 Claude Opus 4.5 强势回归，并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型，编程能力超越人类专家。 Claude 系列最引人瞩目的王牌，始终是它在编程领域的统治级表现。在权威的真实世界软…
2025 年 11 月 28 日 • 基准实验室
2.6K00
卷完参数卷“人格”？Grok 4.1 实测：情商满点，编程大幅提升丨302.AI 基准实验室

上周当整个 AI 圈的目光聚焦在 Google、OpenAI 两巨头的版本迭代时，xAI 再次以它标志性的突袭方式于 11 月 18 日凌晨向所有用户免费开放了 Grok 4.1 系列模型。这代表着在短短四个月内，Grok 4 系列完成了一次关键升级，并且这一升级，向外界清晰地传递出 xAI 独特的竞争策略：大模型的下一个前沿，或许不再是冰冷的算力与参数，而…
2025 年 11 月 26 日 • 基准实验室
3.6K00
Doubao-Seed-Code 实测：卷价格、卷跑分，却卷不动真实代码？丨302.AI 基准实验室

今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队，后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战，MiniMax 也推出最新力作MiniMax-M2，实力登顶开源榜首。不难发现，这些如投石入湖般接连涌现的模型，在发布时无一例外地强调自身在编程能力上的显著提升。这一趋势清晰…
2025 年 11 月 17 日 • 基准实验室
3.0K02

1 / 12
1
2
3
4
5
6