Openai

OpenAI 十周年答卷 GPT-5.2 实测：颠覆神话不再，未来使命何往？丨302.AI 基准实验室

正值成立十周年之际，OpenAI 于12月12日突袭发布新一代大模型GPT-5.2 系列，而这距离上一代 GPT-5.1 的发布仅过去一个月。在此期间，Gemini 3 与 Claude Opus 4.5 轮番炸场的内卷周期里，行业竞争已陷入胶着，往日发布即颠覆的市场震撼力正在边际递减。 OpenAI 此次并未选择单纯堆砌参数，而是首次祭出了三版本细分的精准…
2025 年 12 月 15 日 • 基准实验室
96000
302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装

尘埃落定，当地时间 8 月 7 日，OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称，GPT-5 是其迄今为止最智能、最快、最实用的模型，在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”，称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
2025 年 8 月 8 日 • 基准实验室
5.4K20
302.AI 基准实验室丨开源新SOTA? Open AI GPT-OSS系列模型对决国产开源模型评测

2025 年 8 月 5 日，OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年开源 GPT-2 以来，时隔 6 年首次重返开源生态。本次开源的 gpt-oss 系列包含两个高性能版本，均采用混合专家架构（MoE）与 Apache 2.0 开源许可，支持自由修改、…
2025 年 8 月 6 日 • 基准实验室
7.0K00
302.AI 基准实验室丨国产大模型新卷王！GLM-4.5 开源登顶，逻辑推理硬刚 Grok 4？

北京时间 7 月 28 日，智谱发布了新一代旗舰模型 GLM-4.5 ，根据 Hugging Face 上的介绍，GLM -4.5 系列模型是专为 Agent 设计的基础模型。GLM-4.5 拥有 3550 亿个总参数，其中 320 亿个活跃参数；而 GLM-4.5-Air 则采用更紧凑的设计，拥有 1060 亿个总参数，其中 120 亿个活跃参数。GLM-…
2025 年 7 月 31 日 • 基准实验室
3.5K10
Claude 4 系列最新对比测评，推理退步前端编程增强？| 302.AI 基准实验室

美东时间5月22日周四，Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型：Claude Opus 4和Claude Sonnet 4。据了解，Claude Opus 4 和 Sonnet 4 都是混合推理模型，同时支持 Extended thinking（扩展推…
2025 年 5 月 23 日 • 基准实验室
16.5K2450
302.AI 基准实验室 | 大模型排行榜第二！Gemini-2.5-flash-preview-05-20全方位对比测评

北京时间 5 月 21 日，谷歌在 I/O 2025大会上带来了新模型：gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计，更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进，同时使用的 token 减少了 20-30%。在lmarena.a…
2025 年 5 月 22 日 • 基准实验室
7.2K1670
302.AI 基准实验室 | OpenAI o4-mini & o3，实测编程效果与多模态能力到底如何？

上周，OpenAI在直播中发布了 o 系列新模型：o4-mini 和 o3。 OpenAI表示，o3是他们目前最强大的推理模型，在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型，专注于快速且经济高效的推理，特别在数学、编码和视觉任务中实现了优异的性能。接下来，我们将在 302.AI 平台上分别对 o4-mini 和 o…
2025 年 4 月 23 日 • 基准实验室
4.3K260
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o！GLM-Z1-AirX又能否超越DeepSeek R1？

4 月 15 日凌晨，OpenAI 发布了全新 GPT-4.1 系列模型，其中包括：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程、指令遵循和上下文理解方面有显著提升。与此同时，OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
2025 年 4 月 16 日 • 基准实验室
3.3K270
302.AI 深度拆解 | 大白话聊一聊：Deepseek R1背后的来龙去脉! 2025年AI圈必读

文 | Jomy @302.AI 编 | 南乔River @ShowMeAI I. 一切的开端 CloseAI在24年发布了o1，指出了未来Scaling Law的方向：增加思考时间来换取更多智能，而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做，只是将自己的成果做成了收费产品。虽然大家都知道了这个宏观方向，但是不知道具体的实现方…
2025 年 2 月 5 日 • 深度拆解
1.6K121
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK

原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气，但没想到最近几日接连有新模型发布。 1月20日晚，DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍，DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI …
2025 年 1 月 23 日 • 基准实验室
1.9K10

1 / 2
1
2