Openai
302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装
尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
302.AI 基准实验室丨开源新SOTA? Open AI GPT-OSS系列模型对决国产开源模型评测
2025 年 8 月 5 日,OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 开源 GPT-2 以来,时隔 6 年首次重返开源生态。 本次开源的 gpt-oss 系列包含两个高性能版本,均采用混合专家架构(MoE) 与 Apache 2.0 开源许可,支持自由修改、…
302.AI 基准实验室丨国产大模型新卷王!GLM-4.5 开源登顶,逻辑推理硬刚 Grok 4?
北京时间 7 月 28 日,智谱发布了新一代旗舰模型 GLM-4.5 ,根据 Hugging Face 上的介绍,GLM -4.5 系列模型是专为 Agent 设计的基础模型。GLM-4.5 拥有 3550 亿个总参数,其中 320 亿个活跃参数;而 GLM-4.5-Air 则采用更紧凑的设计,拥有 1060 亿个总参数,其中 120 亿个活跃参数。GLM-…
302.AI 基准实验室丨Claude 4 系列最新对比测评,推理退步前端编程增强?
美东时间5月22日周四,Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。 据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推…
302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评
北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。 在lmarena.a…
302.AI 基准实验室 | OpenAI o4-mini & o3,实测编程效果与多模态能力到底如何?
上周,OpenAI在直播中发布了 o 系列新模型:o4-mini 和 o3。 OpenAI表示,o3是他们目前最强大的推理模型,在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型,专注于快速且经济高效的推理,特别在数学、编码和视觉任务中实现了优异的性能。 接下来,我们将在 302.AI 平台上分别对 o4-mini 和 o…
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?
4 月 15 日凌晨,OpenAI 发布了全新 GPT-4.1 系列模型,其中包括:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程、指令遵循和上下文理解方面有显著提升。 与此同时,OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读
文 | Jomy @302.AI 编 | 南乔River @ShowMeAI I. 一切的开端 CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。 虽然大家都知道了这个宏观方向,但是不知道具体的实现方…
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK
原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气,但没想到最近几日接连有新模型发布。 1月20日晚,DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI …
302.AI 基准实验室 | 在302.AI实测对比OpenAI o1 完整版,到底是王者还是青铜?!
12月初,OpenAI 开启了为期十二天的直播活动。而在直播的首日,OpenAI带来了推理大模型o1的完整版!据了解,o1 完整版在数学和代码能力上都有了显著提升,推理速度比之前的preview版本快了60%,并且支持多模态! 在高难度数学题(AIME 2024)、编程能力(CodeForces)、科学问题(GPQA Diamond)等基准测试中,o1 完整…