LLM

302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o！GLM-Z1-AirX又能否超越DeepSeek R1？

4 月 15 日凌晨，OpenAI 发布了全新 GPT-4.1 系列模型，其中包括：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程、指令遵循和上下文理解方面有显著提升。与此同时，OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
2025 年 4 月 16 日 • 基准实验室
3.3K270
302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相？来看实测结果！

短短一周时间，阿里通义千问上线了三个模型，先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ，紧接着视觉推理模型 QVQ-Max 也正式上线。官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。…
2025 年 4 月 1 日 • 基准实验室
2.2K150
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测：速度提升，推理与中文理解表现惊艳！

3月21日晚，腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍，该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座，通过大规模训练显著扩展了推理能力，并进一步对齐人类偏好。在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
2025 年 3 月 26 日 • 基准实验室
2.0K251
302.AI 基准实验室 | 最新小参数模型对比测评：Gemma 3 27b vs. Mistral-small-3.1-24B

3月12日，谷歌正式推出了全新的Gemma 3系列模型，该系列包含四种不同参数版本：1B、4B、12B和27B。据官方介绍，Gemma 3具备强大的多模态能力，能够支持视觉与语言的输入，可以理解140+语言，并提供128k token的上下文窗口。短短几天后，法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…
2025 年 3 月 21 日 • 基准实验室
1.8K220
302.AI 新品发布 | 自定义模型：支持接入第三方模型API，拓展模型新能力，构建开放生态平台！

近日，302.AI 带来了重磅更新——自定义模型。自定义模型的推出，是为了给用户打造一个更加开放、便捷、实用的平台。具体来说，自定义模型这一功能实现了将第三方的模型API接入302.AI（例如OpenRouter，硅基流动等），为第三方模型增加了如下几个优势： 1、快速生成聊天机器人：用户可以根据自身需求接入第三方大模型API，不受限于平台内的资源。整个接…
2025 年 3 月 17 日 • 新品发布
2.2K220
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架，到底谁更出色？

3月6日，阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型，具备思考和推理能力。其优势是推理速度快，在数学、编程和通用任务推理方面表现出色，整体性能比肩DeepSeek-R1。与此同时，阿里云开放平台还放出了一个名为 QwQ-Plus 的模型，官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提…
2025 年 3 月 12 日 • 基准实验室
1.9K10
302.AI 新品发布 | DeepClaude好用么？来302.AI试试DeepAnyLLM

DeepClaude 是近期备受关注的一个AI项目，它通过将 DeepSeek-R1 的链式推理与 Claude 3.5 Sonnet 的代码生成能力深度融合，形成了独特的双模型协同机制，从而实现了高质量内容的高效输出。受DeepClaude的启发，302.AI推出了新功能：为所有大模型增加推理能力。但与DeepClaude不同的是，302.AI的这一功…
2025 年 3 月 5 日 • 新品发布
1.7K202
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比

在上一篇文章中，我们给大家介绍了 Claude 3.7 Sonnet 模型，同时对Claude 3.7 Sonnet的标准模式（Normal）进行了实测对比。而现在，我们将会对Claude 3.7 Sonnet 推理模式（Extended）进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet（标准模式）的对比，更全面地…
2025 年 2 月 27 日 • 基准实验室
2.8K81
302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet，程序员的外挂来了？！

2月25日凌晨，Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式（Normal）下既提供近乎即时的响应，也可以也能切换到扩展思考模式（Extended），进行详细的逐步推理。在扩展思考模式的加持下，Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…
2025 年 2 月 25 日 • 基准实验室
1.7K111
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。（非推理模式的Grok-3与其它大模型能力对比）根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—…
2025 年 2 月 24 日 • 基准实验室
1.4K150

5 / 12
2
3
4
5
6
7
8