LLM - 302.AI | 文章资讯

302.AI 基准实验室 | 阿里推出Qwen3新系列模型，性能全面测试对比

4月29日凌晨，阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型： Qwen3-235B-A22B（2350多亿总参数、 220多亿激活参） Qwen3-30B-A3B（300亿总参数、30亿激活参数）以及六款 Dense 模型： Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…

2025 年 4 月 30 日 • 基准实验室

36300

302.AI 深度拆解 | 大白话聊一聊：AI下半场，Agent 的本质与变革

文 | Jomy @302.AI 编 | 南乔River @ShowMeAI ✦✦✦ 上一篇文章我们聊了聊 Tool、MCP 和 Agent 三者之间的关系。简单来说就是 Agent = LLM + Tools，而 MCP 统一了 Tools 开发和使用的过程。文章很受欢迎，很多朋友跟我进行了交流讨论。但在沟通中，我发现还是有部分朋友对 Agent 存在…

2025 年 4 月 25 日 • 深度拆解

11311

302.AI 基准实验室 | OpenAI o4-mini & o3，实测编程效果与多模态能力到底如何？

上周，OpenAI在直播中发布了 o 系列新模型：o4-mini 和 o3。 OpenAI表示，o3是他们目前最强大的推理模型，在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型，专注于快速且经济高效的推理，特别在数学、编码和视觉任务中实现了优异的性能。接下来，我们将在 302.AI 平台上分别对 o4-mini 和 o…

2025 年 4 月 23 日 • 基准实验室

18400

302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o！GLM-Z1-AirX又能否超越DeepSeek R1？

4 月 15 日凌晨，OpenAI 发布了全新 GPT-4.1 系列模型，其中包括：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程、指令遵循和上下文理解方面有显著提升。与此同时，OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…

2025 年 4 月 16 日 • 基准实验室

20700

302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相？来看实测结果！

短短一周时间，阿里通义千问上线了三个模型，先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ，紧接着视觉推理模型 QVQ-Max 也正式上线。官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。…

2025 年 4 月 1 日 • 基准实验室

31400

302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测：速度提升，推理与中文理解表现惊艳！

3月21日晚，腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍，该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座，通过大规模训练显著扩展了推理能力，并进一步对齐人类偏好。在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

2025 年 3 月 26 日 • 基准实验室

22901

302.AI 基准实验室 | 最新小参数模型对比测评：Gemma 3 27b vs. Mistral-small-3.1-24B

3月12日，谷歌正式推出了全新的Gemma 3系列模型，该系列包含四种不同参数版本：1B、4B、12B和27B。据官方介绍，Gemma 3具备强大的多模态能力，能够支持视觉与语言的输入，可以理解140+语言，并提供128k token的上下文窗口。短短几天后，法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…

2025 年 3 月 21 日 • 基准实验室

51800

302.AI 新品发布 | 自定义模型：支持接入第三方模型API，拓展模型新能力，构建开放生态平台！

近日，302.AI 带来了重磅更新——自定义模型。自定义模型的推出，是为了给用户打造一个更加开放、便捷、实用的平台。具体来说，自定义模型这一功能实现了将第三方的模型API接入302.AI（例如OpenRouter，硅基流动等），为第三方模型增加了如下几个优势： 1、快速生成聊天机器人：用户可以根据自身需求接入第三方大模型API，不受限于平台内的资源。整个接…

2025 年 3 月 17 日 • 新品发布

27100

302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架，到底谁更出色？

3月6日，阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型，具备思考和推理能力。其优势是推理速度快，在数学、编程和通用任务推理方面表现出色，整体性能比肩DeepSeek-R1。与此同时，阿里云开放平台还放出了一个名为 QwQ-Plus 的模型，官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提…

2025 年 3 月 12 日 • 基准实验室

46500

302.AI 新品发布 | DeepClaude好用么？来302.AI试试DeepAnyLLM

DeepClaude 是近期备受关注的一个AI项目，它通过将 DeepSeek-R1 的链式推理与 Claude 3.5 Sonnet 的代码生成能力深度融合，形成了独特的双模型协同机制，从而实现了高质量内容的高效输出。受DeepClaude的启发，302.AI推出了新功能：为所有大模型增加推理能力。但与DeepClaude不同的是，302.AI的这一功…

2025 年 3 月 5 日 • 新品发布

33522