LLM
-
302.AI 基准实验室 | 阿里推出Qwen3新系列模型 ,性能全面测试对比
4月29日凌晨,阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型: Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参) Qwen3-30B-A3B(300亿总参数、30亿激活参数) 以及六款 Dense 模型: Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…
-
302.AI 深度拆解 | 大白话聊一聊:AI下半场,Agent 的本质与变革
文 | Jomy @302.AI 编 | 南乔River @ShowMeAI ✦✦✦ 上一篇文章 我们聊了聊 Tool、MCP 和 Agent 三者之间的关系。简单来说就是 Agent = LLM + Tools,而 MCP 统一了 Tools 开发和使用的过程。 文章很受欢迎,很多朋友跟我进行了交流讨论。但在沟通中,我发现还是有部分朋友对 Agent 存在…
-
302.AI 基准实验室 | OpenAI o4-mini & o3,实测编程效果与多模态能力到底如何?
上周,OpenAI在直播中发布了 o 系列新模型:o4-mini 和 o3。 OpenAI表示,o3是他们目前最强大的推理模型,在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型,专注于快速且经济高效的推理,特别在数学、编码和视觉任务中实现了优异的性能。 接下来,我们将在 302.AI 平台上分别对 o4-mini 和 o…
-
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o!GLM-Z1-AirX又能否超越DeepSeek R1?
4 月 15 日凌晨,OpenAI 发布了全新 GPT-4.1 系列模型,其中包括:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示,这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在编程、指令遵循和上下文理解方面有显著提升。 与此同时,OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
-
302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相?来看实测结果!
短短一周时间,阿里通义千问上线了三个模型,先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ,紧接着视觉推理模型 QVQ-Max 也正式上线。 官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。…
-
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测:速度提升,推理与中文理解表现惊艳!
3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
-
302.AI 基准实验室 | 最新小参数模型对比测评:Gemma 3 27b vs. Mistral-small-3.1-24B
3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…
-
302.AI 新品发布 | 自定义模型:支持接入第三方模型API,拓展模型新能力,构建开放生态平台!
近日,302.AI 带来了重磅更新——自定义模型。自定义模型的推出,是为了给用户打造一个更加开放、便捷、实用的平台。 具体来说,自定义模型这一功能实现了将第三方的模型API接入302.AI(例如OpenRouter,硅基流动等),为第三方模型增加了如下几个优势: 1、快速生成聊天机器人:用户可以根据自身需求接入第三方大模型API,不受限于平台内的资源。整个接…
-
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架,到底谁更出色?
3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…
-
302.AI 新品发布 | DeepClaude好用么?来302.AI试试DeepAnyLLM
DeepClaude 是近期备受关注的一个AI项目,它通过将 DeepSeek-R1 的链式推理与 Claude 3.5 Sonnet 的代码生成能力深度融合,形成了独特的双模型协同机制,从而实现了高质量内容的高效输出。 受DeepClaude的启发,302.AI推出了新功能:为所有大模型增加推理能力。 但与DeepClaude不同的是,302.AI的这一功…