Deepseek
-
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7,到底谁在前端任务上更胜一筹?
3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…
-
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测:速度提升,推理与中文理解表现惊艳!
3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
-
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架,到底谁更出色?
3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…
-
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?
2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…
-
302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比
自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…
-
302.AI 深度拆解 | 大白话聊一聊: 50美金复刻DeepSeek R1? 解密背后真正的事实
一则新闻 今天猛然看到一则新闻标题,大意是李飞飞团队仅用 50 美金就复刻出了一个媲美 R1 的模型。我的第一反应是「不可能,又是什么标题党」;第二反应是「数据应该不是凭空捏造的,索性求证一下?」 然后,我找到了原始论文《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393)。仔细拜读之…
-
302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读
文 | Jomy @302.AI 编 | 南乔River @ShowMeAI I. 一切的开端 CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。 虽然大家都知道了这个宏观方向,但是不知道具体的实现方…
-
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK
原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气,但没想到最近几日接连有新模型发布。 1月20日晚,DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI …
-
302.AI 基准实验室 | 刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能
就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…
-
302.AI 基准实验室 | DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?
12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…