Deepseek
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室
赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…
追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室
美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…
编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测丨302.AI 基准实验室
DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…
302.AI 基准实验室丨国产大模型新卷王!GLM-4.5 开源登顶,逻辑推理硬刚 Grok 4?
北京时间 7 月 28 日,智谱发布了新一代旗舰模型 GLM-4.5 ,根据 Hugging Face 上的介绍,GLM -4.5 系列模型是专为 Agent 设计的基础模型。GLM-4.5 拥有 3550 亿个总参数,其中 320 亿个活跃参数;而 GLM-4.5-Air 则采用更紧凑的设计,拥有 1060 亿个总参数,其中 120 亿个活跃参数。GLM-…
新版 DeepSeek-R1-0528 对比旧版区别在哪?速看对比实测结果 | 302.AI 基准实验室
北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。 5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528。 Hugging Face模型榜登顶 根据 DeepSeek 官方重点信息提炼: 更新后的 R1 模型在数学、编程与通用逻辑等多个基…
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7,到底谁在前端任务上更胜一筹?
3月24日,DeepSeek V3 发布新版本:DeepSeek-V3-0324。 据官方介绍,新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。 DeepSeek-V3.1(即DeepSe…
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测:速度提升,推理与中文理解表现惊艳!
3月21日晚,腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍,该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座,通过大规模训练显著扩展了推理能力,并进一步对齐人类偏好。 在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架,到底谁更出色?
3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?
2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…
302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比
自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…