Benchmark laboratory

302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架，到底谁更出色？

3月6日，阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型，具备思考和推理能力。其优势是推理速度快，在数学、编程和通用任务推理方面表现出色，整体性能比肩DeepSeek-R1。与此同时，阿里云开放平台还放出了一个名为 QwQ-Plus 的模型，官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提…
2025 年 3 月 12 日 • Benchmark laboratory
1.9K10
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比

在上一篇文章中，我们给大家介绍了 Claude 3.7 Sonnet 模型，同时对Claude 3.7 Sonnet的标准模式（Normal）进行了实测对比。而现在，我们将会对Claude 3.7 Sonnet 推理模式（Extended）进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet（标准模式）的对比，更全面地…
2025 年 2 月 27 日 • Benchmark laboratory
2.9K81
302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet，程序员的外挂来了？！

2月25日凌晨，Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式（Normal）下既提供近乎即时的响应，也可以也能切换到扩展思考模式（Extended），进行详细的逐步推理。在扩展思考模式的加持下，Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…
2025 年 2 月 25 日 • Benchmark laboratory
1.8K111
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。（非推理模式的Grok-3与其它大模型能力对比）根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—…
2025 年 2 月 24 日 • Benchmark laboratory
1.4K150
302.AI 基准实验室 | 通义万相2.1模型实测绝了！汉字竟在视频里“活”了

继豆包图像模型攻克汉字生成的难题后，国内AI视频生成领域在中文生成方面再次来了新突破！今年年初，阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解，这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。通义万相2.1视频模型一经推出，便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新，该模型在复杂运动、大幅度动作…
2025 年 2 月 21 日 • Benchmark laboratory
2.1K130
302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比

自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。最近，各模型厂家都坐不住了，频频出招。先是1月底，是OpenAI正式发布 o3-mini，这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度，并针对科学、数学、编程等领域进行了优化。 2月6日，谷歌也加入了 DeepSeek 、OpenAI 的战局，发布多个…
2025 年 2 月 10 日 • Benchmark laboratory
2.4K10
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK

原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气，但没想到最近几日接连有新模型发布。 1月20日晚，DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍，DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI …
2025 年 1 月 23 日 • Benchmark laboratory
1.9K10
302.AI 基准实验室 | MiniMax-Text-01，数学、上下文理解、编程能力表现如何？

1月15日，MiniMax发布并开源了全新MiniMax-01系列基础语言大模型——MiniMax-Text-01。据了解，MiniMax-Text-01 是一个强大的语言模型，拥有 4560 亿个总参数，单次激活459 亿个参数。为了解锁其长上下文功能，它采用了一种混合架构，集成了闪电注意力（Lightning Attention）、Softmax 注…
2025 年 1 月 16 日 • Benchmark laboratory
2.8K160
302.AI 基准实验室 | 智谱发布推理模型GLM-Zero-Preview，数学、推理、编程三方面实测对比结果如何？

在2024年的最后一天，智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview，这是智谱首个基于扩展强化学习技术训练的推理模型。据了解，GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比，GLM-Zero-Preview 既没有显著降低通用任务能力，又大幅提升了专家任务能力。 GLM-…
2025 年 1 月 2 日 • Benchmark laboratory
1.3K130
302.AI 基准实验室 | 实测Doubao文生图模型v2.1版本，中英文内容生成轻松拿捏！

12月，字节跳动豆包大模型团队推出文生图模型 v2.1版本，这次的升级对比通用 2.0和通用 2.0 PRO版本，除了结构准确和美感明显提升外，重点支持了中英文字符渲染。据了解，豆包文生图模型v2.1通过打通 LLM 和 DiT 构架，构建了高质量文字渲染能力，大幅提升文字生成准确率。这种原生的文字渲染能力，让文字与整体画面的融合更为自然和实用。 >…
2024 年 12 月 31 日 • Benchmark laboratory
4.0K110

10 / 16
7
8
9
10
11
12
13