基准实验室

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet，程序员的外挂来了？！

2月25日凌晨，Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式（Normal）下既提供近乎即时的响应，也可以也能切换到扩展思考模式（Extended），进行详细的逐步推理。在扩展思考模式的加持下，Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…
2025 年 2 月 25 日 • 基准实验室
1.1K111
302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。（非推理模式的Grok-3与其它大模型能力对比）根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—…
2025 年 2 月 24 日 • 基准实验室
1.1K150
302.AI 基准实验室 | 通义万相2.1模型实测绝了！汉字竟在视频里“活”了

继豆包图像模型攻克汉字生成的难题后，国内AI视频生成领域在中文生成方面再次来了新突破！今年年初，阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解，这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。通义万相2.1视频模型一经推出，便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新，该模型在复杂运动、大幅度动作…
2025 年 2 月 21 日 • 基准实验室
1.8K130
302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比

自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。最近，各模型厂家都坐不住了，频频出招。先是1月底，是OpenAI正式发布 o3-mini，这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度，并针对科学、数学、编程等领域进行了优化。 2月6日，谷歌也加入了 DeepSeek 、OpenAI 的战局，发布多个…
2025 年 2 月 10 日 • 基准实验室
2.0K10
302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK

原本以为“卷”了一年的AI大模型圈年末终于能暂歇一口气，但没想到最近几日接连有新模型发布。 1月20日晚，DeepSeek发布了推理模型–DeepSeek-R1。据官方介绍，DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI …
2025 年 1 月 23 日 • 基准实验室
1.7K10
302.AI 基准实验室 | MiniMax-Text-01，数学、上下文理解、编程能力表现如何？

1月15日，MiniMax发布并开源了全新MiniMax-01系列基础语言大模型——MiniMax-Text-01。据了解，MiniMax-Text-01 是一个强大的语言模型，拥有 4560 亿个总参数，单次激活459 亿个参数。为了解锁其长上下文功能，它采用了一种混合架构，集成了闪电注意力（Lightning Attention）、Softmax 注…
2025 年 1 月 16 日 • 基准实验室
2.4K160
302.AI 基准实验室 | 智谱发布推理模型GLM-Zero-Preview，数学、推理、编程三方面实测对比结果如何？

在2024年的最后一天，智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview，这是智谱首个基于扩展强化学习技术训练的推理模型。据了解，GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比，GLM-Zero-Preview 既没有显著降低通用任务能力，又大幅提升了专家任务能力。 GLM-…
2025 年 1 月 2 日 • 基准实验室
1.1K130
302.AI 基准实验室 | 实测Doubao文生图模型v2.1版本，中英文内容生成轻松拿捏！

12月，字节跳动豆包大模型团队推出文生图模型 v2.1版本，这次的升级对比通用 2.0和通用 2.0 PRO版本，除了结构准确和美感明显提升外，重点支持了中英文字符渲染。据了解，豆包文生图模型v2.1通过打通 LLM 和 DiT 构架，构建了高质量文字渲染能力，大幅提升文字生成准确率。这种原生的文字渲染能力，让文字与整体画面的融合更为自然和实用。 >…
2024 年 12 月 31 日 • 基准实验室
3.6K110
302.AI 基准实验室 | 实测对比阿里首个多模态模型QVQ-72B-Preview，能力还行但有点“话痨”？！

12月25日圣诞节当天，阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview，包括MMMU、MathVista、MathVision 、OlympiadBe…
2024 年 12 月 27 日 • 基准实验室
1.3K00
302.AI 基准实验室 | 刚刚，DeepSeek更新了V3版本，快来302抢先实测了解模型性能

就在刚刚，DeepSeek了更新V3版本！据了解，模型的速度有了明显提升。官方还没有来得及正式宣发，我们迫不及待尝试了下，的确更新了！那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3，看看其在文本处理、推理逻辑、编程等方面的表现如何！ > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…
2024 年 12 月 25 日 • 基准实验室
1.3K10

9 / 14
6
7
8
9
10
11
12