基准实验室 -

302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测：速度提升，推理与中文理解表现惊艳！

3月21日晚，腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍，该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座，通过大规模训练显著扩展了推理能力，并进一步对齐人类偏好。在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

2025 年 3 月 26 日 • 基准实验室

26401

302.AI 基准实验室 | Gemini-2.0-flash & Doubao-seededit，最近火爆AI届的图像编辑功能到底谁更强？

要说近期AI圈里最红的，应该就是来自谷歌的Gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型，gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成，还能够通过自然语言对话直接对图像进行修改。这种把传统的语言大模…

2025 年 3 月 22 日 • 基准实验室

17310

302.AI 基准实验室 | 最新小参数模型对比测评：Gemma 3 27b vs. Mistral-small-3.1-24B

3月12日，谷歌正式推出了全新的Gemma 3系列模型，该系列包含四种不同参数版本：1B、4B、12B和27B。据官方介绍，Gemma 3具备强大的多模态能力，能够支持视觉与语言的输入，可以理解140+语言，并提供128k token的上下文窗口。短短几天后，法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…

2025 年 3 月 21 日 • 基准实验室

54500

302.AI 基准实验室 | ComfyUI API vs. Gemini-2.0-Flash图片编辑：突破玩具到商用的临界点

近期，302.AI上线了 ComfyUI 系列 API，这是基于 ComfyUI 实现的图片处理服务，可实现换装、换脸、换物、漫画图变真人、风格迁移等任务，生成的效果达到商用级，能够真正帮助电商企业制作出优质的产品宣传图。同期，Google 的 Gemini 2.0 Flash 原生多模态能力在AI圈子掀起了一阵浪潮。据闻，这一功能可以通过文字描述处理文本…

2025 年 3 月 19 日 • 基准实验室

24611

302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架，到底谁更出色？

3月6日，阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型，具备思考和推理能力。其优势是推理速度快，在数学、编程和通用任务推理方面表现出色，整体性能比肩DeepSeek-R1。与此同时，阿里云开放平台还放出了一个名为 QwQ-Plus 的模型，官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提…

2025 年 3 月 12 日 • 基准实验室

48000

302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比

在上一篇文章中，我们给大家介绍了 Claude 3.7 Sonnet 模型，同时对Claude 3.7 Sonnet的标准模式（Normal）进行了实测对比。而现在，我们将会对Claude 3.7 Sonnet 推理模式（Extended）进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet（标准模式）的对比，更全面地…

2025 年 2 月 27 日 • 基准实验室

87001

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet，程序员的外挂来了？！

2月25日凌晨，Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式（Normal）下既提供近乎即时的响应，也可以也能切换到扩展思考模式（Extended），进行详细的逐步推理。在扩展思考模式的加持下，Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…

2025 年 2 月 25 日 • 基准实验室

27101

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。（非推理模式的Grok-3与其它大模型能力对比）根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—…

2025 年 2 月 24 日 • 基准实验室

31300

302.AI 基准实验室 | 通义万相2.1模型实测绝了！汉字竟在视频里“活”了

继豆包图像模型攻克汉字生成的难题后，国内AI视频生成领域在中文生成方面再次来了新突破！今年年初，阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解，这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。通义万相2.1视频模型一经推出，便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新，该模型在复杂运动、大幅度动作…

2025 年 2 月 21 日 • 基准实验室

78600

302.AI 基准实验室 | o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比

自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。最近，各模型厂家都坐不住了，频频出招。先是1月底，是OpenAI正式发布 o3-mini，这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度，并针对科学、数学、编程等领域进行了优化。 2月6日，谷歌也加入了 DeepSeek 、OpenAI 的战局，发布多个…

2025 年 2 月 10 日 • 基准实验室

66400