基准实验室

302.AI 基准实验室 | 四大场景对比Gen-4 vs. Kling-1.6图生视频效果，这次谁破防了？！

4月1日，Runway 推出了新视频模型：Gen-4。据官方介绍，Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频，并且主题、对象和风格一致，具有出色的即时一致性和一流的世界理解能力。 4月8日，Runway再次宣布推出新版本：Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…
2025 年 4 月 10 日 • 基准实验室
2.1K250
文生图模型对比测评：从吉卜力风格到文字内容生成，到底谁才是王者？| 302.AI 基准实验室

上个月，AI图像生成模型领域涌现出了很多新面孔，例如MiniMax推出的首款图像模型Image-01，以及智谱2025年开源的首个文生图模型CogView-4-250304等。今天，302.AI将对市场上的文生图模型进行评测，期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个，具体包括： MiniMax-Image-01、Midjourney…
2025 年 4 月 8 日 • 基准实验室
7.9K240
302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相？来看实测结果！

短短一周时间，阿里通义千问上线了三个模型，先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ，紧接着视觉推理模型 QVQ-Max 也正式上线。官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。…
2025 年 4 月 1 日 • 基准实验室
1.9K150
302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7，到底谁在前端任务上更胜一筹？

3月24日，DeepSeek V3 发布新版本：DeepSeek-V3-0324。据官方介绍，新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在 HTML 等代码前端任务上，新版 V3 模型生成的代码可用性更高，视觉效果也更加美观、富有设计感。 DeepSeek-V3.1（即DeepSe…
2025 年 3 月 27 日 • 基准实验室
3.1K271
302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测：速度提升，推理与中文理解表现惊艳！

3月21日晚，腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍，该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座，通过大规模训练显著扩展了推理能力，并进一步对齐人类偏好。在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…
2025 年 3 月 26 日 • 基准实验室
1.7K251
302.AI 基准实验室 | Gemini-2.0-flash & Doubao-seededit，最近火爆AI届的图像编辑功能到底谁更强？

要说近期AI圈里最红的，应该就是来自谷歌的Gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型，gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成，还能够通过自然语言对话直接对图像进行修改。这种把传统的语言大模…
2025 年 3 月 22 日 • 基准实验室
1.2K210
302.AI 基准实验室 | 最新小参数模型对比测评：Gemma 3 27b vs. Mistral-small-3.1-24B

3月12日，谷歌正式推出了全新的Gemma 3系列模型，该系列包含四种不同参数版本：1B、4B、12B和27B。据官方介绍，Gemma 3具备强大的多模态能力，能够支持视觉与语言的输入，可以理解140+语言，并提供128k token的上下文窗口。短短几天后，法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…
2025 年 3 月 21 日 • 基准实验室
1.6K220
302.AI 基准实验室 | ComfyUI API vs. Gemini-2.0-Flash图片编辑：突破玩具到商用的临界点

近期，302.AI上线了 ComfyUI 系列 API，这是基于 ComfyUI 实现的图片处理服务，可实现换装、换脸、换物、漫画图变真人、风格迁移等任务，生成的效果达到商用级，能够真正帮助电商企业制作出优质的产品宣传图。同期，Google 的 Gemini 2.0 Flash 原生多模态能力在AI圈子掀起了一阵浪潮。据闻，这一功能可以通过文字描述处理文本…
2025 年 3 月 19 日 • 基准实验室
1.4K261
302.AI 基准实验室 | QwQ-32B vs. DeepSeek-R1 vs. QwQ-Plus 神仙打架，到底谁更出色？

3月6日，阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型，具备思考和推理能力。其优势是推理速度快，在数学、编程和通用任务推理方面表现出色，整体性能比肩DeepSeek-R1。与此同时，阿里云开放平台还放出了一个名为 QwQ-Plus 的模型，官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提…
2025 年 3 月 12 日 • 基准实验室
1.6K10
302.AI 基准实验室 | Claude 3.7 Sonnet 标准模式和推理模式实测对比

在上一篇文章中，我们给大家介绍了 Claude 3.7 Sonnet 模型，同时对Claude 3.7 Sonnet的标准模式（Normal）进行了实测对比。而现在，我们将会对Claude 3.7 Sonnet 推理模式（Extended）进行深入探讨。通过与Claude 3.5 Sonnet、Claude 3.7 Sonnet（标准模式）的对比，更全面地…
2025 年 2 月 27 日 • 基准实验室
2.4K81

8 / 14
5
6
7
8
9
10
11