基准实验室

302.AI 基准实验室丨最新国产视频模型实测对比：Kling 2.0 vs. Vidu Q1

4月，可灵（Kling）AI 推出了视频模型 2.0 版本。与此前版本相比，Kling 2.0 拥有更强的语义响应、更优的动态质量和更好的画面美学。同月，生数科技正式发布新一代视频大模型 Vidu Q1 。据官方宣称，Vidu Q1 在生成逼真度、美学质量、对象/场景生成精准度以及视频语义一致性等方面均展现出令人惊叹的效果。为了让用户能更直观地了解这两款…

1天前 • 基准实验室

1400

302.AI 基准实验室 | Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决

近日，谷歌提前推出了Gemini 2.5 Pro的最新版：Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍，这一版本模型的编码能力更强，用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…

2025 年 5 月 9 日 • 基准实验室

4200

302.AI 基准实验室 | 阿里推出Qwen3新系列模型，性能全面测试对比

4月29日凌晨，阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型： Qwen3-235B-A22B（2350多亿总参数、 220多亿激活参） Qwen3-30B-A3B（300亿总参数、30亿激活参数）以及六款 Dense 模型： Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…

2025 年 4 月 30 日 • 基准实验室

36300

302.AI 基准实验室 | OpenAI o4-mini & o3，实测编程效果与多模态能力到底如何？

上周，OpenAI在直播中发布了 o 系列新模型：o4-mini 和 o3。 OpenAI表示，o3是他们目前最强大的推理模型，在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型，专注于快速且经济高效的推理，特别在数学、编码和视觉任务中实现了优异的性能。接下来，我们将在 302.AI 平台上分别对 o4-mini 和 o…

2025 年 4 月 23 日 • 基准实验室

18400

302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o！GLM-Z1-AirX又能否超越DeepSeek R1？

4 月 15 日凌晨，OpenAI 发布了全新 GPT-4.1 系列模型，其中包括：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程、指令遵循和上下文理解方面有显著提升。与此同时，OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…

2025 年 4 月 16 日 • 基准实验室

20700

302.AI 基准实验室 | 四大场景对比Gen-4 vs. Kling-1.6图生视频效果，这次谁破防了？！

4月1日，Runway 推出了新视频模型：Gen-4。据官方介绍，Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频，并且主题、对象和风格一致，具有出色的即时一致性和一流的世界理解能力。 4月8日，Runway再次宣布推出新版本：Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…

2025 年 4 月 10 日 • 基准实验室

19100

302.AI 基准实验室 | 文生图模型对比测评：从吉卜力风格到文字内容生成，到底谁才是王者？

上个月，AI图像生成模型领域涌现出了很多新面孔，例如MiniMax推出的首款图像模型Image-01，以及智谱2025年开源的首个文生图模型CogView-4-250304等。今天，302.AI将对市场上的文生图模型进行评测，期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个，具体包括： MiniMax-Image-01、Midjourney…

2025 年 4 月 8 日 • 基准实验室

56510

302.AI 基准实验室 | 阿里最新视觉推理模型QVQ-Max竟能看手相？来看实测结果！

短短一周时间，阿里通义千问上线了三个模型，先是推出了小参数模型 Qwen2.5-VL-32B-Instruct 和 Qwen2.5-Omni-7B ，紧接着视觉推理模型 QVQ-Max 也正式上线。官方形容 QVQ-Max 是一款既有“眼力”又有“脑力”的视觉推理模型，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。…

2025 年 4 月 1 日 • 基准实验室

31400

302.AI 基准实验室 | DeepSeek-V3.1 vs. Gemini-2.5 vs. Claude-3.7，到底谁在前端任务上更胜一筹？

3月24日，DeepSeek V3 发布新版本：DeepSeek-V3-0324。据官方介绍，新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在 HTML 等代码前端任务上，新版 V3 模型生成的代码可用性更高，视觉效果也更加美观、富有设计感。 DeepSeek-V3.1（即DeepSe…

2025 年 3 月 27 日 • 基准实验室

68001

302.AI 基准实验室 | 国产推理模型Hunyuan-T1-Latest实测：速度提升，推理与中文理解表现惊艳！

3月21日晚，腾讯宣布混元大模型系列的深度思考模型已成功升级为混元-T1正式版。据官方介绍，该模型基于腾讯3月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型TurboS快思考基座，通过大规模训练显著扩展了推理能力，并进一步对齐人类偏好。在MMLU-pro、CEval、AIME、Zebra Logic等中英文知识、…

2025 年 3 月 26 日 • 基准实验室

22901