基准实验室

302.AI 基准实验室丨可灵图生视频模型全版本对比实测，新版就一定稳赢么？

北京时间 5 月 29 日，可灵（Kling）正式推出了升级版视频模型：可灵 2.1 ，这距离上一版本可灵 2.0 大师版的更新仅仅才过了一个多月。可灵 2.1 此次引入了全新的三档质量模型：（海外AIGC创作者给予了高度评价）为了让用户能更直观地了解可灵 2.1的表现， 302.AI 团队也在第一时间接入了最新版本的API并对可灵1.6、可灵2.0、…
2025 年 6 月 4 日 • 基准实验室
4.1K31
新版 DeepSeek-R1-0528 对比旧版区别在哪？速看对比实测结果 | 302.AI 基准实验室

北京时间 5 月 28 日晚，DeepSeek 在官方社群推送了更新通知。 5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级，当前版本更新为 DeepSeek-R1-0528 Hugging Face模型榜登顶根据 DeepSeek 官方重点信息提炼：更新后的 R1 模型在数学、编程与通用逻辑等多个基准…
2025 年 5 月 30 日 • 基准实验室
5.8K140
302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1，实测结果令人大跌眼镜！

2025年5月20日，字节跳动团队于 Hugging Face 平台推出了全新开源的统一多模态模型：BAGEL 。模型一经发布，不仅迅速登上Hugging Face趋势榜，同时引发海内外热议。 Hugging Face登顶海外AI从业者评价 BAGEL 基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-384-flash-…
2025 年 5 月 29 日 • 基准实验室
2.7K120
Claude 4 系列最新对比测评，推理退步前端编程增强？| 302.AI 基准实验室

美东时间5月22日周四，Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型：Claude Opus 4和Claude Sonnet 4。据了解，Claude Opus 4 和 Sonnet 4 都是混合推理模型，同时支持 Extended thinking（扩展推…
2025 年 5 月 23 日 • 基准实验室
14.7K2450
302.AI 基准实验室 | 大模型排行榜第二！Gemini-2.5-flash-preview-05-20全方位对比测评

北京时间 5 月 21 日，谷歌在 I/O 2025大会上带来了新模型：gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计，更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进，同时使用的 token 减少了 20-30%。在lmarena.a…
2025 年 5 月 22 日 • 基准实验室
5.5K1670
302.AI 基准实验室丨最新国产视频模型实测对比：Kling 2.0 vs. Vidu Q1

4月，可灵（Kling）AI 推出了视频模型 2.0 版本。与此前版本相比，Kling 2.0 拥有更强的语义响应、更优的动态质量和更好的画面美学。同月，生数科技正式发布新一代视频大模型 Vidu Q1 。据官方宣称，Vidu Q1 在生成逼真度、美学质量、对象/场景生成精准度以及视频语义一致性等方面均展现出令人惊叹的效果。为了让用户能更直观地了解这两款…
2025 年 5 月 15 日 • 基准实验室
5.5K2690
Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决| 302.AI 基准实验室

近日，谷歌提前推出了Gemini 2.5 Pro的最新版：Gemini 2.5 Pro Preview (I/O edition) 05-06 。官方介绍，这一版本模型的编码能力更强，用户只需一个提示即可构建更丰富的 Web 应用程序、游戏、模拟等而最新版 Gemini 2.5 Pro Preview 05-06 也在 WebDev Arena 排行榜上超…
2025 年 5 月 9 日 • 基准实验室
9.5K3060
阿里推出Qwen3新系列模型，性能全面测试对比 | 302.AI 基准实验室

4月29日凌晨，阿里通义千问团队宣布推出全新一代的混合推理模型—— Qwen3 系列模型。 Qwen3 系列包含了两款MoE模型： Qwen3-235B-A22B（2350多亿总参数、 220多亿激活参） Qwen3-30B-A3B（300亿总参数、30亿激活参数）以及六款 Dense 模型： Qwen3-32B、Qwen3-14B、Qwen3-8B、Qw…
2025 年 4 月 30 日 • 基准实验室
14.1K2812
302.AI 基准实验室 | OpenAI o4-mini & o3，实测编程效果与多模态能力到底如何？

上周，OpenAI在直播中发布了 o 系列新模型：o4-mini 和 o3。 OpenAI表示，o3是他们目前最强大的推理模型，在分析图像、图表和图形等视觉任务中表现尤为出色。而 o4-mini 则是一个较小的模型，专注于快速且经济高效的推理，特别在数学、编码和视觉任务中实现了优异的性能。接下来，我们将在 302.AI 平台上分别对 o4-mini 和 o…
2025 年 4 月 23 日 • 基准实验室
3.2K260
302.AI 基准实验室 | GPT-4.1竟吊打GPT-4o！GLM-Z1-AirX又能否超越DeepSeek R1？

4 月 15 日凌晨，OpenAI 发布了全新 GPT-4.1 系列模型，其中包括：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 。官方表示，这三个模型的性能全面超越了 GPT-4o 和 GPT-4o mini，并在编程、指令遵循和上下文理解方面有显著提升。与此同时，OpenAI 还宣布将在 API 中弃用 GPT-4.5 预览版…
2025 年 4 月 16 日 • 基准实验室
2.8K270

7 / 14
4
5
6
7
8
9
10