Benchmark laboratory

从视觉语言到GUI交互：智谱GLM-4.5V挑战顶级闭源模型实测丨302.AI 基准实验室

视觉语言大模型（VLM）作为智能系统的核心基础，正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年，多模态大模型在视觉领域呈现百花齐放之势，各厂商竞相布局。然而，视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”，更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力，既是实现通用人工智能（AGI）的关键一步，也是构…
2025 年 8 月 15 日 • Benchmark laboratory
2.2K10
中文渲染新 SOTA！Qwen-Image 实测：多语言文本全面领先丨302.AI 基准实验室

复杂文本渲染的准确性，一直是 AI 生图领域长期存在的技术瓶颈。即便顶尖的生图模型，在处理复杂文本时也难免出现乱码现象。就在上周，阿里开源了通义千问系列的首个图像生成基础模型——Qwen-Image，其核心突破便在于卓越的复杂文本渲染能力。通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估，公开数据表明其在通用图像生成和图像编辑的所有基准…
2025 年 8 月 13 日 • Benchmark laboratory
2.9K20
302.AI 基准实验室丨FLUX.1 Krea 实测：特立独行的平衡之道，如何破局 AI“塑料感”？

在 AI 生图技术日趋成熟的当下，”去 AI 感”已成为各大开发者竞相突破的核心战场。Black Forest Lab 向来在拟真度方面持有绝对话语权，从我们往期的实测文章《302.AI 基准实验室丨实测对比 FLUX.1 Kontext 系列模型，“快、稳、准”三点能否问鼎？》当中可以看到，Flux 系列模型在保持主体一致性、画面拟…
2025 年 8 月 11 日 • Benchmark laboratory
2.3K20
302.AI 基准实验室丨GPT-5评测：没能炸场，却精准打脸了竞品：便宜、能打，还不装

尘埃落定，当地时间 8 月 7 日，OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称，GPT-5 是其迄今为止最智能、最快、最实用的模型，在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”，称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…
2025 年 8 月 8 日 • Benchmark laboratory
5.5K20
302.AI 基准实验室丨开源新SOTA? Open AI GPT-OSS系列模型对决国产开源模型评测

2025 年 8 月 5 日，OpenAI 突袭发布了两款全新的开源推理模型——gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年开源 GPT-2 以来，时隔 6 年首次重返开源生态。本次开源的 gpt-oss 系列包含两个高性能版本，均采用混合专家架构（MoE）与 Apache 2.0 开源许可，支持自由修改、…
2025 年 8 月 6 日 • Benchmark laboratory
7.0K00
302.AI 基准实验室丨指令的艺术：深度评测JSON格式与自然语义提示词对于AI创作的影响

一、引言如今这时代，你打开电脑，随手敲下几行字，十来秒它就给你变出一幅栩栩如生的图像，或是一段流畅的视频，不带卡顿够高清的那种。这事以前听着像是魔术，现在已经成了日常。AI这几年在生成图像和视频方面飙得飞快，背后推动它起飞的燃料，其中一个重要因素就是提示词——Prompt。你可能没太注意过，就是你跟AI说话的形式。别觉得这东西不起眼，它对最终生成效果的影…
2025 年 8 月 5 日 • Benchmark laboratory
3.1K00
302.AI 基准实验室 | 开源之路更远行：Wan 2.2对决国产顶级视频模型评测

7 月 28 日，阿里通义正式开源了其视频生成模型——通义万相 Wan2.2，该模型采用创新的 MoE（Mixture of Experts）架构，由高噪专家模型和低噪专家模型组成，能够根据去噪时间步进行专家模型划分，从而生成更高质量的视频内容。 Wan2.2 在 Wan2.1 的基础上实现了生成质量和模型能力的显著提升，其技术突破主要体现在三大核心领域：混…
2025 年 8 月 4 日 • Benchmark laboratory
5.2K10
302.AI 基准实验室丨国产大模型新卷王！GLM-4.5 开源登顶，逻辑推理硬刚 Grok 4？

北京时间 7 月 28 日，智谱发布了新一代旗舰模型 GLM-4.5 ，根据 Hugging Face 上的介绍，GLM -4.5 系列模型是专为 Agent 设计的基础模型。GLM-4.5 拥有 3550 亿个总参数，其中 320 亿个活跃参数；而 GLM-4.5-Air 则采用更紧凑的设计，拥有 1060 亿个总参数，其中 120 亿个活跃参数。GLM-…
2025 年 7 月 31 日 • Benchmark laboratory
3.5K10
302.AI 基准实验室丨图像编辑模型标杆之争：不做参数党，FLUX.1 Kontext-Dev对比实测

自今年4月OpenAI的GPT-Image-1横空出世以来，AI图像编辑模型已经从小众技术迅速演变为AIGC爱好者和专业人士的日常必备工具。在这短短几个月内，我们见证了这一领域的爆炸式发展。特别是在今年6月，两款重量级产品的登场彻底改变了游戏规则：Black Forest Labs推出的FLUX.1 Kontext系列模型以及字节跳动Seed团队发布的See…
2025 年 7 月 25 日 • Benchmark laboratory
3.5K40
AI 基准实验室丨Kling V2.0 图像生成模型评测——4月发布的模型，如今是否仍宝刀未老？

在AI图像生成领域，从“能画”到“画得好”，再到“画得惊艳”，技术迭代的速度远超想象。7月10日，快手发布了最新的图像生成模型Kolors 2.1（暂时仍未开放API接口）。在对新版本进行接入测试前，让我们回顾下2025年4月推出的Kling V2.0模型，看看90天前发布的上一代模型，在当下是否依然能与各个顶级模型具有一战之力。 kling 2.0 的主要…
2025 年 7 月 23 日 • Benchmark laboratory
3.5K20

6 / 16
3
4
5
6
7
8
9