Benchmark laboratory
302.AI 基准实验室丨看图、读表、秒回应——2025年上半场多模态大模型实测推荐
I. 2025年上半年多模态大模型评测与推荐:洞悉前沿,智选未来 2025 年上半程,多模态大模型又一次把“看图回答”这件事做到了难以想象的高度。谷歌在 I/O 上抛出的 Gemini-2.5 系列率先给外界打了样:Pro 型号在多项推理基准夺冠,Elo 得分刷新纪录;而 Flash 则把一次图文推理的平均延迟压进 500 ms 并新增视频输入通道。Anth…
The battle for the king of AI Life map in the first half of 2025: 302. AI assembled an all-star lineup, and the actual measurement of the TOP5 models was announced! Must-read for AIGC enthusiasts
I. 前言:2025上半年AI生图模型评测 – 迈向拟真与高效的新纪元 在过去两年里,无论你刷社交媒体、看电视节目,还是注意到街头巷尾的广告,AI生成的图像早已全方位融入到我们的生活中。2025年上半年,AI图像生成领域再次迎来爆发式增长,技术突破与应用落地呈现出前所未有的加速态势。从ChatGPT、Sora等模型的突破性进展,到国产大模型的飞速…
302.AI 基准实验室丨三大最新语言模型:Gemini/Doubao/Minimax 高考数学与游戏编程实战测评
6月,各大模型厂商如同上了“发条”,新品发布纷至沓来。 6月11日,Force 2025 原动力大会上,火山引擎正式发布豆包大模型 1.6 版(Doubao-Seed-1.6)。该系列中包含了三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-fl…
The ultimate video model hegemony in the first half of 2025! Seedance 1.0 vs Kling 2.1 vs Veo 3 actual measurement | 302.AI Benchmark laboratory
北京时间6月11日,火山引擎在召开的 Force 2025 原动力大会上,正式发布了豆包大模型 1.6 版(Doubao-Seed-1.6)、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型以及豆包·实时语音模型。 其中,全新发布的豆包·视频生成模型 Seedance 1.0 pro 支持文字与图片输入,可生成多镜头无缝切换的1080…
302.AI 基准实验室丨实测对比 FLUX.1 Kontext 系列模型,“快、稳、准”三点能否问鼎?
5月29日,沉寂许久了的 Black Forest Labs (黑森林实验室) 通过官网发布了可用于生成和编辑图像的全新模型:FLUX.1 Kontext 系列,该系列模型能够同时使用文本和图像进行提示,并无缝地提取和修改视觉概念,从而生成全新、连贯的渲染效果。 FLUX.1 Kontext 系列分为以下版本: 根据官方介绍,FLUX.1 Kontext系列…
302.AI 基准实验室丨可灵图生视频模型全版本对比实测,新版就一定稳赢么?
北京时间 5 月 29 日,可灵(Kling)正式推出了升级版视频模型:可灵 2.1 ,这距离上一版本可灵 2.0 大师版的更新仅仅才过了一个多月。 可灵 2.1 此次引入了全新的三档质量模型: (海外AIGC创作者给予了高度评价) 为了让用户能更直观地了解可灵 2.1的表现, 302.AI 团队也在第一时间接入了最新版本的API并对可灵1.6、可灵2.0、…
What is the difference between the new version of DeepSeek-R1-0528 and the old version? Quick look at the comparison of the measured results | 302.AI Benchmark laboratory
北京时间 5 月 28 日晚,DeepSeek 在官方社群推送了更新通知。 5 月 29 日 DeepSeek 正式在社媒平台宣布 DeepSeek R1 模型已完成小版本升级,当前版本更新为 DeepSeek-R1-0528 Hugging Face模型榜登顶 根据 DeepSeek 官方重点信息提炼: 更新后的 R1 模型在数学、编程与通用逻辑等多个基准…
302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!
2025年5月20日,字节跳动团队于 Hugging Face 平台推出了全新开源的统一多模态模型:BAGEL 。模型一经发布,不仅迅速登上Hugging Face趋势榜,同时引发海内外热议。 Hugging Face登顶 海外AI从业者评价 BAGEL 基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-384-flash-…
The latest comparative evaluation of the Claude 4 series, reasoning regressive front-end programming enhancement? | 302.AI Benchmark laboratory
美东时间5月22日周四,Anthropic在公司首届”Code with Claude”开发者大会上推出了 Claude 4 系列的两款全新模型:Claude Opus 4和Claude Sonnet 4。 据了解,Claude Opus 4 和 Sonnet 4 都是混合推理模型,同时支持 Extended thinking(扩展推…
302.AI 基准实验室 | 大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评
北京时间 5 月 21 日,谷歌在 I/O 2025大会上带来了新模型:gemini-2.5-flash-preview-05-20。 gemini-2.5-flash-preview-05-20 是专为速度和低成本而设计,更新后的版本在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。 在lmarena.a…