302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

2025年5月20日,字节跳动团队于 Hugging Face 平台推出了全新开源的统一多模态模型:BAGEL模型一经发布,不仅迅速登上Hugging Face趋势榜,同时引发海内外热议。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!
302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

BAGEL 基于 Qwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2 模型进行微调,并使用 FLUX.1-schnell VAE 模型 。采用的是混合 Transformer-专家 (MoT) 架构,其中包含两个独立的Transformer专家模块:一个专注于多模态理解,另一个专注于多模态生成。

简单地理解,BAGEL 是一个类似 gpt-image-1 的模型,结合了图片推理、图像编辑、图片生成等功能,既可以生成图片也可以对图片进行修改。

据闻,BAGEL 理解图像比 Qwen2.5-VL 更准,推理能力超 InternVL-2.5,图像生成对标 Stable Diffusion 3,堪称“开源版 GPT-4o ”302.AI团队紧跟市场动向,第一时间接入了 BAGEL 模型的API,并对模型展开实测,详细实测内容看下文。


I. BAGEL vs. GPT-Image-1实测

BAGEL 包含图片生成(BAGEL-Generation)和 图片编辑(BAGEL-Edit),下面会分为两部分对比 GPT-Image-1 进行实测。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

1、图片生成

(1)文字生成

提示词:a photo of three antique glass magic potions in an old abandoned apothecary shop: the first one is blue with the label ‘SDXL’, the second one is red with the label ‘BAGEL’, the third one is green with the label ‘FLUX’.

BAGEL:英文单词生成不准确,颜色正确。

GPT-Image-1 :颜色和单词的生成均无误

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

(2)人物生成

提示词:一张电影摄影风格的特写肖像,捕捉了一个阳光明媚的白天城市街道上邻家女孩的样子。她穿着一件卡其色毛衣,飘逸的长发轻轻地披在肩上。她的头微微转动,柔和的面部特征被来自左边的真实、微妙的阳光照亮。阳光微妙地突出了她的每一缕头发。该图像具有佳能电影般的色调,唤起一种温暖,怀旧的气氛。

BAGEL:提示词遵循准确,但面部皮肤的纹理感欠缺真实,整体风格AI感强。

GPT-Image-1 :人物面部皮肤及五官的呈现较为逼真,但提示词中所描述的氛围光效果表现不够突出。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

(3)指定场景生成

提示词:书架上有一只穿着毛衣的鳄鱼玩偶

BAGEL:场景生成构图合理,主体与背景层次明确,光线阴影合理。但整体风格AI感/卡通感强

GPT-Image-1 :场景生成构图合理,主体与背景层次明确,光线阴影合理,整体风格拟真度高。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

2、图片编辑

(1)眼影皮肤试色

提示词:Can you demonstrate the colors on skin

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

BAGEL:生成的颜色不够准确

GPT-Image-1 :颜色不够准确,并且右下角显示了不必要的元素如新的眼影盘。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

(2)风格转换

提示词:Change to 3D animated style

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

BAGEL:风格转换准确,但美观度,细节复杂度尚需提升

GPT-Image-1 :风格转换精准,细节把控得当,整体效果佳

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

(3)局部修改

提示词:女孩手里的鲜花变成抱着一只兔子

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

BAGEL:手指部分略显生硬,表现有待提升,人物面部与原图保持一致

GPT-Image-1 :手指部分相对协调,人物面部/衣服细节未能保持一致性,如在原图基础上对五官细节,肤色均进行了调整。

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

II. BAGEL实测总结

1、实测结果整理:

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

2、实测结论:

基于以上实测结果,可初步得出以下结论:

(1)综合所有对比结果可得出,BAGEL 的表现略逊于 GPT-Image-1。

(2)在实测过程中,我们发现 BAGEL 输出的质量不够稳定,比如有时会出现模糊输出、解剖学错误如手指没能更自然地呈现。

(3)BAGEL 面对复杂的提示理解存在偏差,复杂的编辑指令可能无法完全按预期理解,比如眼影试色案例,需要不断调整提示词才可正常输出试色效果。

(4)BAGEL 作为一个开源模型,其真正的魅力在于允许用户根据自己的需求进行修改和优化。开发者可以根据具体的应用场景调整模型架构、训练数据、超参数等,以达到最佳性能。


III. 如何在302.AI上使用:

302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

获得模型BAGEL的模型API

BAGEL(图片生成):API→API超市→图片生成→ BAGEL→查看文档;

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

BAGEL-Edit(图片编辑):API→API超市→图片处理→ BAGEL→查看文档;

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

想体验 BAGEL 模型? 👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室丨字节跳动开源 BAGEL 对标 GPT-Image-1,实测结果令人大跌眼镜!

往期推荐

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 9小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注