就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。
FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型基于多模态和Transformer架构,能够生成高质量、细节丰富、风格多样的图像。
FLUX.1模型分为三个不同的版本,其中FLUX.1 [pro] 是旗舰版,提供最顶尖的性能,但该版本是闭源的,需要通过API访问,并且是收费的,其他两个版本分别是FLUX.1 [dev]、FLUX.1 [schnell]。
FLUX.1 [dev]:基础模型,开源且拥有非商业许可,供社区在此基础上进行构建;
FLUX.1 [schnell]:基本模型的精简版本,运行速度最高可提高 10 倍,在 Apache 2.0 许可下开源的,但可能在图像质量上有所折中;
FLUX.1 [pro]:仅限 API 使用的闭源版本,专为商业应用设计,提供卓越的图像质量、细节和多样性。
FLUX.1 定义了图像合成领域的最新技术。FLUX.1 [pro] 和 [dev] 在以下每个方面都超越了 Midjourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra 等热门模型:视觉质量、快速跟进、尺寸/长宽变化、排版和输出多样性。
FLUX.1 [schnell] 表现不仅优于同类竞争对手,还优于 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非蒸馏模型。FLUX.1 经过专门微调,以保留预训练的整个输出多样性。与目前最先进的技术相比,提供了显著改进的可能性。
上文也有提到,在官网如果想要使用最高版本的FLUX.1 [pro],只能通过API使用,但是并不是所有AI爱好者都会使用API,因此,想要直接使用FLUX.1模型的效果,302.AI的绘画机器人是个非常不错的选择。302.AI的绘画机器人提供FLUX.1模型,包含FLUX.1 [dev]、FLUX.1 [schnell]和FLUX.1 [pro]三个版本。
302.AI的绘画机器人提供按需付费的使用方式,用户不仅可以自己使用,还能通过分享链接分享给朋友,且朋友通过分享链接无需登录注册即可使用。除此之外,还提供了全面的提示词,给用户提供创作的方向和主题,帮助确定生成图像的基本风格和内容。
根据官网显示,FLUX.1 [pro]的API 目前是预览定价,随时会有变化。除了绘画机器人能直接使用FLUX.1各版本的模型,值得一提的是,302.AI的API超市也提供了FLUX.1各版本的API。用户无需注册GitHub或者FLUX账号。302.AI的API超市支持在线调试,能够降低开发成本,开发者可以直接调用现有的AI模型,无需关心底层的模型架构、部署、优化等复杂操作,就算是没有深厚AI背景的开发者也能轻松使用。
最后,一起来看下通过302.AI绘画机器人的FLUX.1 [pro]模型生成的作品:
人物方面:可以看到下面这张人物作品照片,脸部的皮肤非常逼真、有细节。
提示词:一个中国女人的肖像,光线在她的脸上,而她在黑暗中,明暗对照,摄影
手部四肢生成:用过Stable Diffusion 3都知道,SD3最大的一个问题是生成的人物四肢会出现扭曲与不协调,而FLUX特别优化了手部和文字生成这两个部分,先来看下手部生成的情况,通过下面的照片可以看到,手部与脚部等四肢是流畅的,没有太大的问题。
提示词:全身人像,躺在草地上的小女孩 ,可以看清楚手部、腿部等四肢,照片逼真,用相机拍摄
文字生成:再来看下在文字生成方面,也是没有太大的问题,是准确的,但是有一点比较小的小细节就是其实小黄人只有3根手指头,生成的作品中小黄人是有四根手指头的。
提示词:逼真的小黄人举着一个写着 “Good morning!” 的牌子,并向前方比剪刀手。
多风格能力:可以看到以下生成的作品,在特定风格的提示词下,能够准确地捕捉并体现,这点还是不错。
提示词:一个由碎片组成的抽象人的雕塑,一个破碎的男性形式,悬浮在空气中的碎片,以ZBrush艺术的风格渲染灰色背景,以cinema4d和3D渲染的风格渲染,以Octane渲染的风格渲染,在黏土中渲染。
FLUX的推出让更多人认识了Black Forest Labs,FLUX.1的发布则更显得有备而来。FLUX.1推出了三个不同的版本,分别针对不同的用户需求和使用场景,充分展示了Black Forest Labs在AI图像生成领域的技术实力和市场洞察力。通过FLUX.1模型的发布,Black Forest Labs不仅巩固了其在行业中的地位,也为用户提供了更为多样化和精细化的选择。
参考文章:
https://mp.weixin.qq.com/s/LdDvwCCeKCtM6C-S9r3p-w
https://blog.fal.ai/flux-the-largest-open-sourced-text2img-model-now-available-on-fal
https://blackforestlabs.ai/announcing-black-forest-labs/?ref=blog.fal.ai