Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型基于多模态和Transformer架构,能够生成高质量、细节丰富、风格多样的图像。

FLUX.1模型分为三个不同的版本,其中FLUX.1 [pro] 是旗舰版,提供最顶尖的性能,但该版本是闭源的,需要通过API访问,并且是收费的,其他两个版本分别是FLUX.1 [dev]、FLUX.1 [schnell]。

FLUX.1 [dev]:基础模型,开源且拥有非商业许可,供社区在此基础上进行构建;

FLUX.1 [schnell]:基本模型的精简版本,运行速度最高可提高 10 倍,在 Apache 2.0 许可下开源的,但可能在图像质量上有所折中;

FLUX.1 [pro]:仅限 API 使用的闭源版本,专为商业应用设计,提供卓越的图像质量、细节和多样性。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

FLUX.1 定义了图像合成领域的最新技术。FLUX.1 [pro] 和 [dev] 在以下每个方面都超越了 Midjourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra 等热门模型:视觉质量、快速跟进、尺寸/长宽变化、排版和输出多样性。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

FLUX.1 [schnell] 表现不仅优于同类竞争对手,还优于 Midjourney v6.0 和 DALL·E 3 (HD) 等强大的非蒸馏模型。FLUX.1 经过专门微调,以保留预训练的整个输出多样性。与目前最先进的技术相比,提供了显著改进的可能性。

上文也有提到,在官网如果想要使用最高版本的FLUX.1 [pro],只能通过API使用,但是并不是所有AI爱好者都会使用API,因此,想要直接使用FLUX.1模型的效果,302.AI的绘画机器人是个非常不错的选择。302.AI的绘画机器人提供FLUX.1模型,包含FLUX.1 [dev]、FLUX.1 [schnell]和FLUX.1 [pro]三个版本。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

302.AI的绘画机器人提供按需付费的使用方式,用户不仅可以自己使用,还能通过分享链接分享给朋友,且朋友通过分享链接无需登录注册即可使用。除此之外,还提供了全面的提示词,给用户提供创作的方向和主题,帮助确定生成图像的基本风格和内容。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

根据官网显示,FLUX.1 [pro]的API 目前是预览定价,随时会有变化。除了绘画机器人能直接使用FLUX.1各版本的模型,值得一提的是,302.AI的API超市也提供了FLUX.1各版本的API。用户无需注册GitHub或者FLUX账号。302.AI的API超市支持在线调试,能够降低开发成本,开发者可以直接调用现有的AI模型,无需关心底层的模型架构、部署、优化等复杂操作,就算是没有深厚AI背景的开发者也能轻松使用。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

最后,一起来看下通过302.AI绘画机器人的FLUX.1 [pro]模型生成的作品

人物方面:可以看到下面这张人物作品照片,脸部的皮肤非常逼真、有细节。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

提示词:一个中国女人的肖像,光线在她的脸上,而她在黑暗中,明暗对照,摄影

手部四肢生成:用过Stable Diffusion 3都知道,SD3最大的一个问题是生成的人物四肢会出现扭曲与不协调,而FLUX特别优化了手部和文字生成这两个部分,先来看下手部生成的情况,通过下面的照片可以看到,手部与脚部等四肢是流畅的,没有太大的问题。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

提示词:全身人像,躺在草地上的小女孩 ,可以看清楚手部、腿部等四肢,照片逼真,用相机拍摄

文字生成:再来看下在文字生成方面,也是没有太大的问题,是准确的,但是有一点比较小的小细节就是其实小黄人只有3根手指头,生成的作品中小黄人是有四根手指头的。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

提示词:逼真的小黄人举着一个写着 “Good morning!” 的牌子,并向前方比剪刀手。

多风格能力:可以看到以下生成的作品,在特定风格的提示词下,能够准确地捕捉并体现,这点还是不错。

Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

提示词:一个由碎片组成的抽象人的雕塑,一个破碎的男性形式,悬浮在空气中的碎片,以ZBrush艺术的风格渲染灰色背景,以cinema4d和3D渲染的风格渲染,以Octane渲染的风格渲染,在黏土中渲染。

FLUX的推出让更多人认识了Black Forest Labs,FLUX.1的发布则更显得有备而来。FLUX.1推出了三个不同的版本,分别针对不同的用户需求和使用场景,充分展示了Black Forest Labs在AI图像生成领域的技术实力和市场洞察力。通过FLUX.1模型的发布,Black Forest Labs不仅巩固了其在行业中的地位,也为用户提供了更为多样化和精细化的选择。

参考文章:

https://mp.weixin.qq.com/s/LdDvwCCeKCtM6C-S9r3p-w

https://blog.fal.ai/flux-the-largest-open-sourced-text2img-model-now-available-on-fal

https://blackforestlabs.ai/announcing-black-forest-labs/?ref=blog.fal.ai

Like (0)
302.AI302.AI
Previous 2024 年 8 月 12 日 下午6:27
Next 2024 年 8 月 14 日 下午4:20

相关推荐

  • 资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

    11月19日,Mistral AI宣布推出新视觉模型——Pixtral Large。 Pixtral Large是基于Mistral Large 2构建,具有124B开放权重的多模态模型,支持128K上下文窗口,能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。 根据Mistral AI提供的Pixtral La…

    2024 年 11 月 21 日
    24200
  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    35000
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    56100
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    18600
  • 什么是RAG?什么是GraphRAG?一文带你读懂知识库机器人原理

    在人工智能领域,知识库机器人已经成为推动智能化发展的重要力量。它们能够高效地处理海量信息,为用户提供精准、及时的知识服务。今天,我们将一起揭开知识库机器人的神秘面纱,探讨知识库机器人的原理。 什么是RAG? 知识库的整套技术在学术界有一个专业名词,叫RAG,即Retrieval-Augmented Generation,翻译成中文就是检索信息增强,是一种将信…

    2024 年 9 月 11 日
    58300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注