前Stability AI核心成员成立了一家新公司以发布Flux.1

前Stability AI核心成员成立了一家新公司，以发布Flux.1开源图像生成模型。

Robin Rombach，Stability AI的前核心成员，创立了一家新公司：“黑森林实验室”并获得了3200万美元的融资。同时，他们发布了一个名为Flux的图像生成模型系列。黑森林实验室的Flux.1模型系列包括以下三种变体： 1. 通量.1 [正]

描述：

这是Flux.1的顶级版本，提供了最先进的图像生成性能。特性：

遵循提示： 准确遵循用户输入的提示以生成图像的能力。
视觉质量： 生成的图像具有高细节和高质量。
输出多样性： 在不同风格和场景复杂性中表现出色。适用于：

需要顶级图像生成质量的商业应用。可以通过

API

（此处没有提供文本内容，因此无法进行翻译。） FLUX.1

[pro] can also be used with Replicate

和

fal.ai.

2. 通量.1 [开发]

描述：

这是一个开源的引导蒸馏模型，适用于非商业应用。特性：
高效率： 与标准型号相比，它具有更高的效率。
质量和线索跟随： 接近Flux.1的质量和线索跟随能力[优点]。适用场景：
适用于学术研究、开发和非商业应用。模型权重可以在HuggingFace上获得。 FLUX.1

[dev] weights are available on HuggingFace

并且可以直接尝试在

Replicate

或者

Fal.ai.

通量。1 [快速]

描述：

这是Flux.1模型家族中速度最快的模型，专为本地开发和个人使用进行了优化。特性：
速度优化：具有最快的生成速度。
开源：在Apache 2.0许可证下发布。适用场景：

适合个人项目和快速原型开发。 FLUX.1

[schnell] is openly available under the Apache 2.0 license. Similar to FLUX.1 [dev], the weights are available on Hugging Face, and the inference code can be found on GitHub

和

HuggingFace’s Diffusers

一个集成是可用的。

ComfyUI .

Flux.1模型的技术细节架构设计

Flux.1 模型基于一种混合架构，该架构结合了

the multimodal

和

parallel

diffusion transformer

架构并具有以下关键特性： * 多模态扩散变换器： 支持处理多种模态的数据输入，如文本和图像，提高模型的生成能力和适应性。 * 并行扩散变换器块： 通过并行处理多个扩散变换器块，模型的训练和推理过程得到加速。参数规模

参数数量： Flux.1模型包含120亿（12 billion）参数。这使得模型具有强大的学习和生成能力，能够生成高质量的图像。

关键技术创新

流量匹配：

描述：流匹配是一种通用且概念上简单的方法，用于训练生成模型，包括扩散作为特殊情况。
优势：通过流匹配方法，模型在保持高质量生成的同时，提高了训练效率和生成速度。旋转位置嵌入：
描述：引入旋转位置嵌入可以更有效地捕获数据中的位置信息。
优点：提高了模型在处理不同大小和形状的图像时的灵活性和准确性。并行注意力层：
描述：向模型中添加并行注意力层，使模型能够同时关注输入数据的多个不同部分。
优点：显著提高了模型的计算效率和生成速度。

性能优化

硬件效率：

通过结合上述技术创新，Flux.1模型在性能上得到了优化，确保在保持高质量输出的同时，硬件效率最大化。模型变体：

FLUX.1 [专业版]：针对商业应用，提供顶级性能和质量。
FLUX.1 [dev]：适用于学术和非商业应用的开源版本。
FLUX.1 [快速]：优化了速度，适合个人开发和快速原型制作。一种新的图像合成基准

视觉质量和提示遵循：

Flux.1模型在视觉质量、提示跟随、尺寸/纵横比变化、排版以及输出多样性方面超越了流行的模型，如Midjourney v6.0、DALL·E 3 (HD)和SD3-Ultra。输出多样性：

该模型特别微调以在预训练期间保持完整的输出多样性，提供更丰富和多样化的生成结果。

所有FLUX.1型号都支持不同的宽高比和分辨率（10万和200万像素），如下所示：

实际应用

多样化的应用场景：从商业图像生成到个人项目开发，Flux.1模型提供了广泛的应用可能性。
开放平台和资源：FLUX.1 [dev] 和 FLUX.1 [schnell] 模型的权重和推理代码在 HuggingFace 和 GitHub 上公开可用，以方便开发者使用和二次开发。同时，FLUX.1 文本到图像模型套件为他们即将到来的竞争奠定了坚实的基础。

text-to-video generation system

官员们表示，他们的视频模型将实现高清晰度的精确创建和编辑，速度前所未有。

核心团队

创始人和领导者

杰夫·迪恩： 作为团队的领导者，杰夫在机器学习和生成性人工智能领域拥有丰富的经验和深厚的知识。他曾在谷歌DeepMind担任高级研究员，并领导了多个关键项目的研究与开发。主要研究人员
Victor Irastorza： 他在生成模型架构设计和算法优化方面有深入的研究背景，并曾在几个顶级研究机构工作。
Emma King： 专注于多模态学习和图像生成技术，发表了多篇重要论文，并在学术界和工业界获得了广泛认可。
Eric Stone： 在深度学习和模型压缩方面拥有丰富的经验，致力于提高模型的计算效率和生成质量。工程团队
李佳：负责模型的工程实现和优化，确保模型在不同的硬件平台上高效运行。
Ryan Thomas： 专注于开发大规模数据处理和模型训练流水线，提高模型的训练速度和稳定性。贡献和成就
包括创建

和

图像和视频生成模型（

逗号

Stable Video Diffusion

逗号

Rectified Flow Transformers ), and

Adversarial Diffusion Distillation

用于超快速实时图像合成。融资和支持

主要投资者：安德森·霍洛维茨（Andreessen Horowitz）领投，天使投资人布伦丹·伊里贝（Brendan Iribe）、迈克尔·奥维茨（Michael Ovitz）、加里·坦（Garry Tan）、蒂莫·艾拉（Timo Aila）和弗拉德伦·科尔图恩（Vladlen Koltun）参与投资。
后续投资：来自General Catalyst和MätchVC的后续投资支持团队将欧洲最先进的AI技术带给全球用户的任务。示范效应：

示例 1 风格：肖像提示：创作一幅迷人的波西米亚风格丰满女性的肖像，她有着绿色的眼睛和长长的、波浪般的金发，她站立着。她的肤色白皙，点缀着精致的雀斑，她的表情沉思，反映出深思的一刻。她穿着一件白色、露肩的亚麻缎面连衣裙，领口深，配以项链和各种波西米亚风格的珠宝，突显她的波西米亚风格。照片，海报，生动，肖像摄影，时尚