探索 Flux:与 Midjourney 竞争的下一代 AI 图像生成模型
7 个月前
AI生成艺术的领域正在迅速发展,新模型不断推动可能性的边界。其中最新且最有前景的模型之一是 Flux,由 Black Forest Labs 开发。Flux利用结合了变换器和扩散技术的混合架构,参数规模达到惊人的120亿。该模型在图像生成方面提供了最先进的性能,具有出色的提示遵循、视觉质量、图像细节和输出多样性。
Flux的创造者是谁?
Flux是Black Forest Labs的创意结晶,这是一家由Stable Diffusion模型的原始创造者成立的研究实验室。该团队之前开发了诸如Stable Diffusion XL、Stable Video Diffusion和Rectified Flow Transformers等开创性模型。他们在AI图像和视频生成方面的专业知识为Flux的进步奠定了坚实的基础。
Flux是如何工作的?
Flux的核心是利用混合架构,将多模态和并行扩散变换器块结合在一起。这种方法基于流匹配,这是一种通用且概念上简单的生成模型训练方法,其中扩散是一个特例。Flux架构中的关键创新包括:
- 旋转位置嵌入:增强模型理解图像空间信息的能力。
- 并行注意力层:提高硬件效率,加快生成过程。
- 缩放法则:应用原则使模型在参数增加时仍能高效运行。
这些创新在团队最近的研究论文中有详细描述:
- "Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation" (2024年3月)
- "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis" (ICML, 2024)
使用Flux Dev生成
主要特性和改进
1. 优越的图像质量和提示遵循
Flux生成的图像不仅分辨率高,而且与提供的文本提示紧密匹配。这使其在照片真实感和细节方面成为Midjourney V6等模型的强劲竞争者。
2. 速度和效率
不同版本的Flux满足不同需求:
- Flux Schnell:优化速度,生成图像的速度比Pro版本快十倍,但质量略有下降。
- Flux Pro:专注于提供最高质量的图像,具有详细的纹理和准确的提示表现。
3. 可扩展性
Flux的120亿参数显著超过了大约35亿参数的Stable Diffusion XL。这一增加使得生成更复杂和更详细的图像成为可能。
4. 先进的架构
混合架构使Flux能够超越传统的扩散模型,通过结合变换器模型的各个方面,能够更好地处理复杂提示并生成更多样化的输出。
Flux的不同版本
Flux Pro
提供Flux的最佳能力,适合专业和商业用途的顶级图像生成。
主要特性:
- 最先进的性能
- 高保真度的提示遵循
- 出色的视觉质量和细节
使用:
在Replicate等平台上可用于商业应用,遵循Black Forest Labs的API协议和服务条款。
Flux Dev
一个开放权重、指导蒸馏模型,旨在用于非商业应用和开发目的。
主要特性:
- 与Flux Pro相似的质量和提示遵循
- 由于指导蒸馏而更高效
使用:
在HuggingFace等平台上免费提供,适合研究和个人项目,遵循非商业许可证。
Flux Schnell
专为速度而设计,优化用于本地开发和个人使用。
主要特性:
- 快速图像生成(1到4步)
- 使用潜在对抗扩散蒸馏
使用:
- 根据Apache-2.0许可证发布,可用于个人、科学和商业目的。
如何尝试Flux
Flux可以通过多个平台访问,允许用户实验其功能:
Replicate:
- Flux Pro: 用于商业用途,性能顶尖。
- Flux Dev: 用于非商业用途,开放权重。
HuggingFace:
- Flux Dev: 免费提供,适合实验和开发。
ComfyUI:
- Flux Schnell: 用于本地推理,基于节点的工作流程,适合个人项目和快速原型制作。
开始使用Flux
要开始使用Flux:
选择合适的版本:
- 确定您的需求(速度、质量、商业用途),相应选择Flux Pro、Dev或Schnell。
访问模型:
- 访问提供您选择版本的平台(例如,Replicate、HuggingFace)。
设置环境:
- 对于本地使用,安装Flux GitHub仓库中列出的必要依赖项。
- 对于基于网络的平台,您可以直接开始生成图像,无需设置。
生成图像:
- 输入您的文本提示。
- 调整纵横比、指导和步骤等参数以优化输出。
- 生成并下载您的图像。
使用Flux Dev生成
技术见解
Flux的进步根植于几个关键技术改进:
- 修正流匹配:通过改善时间步采样来增强训练,导致在更少的采样步骤下获得更好的性能。
- 多模态变换器基础架构(MM-DiT):一种新颖的架构,超越了之前的基于变换器的扩散模型。
- 使用改进的标题进行数据增强:利用合成生成的标题丰富训练数据,灵感来自OpenAI在“通过更好的标题改善图像生成”中的发现。
- 并行注意力层和效率:结合硬件优化,提高推理速度而不牺牲质量。
许可和使用指南
- Flux Pro:根据Black Forest Labs API协议的具体条款允许商业使用。
- Flux Dev:根据FLUX.1 [dev]非商业许可证进行非商业使用。
- Flux Schnell:根据Apache-2.0许可证提供,允许个人、科学和商业使用。
不适用的使用案例:
模型及其衍生物不得用于:
- 违法活动或违反任何法律。
- 生成有害内容,包括剥削或骚扰。
- 生成意图伤害他人的虚假信息。
- 创建非自愿的露骨内容。
Flux代表了AI图像生成的重大飞跃,结合先进技术高效地生成高质量、准确遵循提示的图像。无论您是艺术家、开发者还是研究人员,Flux都提供了多功能的工具来探索AI生成艺术的可能性。
参考文献
- Black Forest Labs官方网站:访问这里
Flux在Replicate上的信息:Flux模型系列
- Flux Pro
- Flux Dev
- Flux Schnell
模型链接:
研究论文:
- "Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation"
- "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis"
FluxAI 中文
© 2025. All Rights Reserved