Flux.1 是一个令人惊叹的开放权重 AI 图像生成器，拥有 120 亿个参数。

Flux.1 的到来为开放权重图像模型设定了新的基准。它拥有 120 亿参数，超越了行业巨头如 Midjourney V6、OpenAI 的 Dall-E 3 和 Stability AI 的 SD3 Ultra，在图像质量和性能方面表现出色。

Flux.1 背后的团队有着有趣的历史。

他们是驱动 Stable Diffusion 技术的原始开发者，也是潜在扩散的发明者。在 Stability AI 遇到一些内部问题后，关键团队成员离开，成立了一家名为 Black Forest Labs 的新创业公司。

这种“技术出走”往往会带来创新。当有才华的人独立发展时，他们可以自由追求大胆的新想法，而不受大型组织的限制。

什么是 Flux.1？

Flux.1 是一套文本到图像模型，定义了文本到图像合成在图像细节、提示遵循、风格多样性和场景复杂性方面的新一流（SOTA）。

它有三个变体：

Flux.1 Pro： 提供一流的图像生成性能，具备出色的提示遵循、视觉质量、图像细节和输出多样性。
Flux.1 Dev： 这是一个开放权重、经过指导提炼的模型，旨在非商业用途。它是从 Flux.1 Pro 提炼而来，达到了类似的质量和提示遵循，同时比同等大小的典型模型更高效。
Flux.1 Schnell： 这是他们最快的模型，专为本地开发和个人使用而设计。它在 Apache 2.0 许可证下公开可用。

所有公共的 Flux.1 模型都使用多模态和并行扩散变换器块，拥有 120 亿参数。这些模型比早期的扩散模型更优秀，因为它们使用了流匹配，这是一种易于理解的生成模型训练方法，包含扩散。

此外，这些模型通过使用旋转位置嵌入和并行注意力层来提高性能并更高效地使用硬件。

比 Midjourney 更好吗？

根据研究人员的说法，Flux.1 Pro 和 Flux.1 Dev 在以下各个方面超越了流行模型如 Midjourney v6.0、Dall-E 3 和 Stable Diffusion 3 Ultra：

视觉质量
提示一致性
尺寸和纵横比的多样性
排版
输出多样性

但真的如此吗？让我们试试这个例子：

提示：戴眼镜的老人的肖像，照片，50mm，f1.4，自然光，Pathéchrome

Flux.1（左），Midjourney V6.1（中），Midjourney v6.0（右）

你觉得哪一个看起来最好？

所有 Flux.1 模型变体支持多种纵横比和分辨率，范围在 0.1 到 2.0 兆像素之间，如下例所示。

示例图像

看看一些使用 Flux.1 Pro 生成的令人惊叹的示例图像。我们先从人物图像开始，重点关注细节，如头发、皱纹、手指和四肢。

左侧图像的质量与 Midjourney 非常相当。人类特征如头发、皱纹和手指的细节水平令人惊叹。

提示：一个机器人拿着粉笔看着黑板，上面写着以下诗句：“在像素的舞蹈中，AI 的工艺将崛起，通过机器的眼睛转化愿景，从梦境到屏幕，新世界展开，AI 的画笔重塑我们的视觉世界。”

文本渲染是 AI 图像生成中最困难的领域之一。即使是最新版本的 Midjourney v6.1 在我的初步测试中仍然失败。Flux.1 似乎表现得非常好，即使是长文本。

提示：美丽的动漫艺术作品，一个看起来沮丧的可爱动漫猫女孩，嘴上贴着一张画有微笑的纸，她快要哭了

这看起来非常有前景。柔和的色调和闪亮的高光赋予它一种专业、精致的外观，堪比手绘艺术作品。

下一水平的照片真实感

一些获得 Flux 访问权限的用户迅速发现这些图像的真实感令人毛骨悚然。以下是一些在 X 上分享的最真实的自拍肖像。

作为一个尝试过各种 AI 图像生成器的人，我可以自信地说，这些是我见过的最逼真的 AI 生成肖像之一。

如何访问 Flux.1

对于那些渴望尝试 Flux.1 的人，有几个免费的选项可供选择：

以下是使用 Replicate 生成的示例。

提示：世界上最大的黑森林蛋糕，大小如建筑，周围环绕着黑森林的树木

以下是 Flux 在 Fal 中的另一个演示：

提示：单只老虎眼睛的特写，正面视图。详细的虹膜和瞳孔。聚焦于眼睛的纹理和颜色。自然光照以捕捉真实的眼睛光泽和深度。字母“FLUX”用大白色笔触涂在上面，带有明显的纹理。

最后，这是 Flux 在 HuggingFace 的示例截图：

提示：宇航员骑着马在太空中的图像

通过 API 访问

Flux.1 Pro 也可以通过 API 在这里访问。它目前处于预览模式，存在一些限制。

账户仅对选定的合作伙伴激活。
API 不稳定，可能会发生变化。

以下是一个示例 Python 代码：

import os
import requests

request = requests.post(
    'https://api.bfl.ml/v1/image',
    headers={
        'accept': 'application/json',
        'x-key': os.environ.get("BFL_API_KEY"),
        'Content-Type': 'application/json',
    },
    json={
        'prompt': '一只猫用后腿跑着，像人一样用手臂抓着一条大银鱼。猫正从商店老板那里逃跑，脸上带着惊慌的表情。场景位于一个拥挤的市场中。',
        'width': 1024,
        'height': 1024,
    },
).json()
print(request)
request_id = request["id"]

请注意，向 /v1/image 发送请求的数量限制为 12 个活动任务。如果超过限制，将返回状态码 429，您需要等到之前的任务完成后才能继续。

查看完整的 API 使用流程在这里。

商业用途和许可

现在，有些人可能会想，我可以将这些图像用于商业目的进行销售或分发吗？答案是根据您使用的模型而定，有可能是“是”也可能是“否”。

Flux.1 Pro： 支持商业用途，但目前对该模型的访问仅限于通过 Replicate 和 Fal.ai 等平台的合作伙伴。
Flux.1 Dev： 图像的使用仅限于非商业目的，这意味着您不能将该模型生成的图像用于商业获利。
Flux.1 Schnell： 在 Apache 2.0 许可证下公开可用，允许更灵活的使用。这意味着您可以将 Flux.1 Schnell 用于个人和商业目的，只要您遵守 Apache 2.0 许可证的条款。

总之，如果您希望将 Flux.1 模型用于商业目的，Flux.1 Pro 和 Flux.1 Schnell 是最佳选择。Flux.1 Pro 提供最高质量，并通过特定合作伙伴提供，而 Flux.1 Schnell 在开源许可证下提供了更易于访问的解决方案。

最后思考

虽然 Flux 模型的开放权重特性令人兴奋，但也有一个实际的限制需要考虑。将这些模型与大型语言模型（LLM）一起在本地运行需要强大的计算能力——通常需要 A100 GPU 或更好的设备。由于 Flux.1 拥有 120 亿参数（磁盘占用 24 GB）加上 9 GB 的文本编码器，超出了大多数消费级硬件的能力。

开放权重模型 Schnell 已经非常出色。我毫不怀疑社区会努力寻找新技术来调整、训练和扩展经过步骤提炼的 Apache 2.0 版本。我非常期待看到惊人的、经过精细调整的模型问世，并生成令人惊叹的图像。

在接下来的文章中，我将比较 Flux 与 Midjourney、Dall-E 3 和 Gemini 2。我还计划写一篇关于如何在本地机器上运行 Flux Schnell 的指南。

什么是 Flux.1？

比 Midjourney 更好吗？

示例图像

下一水平的照片真实感

如何访问 Flux.1

通过 API 访问

商业用途和许可

最后思考

推荐阅读：

Flux 1：下一代AI图像生成器

Grammarly 能检测 AI 生成的文本吗？

Runway 推出了 Gen-3——AI 视频取得了显著进展

【揭秘】OpenAI 12天创新风暴：前8天如何颠覆未来？🚀

AI 图像生成的新纪元

FLUX.1 — 文本到图像领域的新兴选择

FluxAI 中文