Flux.1 是一个令人惊叹的开放权重 AI 图像生成器,拥有 120 亿个参数。


8 个月前

Flux.1 的到来为开放权重图像模型设定了新的基准。它拥有 120 亿参数,超越了行业巨头如 Midjourney V6、OpenAI 的 Dall-E 3 和 Stability AI 的 SD3 Ultra,在图像质量和性能方面表现出色。

Flux.1 背后的团队有着有趣的历史。

他们是驱动 Stable Diffusion 技术的原始开发者,也是 潜在扩散 的发明者。在 Stability AI 遇到一些 内部问题 后,关键团队成员离开,成立了一家名为 Black Forest Labs 的新创业公司。

这种“技术出走”往往会带来创新。当有才华的人独立发展时,他们可以自由追求大胆的新想法,而不受大型组织的限制。

什么是 Flux.1?


Flux.1 是一套文本到图像模型,定义了文本到图像合成在图像细节、提示遵循、风格多样性和场景复杂性方面的新一流(SOTA)。

它有三个变体:

  • Flux.1 Pro: 提供一流的图像生成性能,具备出色的提示遵循、视觉质量、图像细节和输出多样性。
  • Flux.1 Dev: 这是一个开放权重、经过指导提炼的模型,旨在非商业用途。它是从 Flux.1 Pro 提炼而来,达到了类似的质量和提示遵循,同时比同等大小的典型模型更高效。
  • Flux.1 Schnell: 这是他们最快的模型,专为本地开发和个人使用而设计。它在 Apache 2.0 许可证下公开可用。

所有公共的 Flux.1 模型都使用多模态和 并行 扩散变换器 块,拥有 120 亿参数。这些模型比早期的扩散模型更优秀,因为它们使用了 流匹配,这是一种易于理解的生成模型训练方法,包含扩散。

此外,这些模型通过使用 旋转位置嵌入并行注意力层 来提高性能并更高效地使用硬件。

比 Midjourney 更好吗?


根据研究人员的说法,Flux.1 Pro 和 Flux.1 Dev 在以下各个方面超越了流行模型如 Midjourney v6.0、Dall-E 3 和 Stable Diffusion 3 Ultra:

  • 视觉质量
  • 提示一致性
  • 尺寸和纵横比的多样性
  • 排版
  • 输出多样性

但真的如此吗?让我们试试这个例子:

提示:戴眼镜的老人的肖像,照片,50mm,f1.4,自然光,Pathéchrome

Flux.1(左),Midjourney V6.1(中),Midjourney v6.0(右)

你觉得哪一个看起来最好?

所有 Flux.1 模型变体支持多种纵横比和分辨率,范围在 0.1 到 2.0 兆像素之间,如下例所示。

示例图像


看看一些使用 Flux.1 Pro 生成的令人惊叹的示例图像。我们先从人物图像开始,重点关注细节,如头发、皱纹、手指和四肢。

左侧图像的质量与 Midjourney 非常相当。人类特征如头发、皱纹和手指的细节水平令人惊叹。

提示:一个机器人拿着粉笔看着黑板,上面写着以下诗句:“在像素的舞蹈中,AI 的工艺将崛起,通过机器的眼睛转化愿景,从梦境到屏幕,新世界展开,AI 的画笔重塑我们的视觉世界。”

文本渲染是 AI 图像生成中最困难的领域之一。即使是最新版本的 Midjourney v6.1 在我的初步测试中仍然失败。Flux.1 似乎表现得非常好,即使是长文本。

提示:美丽的动漫艺术作品,一个看起来沮丧的可爱动漫猫女孩,嘴上贴着一张画有微笑的纸,她快要哭了

这看起来非常有前景。柔和的色调和闪亮的高光赋予它一种专业、精致的外观,堪比手绘艺术作品。

下一水平的照片真实感


一些获得 Flux 访问权限的用户迅速发现这些图像的真实感令人毛骨悚然。以下是一些在 X 上分享的最真实的自拍肖像。

作为一个尝试过各种 AI 图像生成器的人,我可以自信地说,这些是我见过的最逼真的 AI 生成肖像之一。

如何访问 Flux.1


对于那些渴望尝试 Flux.1 的人,有几个免费的选项可供选择:

以下是使用 Replicate 生成的示例。

提示:世界上最大的黑森林蛋糕,大小如建筑,周围环绕着黑森林的树木

以下是 Flux 在 Fal 中的另一个演示:

提示:单只老虎眼睛的特写,正面视图。详细的虹膜和瞳孔。聚焦于眼睛的纹理和颜色。自然光照以捕捉真实的眼睛光泽和深度。字母“FLUX”用大白色笔触涂在上面,带有明显的纹理。

最后,这是 Flux 在 HuggingFace 的示例截图:

提示:宇航员骑着马在太空中的图像

通过 API 访问


Flux.1 Pro 也可以通过 API 在这里 访问。它目前处于预览模式,存在一些限制。

  • 账户仅对选定的合作伙伴激活。
  • API 不稳定,可能会发生变化。

以下是一个示例 Python 代码:

import os
import requests

request = requests.post(
    'https://api.bfl.ml/v1/image',
    headers={
        'accept': 'application/json',
        'x-key': os.environ.get("BFL_API_KEY"),
        'Content-Type': 'application/json',
    },
    json={
        'prompt': '一只猫用后腿跑着,像人一样用手臂抓着一条大银鱼。猫正从商店老板那里逃跑,脸上带着惊慌的表情。场景位于一个拥挤的市场中。',
        'width': 1024,
        'height': 1024,
    },
).json()
print(request)
request_id = request["id"]

请注意,向 /v1/image 发送请求的数量限制为 12 个活动任务。如果超过限制,将返回状态码 429,您需要等到之前的任务完成后才能继续。

查看完整的 API 使用流程 在这里

商业用途和许可


现在,有些人可能会想,我可以将这些图像用于商业目的进行销售或分发吗?答案是根据您使用的模型而定,有可能是“是”也可能是“否”。

  • Flux.1 Pro: 支持商业用途,但目前对该模型的访问仅限于通过 Replicate 和 Fal.ai 等平台的合作伙伴。
  • Flux.1 Dev: 图像的使用仅限于非商业目的,这意味着您不能将该模型生成的图像用于商业获利。
  • Flux.1 Schnell: 在 Apache 2.0 许可证下公开可用,允许更灵活的使用。这意味着您可以将 Flux.1 Schnell 用于个人和商业目的,只要您遵守 Apache 2.0 许可证的条款。

总之,如果您希望将 Flux.1 模型用于商业目的,Flux.1 Pro 和 Flux.1 Schnell 是最佳选择。Flux.1 Pro 提供最高质量,并通过特定合作伙伴提供,而 Flux.1 Schnell 在开源许可证下提供了更易于访问的解决方案。

最后思考


虽然 Flux 模型的开放权重特性令人兴奋,但也有一个实际的限制需要考虑。将这些模型与大型语言模型(LLM)一起在本地运行需要强大的计算能力——通常需要 A100 GPU 或更好的设备。由于 Flux.1 拥有 120 亿参数(磁盘占用 24 GB)加上 9 GB 的文本编码器,超出了大多数消费级硬件的能力。

开放权重模型 Schnell 已经非常出色。我毫不怀疑社区会努力寻找新技术来调整、训练和扩展经过步骤提炼的 Apache 2.0 版本。我非常期待看到惊人的、经过精细调整的模型问世,并生成令人惊叹的图像。

在接下来的文章中,我将比较 Flux 与 Midjourney、Dall-E 3 和 Gemini 2。我还计划写一篇关于如何在本地机器上运行 Flux Schnell 的指南。

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved