Flux.1 是一个令人惊叹的开放权重 AI 图像生成器,拥有 120 亿个参数。
8 个月前
Flux.1 的到来为开放权重图像模型设定了新的基准。它拥有 120 亿参数,超越了行业巨头如 Midjourney V6、OpenAI 的 Dall-E 3 和 Stability AI 的 SD3 Ultra,在图像质量和性能方面表现出色。
Flux.1 背后的团队有着有趣的历史。
他们是驱动 Stable Diffusion 技术的原始开发者,也是 潜在扩散 的发明者。在 Stability AI 遇到一些 内部问题 后,关键团队成员离开,成立了一家名为 Black Forest Labs 的新创业公司。
这种“技术出走”往往会带来创新。当有才华的人独立发展时,他们可以自由追求大胆的新想法,而不受大型组织的限制。
什么是 Flux.1?
Flux.1 是一套文本到图像模型,定义了文本到图像合成在图像细节、提示遵循、风格多样性和场景复杂性方面的新一流(SOTA)。
它有三个变体:
- Flux.1 Pro: 提供一流的图像生成性能,具备出色的提示遵循、视觉质量、图像细节和输出多样性。
- Flux.1 Dev: 这是一个开放权重、经过指导提炼的模型,旨在非商业用途。它是从 Flux.1 Pro 提炼而来,达到了类似的质量和提示遵循,同时比同等大小的典型模型更高效。
- Flux.1 Schnell: 这是他们最快的模型,专为本地开发和个人使用而设计。它在 Apache 2.0 许可证下公开可用。
所有公共的 Flux.1 模型都使用多模态和 并行 扩散变换器 块,拥有 120 亿参数。这些模型比早期的扩散模型更优秀,因为它们使用了 流匹配,这是一种易于理解的生成模型训练方法,包含扩散。
此外,这些模型通过使用 旋转位置嵌入 和 并行注意力层 来提高性能并更高效地使用硬件。
比 Midjourney 更好吗?
根据研究人员的说法,Flux.1 Pro 和 Flux.1 Dev 在以下各个方面超越了流行模型如 Midjourney v6.0、Dall-E 3 和 Stable Diffusion 3 Ultra:
- 视觉质量
- 提示一致性
- 尺寸和纵横比的多样性
- 排版
- 输出多样性
但真的如此吗?让我们试试这个例子:
提示:戴眼镜的老人的肖像,照片,50mm,f1.4,自然光,Pathéchrome
Flux.1(左),Midjourney V6.1(中),Midjourney v6.0(右)
你觉得哪一个看起来最好?
所有 Flux.1 模型变体支持多种纵横比和分辨率,范围在 0.1 到 2.0 兆像素之间,如下例所示。
示例图像
看看一些使用 Flux.1 Pro 生成的令人惊叹的示例图像。我们先从人物图像开始,重点关注细节,如头发、皱纹、手指和四肢。
左侧图像的质量与 Midjourney 非常相当。人类特征如头发、皱纹和手指的细节水平令人惊叹。
提示:一个机器人拿着粉笔看着黑板,上面写着以下诗句:“在像素的舞蹈中,AI 的工艺将崛起,通过机器的眼睛转化愿景,从梦境到屏幕,新世界展开,AI 的画笔重塑我们的视觉世界。”
文本渲染是 AI 图像生成中最困难的领域之一。即使是最新版本的 Midjourney v6.1 在我的初步测试中仍然失败。Flux.1 似乎表现得非常好,即使是长文本。
提示:美丽的动漫艺术作品,一个看起来沮丧的可爱动漫猫女孩,嘴上贴着一张画有微笑的纸,她快要哭了
这看起来非常有前景。柔和的色调和闪亮的高光赋予它一种专业、精致的外观,堪比手绘艺术作品。
下一水平的照片真实感
一些获得 Flux 访问权限的用户迅速发现这些图像的真实感令人毛骨悚然。以下是一些在 X 上分享的最真实的自拍肖像。
作为一个尝试过各种 AI 图像生成器的人,我可以自信地说,这些是我见过的最逼真的 AI 生成肖像之一。
如何访问 Flux.1
对于那些渴望尝试 Flux.1 的人,有几个免费的选项可供选择:
以下是使用 Replicate 生成的示例。
提示:世界上最大的黑森林蛋糕,大小如建筑,周围环绕着黑森林的树木
以下是 Flux 在 Fal 中的另一个演示:
提示:单只老虎眼睛的特写,正面视图。详细的虹膜和瞳孔。聚焦于眼睛的纹理和颜色。自然光照以捕捉真实的眼睛光泽和深度。字母“FLUX”用大白色笔触涂在上面,带有明显的纹理。
最后,这是 Flux 在 HuggingFace 的示例截图:
提示:宇航员骑着马在太空中的图像
通过 API 访问
Flux.1 Pro 也可以通过 API 在这里 访问。它目前处于预览模式,存在一些限制。
- 账户仅对选定的合作伙伴激活。
- API 不稳定,可能会发生变化。
以下是一个示例 Python 代码:
import os
import requests
request = requests.post(
'https://api.bfl.ml/v1/image',
headers={
'accept': 'application/json',
'x-key': os.environ.get("BFL_API_KEY"),
'Content-Type': 'application/json',
},
json={
'prompt': '一只猫用后腿跑着,像人一样用手臂抓着一条大银鱼。猫正从商店老板那里逃跑,脸上带着惊慌的表情。场景位于一个拥挤的市场中。',
'width': 1024,
'height': 1024,
},
).json()
print(request)
request_id = request["id"]
请注意,向 /v1/image
发送请求的数量限制为 12 个活动任务。如果超过限制,将返回状态码 429
,您需要等到之前的任务完成后才能继续。
查看完整的 API 使用流程 在这里。
商业用途和许可
现在,有些人可能会想,我可以将这些图像用于商业目的进行销售或分发吗?答案是根据您使用的模型而定,有可能是“是”也可能是“否”。
- Flux.1 Pro: 支持商业用途,但目前对该模型的访问仅限于通过 Replicate 和 Fal.ai 等平台的合作伙伴。
- Flux.1 Dev: 图像的使用仅限于非商业目的,这意味着您不能将该模型生成的图像用于商业获利。
- Flux.1 Schnell: 在 Apache 2.0 许可证下公开可用,允许更灵活的使用。这意味着您可以将 Flux.1 Schnell 用于个人和商业目的,只要您遵守 Apache 2.0 许可证的条款。
总之,如果您希望将 Flux.1 模型用于商业目的,Flux.1 Pro 和 Flux.1 Schnell 是最佳选择。Flux.1 Pro 提供最高质量,并通过特定合作伙伴提供,而 Flux.1 Schnell 在开源许可证下提供了更易于访问的解决方案。
最后思考
虽然 Flux 模型的开放权重特性令人兴奋,但也有一个实际的限制需要考虑。将这些模型与大型语言模型(LLM)一起在本地运行需要强大的计算能力——通常需要 A100 GPU 或更好的设备。由于 Flux.1 拥有 120 亿参数(磁盘占用 24 GB)加上 9 GB 的文本编码器,超出了大多数消费级硬件的能力。
开放权重模型 Schnell 已经非常出色。我毫不怀疑社区会努力寻找新技术来调整、训练和扩展经过步骤提炼的 Apache 2.0 版本。我非常期待看到惊人的、经过精细调整的模型问世,并生成令人惊叹的图像。
在接下来的文章中,我将比较 Flux 与 Midjourney、Dall-E 3 和 Gemini 2。我还计划写一篇关于如何在本地机器上运行 Flux Schnell 的指南。
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved