如何训练 Flux AI 图像模型生成无限的你自己的照片


7 个月前

今天,你可以微调最强大的开放权重图像模型,Flux,来自黑森林实验室,生成无限的你自己的AI图像。整个过程在你的浏览器中完成,你不需要强大的硬件或写一行代码。

Flux在处理人脸方面的微调能力是之前的开源图像模型(如Stable Diffusion)所无法轻易实现的。

如果你还不熟悉Flux图像模型,可以查看这篇文章:

Flux.1是一个令人惊叹的开放权重AI图像生成器,拥有120亿个参数

相信我,微调Flux的过程很简单,结果也令人惊讶。我只需将手机图库中的一堆照片喂给AI,20分钟后,我发现自己在生成各种有趣场景中的想象图像。

在这篇文章中,我将带你逐步了解如何微调Flux以生成个性化的AI图像。这将是一个有趣、简单的过程,没错——令人惊叹。

在开始之前,你需要:

  • 至少10张清晰的自己照片
  • 一个Replicate账户
  • 一种支付方式来训练AI模型(费用仅为1-2美元)

如果你具备这些条件,我们就开始吧。

在Replicate上训练Flux

第一步:准备你的训练图像

微调Flux的第一步是准备你的训练图像。收集至少10张你自己面部的照片。

  • 这些图像应清晰显示你的面部。尽量选择不同的角度和光照条件,以便Flux能从中学习到多样性。
  • 图像格式可以是WebP、JPG或PNG
  • 使用高清图像,最好分辨率至少为1024x1024或更高
  • 文件名和长宽比无关紧要

准备训练图像

图像来源:Jim Clyde Monge

记住,图像在角度和光照上的多样性越大,结果就会越好。不过,请注意,使用更多图像会导致训练时间更长。

收集完图像后,将它们放入一个不带密码的压缩文件中。你可以随意命名这个压缩文件。

第二步:选择一个独特的触发词

在提示微调后的图像模型时,重要的是要有一个独特的“触发词”作为生成图像时文本提示中的标识符。

例如,你不应该使用“男人”或“狗”等通用词。相反,使用你的名字,比如“Jimclyde”,作为触发词。

选择触发词时需要考虑以下几点:

  • 它应该是独特的,比如MY_UNIQ_TRGGR。想象一下“个性化车牌”,但没有长度限制。
  • 它不应是任何语言中的现有单词,比如dogcyberpunk
  • 它不应是TOK,因为如果你想要合并它们,会与其他微调冲突。
  • 大小写无关紧要,但大写字母可以帮助在视觉上区分触发词和其他文本提示。

先记住你的触发词——你将在训练模型时使用它。

第三步:训练Flux图像模型

现在进入重要部分:训练模型。登录你的Replicate账户,在“探索”标签下找到“flux-dev-lora-trainer”。

训练Flux图像模型

图像来源:Jim Clyde Monge

在“创建训练”部分,设置模型目标。你可以使用现有模型或创建一个新模型。

设置模型目标

在这个例子中,我将创建一个新模型,称为“jimclyde-flux”,用我的照片进行训练。确保将可见性设置为“私有”,以避免其他用户访问。

设置模型目标

图像来源:Jim Clyde Monge

在输入图像部分,上传包含训练图像的压缩文件。

上传训练图像

图像来源:Jim Clyde Monge

接下来,设置你在第二步中选择的触发关键词。

设置触发关键词

图像来源:Jim Clyde Monge

将其余字段保持默认,最后点击“创建训练”按钮。

创建训练

图像来源:Jim Clyde Monge

请记住,如果不添加支付方式,训练将不会开始。

添加支付方式

训练过程大约需要20分钟完成,但这取决于队列长度。要监控进度,请前往“训练”页面,选择正在训练的模型。

监控训练进度

图像来源:Jim Clyde Monge

训练完成后,你将看到成功状态和类似这样的消息:

训练成功截图

图像来源:Jim Clyde Monge

训练成功!你现在可以在我们的网页游乐场中运行并了解更多关于你训练的模型,或者通过Replicate API开始运行预测。

你现在准备好测试微调后的模型了。点击“运行训练模型”开始。当添加提示时,确保在提示中包含你的trigger_word,以激活你新训练的概念。

生成图像

现在你可以开始生成自定义图像。让我们尝试一个例子:

提示:JIMCLYDE,穿着礼服在红毯秀上为杂志摆姿势,房间光线明亮,他面向镜头,半身照

生成的图像

图像来源:Jim Clyde Monge

哇,我第一次看到这张图时既感到毛骨悚然又忍不住大笑。看看这张图的真实感和与我面孔的相似度,真是令人惊讶、搞笑又神奇!

更多示例:

提示:JIMCLYDE,摄影棚拍摄,穿着白色Polo衫和黑色裤子,微笑

生成的图像

图像来源:Jim Clyde Monge

提示:JIMCLYDE,兴奋地在日本餐厅吃寿司,穿着黑色羽绒服,因为是冬天,半身照

生成的图像

图像来源:Jim Clyde Monge

提示:JIMCLYDE,穿着白色宽松T恤在天蓝色背景前为品牌拍摄,全身照

生成的图像

图像来源:Jim Clyde Monge

再次强调,这真是令人惊叹。我没想到Flux会这么好。整体图像与文本提示一致,主体看起来完全像我,甚至手部——这是许多图像生成器的难点——也完美呈现。

你可以尝试不同的提示和其他设置,以符合你的偏好。请原谅我,这个过程太有趣了——我最终制作了很多图像。以下是我最喜欢的一些。

生成的图像

生成的图像

要查看你生成的图像历史,请前往“预测”标签并点击ID链接。

训练模型列表

图像来源:Jim Clyde Monge

你还可以通过API访问此模型,并将其集成到你的自定义应用中。以下是Node.js中的示例代码:

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
  "jimclydegm/jimclyde-flux:5502907a82b7cfa8915abd05e9436XXXXXXXXX",
  {
    input: {
      model: "dev",
      lora_scale: 1,
      num_outputs: 1,
      aspect_ratio: "1:1",
      output_format: "webp",
      guidance_scale: 3.5,
      output_quality: 90,
      prompt_strength: 0.8,
      extra_lora_scale: 1,
      num_inference_steps: 28
    }
  }
);
console.log(output);

最后想法

总的来说,我在使用微调后的Flux模型生成自己的图像时非常开心。这个过程非常简单,考虑到训练步骤为1000,费用也相当便宜(仅1-2美元)。结果令人印象深刻,与我的面孔惊人相似,整体与文本提示的连贯性也很好。

请注意,本指南中使用的模型是DEV模型,而不是Pro模型。Flux Pro模型在图像生成方面提供了最先进的性能,能够提供顶级的提示跟随、视觉质量、图像细节和输出多样性。它是比Dev更强大的图像模型,因此你可以期待Pro模型生成更好的图像。

希望你觉得这篇指南有帮助。如果你尝试后遇到任何问题,请在评论中告诉我。

FluxAI 中文

© 2025. All Rights Reserved