我用 256 张图像在 FLUX 上进行训练——结果令人震惊


7 个月前

详细完整工作流程

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

None

细节

  • 我使用了我的 Poco X6 手机拍摄了这些图片
  • 我的数据集还远未准备好,因此我使用了很多重复和几乎相同的图片,但这主要是实验性质
  • 希望未来能继续拍摄更多照片,改善数据集并减少大小
  • 我还训练了 Clip-L 和 T5-XXL 文本编码器
  • 上面分享的图片中,第19张是使用的数据集,共256张,第20张是与15张训练数据集和几个最新训练检查点的比较
  • 由于社区的强烈反馈,我的工作流程在处理表情时可能无法正常工作,因此我不得不暂停研究,使用我现有的资源
  • 我使用了自己研究的工作流程,通过 Kohya GUI 进行训练,并使用我自己开发的 SUPIR 应用进行批量放大,包含面部放大和自动 LLaVA 标题改进
  • 下载图片以查看全尺寸,最后提供的网格是 50% 缩小的

工作流程

  • 收集一个包含你喜欢的表情和视角的数据集,这在训练后至关重要,添加的任何内容都可以生成完美的结果
  • 遵循其中一个 LoRA 训练教程/指南
  • 训练完 LoRA 后,使用你喜欢的 UI 生成图像
  • 我更喜欢 SwarmUI,这里使用的提示(你可以在提示中添加特定的表情)包括面部修复: https://gist.github.com/FurkanGozukara/ce72861e52806c5ea4e8b9c7f4409672
  • 生成图像后,使用 SUPIR 进行 2 倍放大,以最大程度地保留相似性

简短结论

  • 使用 256 张图片确实导致了比必要的更多过拟合
  • 我不得不使提示更详细,关于背景/环境,以减少过拟合的影响,使用了 Claude 3.5(类似于 ChatGPT)
  • 尽管如此,FLUX 仍然很好地处理了这个庞大的过拟合数据集
  • 它完美地学习了我的体型(肌肉 + 一些多余的脂肪)
  • 它甚至完美地学习了我破损的牙齿和额头的静脉
  • 输出的图像更加生动和真实,解剖结构更好
  • 我在专业摄影棚中无法拍出像第18张那样的高质量照片——质量和细节达到了一个新的水平
  • 由于数据集是在不同的日子、周、月收集的,我的头发、体重、肤色不一致,这导致推断时出现不同的发型和长度或肤色 :D

None

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved