完全微调 FLUX 的结果明显优于 LoRA 训练,这也是预期之中的,过拟合和……


7 个月前

配置和完整实验

None

None

None

None

None

细节

  • 我仍在严格测试不同的超参数,并比较每个参数的影响,以找到最佳工作流程
  • 到目前为止,已经完成了16次不同的完整训练,目前还在完成8次
  • 我正在使用我那15张图像的数据集进行实验(第4张图)
  • 我已经证明,当我使用更好的数据集时,效果会好很多,并且能够完美生成表情
  • 这里是一个示例案例:https://www.reddit.com/r/FluxAI/comments/1ffz9uc/tried_expressions_with_flux_lora_training_with_my/

结论

  • 当分析结果时,微调的过拟合程度较低,更加通用且质量更好
  • 在前两张图中,能够更好地改变发色和添加胡须,意味着过拟合程度较低
  • 在第三张图中,你会注意到盔甲的效果更好,因此过拟合程度较低
  • 我注意到环境和服装的过拟合程度较低,质量更好

缺点

  • Kohya 仍然不支持 FP8 训练,因此 24 GB 的 GPU 速度大幅下降
  • 此外,48 GB 的 GPU 必须使用融合反向传播优化,因此也会有一些速度下降
  • 由于缺乏 FP8,16 GB 的 GPU 速度下降更为明显
  • Clip-L 和 T5 训练仍不支持

速度

  • 排名 1 快速配置 — 使用 27.5 GB VRAM,6.28 秒/次(LoRA 为 4.85 秒/次)
  • 排名 1 较慢配置 — 使用 23.1 GB VRAM,14.12 秒/次(LoRA 为 4.85 秒/次)
  • 排名 1 最慢配置 — 使用 15.5 GB VRAM,39 秒/次(LoRA 为 6.05 秒/次)

最终信息

  • 保存的检查点为 FP16,因此为 23.8 GB(未训练 Clip-L 或 T5)
  • 根据 Kohya 的说法,应用的优化不会改变质量,因此目前所有配置均排名为排名 1
  • 我仍在测试这些优化是否对质量有影响
  • 我仍在尝试寻找改进的超参数
  • 所有训练均在 1024x1024 下进行,因此降低分辨率将提高速度,减少 VRAM,但也会降低质量
  • 希望当 FP8 训练到来时,我认为即使是 12 GB 的 GPU 也能以良好的速度进行全面微调

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved