我用 256 张图像在 FLUX 上进行训练——结果令人震惊
7 个月前
详细完整工作流程
- Medium 文章: https://medium.com/@furkangozukara/ultimate-flux-lora-training-tutorial-windows-and-cloud-deployment-abb72f21cbf8
- Windows 主要教程: https://youtu.be/nySGu12Y05k
- 针对 GPU 资源不足或扩展的云教程: https://youtu.be/-uhL2nW7Ddw
- 完整详细的结果和结论: https://www.patreon.com/posts/111891669
- 训练所需的完整配置文件和详细信息: https://www.patreon.com/posts/110879657
- SUPIR 放大(默认设置现在完美): https://youtu.be/OYxVEvDf284
细节
- 我使用了我的 Poco X6 手机拍摄了这些图片
- 我的数据集还远未准备好,因此我使用了很多重复和几乎相同的图片,但这主要是实验性质
- 希望未来能继续拍摄更多照片,改善数据集并减少大小
- 我还训练了 Clip-L 和 T5-XXL 文本编码器
- 上面分享的图片中,第19张是使用的数据集,共256张,第20张是与15张训练数据集和几个最新训练检查点的比较
- 由于社区的强烈反馈,我的工作流程在处理表情时可能无法正常工作,因此我不得不暂停研究,使用我现有的资源
- 我使用了自己研究的工作流程,通过 Kohya GUI 进行训练,并使用我自己开发的 SUPIR 应用进行批量放大,包含面部放大和自动 LLaVA 标题改进
- 下载图片以查看全尺寸,最后提供的网格是 50% 缩小的
工作流程
- 收集一个包含你喜欢的表情和视角的数据集,这在训练后至关重要,添加的任何内容都可以生成完美的结果
- 遵循其中一个 LoRA 训练教程/指南
- 训练完 LoRA 后,使用你喜欢的 UI 生成图像
- 我更喜欢 SwarmUI,这里使用的提示(你可以在提示中添加特定的表情)包括面部修复: https://gist.github.com/FurkanGozukara/ce72861e52806c5ea4e8b9c7f4409672
- 生成图像后,使用 SUPIR 进行 2 倍放大,以最大程度地保留相似性
简短结论
- 使用 256 张图片确实导致了比必要的更多过拟合
- 我不得不使提示更详细,关于背景/环境,以减少过拟合的影响,使用了 Claude 3.5(类似于 ChatGPT)
- 尽管如此,FLUX 仍然很好地处理了这个庞大的过拟合数据集
- 它完美地学习了我的体型(肌肉 + 一些多余的脂肪)
- 它甚至完美地学习了我破损的牙齿和额头的静脉
- 输出的图像更加生动和真实,解剖结构更好
- 我在专业摄影棚中无法拍出像第18张那样的高质量照片——质量和细节达到了一个新的水平
- 由于数据集是在不同的日子、周、月收集的,我的头发、体重、肤色不一致,这导致推断时出现不同的发型和长度或肤色 :D
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved