优化FLUX.1-dev以生成定制AI图像


6 个月前

None

None

None

None

None

你好,世界!展望未来,人工智能显然将在塑造我们的世界中发挥关键作用,而生成式人工智能则有望颠覆多个行业。基于此,我开始了自学生成式人工智能的旅程。我的主要学习资源包括斯坦福大学2016年由Andrej Karpathy教授的计算机视觉深度学习课程、他的"神经网络:从零到英雄"系列,以及来自fast.aideeplearning.ai的材料。这些资源帮助我加深了对基础知识的理解。

为了补充我的学习,我参与了一些“玩具项目”,以便获得与人工智能和生成式人工智能的实践经验。在这篇博客中,我将分享一个最近的“玩具项目”的见解,重点是稳定扩散(Stable Diffusion)。虽然我不会深入技术细节以保持文章简洁,但我希望能反映出一些关键的学习成果。事不宜迟,让我们开始吧!

稳定扩散(Stable Diffusion)

稳定扩散是一种生成模型,利用潜在扩散过程从文本描述中创建高质量图像。它通过迭代去噪步骤将随机噪声转化为连贯的图像,受深度学习架构的指导,该架构结合了卷积网络和注意力机制。这种创新的方法允许灵活多样的输出,使其适用于艺术生成、设计原型和内容创作等应用。

研究人员和行业专业人士目前正在利用稳定扩散进行从自动图形设计到视频游戏资产生成的任务,显著提升了创意工作流程。随着生成式人工智能的不断发展,稳定扩散将成为各行业的重要工具,能够快速原型和个性化内容生成,从而重塑我们制作视觉媒体的方式。意识到稳定扩散将在未来几年成为一种变革性工具,我受到启发,围绕它开展了一个以"黑森林实验室'的Flux.1-dev模型"为中心的“玩具项目”。

在深入项目细节之前,我想先简要介绍一下黑森林实验室的稳定扩散模型,以便让你对即将探索的内容有个清晰的了解。黑森林实验室开发了三种强大的模型——Flux-devFlux-schnellFlux Pro——每种模型都针对特定的使用案例设计。Flux-dev是开发者进行实验和自定义图像生成体验的首选,提供灵活的环境以便调整和测试。Flux-schnell专注于速度,快速生成图像,同时保持高质量,适合需要快速结果的用户。最后,Flux Pro是为专业级项目量身定制的高级高性能选项,提供卓越的细节和分辨率。了解这些模型后,你将更好地理解如何利用黑森林实验室的工具来满足你的创意和技术需求。

玩具项目

为了帮助你在执行“玩具项目”时避免不必要的错误和成本,我将整个过程组织成一系列步骤。这些步骤旨在确保你在开始项目之前做好充分准备,尽量减少意外障碍和额外开支。

第一步

在这个玩具项目中,我使用10到15张不同的我的照片对FLUX.1-dev进行了微调。这些照片捕捉了不同的光线、表情和角度,以帮助模型更好地泛化。目标是创建一个更准确和个性化的基于我形象的AI生成输出。以下是我选择的一些图片。

None

None

None

None

None

None

None

None

None

None

None

第二步

为每张选定的照片创建一个.txt文件(即文本文件),并为每张图片添加文本说明。确保在每个说明的开头添加[trigger]标签。例如,第一张样本图片对应的.txt文件应包含类似以下的文本:

此外,请确保将你的图片重命名为image_1.jpg,并将相应的文本文件重命名为image_1.txt。这意味着图片名称和文本文件名称应相同,以便FLUX.1-dev模型在微调过程中能够无缝链接这两者。

第三步

创建一个Hugging Face账户,并生成一个“用户访问令牌(User Access Token)”。这一步应该相对简单,所以我就不再详细说明了。

第四步

访问黑森林实验室的Hugging Face个人资料,并接受使用FLUX.1-dev模型的条款和条件。在使用此模型之前,你需要接受条款和条件;否则,微调过程将会中断。

第五步

如前所述,微调过程需要NVIDIA GPU,因此你需要使用GPU提供商。注册你喜欢的NVIDIA GPU提供商;我选择了RunPod.io,并选择了他们基于NVIDIA A100的pod进行微调。

第六步

在基础知识和前提条件到位后,我开始按照以下YouTube视频中的步骤进行稳定扩散模型的编码和微调。我认为直接引导你观看这个视频比在文本中解释所有内容更为务实,因为这样做只会使这篇文章变得更长且更复杂。

你可以尝试调整学习率、生成图像的步骤数等参数。简单地玩弄这些设置将为你提供有关如何使用超参数调整来实现特定任务所需输出的宝贵见解。

基本上就是这样!对我来说,整个微调过程和图像生成大约花费了1.5小时。你将能够观察到图像在整个过程中如何逐步改善。为了充分体验这些图像生成模型所提供的广泛可能性,请发挥创意,提交复杂的提示。

最后,我想结束这篇文章。如果你觉得有趣,请给它点赞并分享给你的朋友。我期待在下一篇博客中与你们再次见面!

爱你的,Chamin!

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved