🔥【实测】AI艺术神器Flux微调模型,效果炸裂!你也能成为艺术大师?🎨
4 个月前
Flux 系列模型在 AI 社区中引起了广泛关注,以其高质量的输出和多样化的应用而闻名。然而,从 Black Forest Lab 官方推出的 Flux 模型(Pro、Dev、Schnell)到众多微调版本,选项的多样性使得初学者难以决定从何入手或选择哪个模型。
本文旨在澄清官方 Flux 模型 和基于 Flux 的 检查点(checkpoints) 之间的区别,并对 4 个流行的 Flux 检查点进行全面对比:Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 stoiqoNewreality。
本指南不仅仅是总结它们的功能,而是基于对这些模型在 4 个关键性能维度上的广泛测试:
- 皮肤纹理与面部细节
- 手部生成
- 光影与美学效果
- LoRA 兼容性
通过深入分析这些性能领域,您将更好地了解每个检查点的优缺点,从而帮助您选择最适合创意项目的模型。
视频教程:
让我们从了解这一切的基础开始——由 Black Forest Lab 创建的原始 Flux 模型——以及它们如何演变为这些微调检查点的灵感来源。
什么是 Flux 模型?
Flux 模型是由 Black Forest Lab 开发的一系列生成式 AI 模型,旨在提供高质量的图像输出。它们有 3 个官方变体——Pro、Dev 和 Schnell——每个变体在质量、灵活性和许可方面都有所不同。
Flux 的 3 个变体
Pro
- 质量:Flux 系列中质量最高的模型,提供专业级的结果。
- 访问:仅限于 API 使用;公众无法进行微调。
- 使用场景:适合需要直接从 API 获得高级结果的用户。
Dev
- 质量:Pro 的精简版本,质量略有下降。
- 灵活性:允许微调,但仅限于非商业用途。商业用途需要 Black Forest Lab 的明确许可。
- 使用场景:适合实验和研究,前提是遵守许可要求。
Schnell
- 质量:最开放和易访问的 Flux 模型,基于 Apache 2.0 许可证 发布。然而,它是 3 个变体中质量最低的。
- 灵活性:公开可用于微调和修改,因此成为创建衍生模型的热门选择。
- 使用场景:适合开源项目和社区驱动的开发。
Flux 模型的演变
当 Dev 和 Schnell 变体首次发布时,它们存在一些显著的缺点:
- 文件大小:每个模型需要下载一个巨大的 23.6GB 文件(不包括 VAE 和文本编码器文件)。
- 硬件要求:至少需要 16GB 的显存 才能以合理的性能生成图像。
这些限制使得原始 Flux 模型对许多用户来说不切实际。然而,随后的改进解决了这些问题:
- 由 Kijai 引入,此更新通过集成 VAE 和文本编码器将文件大小减少到仅 11.9GB。
- 将显存需求降低到 8GB,使更多用户能够使用,且质量没有显著下降。
- 进一步优化,适用于显存低至 6GB 的系统。
- 尽管更高效,但与早期模型相比,此版本的质量有所下降。
这些进步为开发者提供了基础,使他们能够以开源的 Schnell 或 Dev 变体为基础,微调并发布自己的 Flux 模型。
基于 Flux 的检查点
基于 Flux 的检查点是 Flux Schnell 或 Dev 模型的微调版本,由第三方开发者创建,旨在提供专门的功能或改进的图像质量。在本文中,我们将分析 4 个这样的检查点:
这些检查点增加了独特的功能和优化,使它们与原始 Flux 模型有所区别,同时仍然基于相同的架构。
在打好基础后,让我们继续讨论测试方法以及如何在关键性能维度上对这些检查点进行比较。
测试方法
为了评估四个基于 Flux 的检查点——Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 stoiqoNewreality——采用了结构化的测试方法。每个检查点在受控条件下进行测试,尽可能使用相同的设置以确保公平比较。然而,由于 fluxRealistic 的特殊要求,对其进行了特殊调整。
工作流设置
共享设置
- 引导值:2.5
- 采样器:
dpmpp_2m
- 调度器:
sgm_uniform
- VAE 和种子:所有检查点使用相同的 VAE 和种子以保持一致性。
对于 fluxRealistic:
- 由于 fluxRealistic 是基于 GGUF 的模型,它需要特定的 Unet Loader (GGUF) 和 DualCLIPLoader (GGUF) 节点才能正常运行。
- 其文本编码器也被量化,需要在图像生成过程中进行定制处理。
检查点位置
所有检查点都放置在 Unet 文件夹 中。LoRA 节点
第一轮禁用:为了评估每个检查点的原始性能,不应用任何风格或性能增强。
第二轮启用:测试了两个特定的 LoRA 兼容性:
- 一个Turbo LoRA,旨在加速图像生成。
- 一个1980 年代风格 LoRA,用于应用复古美学。
测试维度
每个检查点在 4 个性能维度上进行了评估:
皮肤纹理与面部细节
- 专注于生成自然、逼真的皮肤纹理。
- 评估睫毛、瞳孔和面部特征等细节的渲染。
手部生成
- 测试生成解剖学上准确且逼真的手部的能力,这是 AI 模型面临的已知挑战。
光影与美学效果
- 评估模型的光影平衡能力,以及实现特定艺术风格(如散景、宝丽来美学)的能力。
LoRA 兼容性
- 分析模型对 LoRA 的响应能力,特别是它们在加速图像生成和集成风格调整方面的表现。
图像对比
对于每个测试维度,生成的图像并排放置以进行详细比较。这一过程揭示了每个检查点的独特优势和劣势,便于识别哪些模型在特定领域表现出色。
皮肤纹理与面部细节
第一个测试维度关注每个检查点如何渲染皮肤纹理和面部细节,例如瞳孔的清晰度、睫毛和整体面部真实感。这些方面对于创建逼真的图像至关重要,尤其是肖像。让我们看看四个基于 Flux 的检查点的表现如何。
PixelWave
- PixelWave 在这一类别中始终优于其他模型。
- 皮肤纹理自然且光滑。
- 面部特征如睫毛和瞳孔的渲染非常精确,增加了高度的真实感。
- 眼睛明亮且有表现力,具有自然的高光和反射平衡。
StoiqoNewreality
- StoiqoNewreality 生成的皮肤纹理质量高,大多数情况下看起来自然。
- 它添加了细微的细节,如雀斑,增加了逼真感。
- 然而,它偶尔会在皮肤上引入轻微的油腻光泽,这在某些输出中降低了真实感。
- 面部特征如睫毛和瞳孔通常定义良好,但不如 PixelWave 锐利。
fluxRealistic
- 尽管其体积小巧且经过 GGUF 量化,fluxRealistic 在这一类别中表现良好。
- 皮肤纹理比 PixelWave 和 StoiqoNewreality 更平滑且细节较少,但对于一个紧凑型模型来说,结果仍然不错。
Shuttle 3 Diffusion
- Shuttle 3 Diffusion 在这一类别中表现不佳。
- 皮肤纹理显得过于平滑和人工化,细节极少。
- 面部常常缺乏连贯性,出现面部特征与衣物混合的伪影。
- 瞳孔和睫毛等细节定义不清,导致输出不够逼真。
对比总结
胜出者:PixelWave 在这一类别中领先,提供了最佳的皮肤纹理和面部细节。StoiqoNewreality 位居第二,结果出色但偶尔会出现皮肤油腻的问题。fluxRealistic 是低显存系统的高效替代方案,但在细节上稍逊一筹。Shuttle 3 Diffusion 垫底,生成的结果明显较弱。
手部生成
生成逼真且解剖学上准确的手部是 AI 模型面临的最具挑战性的任务之一,本次测试重点评估每个检查点在这一棘手领域的表现。生成了各种姿势和位置的手部图像进行比较。让我们看看每个检查点的表现如何。
对比总结
所有四个模型在这一类别中表现相当,没有哪个模型明显优于其他模型。
光影与美学效果
光影和美学效果对于创建视觉上吸引人且风格丰富的图像至关重要。本次测试评估了每个检查点如何平衡光影、处理艺术效果以及生成具有独特美学的输出。检查点之间的差异在这一类别中尤为明显。
Shuttle 3 Diffusion
- Shuttle 3 Diffusion 在光影和美学效果方面表现不佳。
- 生成的图像常常具有不自然的光影,混合了冲突的光源(例如烛光与日光)。
- 模型生成的输出平淡无奇,缺乏深度或阴影的丰富性。
fluxRealistic
- fluxRealistic 在光影处理上优于 Shuttle 3 Diffusion。
- 输出具有平衡的光影,具有一定的深度感。
- 然而,模型在艺术元素的细节处理上表现不佳——一些物体,如烛台或复杂的道具,显示出明显的错误。
PixelWave
- PixelWave 在这一类别中表现出色,生成的输出具有独特的艺术风格。
- 光影自然且动态,高光和阴影的平衡良好。
- 模型生成的图像类似于古典油画或其他美术风格,增添了永恒和创意的触感。
- 即使在复杂场景中,它也能提供丰富的细节,并在散景和宝丽来风格美学等效果上表现出色。
StoiqoNewreality
表现:
- StoiqoNewreality 倾向于现代美学,生成的结果充满活力且干净。
- 光影分布通常良好,但偶尔高光显得过亮或阴影缺乏深度。
- 虽然它没有 PixelWave 的绘画风格,但它提供了更现代的美学,适合现代设计用例。
对比总结
胜出者:PixelWave 在光影和美学效果方面表现出色,提供了技术准确性和创意艺术的平衡。StoiqoNewreality 紧随其后,在现代美学上表现出色,但在复杂效果上稍显不足。fluxRealistic 在技术上表现良好,但缺乏创意影响,而 Shuttle 3 Diffusion 由于光影不一致和视觉吸引力差而远远落后。
LoRA 兼容性
LoRA(低秩适应)是增强模型性能和应用风格调整的强大工具。在本次测试中,使用了两个特定的 LoRA:
- Turbo LoRA:旨在加速图像生成,减少步骤同时保持质量。
- 1980 年代风格 LoRA:添加受 1980 年代视觉启发的复古美学。
测试检查点以评估它们如何有效集成 LoRA 功能,以及结果是否符合预期。
- PixelWave
- PixelWave 在 LoRA 集成方面表现不佳。
- Turbo LoRA 未能加速图像生成,输出显得模糊,失去了模型特有的锐利和细节。
- 1980 年代风格 LoRA 对生成的图像没有明显影响,未能应用复古美学。
- StoiqoNewreality
- StoiqoNewreality 与两个 LoRA 都配合良好。
- Turbo LoRA 成功加速了图像生成,且质量没有显著下降。
- 1980 年代风格 LoRA 也有效,为图像添加了明显的复古美学。
- fluxRealistic
- fluxRealistic 在 LoRA 处理上表现出色,尤其是考虑到其紧凑的 GGUF 架构。
- 与 Turbo LoRA 配合时,生成速度显著提高,同时保持质量。
- 1980 年代风格 LoRA 产生了明显的风格变化,有效地添加了复古美学。
对比总结
胜出者:fluxRealistic 和 StoiqoNewreality 在 LoRA 兼容性方面表现突出。两者都有效地处理了 Turbo 和 1980 年代风格 LoRA,应用了速度提升和风格变化,且问题极少。PixelWave 未能利用 LoRA 增强功能,其输出没有明显改进。
最终排名
经过在四个关键维度上的广泛测试——皮肤纹理与面部细节、手部生成、光影与美学效果 和 LoRA 兼容性——基于 Flux 的检查点根据其整体表现进行了排名。每个模型都展示了独特的优势和劣势,使其适用于不同的用例。
1. PixelWave
整体表现:PixelWave 在图像质量和艺术效果方面表现最佳。其生成逼真皮肤纹理、细致面部特征和出色光影效果的能力使其脱颖而出。然而,它在 LoRA 兼容性方面表现不佳,未能有效利用风格和性能增强。
最适合:
- 寻求最高质量、艺术输出的艺术家和创作者。
- 不依赖 LoRA 增强的项目。
劣势:
- LoRA 集成差;Turbo 和风格 LoRA 对其输出没有明显影响。
2. StoiqoNewreality
整体表现:StoiqoNewreality 紧随其后,提供了强大的LoRA 兼容性。虽然其皮肤纹理和光影效果略逊于 PixelWave,但它成功集成了 LoRA,使其对依赖这些工具的用户更具多功能性。
最适合:
- 需要 Turbo
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved