在运行 Linux Mint Wilma(基于 Ubuntu)的旧款 Nvidia 1080 Ti 电脑上测试 Forge(稳定扩散 Flux)


6 个月前

在旧款 Nvidia 1080 Ti PC 上测试 Forge(稳定扩散 Flux)

运行 Linux Mint Wilma(Ubuntu 24.04 LTS),使用 Python 3.12、Python 3.11、Python 3.10 和 Xformers。

Flux 模型和 SDXL 模型都是 AI 生成图像的重要创新,特别是在 稳定扩散 框架内。它们的差异和优势主要与模型的架构、效率和预期用途相关。让我们仔细看看:(与 ChatGPT4o 一起)

1. Flux 模型(稳定扩散 XL Flux):

Flux 是开发图像生成模型的新趋势之一,经过某些增强优化,基于稳定扩散模型。

优势:

  • 提高效率:Flux 模型设计为比 SDXL 模型计算更轻。这使得它们在需要更快性能或较低硬件要求的环境中非常有用。
  • 较低资源消耗:当 GPU 资源有限或希望在不太强大的硬件上优化模型使用时,Flux 可以提供帮助。
  • 简化的架构优化:Flux 模型可能利用某些优化,例如减少扩散步骤或增强精炼过程,从而在特定任务中实现更快的生成。
  • 使用场景:Flux 模型非常适合快速原型设计、早期项目草图或需要更快响应时间的交互式实时应用。

2. SDXL 模型(稳定扩散 XL):

SDXL 是稳定扩散模型的更大、更复杂的版本,专注于高分辨率图像生成和改善图像质量。

优势:

  • 增强细节和质量:SDXL 模型显著更大,能够生成比传统模型更详细的图像。由于参数更多,它们可以创建更复杂和逼真的图像。
  • 高分辨率输出:SDXL 特别适合生成大型和详细的图像,因为它处理更广泛的数据量,并更仔细地优化图像特征。
  • 先进的多算法架构:该模型采用先进技术来提高图像细节的准确性,特别是在细节、光照和色彩管理等领域。
  • 使用场景:SDXL 适合于高质量和详细图像至关重要的项目,例如商业项目、艺术制作以及任何需要高视觉保真度的地方。

比较与总结:

  • 效率与质量:Flux 模型优化了效率和速度,而 SDXL 模型则专注于图像质量和细节精度。
  • 硬件要求:SDXL 需要更多的计算能力和 GPU 内存,因此 Flux 模型可能更适合资源有限的设置。
  • 预期用途:Flux 模型非常适合快速草图和轻量级图像生成需求,而 SDXL 则在追求高质量、详细图像时表现出色。

这两种模型各有其优势,适用于不同的优先事项(速度、质量、资源)。

评论:这个总结是由 ChatGPT 制作的,可能并不准确。请阅读 这篇文章 以获取更多信息。

如果你不想等待 Automatic1111 Flux 更新,可以使用 Forge,它非常相似。我想测试一下是否可以在我的旧测试 PC(Nvidia 1080 Ti)上运行 Forge,并验证 Flux 是否比 SDXL 更快。这个测试主要是一个学习经验,我在每个主题的末尾标记了关键的学习点。

与 Automatic1111 相比,Forge 的速度似乎更慢,即使使用 SDXL 模型,尽管可以使用 Xformers 来提升 Forge 的性能。

以下是我进行的测试,以及我设置虚拟环境、从 GitHub 克隆 Forge 并使其正常工作的步骤,首先使用不受支持的 Python 3.12,然后是 Python 3.11,最后是受支持的 Python 3.10。我还测试了 Xformers,但不幸的是,未能提高性能。

注意: 如果你有 Python 3.10 或 Python 3.11,可以使用命令 python3.10 -m venv venv 创建虚拟环境,并跳过下面的 Python 3.12 部分。

Python 3.12

让我们在 /opt/forge 创建虚拟环境:

sudo mkdir /opt/forge
sudo chown yourname:yourgroup /opt/forge
cd /opt/forge
python3 -m venv venv
source venv/bin/activate

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-forge
./webui.sh

由于 Ubuntu 24.04 LTS 和 Mint Wilma 自带 Python 3.12,我们看到这个提示:

不兼容的 Python 版本

该程序已在 3.10.6 Python 上测试,但你使用的是 3.12.3。如果你遇到 "RuntimeError: Couldn't install torch." 的错误消息,或任何其他与未成功安装包(库)相关的错误,请降级(或升级)到最新版本的 3.10 Python,并删除 WebUI 目录中的当前 Python 和 "venv" 文件夹。

如预期,使用 Python 3.12 安装最终导致错误:

为 Pillow 构建 wheel(pyproject.toml):状态为 'error'

错误:无法为 Pillow 构建 wheels,这是安装基于 pyproject.toml 的项目所必需的。

让我们尝试通过更新 Pillow 来解决这个问题:

sudo apt-get install libjpeg-dev zlib1g-dev

Pillow 更新现在也导致错误:

RuntimeError: 无法导入 diffusers.pipelines.pipeline_utils,因为以下错误(查看上面的回溯):无法导入 diffusers.models.autoencoders.autoencoder_kl,因为以下错误(查看上面的回溯):没有名为 'distutils' 的模块。

主要问题:

  1. 无效的转义序列 (:警告提到在文件 /opt/forge/stable-diffusion-webui-forge/modules/prompt_parser.py:387 中存在无效的转义序列。这可能是由于 Python 字符串字面量中的字符未正确转义造成的。要解决此问题,可以将 ( 替换为 \(,或通过在字符串前加上 r"..." 来使用原始字符串,以避免 Python 解释转义序列。

  2. ModuleNotFoundError: 没有名为 'distutils' 的模块

    • 这是导致失败的主要问题。distutils 模块在你的 Python 环境中缺失。它是一个用于实用函数的遗留模块,例如 strtobooldistutils.util 中。
    • Python 3.12 不再默认包含 distutils 作为标准库的一部分,因为它已被弃用并最终删除。

好的,distutils 不受支持,让我们通过更新 setuptools 到合适的版本来解决 distutils 问题:

python -m pip install --upgrade setuptools

然后再次启动 ./webui.sh,现在 Forge 似乎正常加载。

如果你遇到 insightface 问题,请执行以下操作:

pip install protobuf==3.20.0
pip install protobuf==4.25.3
pip install insightface

pytorch 版本:2.3.1+cu121 设备:cuda:0 NVIDIA GeForce GTX 1080 Ti: 本地 … [GPU 设置] 你将使用 90.82% 的 GPU 内存(10133.00 MB)来加载权重,并使用 9.18% 的 GPU 内存(1024.00 MB)进行矩阵计算。你没有任何模型!选择的模型: {'checkpoint_info': None, 'additional_modules': [], 'unet_storage_dtype': None} 使用在线 LoRAs 在 FP16:False

所以,现在 Forge 后端和前端似乎正常加载。

让我们看看能否用 Flux 创建一些图片。为此,我们需要下载一个 Flux 模型。从 HuggingFace 链接 下载最新的模型文件,今天是 flux1-dev-bnb-nf4-v2.safetensors(12GB),并将其保存到 /opt/forge/stable-diffusion-webui-forge/models/Stable-diffusion 文件夹中。

注意!使用 Nvidia 1080Ti NF4 不是选项,你必须下载 https://huggingface.co/lllyasviel/flux1_dev/blob/main/flux1-dev-fp8.safetensors!(我昨天不知道这一点)。

提示:NF4 指的是 4 位非浮点精度,BNB 代表 BitsandBytes,是一种低位加速器模型,而 GGUF 是一种优化用于快速加载和保存模型的二进制格式。

第一次生成非常慢。我使用默认启动参数,Euler(简单),20 步,3.5 CFG 和大小 896x1152。生成耗时 12:15 分钟,但没有错误:

所有加载到 GPU。总进度: 100%|████████████████████████████████████████████████████████████████████████████████████| 20/20 [12:15<00:00, 37.11s/it]

None

使用 Forge Flux 和 Python3.12 制作的第一张图片。

所以,Forge 在 Python3.12 上工作,但速度问题与 Python 版本有关吗?

学习到的经验:

  1. Python3.12 可以工作,但使用旧版本可能更简单。
  2. Nvidia 1080 Ti 不支持 NF4,因此,实际上我应该使用 https://huggingface.co/lllyasviel/flux1_dev/blob/main/flux1-dev-fp8.safetensors(17GB)。

Python 3.11 和 xformers

让我们删除 venv,使用 Python3.11,它在 Automatic1111 中运行良好,也应该适用于 Forge:

cd ..
deactivate
rm -rf venv
python3.11 -m venv venv
source venv/bin/activate
./webui.sh

安装没有错误结束。

后端启动没有 Python3.10 的要求通知,假设 Python3.11 是可以的,如预期。

让我们使用提示创建一些东西:“艾玛·史东穿着肚皮舞者的肖像,阿拉伯之夜,高质量,完全详细,4K,聚焦清晰的面部,细致的手部细节和解剖结构,灵感来自 YouTube 上的肚皮舞者夏奇拉,由 artgerm 和 greg rutkowski 以及阿尔丰斯·穆夏创作,杰作,惊艳,artstation”。

使用默认启动参数(Euler 简单,20 步):

None

使用 Python3.11 的 Forge。

生成仍然很慢,12:08 分钟,可能与 Python 版本无关。

所有加载到 GPU。总进度: 100%|████████████████████████████████████████████████████████████████████████████████████| 20/20 [12:08<00:00, 36.44s/it]

None

使用 Forge Flux 和 Python3.11 制作的第二张图片。

也许安装 xformers 可以加快速度?让我们试试。

source venv/bin/activate
pip install xformers

安装卸载了 triton、cuda、torch,抱怨 protobuf 版本太新,然后尝试安装时出错:

错误:pip 的依赖解析器当前未考虑所有已安装的包。这种行为是以下依赖冲突的来源。 open-clip-torch 2.20.0 需要 protobuf<4,但你有 protobuf 4.25.5,这不兼容。 torchvision 0.18.1+cu121 需要 torch==2.3.1,但你有 torch 2.4.1,这不兼容。

pip check

xformers 0.0.28.post1 需要 torch==2.4.1,但你有 torch 2.3.1。

pip install torch==2.4.1
pip check

现在 torchvision 0.18.1+cu121 需要 torch==2.3.1,但你有 torch 2.4.1。

pip install torch==2.3.1

现在我遇到了 xformers 错误 :)

torchtorchvisionxformers 的版本之间存在循环依赖冲突。让我们进一步看看:

  1. torchvision 需要 torch==2.3.1
  2. xformers 需要 torch==2.4.1
  3. 安装的 torch 版本可能不符合这些要求。

好的,让我们先卸载这两个:

pip uninstall torch torchvision xformers

然后启动 Forge,使用 ./webui.sh,这将再次安装所需的包,然后再次尝试安装 xformers。

Pip 显示了一些关于不兼容的提示,但成功安装了 nvidia-cudnn-cu12–9.1.0.70 torch-2.4.1 triton-3.0.0 xformers-0.0.28.post1。

让我们看看再次执行 ./webui.sh 会发生什么。

现在崩溃了:

WARNING:xformers:WARNING[XFORMERS]: xFormers 无法加载 C++/CUDA 扩展。xFormers 是为:PyTorch 2.4.1+cu121 和 CUDA 1201 构建的(你有 2.3.1+cu121)Python 3.11.10(你有 3.11.10)请重新安装 xformers(见 https://github.com/facebookresearch/xformers#installing-xformers)内存高效注意力、SwiGLU、稀疏等将不可用。设置 XFORMERS_MORE_DETAILS=1 以获取更多详细信息。

RuntimeError: 无法导入 diffusers.pipelines.pipeline_utils,因为以下错误(查看上面的回溯):无法导入 diffusers.models.autoencoders.autoencoder_kl,因为以下错误(查看上面的回溯):模块 'torch.library' 没有属性 'custom_op'。

好的,xformers 有问题,让我们卸载 xformers 并安装 cu124 版本:

pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu124

现在结果看起来更好:

成功安装 nvidia-cublas-cu12–12.4.2.65 nvidia-cuda-cupti-cu12–12.4.99 nvidia-cuda-nvrtc-cu12–12.4.99 nvidia-cuda-runtime-cu12–12.4.99 nvidia-cufft-cu12–11.2.0.44 nvidia-curand-cu12–10.3.5.119 nvidia-cusolver-cu12–11.6.0.99 nvidia-cusparse-cu12–12.3.0.142 nvidia-nvjitlink-cu12–12.4.99 nvidia-nvtx-cu12–12.4.99 torch-2.4.1+cu124 triton-3.0.0 xformers-0.0.28.post1。

让我们看看执行 ./webui.sh 的结果:

pytorch 版本:2.4.1+cu124 xformers 版本:0.0.28.post1 设置 vram 状态为:NORMAL_VRAM 设备:cuda:0 NVIDIA GeForce GTX 1080 Ti:本地 VAE dtype 偏好:[torch.float32] -> torch.float32 使用 xformers 交叉注意力 使用 xformers 注意力用于 VAE。

错误:AttributeError: 部分初始化的模块 'torchvision' 没有属性 'extension'(很可能是由于循环导入)。

pip check

mediapipe 0.10.15 需要 protobuf<5,>=4.25.3,但你有 protobuf 3.20.0。onnx 1.17.0 需要 protobuf>=3.20.2,但你有 protobuf 3.20.0。torchvision 0.18.1+cu121 需要 torch==2.3.1,但你有 torch 2.4.1+cu124。

pip install mediapipe --upgrade
pip install protobuf==3.20.2
pip install torchvision==0.19.0

成功安装 nvidia-cublas-cu12–12.1.3.1 nvidia-cuda-cupti-cu12–12.1.105 nvidia-cuda-nvrtc-cu12–12.1.105 nvidia-cuda-runtime-cu12–12.1.105 nvidia-cufft-cu12–11.0.2.54 nvidia-curand-cu12–10.3.2.106 nvidia-cusolver-cu12–11.4.5.107 nvidia-cusparse-cu12–12.1.0.106 nvidia-nvtx-cu12–12.1.105 torch-2.4.0 torchvision-0.19.0。

现在 pip check 报告 mediapipe 和 xformers 的问题:

mediapipe 0.10.15 需要 protobuf<5,>=4.25.3,但你有 protobuf 3.20.2。xformers 0.0.28.post1 需要 torch==2.4.1,但你有 torch 2.4.0。

但现在 Forge 可以正常启动并使用 xformers:

Python 3.11.10(主,2024年9月7日,18:35:41)[GCC 13.2.0] 版本: f2.0.1v1.10.1-previous-569-g6dc71b7e pytorch 版本:2.4.0+cu121 xformers 版本:0.0.28.post1 设备:cuda:0 NVIDIA GeForce GTX 1080 Ti:本地 使用 xformers 交叉注意力 使用 xformers 注意力用于 VAE

让我们再次使用默认启动参数进行测试(Euler 简单):

提示:中世纪的哈莉·奎因和小丑,肖像,顽皮,幻想,中世纪,美丽的面孔,鲜艳的色彩,优雅,概念艺术,清晰聚焦,数字艺术,超现实主义,4K,虚幻引擎,高度详细,高清,戏剧性照明,Brom,正在 Artstation 上流行。

使用 xformers 的生成仍然很慢。

所有加载到 GPU。… 总进度: 100%|████████████████████████████████████████████████████████████████████████████████████| 20/20 [12:03<00:00, 36.41s/it]

None

使用 Forge、Flux、Python 3.11 和 xformers 制作的第三张图片。

结果看起来不错,但生成速度很慢。也许我们真的需要 Python3.10,慢速与 Python 版本(xformers)有关。

学习到的经验:

  1. Python3.11 可能有效,但 Xformers 仍然存在问题。

Python 3.10

让我们再次删除 venv,安装 python3.10,然后创建 venv:

rm -rf venv
sudo apt install python3.10 python3.10-venv python3.10-dev
python3.10 -m venv venv
source venv/bin/activate
pip install --upgrade pip
./webui.sh

安装顺利进行,没有错误。

让我们安装 xformers,首先尝试 cu124 版本,因为我的 nvidia-smi 显示 NVIDIA-SMI 550.107.02 驱动版本:550.107.02 CUDA 版本:12.4。你可以检查哪个 xformers 适合你:

GitHub - facebookresearch/xformers: 可构建和优化的 Transformers 构建块,支持…可构建和优化的 Transformers 构建块,支持…

pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu124

崩溃到 AttributeError:部分初始化的模块 'torchvision' 没有属性 'extension'(很可能是由于循环导入)。也许 Pytorch 的 124 版本太新了,所以,卸载 xformers 并尝试旧版本:

pip uninstall xformers
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121

同样,崩溃到 AttributeError:部分初始化的模块 'torchvision' 没有属性 'extension'(很可能是由于循环导入)。看起来 Pytorch 现在太新了,我懒惰,重新删除 venv 并重新创建并安装所需的包:

rm -rf venv
python3.10 -m venv venv
source venv/bin/activate
pip install --upgrade pip
./webui.sh

pytorch 版本:2.3.1+cu121,所以 pip3 install -U xformers — index-url https://download.pytorch.org/whl/cu121 应该可以,但似乎更新太多。

成功安装 nvidia-cudnn-cu12–9.1.0.70 torch-2.4.1+cu121 triton-3.0.0 xformers-0.0.28.post1。

./webui.sh 正常加载后端:

pytorch 版本:2.4.1+cu121 xformers 版本:0.0.28.post1 设置 vram 状态为:NORMAL_VRAM 设备:cuda:0 NVIDIA GeForce GTX 1080 Ti:本地 VAE dtype 偏好:[torch.float32] -> torch.float32 使用 xformers 交叉注意力 使用 xformers 注意力用于 VAE。

所以,使用默认参数进行测试,如前所述(Euler 简单,20 步),同样的提示:

“中世纪的哈莉·奎因和小丑,肖像,顽皮,幻想,中世纪,美丽的面孔,鲜艳的色彩,优雅,概念艺术,清晰聚焦,数字艺术,超现实主义,4K,虚幻引擎,高度详细,高清,戏剧性照明,Brom,正在 Artstation 上流行。”

None

GPU 利用率不是 100%。

仍然很慢,生成时间 12:04。

None

使用 Python 3.10 和 pytorch 版本:2.4.1+cu121 xformers 版本:0.0.28.post1 制作的第四张图片。

学习到的经验:

  1. 与 Xformers 一起工作的 Pytorch 版本并没有提高速度。

使用 Euler beta 采样器的 Python3.10 的 Forge

为了好玩,让我们尝试使用 Beta 设置的 Eurler,并将步骤减少到 10。生成时间是否应该是之前 20 步的一半?

是的,生成时间约为一半,05:50,35.03s/it,但结果有点怪异 :)

None

Flux,Euler beta,10 步。

None

机器人手持写有“2024 万圣节”的纸张。内部是冰球,火焰模式,燃烧的火焰,水从冰中滴落,火焰扭曲成烟雾,空气和地球元素。黄金比例,疯狂的细节,杰作,35mm 摄影,单反相机,柯达胶卷,8K,HDR,鲜艳而生动的色彩,反射。步骤:20,采样器:Euler,调度类型:简单,CFG 比例:1,蒸馏 CFG 比例:1.5,种子:97913728,大小:1024x1024,模型哈希:bea01d51bd,模型:flux1-dev-bnb-nf4-v2,版本: f2.0.1v1.10.1-previous-569-g6dc71b7e。耗时:10 分 42.7 秒。

同样的提示与 flux_1_dev_hyper_8steps_nf4.safetensors(这不应该与 Nvidia 1080 Ti 一起工作,但它工作了)。

None

机器人手持写有“2024 万圣节”的纸张。内部是冰球,火焰模式,燃烧的火焰,水从冰中滴落,火焰扭曲成烟雾,空气和地球元素。黄金比例,疯狂的细节,杰作,35mm 摄影,单反相机,柯达胶卷,8K,HDR,鲜艳而生动的色彩,反射。步骤:20,采样器:Euler,调度类型:Beta,CFG 比例:1,蒸馏 CFG 比例:7,种子:2365019855,大小:1024x1024,模型哈希:7e8c93b83c,模型:flux_1_dev_hyper_8steps_nf4,Beta 调度 alpha:0.6,Beta 调度 beta:0.6,版本: f2.0.1v1.10.1-previous-569-g6dc71b7e。耗时:10 分 40.5 秒。

None

机器人(金属生物)笑着,手持芬兰国旗(蓝十字,白色)。在图米奥基尔科(芬兰)屋顶上。黄金比例,疯狂的细节,杰作,35mm 摄影,单反相机,柯达胶卷,8K,HDR,鲜艳而生动的色彩,反射。步骤:10,采样器:Euler,调度类型:Beta,CFG 比例:1,蒸馏 CFG 比例:3.5,种子:3837994734,大小:896x1152,模型哈希:7e8c93b83c,模型:flux_1_dev_hyper_8steps_nf4,Beta 调度 alpha:0.6,Beta 调度 beta:0.6,版本: f2.0.1v1.10.1-previous-569-g6dc71b7e。耗时:6 分 26.7 秒。

使用 Python3.11 的 Automatic1111

让我们将速度与同一台计算机上的 Automatic1111 SDXL 进行比较,使用 xformers:

应用注意力优化:xformers… 完成。模型加载时间为 52.7 秒(从磁盘加载权重:1.7 秒,创建模型:0.5 秒,将权重应用于模型:48.4 秒,应用 half():0.1 秒,计算空提示:1.9 秒)。 100%|█████████████████████████████████████████████| 7/7 [00:30<00:00, 4.36s/it] [Tiled VAE]: 输入大小很小,不需要切片。26<00:00, 4.17s/it] 总进度: 100%|█████████████████████████████| 7/7 [00:29<00:00, 4.23s/it] 总进度:100%|█████████████████████████████| 7/7 [00:29<00:00, 4.17s/it]

None

Automatic1111,步骤:7,采样器:DPM++ SDE,调度类型:Karras,CFG 比例:2,种子:2328055557,大小:1024x1024,模型哈希:4496b36d48,模型:dreamshaperXL_v21TurboDPMSDE,版本:v1.10.1,源标识符:稳定扩散 web UI

生成时间为 0:29 分钟,结果看起来不错。

学习到的经验:

  1. 适配 torch 等以适应 CUDA 版本 12.4 需要工作,但也许没有理由从默认的 12.1(2.3.1+cu121)更新,因为它以类似的方式工作。
  2. 不知何故,Automatic1111 比 Forge 更快。

使用 SDXL 模型的 Forge

请记住,如果你在同一台计算机上运行 Forge 和 Automatic1111,你可以在设置中设置路径,或使用软链接,例如 ln -s /opt/stable-diffusion-webui/models/Stable-diffusion/ /opt/forge/stable-diffusion-webui-forge/models/Stable-diffusion/ 等。

使用 Automatic1111 生成的前一张图片的时间为 0:29。让我们看看使用 Forge 和相同的 dreamshaperXL 模型的速度:

None

中世纪的哈莉·奎因和小丑,肖像,顽皮,幻想,中世纪,美丽的面孔,鲜艳的色彩,优雅,概念艺术,清晰聚焦,数字艺术,超现实主义,4K,虚幻引擎,高度详细,高清,戏剧性照明,Brom,正在 Artstation 上流行。步骤:8,采样器:DPM++ SDE,调度类型:Karras,CFG 比例:1.9,种子:4171555793,大小:896x1152,模型哈希:3d0e279924,模型:dreamshaperXL_v21TurboDPMSDE,版本: f2.0.1v1.10.1-previous-569-g6dc71b7e。

生成时间为 00:53,虽然不如 Automatic1111 快,但也足够快。

None

机器人手持写有“2024 万圣节”的纸张。内部是冰球,火焰模式,燃烧的火焰,水从冰中滴落,火焰扭曲成烟雾,空气和地球元素。黄金比例,疯狂的细节,杰作,35mm 摄影,单反相机,柯达胶卷,8K,HDR,鲜艳而生动的色彩,反射。步骤:10,采样器:DPM++ SDE,调度类型:Karras,CFG 比例:2,种子:1489079570,大小:1024x1024,模型哈希:7ac04a9474,模型:jibMixRealisticXL_v140CrystalClarity,版本: f2.0.1v1.10.1-previous-569-g6dc71b7e。耗时:2 分 13.4 秒。

使用 Flux dev-fp8 模型的 Forge(适用于 1080 Ti)

经过几次与 CUDA 12.4 及相关 torch 和 xformers 的测试,我无法将 Forge 的生成时间加快到与 Automatic1111 使用相同 SDXL 模型的速度。

对于旧款 NVIDIA 显卡,NF4 Flux 模型是错误的选择。NVIDIA 1080 Ti 不应支持 NF4,但正如你从之前的图片中看到的,我能够生成图片,但速度非常慢。

适合旧 GPU 的正确版本应为 https://huggingface.co/lllyasviel/flux1_dev/blob/main/flux1-dev-fp8.safetensors

不要启用低位设置中的扩散或任何 NF4 相关设置,保持为自动!

这个例子是使用 flux1-dev-fp8.safetensors(=没有 NF4)生成的,生成时间为 11 分钟。

None

使用 15 步的 flux1-dev-fp8.safetensors,生成时间为 11 分钟。

因此,基于这些测试,你可以在相对较旧的计算机上运行 Forge 和 Flux 模型,但速度显著慢于使用 Automatic1111 和 SDXL 模型。

祝你测试愉快!

FluxAI 中文

© 2025. All Rights Reserved