直达 AI 工具号

FLUX.1 与 Midjourney 的比较通过 API 实现

11 个月前

FLUX.1 与 Midjourney 的比较

随着最近发布的 FLUX.1 文本到图像生成模型系列，关于最佳私有模型 Midjourney 和最佳开源模型 FLUX.1 的讨论愈演愈烈。因此，今天我们将从多个方面（例如 ELO 分数、语义理解、美学、空间与数量理解等）来比较这两个模型。

关于 FLUX.1 模型的一些背景信息，它们由 Black Forest Labs（简称“BFL”）开发，该团队由原始 Stable Diffusion 系列模型的四位共同创作者领导。BFL 团队致力于推动市场上最先进的视觉模型，并最近发布了 FLUX.1 系列模型，包括三个变体：

FLUX.1-pro
FLUX.1-dev
FLUX.1-schnell

三种变体模型在能力和成本方面的比较

这三种变体模型的参数规模均为 120 亿，FLUX.1-pro 模型的运行成本最高，但也提供了最高的创意能力，如上图所示。

FLUX.1-dev 和 FLUX.1-schnell 已在 GitHub 上公开发布。FLUX.1-dev 模型具有非商业许可证，而 FLUX.1-schnell 模型则具有标准的 Apache 2.0 许可证，适用于商业用途。

FLUX.1 模型系列与其他模型的 ELO 分数表现

上图展示了市场上各种图像生成 AI 模型（包括私有和开源）的 ELO 分数比较，数据由 BFL 发布。如图所示，FLUX.1-pro 和 FLUX.1-dev 模型的表现超过了最近的 SD3-Ultra 模型，且这三种变体的 ELO 分数均高于 Midjourney V6.0。

然而，BFL 并未提供上述 ELO 分数的来源。通过我们在 Artifical Analysis 页面的研究，似乎并未发布相关 FLUX 模型的统计数据。然而，在 Artifical Analysis 的文本到图像排行榜页面上，我们确实看到了三种 FLUX.1 变体模型，其相对 ELO 分数高于 Midjourney v6，并且与 Midjourney v6.1 非常接近（见下图）。请注意，该页面的结果每小时更新一次，未来可能会发生变化，因为 Midjourney V6.1 和 FLUX.1 模型都是最近发布的。

来自 Artifical Analysis 的文本到图像模型的 ELO 分数比较

现在我们已经对这两个模型的差异进行了理论上的二次研究，接下来我们将实际进行一些生成，以比较 FLUX.1 模型与 Midjourney V6.1。

请注意，以下比较中的所有生成都是使用以下 API 进行的：Midjourney API 和 FLUX.1 API。

语义理解

提示：一幅在哥特式教堂中，肩上有一只凤凰的男孩的画

关于上述比较，似乎 Midjourney 的风格更具艺术感，并且更好地捕捉了凤凰的细节。

提示：一幅在魔法森林中骑着狮子的女孩的画，周围有发光的花朵

关于上述比较，Midjourney 更好地捕捉了这个提示的神秘感，尽管所有模型都准确地捕捉到了发光的花朵。可能 FLUX.1 模型需要额外的提示来引导模型生成更“神秘”的风格。

美学比较

提示：一只可怕的龙，鳞片如熔融金属般闪闪发光，从火山洞穴的阴影中出现。环境阴暗而威胁，唯一的光来自流动的熔岩。龙的眼神古老而智慧，整体艺术氛围混合了危险与宏伟。

关于上述图片，Midjourney 的作品似乎更具艺术性，但 FLUX.1 模型在细节和效果方面也相当出色！

提示：一位中年男子，修剪整齐的胡须和短卷发，肤色偏深，戴着时尚的礼帽，穿着牛仔夹克和白色 T 恤。背景是一个色彩缤纷的街市，阳光投下柔和的阴影。

关于上述比较，Midjourney 和 FLUX.1-pro 的插图相对接近。我个人不太喜欢 dev 和 schnell 模型的卡通风格，但这可以通过更具体的提示来避免。

空间与数量理解

提示：四朵花，处于不同的开放和凋谢阶段。序列从紧密的绿色花蕾开始，逐渐开放成半开的花，接着是完全盛开的花，最后是凋谢、花瓣掉落的花。

关于上述比较，FLUX.1 模型在数量理解方面明显优越，并且在捕捉状态变化的准确性上更高。

提示：四个日晷的序列，每个日晷显示不同长度和角度的阴影。依次为早晨的阴影、中午的阴影、下午的阴影，最后是晚上的阴影。

关于上述比较，FLUX.1 模型再次显示出优越的数量理解，并且在捕捉时间变化的准确性上更高。

提示遵循比较

提示：一个在厨房里玩耍的机器人厨师，旁边有“Cooking Up Code”的字样

关于上述比较，只有 FLUX.1-schnell 模型展示了提示中要求的文字。

提示：一个魔法图书馆，书本在空中漂浮，旁边有“Adventure Awaits in Writing”的字样

关于上述比较，除了 FLUX.1-schnell 模型展示了提示中要求的文字外，Midjourney 模型在展示文字方面也有所进展，但准确性有限。

结论

通过对 FLUX.1 模型和 Midjourney V6.1 模型的全面比较，我们希望为开发者和专业人士提供更有价值的信息，帮助他们了解这两种模型的优缺点。

无论我们个人的偏好如何，有一点是肯定的：鉴于 FLUX.1 模型的开源特性，它们无疑将成为现有文本到图像模型库中的宝贵补充，为最终用户根据不同需求优化使用提供更大的灵活性。这对该领域的每个人来说都是令人兴奋的！

最后，如果你想立即尝试 FLUX.1 模型生成图片，可以随时访问 FLUX-AI！

推荐阅读：

革命性的 AI 图像生成：来自 Black Forest Labs 的 FLUX.1 设定了新标准

FLUX是黑森林实验室最新推出的图像生成AI，具有12亿参数和混合架构，提供卓越的视觉质量和用户控制。它结合了尖端技术与道德实践，旨在满足快速且高效的图像生成需求，适用于数字营销和科学可视化。FLUX的用户友好界面和高效能使其成为创作者和开发者的理想工具，推动数字创作的边界。

"OminiControl：FLUX.1的极简通用控制框架，你掌握了吗？"

OminiControl是一种创新框架，旨在通过将图像条件集成到预训练的Diffusion Transformer模型中，重新定义图像生成的控制方式。它通过参数复用和轻量架构，提供了跨多种任务的灵活和高效控制。OminiControl允许用户调整条件输入的影响力，并引入Subjects200K数据集以提高训练效率，适用于对输出视觉一致性和语义对齐要求高的应用场景。

Flux.1：来自欧洲的 Midjourney V6.1 竞争者

本周AI新闻介绍了来自欧洲的图像生成器Flux.1，该工具可与Midjourney V6.1竞争，并提供免费试用。同时，研究显示AI生成图像在多次训练后质量下降，强调真实数据的重要性。此外，Tesla申请了一项基于AI的图像处理专利，旨在提升机器人环境感知能力。Mistral AI发布的新开源模型Mistral Large 2表现类似GPT-4，并提供免费无限使用。

FLUX.1 — 文本到图像领域的新兴选择

本文讨论了新发布的文本到图像模型FLUX.1，该模型解决了AI图像生成中存在的问题，尤其是手部的识别。FLUX.1由德国黑森林实验室开发，具有开放源代码，易于修改和微调。模型分为Pro、Dev和Schnell三个版本，适用于不同的应用场景。文章还对比了FLUX.1与DALL-E的生成效果，FLUX在文本图像生成方面表现出色，展示了AI技术在增强人类创造力方面的潜力。

ComfyUI Flux.1-dev ControlNet 放大器

本文介绍了Jasper Ai在ComfyUI上测试的新发布的Flux.1-dev ControlNet Upscaler模型，重点讲解了使用的节点及其功能。该模型通过保留图像特征，提升图像分辨率，确保生成的新图像与原图在构图上相似。文中提到的节点包括Basic Guider和SamplerCustomAdvance，强调了在图像生成过程中保持质量和细节的重要性。

发现 Flux.1 AI：5 种方法来最大化利用这个免费工具

Flux.1是黑森林实验室推出的一款开源AI图像生成模型，拥有120亿参数，超越了Midjourney V6和OpenAI的DALL-E 3。用户可以在HuggingFace平台上免费访问该模型，并通过简单的步骤生成图像。文章介绍了Flux.1的不同版本及使用方法，同时提供了完整的本地运行指南，适合对机器学习和自然语言处理有兴趣的用户。

FluxAI 中文

© 2025. All Rights Reserved

FLUX.1 by Black Forest Labs