FLUX.1 与 Midjourney 的比较通过 API 实现
7 个月前
FLUX.1 与 Midjourney 的比较
随着最近发布的 FLUX.1 文本到图像生成模型系列,关于最佳私有模型 Midjourney 和最佳开源模型 FLUX.1 的讨论愈演愈烈。因此,今天我们将从多个方面(例如 ELO 分数、语义理解、美学、空间与数量理解等)来比较这两个模型。
关于 FLUX.1 模型的一些背景信息,它们由 Black Forest Labs(简称“BFL”)开发,该团队由原始 Stable Diffusion 系列模型的四位共同创作者领导。BFL 团队致力于推动市场上最先进的视觉模型,并最近发布了 FLUX.1 系列模型,包括三个变体:
- FLUX.1-pro
- FLUX.1-dev
- FLUX.1-schnell
三种变体模型在能力和成本方面的比较
这三种变体模型的参数规模均为 120 亿,FLUX.1-pro 模型的运行成本最高,但也提供了最高的创意能力,如上图所示。
FLUX.1-dev 和 FLUX.1-schnell 已在 GitHub 上公开发布。FLUX.1-dev 模型具有非商业许可证,而 FLUX.1-schnell 模型则具有标准的 Apache 2.0 许可证,适用于商业用途。
FLUX.1 模型系列与其他模型的 ELO 分数表现
上图展示了市场上各种图像生成 AI 模型(包括私有和开源)的 ELO 分数比较,数据由 BFL 发布。如图所示,FLUX.1-pro 和 FLUX.1-dev 模型的表现超过了最近的 SD3-Ultra 模型,且这三种变体的 ELO 分数均高于 Midjourney V6.0。
然而,BFL 并未提供上述 ELO 分数的来源。通过我们在 Artifical Analysis 页面 的研究,似乎并未发布相关 FLUX 模型的统计数据。然而,在 Artifical Analysis 的文本到图像排行榜页面 上,我们确实看到了三种 FLUX.1 变体模型,其相对 ELO 分数高于 Midjourney v6,并且与 Midjourney v6.1 非常接近(见下图)。请注意,该页面的结果每小时更新一次,未来可能会发生变化,因为 Midjourney V6.1 和 FLUX.1 模型都是最近发布的。
来自 Artifical Analysis 的文本到图像模型的 ELO 分数比较
现在我们已经对这两个模型的差异进行了理论上的二次研究,接下来我们将实际进行一些生成,以比较 FLUX.1 模型与 Midjourney V6.1。
请注意,以下比较中的所有生成都是使用以下 API 进行的:Midjourney API 和 FLUX.1 API。
- 语义理解
提示:一幅在哥特式教堂中,肩上有一只凤凰的男孩的画
关于上述比较,似乎 Midjourney 的风格更具艺术感,并且更好地捕捉了凤凰的细节。
提示:一幅在魔法森林中骑着狮子的女孩的画,周围有发光的花朵
关于上述比较,Midjourney 更好地捕捉了这个提示的神秘感,尽管所有模型都准确地捕捉到了发光的花朵。可能 FLUX.1 模型需要额外的提示来引导模型生成更“神秘”的风格。
- 美学比较
提示:一只可怕的龙,鳞片如熔融金属般闪闪发光,从火山洞穴的阴影中出现。环境阴暗而威胁,唯一的光来自流动的熔岩。龙的眼神古老而智慧,整体艺术氛围混合了危险与宏伟。
关于上述图片,Midjourney 的作品似乎更具艺术性,但 FLUX.1 模型在细节和效果方面也相当出色!
提示:一位中年男子,修剪整齐的胡须和短卷发,肤色偏深,戴着时尚的礼帽,穿着牛仔夹克和白色 T 恤。背景是一个色彩缤纷的街市,阳光投下柔和的阴影。
关于上述比较,Midjourney 和 FLUX.1-pro 的插图相对接近。我个人不太喜欢 dev 和 schnell 模型的卡通风格,但这可以通过更具体的提示来避免。
- 空间与数量理解
提示:四朵花,处于不同的开放和凋谢阶段。序列从紧密的绿色花蕾开始,逐渐开放成半开的花,接着是完全盛开的花,最后是凋谢、花瓣掉落的花。
关于上述比较,FLUX.1 模型在数量理解方面明显优越,并且在捕捉状态变化的准确性上更高。
提示:四个日晷的序列,每个日晷显示不同长度和角度的阴影。依次为早晨的阴影、中午的阴影、下午的阴影,最后是晚上的阴影。
关于上述比较,FLUX.1 模型再次显示出优越的数量理解,并且在捕捉时间变化的准确性上更高。
- 提示遵循比较
提示:一个在厨房里玩耍的机器人厨师,旁边有“Cooking Up Code”的字样
关于上述比较,只有 FLUX.1-schnell 模型展示了提示中要求的文字。
提示:一个魔法图书馆,书本在空中漂浮,旁边有“Adventure Awaits in Writing”的字样
关于上述比较,除了 FLUX.1-schnell 模型展示了提示中要求的文字外,Midjourney 模型在展示文字方面也有所进展,但准确性有限。
结论
通过对 FLUX.1 模型和 Midjourney V6.1 模型的全面比较,我们希望为开发者和专业人士提供更有价值的信息,帮助他们了解这两种模型的优缺点。
无论我们个人的偏好如何,有一点是肯定的:鉴于 FLUX.1 模型的开源特性,它们无疑将成为现有文本到图像模型库中的宝贵补充,为最终用户根据不同需求优化使用提供更大的灵活性。这对该领域的每个人来说都是令人兴奋的!
最后,如果你想立即尝试 FLUX.1 模型生成图片,可以随时访问 FLUX-AI!
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved