为什么顶尖创作者正在放弃 Midjourney 而选择这个 AI 替代品

虽然 Midjourney 在角色设计和风格一致性方面是一个可接受的解决方案，但他们的旗舰文本到图像生成模型在两个特定领域迅速落后：提示遵循和可读文本生成。

如果你是创作者、标志设计师、专业的表情包制作人——因为谁不是呢？——这非常重要……非常重要。

发生了什么变化？

研究人员在扩散模型中面临的一些最大挑战是提示遵循和文本生成。

这是什么意思呢？

提示遵循，顾名思义，就是模型理解复杂提示的能力，以及让你在更少的尝试中获得你所想的正确图像的能力。

None

文本生成就是字面意思，模型生成可读字母、单词和句子的能力。

None

如果你想测试一个模型的提示遵循和文本生成能力，其实很简单——想一个奇怪的场景，然后用文字描述出来，看看模型能否重现它。

这是我刚刚即兴想出的一个场景，信我，LLM 不会想出这么无聊的点子：

提示：一只戴着单片眼镜和白色胡子的猫站在一辆红色汽车的左侧。红色汽车上有一个标志，上面写着“如果你爱猫，就按喇叭。”光线昏暗，背景是一个电影拍摄用的绿幕。前景中有一位电影导演举着一个写着“开始”的拍摄板。

好吧，你脑海中有这个场景的粗略想法吗？

是的，我也没有……

无论如何，这里是来自三个不同模型的一些非挑选输出。

我故意不说哪个模型对应哪个输出，以免你有偏见：

None

备注： 写得不错，但构图不太对。图像看起来过于饱和。不过，右上角的猫戴着高顶帽 🎩 倒是加了分——尽管我并没有要求…… 评分 6/10

None

备注： 色彩不错，但并没有很好地遵循提示。而且只有一个标志的文字勉强对上了 (虽然并不是我想要的)。 评分 5/10

None

备注： 🤯 在我看来相当不错。看起来很真实，没有错别字。唯一的错误是左上角的图片没有包含“爱”。几乎完美地符合我心中的想法。 评分 9.9/10

你认为哪个模型最好……？

没关系，向上滚动再比较一下。

你有最终答案了吗？

你确定吗？!

（抱歉，我只是加了一些填充词，试图把答案往下推，以免你在思考之前看到它 😅）

模型 1 : Flux 1.1 Pro (评分 6/10)

模型 2 : Midjourney 6.1 (评分 5/10)

模型 3 : Ideogram v 2.0 (评分 9.9/10)

惊讶吗？

是的，我也是。

为了确保准确性，我做了一些其他简单的比较，看看输出的对比。

结果如下：

人物肖像

提示：一张获奖照片，拍摄的是一位75岁的西班牙裔祖母，深邃的皱纹直视观众。她穿着一件明亮的黄色毛衣，面带温暖而亲切的微笑。她站在家门口，背景是一个自然光照的厨房。

None

Ideogram 看起来更真实。Midjourney 看起来不错，但她的头发和皮肤上有那种恼人的 AI 光泽——或者也许奶奶只是护肤做得好——我又有什么资格去评判呢。Flux 1.1 Pro 看起来过于饱和，几乎显得过于修饰。

风景

提示：一条蜿蜒的徒步小径穿过茂密的森林。前景中有一条小河和一个小瀑布。天空中有一道彩虹，背景中有鸟儿飞翔。

None

没有指定照片、插图等导致了不同的结果——是的，这是我的错。不过所有模型的构图都很到位——色彩范围在模型之间有所不同。

食物

提示：一盘白色盘子里的烤鸡，旁边有玉米、绿色沙拉和一块南瓜派。盘子是白色的，放在大理石台面上。专业的灯光从上方和左侧照射过来。背景是一个可以看到城市天际线的窗户。

None

Ideogram 再次达到了标准，看起来最具说服力。Midjourney 在食物项目上出乎意料地遇到了困难 (看看那块派!?)- 这是四个中最好的。Flux 1.1 Pro 的结果还可以——食物看起来有点假。

标志

提示：在白色背景上，带有“Follow @PromptingPixels on Medium”字样的风格化标志。让这个标志色彩丰富，吸引眼球。

None

Ideogram 和 Flux 的标志生成都很强。值得注意的是，四个 Ideogram 图像中有一个是在白色背景上。Midjourney 几乎失败——得到了字母，但不是我想要的。哦，别忘了在这里关注我 😅

简单文本

提示：一位30岁的女性手持一块写着“什么是真实？”的标志。她戴着眼镜，穿着衬衫和蓝色牛仔裤。她站在海滩上，光线是自然的金色时光。

None

所有模型都能生成少于5个字的简单文本。Midjourney 通常无法生成4个语法正确的结果。

长文本

提示：一位小男孩举着一块写着“我生日想要的就是一个 VR 头盔”的标志。他站在后院，背景有一个秋千架。他戴着眼镜，穿着横条纹衬衫和蓝色牛仔裤。那是一个夏天的日子，自然光照明。

None

Ideogram 表现最佳 (四个候选者的语法都正确)。Midjourney 无法正确生成句子。Flux 1.1 Pro 在返回一个可接受的句子之前尝试了三次。

这都意味着什么呢？!

听着，Midjourney 是一个不错的模型——我并不是在争论这一点。

然而，如果你使用 Midjourney 进行直接图像生成，并且对消耗“快速小时”以获得你想要的图像感到沮丧——无论是因为它根本不理解你，还是文本模糊不清，那么可以考虑 Ideogram 或 Flux 1.1 Pro。

撇开质量不谈，我并不轻易使用这些词，Ideogram 和 Flux 1.1 Pro 的价格也更便宜。

根据最便宜的计划粗略估算，使用不同模型每张图像的费用大约如下：

Flux 1.1 Pro (Replicate API)：每张图像 $0.04
Midjourney：每张图像 $0.05
Ideogram：每张图像 $0.015
Ideogram (API)：每张图像 $0.08

我仔细检查了几次数学，确保没有遗漏任何东西。

最后一点说明

这些是我截至2024年10月的观察，可能会随着下一个 Midjourney 模型更新而改变。

但如果你希望在更少的尝试中获得更好的结果，可以查看 Ideogram 或 Flux 1.1 Pro。我相信你不会失望的。

发生了什么变化？

人物肖像

风景

食物

标志

简单文本

长文本

这都意味着什么呢？!

最后一点说明

推荐阅读：

掌握 ChatGPT 的提示工程

"探索我的情绪板 #1：中点旅程的灵感集"

【独家秘籍】如何用克莱德·索内特和俳句超越GPT-4？快来试试这些技巧！

为什么顶尖创作者正在放弃 Midjourney 而选择这个 AI 替代品

我用 256 张图像在 FLUX 上进行训练——结果令人震惊

如何在 MimicPC 上使用 AI-Toolkit 训练 Flux LoRA 模型：一步步指南

FluxAI 中文