为什么顶尖创作者正在放弃 Midjourney 而选择这个 AI 替代品


6 个月前

虽然 Midjourney 在角色设计和风格一致性方面是一个可接受的解决方案,但他们的旗舰文本到图像生成模型在两个特定领域迅速落后:提示遵循和可读文本生成。

如果你是创作者、标志设计师、专业的表情包制作人——因为谁不是呢?——这非常重要……非常重要。

发生了什么变化?

研究人员在扩散模型中面临的一些最大挑战是提示遵循和文本生成

这是什么意思呢?

提示遵循,顾名思义,就是模型理解复杂提示的能力,以及让你在更少的尝试中获得你所想的正确图像的能力。

None

文本生成就是字面意思,模型生成可读字母、单词和句子的能力。

None

如果你想测试一个模型的提示遵循和文本生成能力,其实很简单——想一个奇怪的场景,然后用文字描述出来,看看模型能否重现它。

这是我刚刚即兴想出的一个场景,信我,LLM 不会想出这么无聊的点子:

提示:一只戴着单片眼镜和白色胡子的猫站在一辆红色汽车的左侧。红色汽车上有一个标志,上面写着“如果你爱猫,就按喇叭。”光线昏暗,背景是一个电影拍摄用的绿幕。前景中有一位电影导演举着一个写着“开始”的拍摄板。

好吧,你脑海中有这个场景的粗略想法吗?

是的,我也没有……

无论如何,这里是来自三个不同模型的一些非挑选输出。

我故意不说哪个模型对应哪个输出,以免你有偏见:

None

备注: 写得不错,但构图不太对。图像看起来过于饱和。不过,右上角的猫戴着高顶帽 🎩 倒是加了分——尽管我并没有要求…… 评分 6/10

None

备注: 色彩不错,但并没有很好地遵循提示。而且只有一个标志的文字勉强对上了 (虽然并不是我想要的)。 评分 5/10

None

备注: 🤯 在我看来相当不错。看起来很真实,没有错别字。唯一的错误是左上角的图片没有包含“爱”。几乎完美地符合我心中的想法。 评分 9.9/10

你认为哪个模型最好……?

没关系,向上滚动再比较一下。

你有最终答案了吗?

你确定吗?!

(抱歉,我只是加了一些填充词,试图把答案往下推,以免你在思考之前看到它 😅)

模型 1 : Flux 1.1 Pro (评分 6/10)

模型 2 : Midjourney 6.1 (评分 5/10)

模型 3 : Ideogram v 2.0 (评分 9.9/10)

惊讶吗?

是的,我也是。

为了确保准确性,我做了一些其他简单的比较,看看输出的对比。

结果如下:

人物肖像

提示:一张获奖照片,拍摄的是一位75岁的西班牙裔祖母,深邃的皱纹直视观众。她穿着一件明亮的黄色毛衣,面带温暖而亲切的微笑。她站在家门口,背景是一个自然光照的厨房。

None

Ideogram 看起来更真实。Midjourney 看起来不错,但她的头发和皮肤上有那种恼人的 AI 光泽——或者也许奶奶只是护肤做得好——我又有什么资格去评判呢。Flux 1.1 Pro 看起来过于饱和,几乎显得过于修饰。

风景

提示:一条蜿蜒的徒步小径穿过茂密的森林。前景中有一条小河和一个小瀑布。天空中有一道彩虹,背景中有鸟儿飞翔。

None

没有指定照片、插图等导致了不同的结果——是的,这是我的错。不过所有模型的构图都很到位——色彩范围在模型之间有所不同。

食物

提示:一盘白色盘子里的烤鸡,旁边有玉米、绿色沙拉和一块南瓜派。盘子是白色的,放在大理石台面上。专业的灯光从上方和左侧照射过来。背景是一个可以看到城市天际线的窗户。

None

Ideogram 再次达到了标准,看起来最具说服力。Midjourney 在食物项目上出乎意料地遇到了困难 (看看那块派!?)- 这是四个中最好的。Flux 1.1 Pro 的结果还可以——食物看起来有点假。

标志

提示:在白色背景上,带有“Follow @PromptingPixels on Medium”字样的风格化标志。让这个标志色彩丰富,吸引眼球。

None

Ideogram 和 Flux 的标志生成都很强。值得注意的是,四个 Ideogram 图像中有一个是在白色背景上。Midjourney 几乎失败——得到了字母,但不是我想要的。哦,别忘了在这里关注我 😅

简单文本

提示:一位30岁的女性手持一块写着“什么是真实?”的标志。她戴着眼镜,穿着衬衫和蓝色牛仔裤。她站在海滩上,光线是自然的金色时光。

None

所有模型都能生成少于5个字的简单文本。Midjourney 通常无法生成4个语法正确的结果。

长文本

提示:一位小男孩举着一块写着“我生日想要的就是一个 VR 头盔”的标志。他站在后院,背景有一个秋千架。他戴着眼镜,穿着横条纹衬衫和蓝色牛仔裤。那是一个夏天的日子,自然光照明。

None

Ideogram 表现最佳 (四个候选者的语法都正确)。Midjourney 无法正确生成句子。Flux 1.1 Pro 在返回一个可接受的句子之前尝试了三次。

这都意味着什么呢?!

听着,Midjourney 是一个不错的模型——我并不是在争论这一点。

然而,如果你使用 Midjourney 进行直接图像生成,并且对消耗“快速小时”以获得你想要的图像感到沮丧——无论是因为它根本不理解你,还是文本模糊不清,那么可以考虑 Ideogram 或 Flux 1.1 Pro。

撇开质量不谈,我并不轻易使用这些词,Ideogram 和 Flux 1.1 Pro 的价格也更便宜。

根据最便宜的计划粗略估算,使用不同模型每张图像的费用大约如下:

  • Flux 1.1 Pro (Replicate API):每张图像 $0.04
  • Midjourney:每张图像 $0.05
  • Ideogram:每张图像 $0.015
  • Ideogram (API):每张图像 $0.08

我仔细检查了几次数学,确保没有遗漏任何东西。

最后一点说明

这些是我截至2024年10月的观察,可能会随着下一个 Midjourney 模型更新而改变。

但如果你希望在更少的尝试中获得更好的结果,可以查看 Ideogram 或 Flux 1.1 Pro。我相信你不会失望的。

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved