为什么顶尖创作者正在放弃 Midjourney 而选择这个 AI 替代品
7 个月前
虽然 Midjourney 在角色设计和风格一致性方面是一个可接受的解决方案,但他们的旗舰文本到图像生成模型在两个特定领域迅速落后:提示遵循和可读文本生成。
如果你是创作者、标志设计师、专业的 meme 制作人——因为谁不是呢?——这非常重要……非常重要。
发生了什么变化?
研究人员在扩散模型中面临的一些最大挑战是提示遵循和文本生成。
这是什么意思呢?
提示遵循,顾名思义,就是模型理解复杂提示的能力,以及让你在更少的尝试中获得你想要的正确图像的能力。
文本生成就是字面意思,模型生成可读字母、单词和句子的能力。
如果你想测试一个模型的提示遵循和文本生成能力,其实很简单——想一个奇怪的场景,然后用文字描述出来,看看模型能否重现它。
这是我随便想出来的一个场景,信我,LLM 不会想出这么无聊的主意:
提示:一只戴着单片眼镜和白色胡子的猫站在一辆红色汽车的左侧。红色汽车上有一个标志,上面写着“如果你爱猫,就按喇叭。”光线昏暗,背景是一个电影拍摄现场的绿幕。前景是一位电影导演举着一个写着“开始”的拍摄板。
好吧,你脑海中有这个场景的粗略想法吗?
是的,我也没有……
无论如何,这里是来自三个不同模型的一些非挑选输出。
我故意不说哪个模型对应哪个输出,以免你有偏见:
备注: 写得不错,但构图不太对。图像看起来过于饱和。不过右上角的猫戴着高顶帽 🎩 倒是加了分——尽管我并没有要求…… 评分 6/10
备注: 色彩不错,但并没有很好地遵循提示。而且只有一个标志的文字有点对(虽然并不是我想要的)。 评分 5/10
备注: 🤯 在我看来相当不错。看起来很真实,没有错别字。唯一的错误是左上角的图片没有包含“爱”。几乎完美地符合我心中的想法。 评分 9.9/10
你认为哪个模型最好……?
没关系,向上滚动再比较一下。
你有最终答案了吗?
你确定吗?!
(抱歉,我只是加了一些填充词,试图让答案往下推,以免你在思考之前看到它 😅)
模型 1 : Flux 1.1 Pro(评分 6/10)
模型 2 : Midjourney 6.1(评分 5/10)
模型 3 : Ideogram v 2.0(评分 9.9/10)
惊讶吗?
是的,我也是。
为了确保准确性,我做了一些其他简单的比较,看看输出的对比。
结果如下:
人物肖像
提示:一张获奖照片,拍摄的是一位75岁的西班牙裔祖母,深邃的皱纹直视观众。她穿着一件明亮的黄色毛衣,面带温暖而亲切的微笑。她站在家门口,背景是一个自然光照明的厨房。
Ideogram 看起来更真实。Midjourney 看起来不错,但她的头发和皮肤上有那种恼人的 AI 光泽——或者也许奶奶只是护肤做得好——我又不是来评判的。Flux 1.1 Pro 看起来过于饱和,几乎像是过度编辑。
风景
提示:一条蜿蜒的小径穿过茂密的森林。前景有一条小河,旁边有一个小瀑布。天空中有一道彩虹,背景中有鸟儿飞翔。
没有指定照片、插图等,导致了不同的结果——是的,这是我的错。不过所有模型的构图都很到位——色彩范围在模型之间有所不同。
食物
提示:一盘白色盘子里的烤鸡,旁边有玉米、绿色沙拉和一块南瓜派。盘子是白色的,放在大理石台面上。专业的灯光从上方和左侧照射过来。背景是一个可以看到城市天际线的窗户。
Ideogram 再次达到了标准,看起来最具说服力。Midjourney 在食物项目上出乎意料地遇到了困难(看看那块派!?)——这是四个中最好的。Flux 1.1 Pro 的结果还可以——食物看起来有点假。
标志
提示:在白色背景上,带有“Follow @PromptingPixels on Medium”字样的风格化标志。让这个标志色彩丰富,吸引眼球。
Ideogram 和 Flux 的标志生成都很强。值得注意的是,四个 Ideogram 图像中有一个是在白色背景上。Midjourney 几乎失败了——得到了字母,但不是我想要的。哦,别忘了在这里关注我 😅
简单文本
提示:一位30岁的女性手持一块写着“什么是真实?”的标志。她戴着眼镜,穿着衬衫和蓝色牛仔裤。她站在海滩上,光线是自然的金色时光。
所有模型都能生成少于5个字的简单文本。尽管 Midjourney 通常无法生成4个语法正确的结果。
长文本
提示:一位小男孩举着一块写着“我生日想要的就是一个 VR 头盔”的标志。他站在后院,背景有一个秋千架。他戴着眼镜,穿着横条纹衬衫和蓝色牛仔裤。是一个夏天的日子,自然光照明。
Ideogram 表现最佳(四个候选者的语法都正确)。Midjourney 无法正确生成句子。Flux 1.1 Pro 在返回一个可接受的句子之前尝试了三次。
这都意味着什么呢?!
听着,Midjourney 是一个不错的模型——我并不是在争论这一点。
然而,如果你使用 Midjourney 进行直接图像生成,并且对消耗“快速小时”以获得你想要的图像感到沮丧——无论是因为它根本不理解你,还是文本模糊不清,那么考虑使用 Ideogram 或 Flux 1.1 Pro。
撇开质量不谈,我并不轻易使用这些词,Ideogram 和 Flux 1.1 Pro 的价格也更便宜。
根据最便宜的计划粗略估算,使用不同模型每张图像的费用大约如下:
- Flux 1.1 Pro(Replicate API):每张图像 $0.04
- Midjourney:每张图像 $0.05
- Ideogram:每张图像 $0.015
- Ideogram(API):每张图像 $0.08
我仔细检查了几次数学,确保没有遗漏任何东西。
最后一点说明
这些是我截至2024年10月的观察,可能会随着下一个 Midjourney 模型更新而改变。
但如果你希望在更少的尝试中获得更好的结果,可以看看 Ideogram 或 Flux 1.1 Pro。我相信你不会失望的。
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved