Midjourney + ChatGPT-4o：为什么今天“多合一”赢了？

翻译：

说实话，我在进行新的AI图像生成项目时，经常会陷入这样的困境。无论是尝试创建角色的变体、保持系列作品的一致性，还是仅仅为了完善某个特定的外观，缺乏参考材料常常让我感到束手无策。是的，我之前写过关于“多对多”技术的文章，比如提供10张图片或提示，然后让大语言模型（LLMs）生成5个新的独特提示。

油管

“从一到多”的方法：一种范式转变

对于那些一直关注我博客的读者来说，你可能还记得，在我之前的文章中，我总是从让AI分析大量图像开始——通常是十张甚至更多！通常的做法是让AI列出它能找到的所有元素，预测哪些元素最受欢迎，然后利用这些分析来生成新的提示。嘿，这种方法效果很好……但前提是你手头有大量的参考图像或提示。

但昨天发生了一件有趣的事情。我在尝试Midjourney的新功能Moodboards，想看看是否能让它像拼图一样将我的倒彩艺术照片拼接在一起。剧透警告：它并没有像我想象的那样工作！它没有将碎片拼接在一起，而是开始以自己的创意方式重新混合这些图像。别误会，这并不是这个功能的失败。它只是按照设计的方式工作。

这让我开始思考：如果我们能以不同的方式使用ChatGPT或其他大语言模型（LLMs）呢？如果我们不是给它们大量的不同参考，而是只给它们几张相关的图像，让它们解决我们的创意难题呢？这就像你在看同一场拍摄中的不同照片——它们可能展示了不同的角度和瞬间，但它们都在讲述同一个故事。

我越想越兴奋。我们不再只是谈论分析图像，而是理解这些图像如何协同工作的核心本质。想象一下：与其看一百个不同的食谱来学习烹饪，不如从不同角度深入理解一个出色的食谱？

这种思维转变打开了一个全新的可能性世界。对于正在从事AI艺术项目的人来说，这可能是一个改变游戏规则的机会。尤其是当你手头的参考材料有限，但仍需要在输出中保持一致性和质量时。

问题的魔力：为AI设定成功的基础

现在，事情变得非常有趣！我想与正在阅读这篇博客的你们分享一些非常酷的东西。看看我与ChatGPT-4o的三次对话。其中的魔力在于我如何提出第一个问题：“附上的图像来自同一件艺术作品，你能根据这些图像预测原始艺术作品的内容吗……”

这个简单的短语就像给AI戴上了一副特殊的眼镜。它不再只是单独看每张图像，而是开始尝试将所有东西拼凑在一起——就像你在拼图时寻找连接的部分一样！

让我带你看看这些对话中发生了什么（是的，我有点极客，因为结果非常惊人）。在每次对话中，我稍微调整了我的问题：

首先，我问了关于“谁、什么、哪里、如何”的问题

None

ChatGPT-4o对话的屏幕截图

然后，我专注于特定元素，比如作品中的人物和其他可见的内容

None

ChatGPT-4o对话的屏幕截图

最后，我深入探讨了角色、情绪和整体风格的细节

None

ChatGPT-4o对话的屏幕截图

让我感到非常兴奋的是：如果你仔细观察AI的回应，你会发现每次分析都在前一次的基础上构建，几乎像是在逐渐描绘出一幅更完整的画面。它不仅仅是随机抛出一些观察结果——它实际上是在连接这些图像之间的点！

我觉得非常有趣（我想你也会）的是，AI在整体风格和情绪上保持了一致性。无论是谈论角色的外貌、赛博朋克的背景，还是阴暗的灯光，一切都感觉像是属于同一个故事。就像AI不仅仅是在看图像——它是在理解这些图像试图传达的整体氛围。

让我向你展示AI在这种理解下生成的内容。相信我，当你看到这些输出时，你会注意到一些非常酷的东西——它们看起来都像是同一个系列的一部分。几乎就像AI已经学会了这些参考图像的视觉语言！

None

Midjourney V6.1生成的图像，由EJ Yao使用以下提示生成

赛博朋克黑客在高科技未来控制室中，穿着连帽夹克，专注地盯着发光的全息电脑屏幕，霓虹蓝和橙色灯光照亮环境，周围是数据界面和未来设备，电影级灯光，细节丰富，超现实数字艺术风格，科幻氛围，赛博朋克美学。--ar 16:9 --stylize 50 --v 6.1

None

一个棱角分明、目光锐利的英俊男子，穿着深色连帽衫，坐在高科技赛博朋克环境中。霓虹蓝和橙色灯光照亮场景，背景是发光的全息屏幕和未来界面。氛围紧张而神秘，戏剧性的灯光创造出强烈的光影对比。男子的姿势自信而内省，仿佛正在进行高风险的黑客活动或间谍任务。构图使用引导线和层次深度，将高科技元素与阴郁的反乌托邦情绪融合。超细节、电影级、赛博朋克风格，色彩鲜艳，动态灯光，未来美学。--ar 16:9 --stylize 50 --v 6.1

None

Midjourney V6.1生成的图像，由EJ Yao使用以下提示生成

一个专注的赛博朋克黑客在未来的高科技控制室中工作，周围是发光的霓虹蓝和橙色灯光，先进的全息屏幕和复杂的数字界面。角色穿着破旧的连帽衫，散发着神秘和决心，表现出专注和叛逆的气质。氛围阴暗而忧郁，科技的光芒照亮了他的脸。场景感觉沉浸感十足，描绘了一个地下网络间谍站，具有复杂而细致的赛博朋克美学。超细节、电影级灯光、动态构图。--ar 16:9 --stylize 50 --v 6.1

构建更好的提示：迭代的力量

现在，我想与大家分享一些非常令人兴奋的东西——关于如何通过逐步构建来使我们的提示变得更好。相信我，这会让事情变得非常有趣！

让我展示两种不同的方法（我还有一些很酷的截图来证明它的效果）：

方法1：同一对话的魔力 🎯

首先，看看这张截图，我告诉ChatGPT：“附上的图像也来自同一件艺术作品……”这就像告诉AI：“嘿，还记得我们刚才讨论的那些图像吗？这里还有一些拼图碎片！”哇，它真的做到了！AI并没有从头开始，而是基于之前的理解，给出了更详细的分析。

给大家一个小贴士：由于你的第一轮可能已经使用了3-4张图像，每次迭代只需要添加1-2张新图像。就像给菜肴调味一样——你只需要适量的调料来增强风味，而不是让它变得过于复杂。当然，图像的质量真的非常重要。你要选择那些展示不同角度或方面的图像，但它们都应该感觉像是属于同一个整体。就像为同一部电影选角一样——他们都需要符合整体的氛围！

None

ChatGPT-4o对话的屏幕截图

方法2：时间旅行技巧 🚀

现在，看看这张截图，我向AI展示了一些新图像，但同时也包含了之前的分析。我发现了一个小技巧：与其复制整个之前的分析，不如只抓取关键点并用双引号括起来。这就像给AI一个简短的简报，而不是整个报告。当你把这些引用的内容放在开头和结尾时，它帮助AI理解这是需要考虑的独立信息。当你无法访问旧对话但仍想基于之前的工作时，这非常有用。

None

ChatGPT-4o对话的屏幕截图

我喜欢这种方法（我想你也会喜欢）的是它的灵活性。你可以：

不断添加更多生成的图像来优化结果
混合和匹配你保存的不同分析
建立对你风格的详细理解
保存你最喜欢的分析以备将来使用

最酷的部分？每次这样做，你的提示都会变得越来越好。就像AI正在更流利地学习你的视觉语言！

下一个提示：

作为Midjourney AI提示工程师，根据上述分析，参考以下提示的风格，但不要直接复制细节，生成一个Midjourney AI提示：

一张匿名连帽人物的照片，中等身材，穿着深灰色连帽衫，帽子拉上，脸部完全隐藏在阴影中。人物坐在一个昏暗的高科技环境中，背景是多个发光的显示器，显示绿色和蓝色的数字代码和图形。氛围神秘而科技感十足，冷色调主导场景。全身照片，焦点在中心人物，背景是模糊的未来服务器室环境。--ar 2:3 --stylize 80 --v 6.1

None

Midjourney V6.1生成的图像，由EJ Yao使用以下提示生成，该提示是上述ChatGPT-4o提示的输出

一张神秘而紧张的男子照片，棱角分明的面部特征和轻微的胡茬，穿着时尚的未来黑色连帽衫，带有科技感的细节。帽子部分拉起，在脸上投下戏剧性的阴影，突出了他锐利的目光。他坐在一个充满霓虹灯光的赛博朋克环境中，周围是发光的全息界面和复杂的橙色和蓝色光网格。氛围阴暗、神秘且高科技，暖橙色高光和冷蓝色调形成强烈对比。构图聚焦于中心男子，他自信地蹲坐，背景是模糊的沉浸式数字建筑。--ar 2:3 --stylize 80 --v 6.1

总结：一些最后的思考

哇，我们一起讨论了很多内容！在你亲自尝试之前（我真的很希望你这么做！），我想分享一些我在这个过程中学到的重要事情。

首先——我无法强调这一点的重要性——你输入给AI的内容质量真的非常重要。就像烹饪一样：如果你从优质的食材开始，你更有可能做出美味的菜肴！当你选择要分析的图像时，尽量选择那些：

清晰且构图良好的图像
展示不同角度或方面的图像
具有一致的灯光和风格
讲述同一个故事的不同部分

还有一点让我感到兴奋的是：虽然我一直在使用ChatGPT-4o来进行这种技术，但我认为Claude AI可能也能进行类似的分析！如果你有兴趣看看这种技术在Claude上的效果，请告诉我——我很乐意尝试并分享我的发现。每个AI都有自己看待事物的方式，探索这些差异可能会带来一些非常有趣的发现。

None

Midjourney V6.1生成的图像，由EJ Yao使用以下提示生成

一个忧郁、棱角分明的英俊男子，面部轮廓鲜明，目光锐利，短发造型，穿着深色连帽衫或未来感皮夹克。他沉浸在一个赛博朋克反乌托邦环境中，周围是发光的霓虹蓝和橙色灯光，全息屏幕和高科技数字界面。场景被戏剧性的灯光照亮，突出了他的脸，并投下深深的阴影，强调了神秘和紧张感。他的姿势是蹲坐或坐着，散发出自信和专注，仿佛正在进行黑客活动或秘密任务。背景是沉浸式的、混乱的科技，营造出深度和叙事感。超细节、电影级、赛博朋克美学，色彩鲜艳，动态灯光，黑暗的未来氛围。--ar 16:9 --stylize 60 --v 6.1

哦，还有最后一件事我想与所有坚持到最后的读者分享：不要害怕实验！这种技术之所以诞生，是因为我在玩Midjourney的Moodboards时想：“嗯，如果……会怎样？”有时最好的发现来自于尝试新事物并看看会发生什么。

如果你尝试了这种方法（我真的很希望你这么做！），我很想听听你的体验。你使用了什么样的图像？AI是如何回应的？你有没有发现一些自己的小技巧？记住，我们都在学习和探索这项令人惊叹的技术！

保持创造力，继续实验，最重要的是——享受这个过程！🚀✨

翻译：

“从一到多”的方法：一种范式转变

问题的魔力：为AI设定成功的基础

构建更好的提示：迭代的力量

方法1：同一对话的魔力 🎯

方法2：时间旅行技巧 🚀

总结：一些最后的思考

Claude 3.5 Sonnet挑战“从一到多”任务：它能与ChatGPT-4o的Midjourney魔法匹敌吗？ejacklab.com

推荐阅读：

掌握 Midjourney：从幽灵虾到水母——风格参考代码的力量

Flux.1：来自欧洲的 Midjourney V6.1 竞争者

【重磅更新】RenderNet AI推出姿势控制功能，Flux体验再升级！

成功的 AI 图像生成必备“负面关键词”：提升输出质量的指南

Flux 1：下一代AI图像生成器

Stable Diffusion及其替代品：五大AI图像生成工具推荐

FluxAI 中文