Midjourney + ChatGPT-4o:为什么今天“多合一”赢了?


3 个月前

翻译:

说实话,我在进行新的AI图像生成项目时,经常会陷入这样的困境。无论是尝试创建角色的变体、保持系列作品的一致性,还是仅仅为了完善某个特定的外观,缺乏参考材料常常让我感到束手无策。是的,我之前写过关于“多对多”技术的文章,比如提供10张图片或提示,然后让大语言模型(LLMs)生成5个新的独特提示。

油管

“从一到多”的方法:一种范式转变

对于那些一直关注我博客的读者来说,你可能还记得,在我之前的文章中,我总是从让AI分析大量图像开始——通常是十张甚至更多!通常的做法是让AI列出它能找到的所有元素,预测哪些元素最受欢迎,然后利用这些分析来生成新的提示。嘿,这种方法效果很好……但前提是你手头有大量的参考图像或提示。

但昨天发生了一件有趣的事情。我在尝试Midjourney的新功能Moodboards,想看看是否能让它像拼图一样将我的倒彩艺术照片拼接在一起。剧透警告:它并没有像我想象的那样工作!它没有将碎片拼接在一起,而是开始以自己的创意方式重新混合这些图像。别误会,这并不是这个功能的失败。它只是按照设计的方式工作。

这让我开始思考:如果我们能以不同的方式使用ChatGPT或其他大语言模型(LLMs)呢?如果我们不是给它们大量的不同参考,而是只给它们几张相关的图像,让它们解决我们的创意难题呢?这就像你在看同一场拍摄中的不同照片——它们可能展示了不同的角度和瞬间,但它们都在讲述同一个故事。

我越想越兴奋。我们不再只是谈论分析图像,而是理解这些图像如何协同工作的核心本质。想象一下:与其看一百个不同的食谱来学习烹饪,不如从不同角度深入理解一个出色的食谱?

这种思维转变打开了一个全新的可能性世界。对于正在从事AI艺术项目的人来说,这可能是一个改变游戏规则的机会。尤其是当你手头的参考材料有限,但仍需要在输出中保持一致性和质量时。

问题的魔力:为AI设定成功的基础

现在,事情变得非常有趣!我想与正在阅读这篇博客的你们分享一些非常酷的东西。看看我与ChatGPT-4o的三次对话。其中的魔力在于我如何提出第一个问题:“附上的图像来自同一件艺术作品,你能根据这些图像预测原始艺术作品的内容吗……”

这个简单的短语就像给AI戴上了一副特殊的眼镜。它不再只是单独看每张图像,而是开始尝试将所有东西拼凑在一起——就像你在拼图时寻找连接的部分一样!

让我带你看看这些对话中发生了什么(是的,我有点极客,因为结果非常惊人)。在每次对话中,我稍微调整了我的问题:

  • 首先,我问了关于“谁、什么、哪里、如何”的问题

None

ChatGPT-4o对话的屏幕截图

  • 然后,我专注于特定元素,比如作品中的人物和其他可见的内容

None

ChatGPT-4o对话的屏幕截图

  • 最后,我深入探讨了角色、情绪和整体风格的细节

None

ChatGPT-4o对话的屏幕截图

让我感到非常兴奋的是:如果你仔细观察AI的回应,你会发现每次分析都在前一次的基础上构建,几乎像是在逐渐描绘出一幅更完整的画面。它不仅仅是随机抛出一些观察结果——它实际上是在连接这些图像之间的点!

我觉得非常有趣(我想你也会)的是,AI在整体风格和情绪上保持了一致性。无论是谈论角色的外貌、赛博朋克的背景,还是阴暗的灯光,一切都感觉像是属于同一个故事。就像AI不仅仅是在看图像——它是在理解这些图像试图传达的整体氛围。

让我向你展示AI在这种理解下生成的内容。相信我,当你看到这些输出时,你会注意到一些非常酷的东西——它们看起来都像是同一个系列的一部分。几乎就像AI已经学会了这些参考图像的视觉语言!

None

Midjourney V6.1生成的图像,由EJ Yao使用以下提示生成

赛博朋克黑客在高科技未来控制室中,穿着连帽夹克,专注地盯着发光的全息电脑屏幕,霓虹蓝和橙色灯光照亮环境,周围是数据界面和未来设备,电影级灯光,细节丰富,超现实数字艺术风格,科幻氛围,赛博朋克美学。--ar 16:9 --stylize 50 --v 6.1

None

None

一个棱角分明、目光锐利的英俊男子,穿着深色连帽衫,坐在高科技赛博朋克环境中。霓虹蓝和橙色灯光照亮场景,背景是发光的全息屏幕和未来界面。氛围紧张而神秘,戏剧性的灯光创造出强烈的光影对比。男子的姿势自信而内省,仿佛正在进行高风险的黑客活动或间谍任务。构图使用引导线和层次深度,将高科技元素与阴郁的反乌托邦情绪融合。超细节、电影级、赛博朋克风格,色彩鲜艳,动态灯光,未来美学。--ar 16:9 --stylize 50 --v 6.1

None

Midjourney V6.1生成的图像,由EJ Yao使用以下提示生成

一个专注的赛博朋克黑客在未来的高科技控制室中工作,周围是发光的霓虹蓝和橙色灯光,先进的全息屏幕和复杂的数字界面。角色穿着破旧的连帽衫,散发着神秘和决心,表现出专注和叛逆的气质。氛围阴暗而忧郁,科技的光芒照亮了他的脸。场景感觉沉浸感十足,描绘了一个地下网络间谍站,具有复杂而细致的赛博朋克美学。超细节、电影级灯光、动态构图。--ar 16:9 --stylize 50 --v 6.1

构建更好的提示:迭代的力量

现在,我想与大家分享一些非常令人兴奋的东西——关于如何通过逐步构建来使我们的提示变得更好。相信我,这会让事情变得非常有趣!

让我展示两种不同的方法(我还有一些很酷的截图来证明它的效果):

方法1:同一对话的魔力 🎯

首先,看看这张截图,我告诉ChatGPT:“附上的图像也来自同一件艺术作品……”这就像告诉AI:“嘿,还记得我们刚才讨论的那些图像吗?这里还有一些拼图碎片!”哇,它真的做到了!AI并没有从头开始,而是基于之前的理解,给出了更详细的分析。

给大家一个小贴士:由于你的第一轮可能已经使用了3-4张图像,每次迭代只需要添加1-2张新图像。就像给菜肴调味一样——你只需要适量的调料来增强风味,而不是让它变得过于复杂。当然,图像的质量真的非常重要。你要选择那些展示不同角度或方面的图像,但它们都应该感觉像是属于同一个整体。就像为同一部电影选角一样——他们都需要符合整体的氛围!

None

ChatGPT-4o对话的屏幕截图

方法2:时间旅行技巧 🚀

现在,看看这张截图,我向AI展示了一些新图像,同时也包含了之前的分析。我发现了一个小技巧:与其复制整个之前的分析,不如只抓取关键点并用双引号括起来。这就像给AI一个简短的简报,而不是整个报告。当你把这些引用的内容放在开头和结尾时,它帮助AI理解这是需要考虑的独立信息。当你无法访问旧对话但仍想基于之前的工作时,这非常有用。

None

ChatGPT-4o对话的屏幕截图

我喜欢这种方法(我想你也会喜欢)的是它的灵活性。你可以:

  • 不断添加更多生成的图像来优化结果
  • 混合和匹配你保存的不同分析
  • 建立对你风格的详细理解
  • 保存你最喜欢的分析以备将来使用

最酷的部分?每次这样做,你的提示都会变得越来越好。就像AI正在更流利地学习你的视觉语言!

下一个提示:

作为Midjourney AI提示工程师,根据上述分析,参考以下提示的风格,但不要直接复制细节,生成一个Midjourney AI提示:

一张匿名连帽人物的照片,中等身材,穿着深灰色连帽衫,帽子拉上,脸部完全隐藏在阴影中。人物坐在一个昏暗的高科技环境中,背景是多个发光的显示器,显示绿色和蓝色的数字代码和图形。氛围神秘而科技感十足,冷色调主导场景。全身照片,焦点在中心人物,背景是模糊的未来服务器室环境。--ar 2:3 --stylize 80 --v 6.1

None

Midjourney V6.1生成的图像,由EJ Yao使用以下提示生成,该提示是上述ChatGPT-4o提示的输出

一张神秘而紧张的男子照片,棱角分明的面部特征和轻微的胡茬,穿着时尚的未来黑色连帽衫,带有科技感的细节。帽子部分拉起,在脸上投下戏剧性的阴影,突出了他锐利的目光。他坐在一个充满霓虹灯光的赛博朋克环境中,周围是发光的全息界面和复杂的橙色和蓝色光网格。氛围阴暗、神秘且高科技,暖橙色高光和冷蓝色调形成强烈对比。构图聚焦于中心男子,他自信地蹲坐,背景是模糊的沉浸式数字建筑。--ar 2:3 --stylize 80 --v 6.1

总结:一些最后的思考

哇,我们一起讨论了很多内容!在你亲自尝试之前(我真的很希望你这么做!),我想分享一些我在这个过程中学到的重要事情。

首先——我无法强调这一点的重要性——你输入给AI的内容质量真的非常重要。就像烹饪一样:如果你从优质的食材开始,你更有可能做出美味的菜肴!当你选择要分析的图像时,尽量选择那些:

  • 清晰且构图良好的图像
  • 展示不同角度或方面的图像
  • 具有一致的灯光和风格
  • 讲述同一个故事的不同部分

还有一点让我感到兴奋的是:虽然我一直在使用ChatGPT-4o来进行这种技术,但我认为Claude AI可能也能进行类似的分析!如果你有兴趣看看这种技术在Claude上的效果,请告诉我——我很乐意尝试并分享我的发现。每个AI都有自己看待事物的方式,探索这些差异可能会带来一些非常有趣的发现。

None

Midjourney V6.1生成的图像,由EJ Yao使用以下提示生成

一个忧郁、棱角分明的英俊男子,面部轮廓鲜明,目光锐利,短发造型,穿着深色连帽衫或未来感皮夹克。他沉浸在一个赛博朋克反乌托邦环境中,周围是发光的霓虹蓝和橙色灯光,全息屏幕和高科技数字界面。场景被戏剧性的灯光照亮,突出了他的脸,并投下深深的阴影,强调了神秘和紧张感。他的姿势是蹲坐或坐着,散发出自信和专注,仿佛正在进行黑客活动或秘密任务。背景是沉浸式的、混乱的科技,营造出深度和叙事感。超细节、电影级、赛博朋克美学,色彩鲜艳,动态灯光,黑暗的未来氛围。--ar 16:9 --stylize 60 --v 6.1

哦,还有最后一件事我想与所有坚持到最后的读者分享:不要害怕实验!这种技术之所以诞生,是因为我在玩Midjourney的Moodboards时想:“嗯,如果……会怎样?”有时最好的发现来自于尝试新事物并看看会发生什么。

如果你尝试了这种方法(我真的很希望你这么做!),我很想听听你的体验。你使用了什么样的图像?AI是如何回应的?你有没有发现一些自己的小技巧?记住,我们都在学习和探索这项令人惊叹的技术!

保持创造力,继续实验,最重要的是——享受这个过程!🚀✨

Claude 3.5 Sonnet挑战“从一到多”任务:它能与ChatGPT-4o的Midjourney魔法匹敌吗?ejacklab.com

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved