拉瓦那如何帮助我在杜舍拉学习生成式人工智能
6 个月前
Ravana 是印度史诗《罗摩衍那》中的一个关键人物。他被称为十头魔王,统治着兰卡王国,以其巨大的力量和智慧而闻名。然而,他最重要的故事是他的覆灭,正义的化身 Ram 在一场正义的战斗中击败了他。这场胜利在每年印度教节日 Dussehra 中被庆祝,象征着善良战胜邪恶。人们会焚烧拉瓦那的稻草人,标志着正义的胜利。让我们尝试使用生成模型来想象这个节日的标题图片。
探索 ComfyUI 和 Flux 模型
在这个项目中,我使用了 ComfyUI [1] 中的 Flux 模型来生成视觉上描绘这个故事的图像。 ComfyUI 是一个直观的用户界面,旨在用于实验和使用生成模型,如 Flux,以创建令人惊叹的 AI 生成艺术。Flux 是这个界面中的一个复杂模型,以其根据文本提示生成高度详细和美观的图像而闻名。ComfyUI 的灵活性使用户能够实验不同的提示,并观察不同配置如何影响结果。请参考 github 以获取本博客文章中使用的 ComfyUI 工作流程。
图像生成
为了探索模型的能力,我使用了三种不同的配置:
- 基本提示
在这种方法中,模型仅根据主要提示生成图像,而没有任何额外的参数或限制。这种方法有助于探索模型的一般能力,并观察其对给定概念的解释,例如生成拉瓦那的简单描绘。它完全依赖输入文本来指导图像生成过程,提供广泛而富有创意的结果,控制较少。
简单提示 — “描绘拉瓦那,这位魔王,拥有高大、肌肉发达的身躯,像健美运动员一样。他有十个头。拉瓦那穿着红色的 dhoti,佩戴传统的印度教饰品。背景展示了他心爱的金色城市,现在正被火焰吞噬。拉瓦那被火焰包围,脸上的表情充满了怨恨和自负。”
详细提示 — “描绘拉瓦那,这位魔王,拥有巨大的、肌肉发达的身躯,像健美运动员一样。他有十个头,主头与身体相连,而其他九个头则没有与躯干物理连接。相反,额外的头以直线排列,漂浮并与主头相连。拉瓦那穿着红色的 dhoti,佩戴传统的印度教饰品。背景展示了他心爱的金色城市,现在正被火焰吞噬。拉瓦那被火焰包围,脸上的表情充满了怨恨和自负,体现了他的覆灭。他那凶猛的表情反映了他固执的骄傲,站在他城市的火焰毁灭中。”
观察到,增加更多细节到提示中帮助模型更好地可视化场景,减少了自我解释的部分,更好地契合了原始想法。
- 种子引导提示
在这种方法中,使用种子与提示一起引入受控的随机性或一致性。种子有助于确保特定的视觉元素,如颜色模式或构图,在生成过程中保持一致。这种方法提供了对图像的风格和构图元素的更多控制,因为它引导模型生成更稳定和详细的描绘——例如拉姆与拉瓦那之间的战斗——而不会完全失去 AI 的创造性变异。
我们将使用以下库存图像作为模型改进的种子内容。
一幅简单的拉姆射击拉瓦那的图像。 [2]
使用详细提示(与上面相同)和种子图像作为输入生成的输出。
观察到,虽然提供种子内容增强了叙事的整体描绘,但仍有一些组件被忽视,例如拉姆的箭指向错误的方向。
- 增强提示与正负约束
在这种方法中,同时引入正向和负向提示以及种子内容。正向提示强调你希望突出的方面(例如拉姆的弓箭),而负向提示则帮助排除不需要的元素(例如拉姆的箭指向错误的方向)。这种配置高度精细,允许对艺术和主题结果进行精确控制,确保生成的图像紧密符合预期的美学和叙事。
使用详细提示、种子图像作为输入和负向约束生成的输出。
叙事变得更加清晰,但仍然存在错误,例如拉姆的右手位置、弓弦的异常弯曲以及拉瓦那的头数。
思考
生成 AI 模型有望彻底改变我们消费和创造媒体的方式。从设计反映个性化的定制表情符号到生成完整的电影,应用范围广泛。在营销中,这些模型可以自动化社交媒体内容创作的各个方面,使品牌能够创建量身定制的广告,甚至开发动态的、基于 AI 的活动,实时响应观众行为。除了娱乐和营销,它还可以改变个人和专业沟通,使用户能够用详细的视觉效果丰富他们的信息——无论是通过商业报告的定制信息图,还是博客文章的 AI 生成图像。
然而,尽管潜力巨大,生成 AI 仍然在一致性和泛化方面面临挑战。许多模型高度专业化,如在 Civit.ai 上所见,那里有许多模型专注于狭窄的主题,如 塑造云彩、创建 火焰状物体 或模仿特定的艺术风格。这种专业化是生成 AI 模型在不同内容类型之间泛化困难的直接结果,导致为不同目的产生了大量小众模型。此外,这些模型容易出错——某些细节可能被误解或忽视,导致不准确的信息传播。例如,AI 生成的图像可能会错误地表现关键元素,导致叙事或视觉扭曲,因此在应用中需要仔细的人为监督。
总之,尽管生成 AI 有能力重塑创意和专业行业,但这些进步伴随着必须解决的挑战,以便实现更广泛、更可靠的应用。从小规模的特定用例开始,将有助于揭示这些模型的真正潜力。
参考文献
- comfyanonymous (2024). comfyanonymous/ComfyUI. [在线] GitHub. 可在此处获取:https://github.com/comfyanonymous/ComfyUI.
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved