AI 图像生成的新纪元


6 个月前

作者

引言

过去六个月在人工智能(AI)领域,尤其是图像生成方面,发生了显著的技术飞跃。在这六个月的时间里,多项创新重新定义了文本到图像、视频生成和多模态AI系统的能力。这些进展影响了多个行业,从市场营销和娱乐到科学应用,随着技术的日益整合和普及。

本文将深入探讨这些重大突破,全面分析每项关键技术及其对未来创意和实用AI应用的影响。

Stable Diffusion 3:开源AI的飞跃

Stable Diffusion 3 是AI图像生成中最受期待的更新之一,延续了备受欢迎的稳定扩散系列的传统。由Stability AI开发,这个新版本旨在推动开源文本到图像模型的边界。

多模态扩散变换器(MMDiT)架构

SD3中最具变革性的变化之一是采用了多模态扩散变换器(MMDiT),取代了之前模型中使用的U-Net架构。MMDiT使SD3能够处理多种类型的输入,例如结合文本、图像甚至声音,通过为图像和语言表示使用不同的权重。这种架构为SD3提供了显著的性能提升,尤其是在理解和渲染复杂文本输入方面。例如,该模型特别擅长在图像中生成文本,解决了AI图像生成中长期存在的排版和提示遵循问题。这种在处理视觉和文本元素方面的改进,使SD3在生成海报、广告和品牌内容时特别有效,因为文本的清晰度至关重要。

修正流采样

SD3使用了一种称为修正流(RF)的精细采样方法,在训练过程中通过更高效的线性路径连接数据和噪声。这使得模型能够比其前身更快地生成图像,并且采样步骤更少。SD3中引入的新轨迹采样计划强调对噪声过程的中间阶段进行更频繁的采样,从而生成更高质量的图像,细节更清晰,色彩更准确,即使在处理复杂的多主题提示时也是如此。这使得SD3非常适合需要快速且详细图像生成的用例,例如市场营销和娱乐等高需求创意行业。

文本编码和提示遵循

SD3的架构集成了三种先进的文本编码器——CLIP L/14OpenCLIP bigG/14T5-v1.1-XXL,显著提高了模型解释和遵循多部分复杂提示的能力。这导致了与用户输入高度一致的优质图像输出,特别是在需要高特异性的领域,如美术商业设计。此外,SD3在训练过程中使用了更准确的标题,类似于DALL·E 3增强其提示遵循能力,进一步提升了SD3有效处理详细和抽象提示的能力。

性能和API访问

在早期测试中,SD3的最大版本(具有80亿参数)可以在24GB VRAM RTX 4090上运行,生成1024x1024分辨率的图像大约需要34秒。这种速度使得SD3对需要实时或近实时图像生成的开发者特别有吸引力,而不牺牲质量。Stable Diffusion 3 Turbo的发布,作为SD3的更快版本,提供了更快的输出,使其适合需要快速迭代的环境,例如社交媒体的实时内容生成。

对于开发者来说,SD3可以通过Stability AI开发者平台API访问,使企业和个人创作者能够将SD3集成到他们的应用中,而无需专门的硬件。这种API访问使先进的图像生成技术得以普及,面向更广泛的受众。Stability AI与Fireworks AI合作,确保99.9%的正常运行时间,这是依赖此服务进行生成AI工作负载的企业客户的关键因素。虽然该模型尚未提供自托管选项,但Stability AI已表示,未来将通过Stability AI会员计划提供此选项。

欲了解更多详细信息,您可以访问Stability AI的研究论文页面和其API新闻页面

给Stable Diffusion 3的一个示例提示是:"一个披着斗篷的人在小行星上俯瞰他的舰队",生成的图像如下:

None

从Stable Diffusion 3生成的图像

Flux:开源AI的新巨头

Flux于2024年8月推出,代表了AI图像生成的突破性进展。由Black Forest Labs开发,该团队负责稳定扩散中的关键创新,Flux迅速成为最强大的开源模型之一。Flux旨在推动开源AI的能力,构建在120亿参数的基础上,使其成为MidJourney v6DALL·E 3等专有模型的强有力竞争者。这一庞大的参数数量使Flux在渲染复杂图像时具有卓越的准确性,尤其是在提示遵循、清晰度和细节方面。

基于创新的模型

Flux的开发深深植根于从早期模型如VQGAN潜在扩散和各种版本的稳定扩散中获得的经验教训。这些创新使Flux能够处理更广泛的图像提示,使其在数字艺术到商业产品渲染等不同领域中都具有多样性。该模型生成干净排版、详细纹理和复杂视觉场景的能力,源于Black Forest Labs使用的先进潜在空间训练技术。这些技术确保Flux在提示准确性方面表现出色,生成与用户期望紧密对齐的图像。

三种针对不同需求的变体

Flux有三种不同的版本,每种版本都针对不同的用例:

  1. Flux Dev:一个开源的非商业版本,允许开发者、爱好者和研究人员自由实验。非常适合那些希望在没有商业许可限制的情况下探索模型能力的人。
  2. Flux Schnell:一个精简的、更快的模型版本,Schnell的速度是Flux Dev的十倍,但图像质量略有下降。此版本适用于速度比超高清图像更重要的用例。
  3. Flux Pro:一个通过API访问的商业级变体,Flux Pro针对企业应用进行了优化,提供了专业环境(如市场营销、品牌和创意行业)所需的速度和图像质量。

例如,如果给Flux Schnell AI一个提示:"一个阴险的披风人看着一场燃烧的战场",生成的图像如下:

None

从Flux Schnell生成的图像

基准测试和技术优势

基准测试显示,Flux在提示遵循图像清晰度排版等关键领域始终优于竞争对手。生成图像中的复杂文本的能力——长期以来被认为是DALL·E等模型的弱点——是Flux的特别强项。Black Forest Labs将这一成功归因于先进的训练方法和模型参数数量的巨大规模。这种准确性的优势使Flux在细节和精度至关重要的应用中尤其受欢迎,例如品牌市场营销商业设计

采用和用例

Flux在需要高质量视觉效果的行业中迅速获得了关注。例如,时尚品牌开始使用该模型为产品发布生成整个照片拍摄,避免了昂贵且耗时的传统摄影会。此外,该模型渲染逼真的纹理肤色的能力,使其在摄影商业艺术中尤其受欢迎。许多公司正在利用Flux按需创建详细的照片级图像,帮助简化广告和数字内容创作中的创意工作流程。

挑战和硬件要求

尽管Flux有许多优势,但其硬件要求也相当高。要在最高质量下运行完整模型,用户需要24GB的VRAM,这限制了其对高端设备的可访问性。为了应对这一限制,Black Forest Labs发布了压缩版本的Flux,可以在仅有6GB VRAM的系统上运行。然而,这些压缩版本在图像质量方面确实存在一些折衷,特别是在细节和清晰度方面。有关Flux的官方huggingface网站,您可以访问此页面

分布匹配蒸馏(DMD):革命性的速度提升

None

来自MIT网站的DMD模型图像

2024年,MIT推出了分布匹配蒸馏(DMD)模型,标志着AI图像生成速度的重大突破。这个创新模型通过将传统的多步骤扩散过程简化为单步骤,使图像生成速度提高了30倍。这种速度提升解决了扩散模型的一个长期限制,即图像生成通常需要多次迭代来将噪声精炼为清晰的图像。

DMD通过利用两个预训练的扩散模型作为教师,指导新“学生”模型的训练。在训练过程中,学生模型最小化其输出与数据集中使用的真实图像之间的差异,确保对源材料的高保真度。结果是一个能够生成与较慢的多步骤扩散方法产生的图像质量相当的模型,但计算时间却大大减少。

这一创新对需要实时性能的行业具有重要意义。例如,在实时视觉编辑中,能够从AI模型获得近乎即时的反馈,显著提高了设计师和艺术家的工作效率。3D建模,尤其是在游戏建筑等领域,能够快速生成高保真模型对于快速迭代和开发至关重要。

评估AI模型生成图像质量的一个关键指标是Fréchet Inception Distance(FID),它衡量生成图像与真实图像之间的相似性。尽管计算时间大幅减少,DMD模型仍保持竞争力的FID分数,表明图像质量与传统的较慢扩散模型相当。尽管在文本到图像生成等领域仍存在一些挑战,但DMD模型已被誉为创意行业下一代AI工具的基础技术,提供了速度与图像质量之间的平衡。

欲详细了解MIT关于DMD模型的研究,您可以阅读官方MIT文章:MIT DMD模型文章。该研究得到了AdobeAmazon和其他几家机构的支持,表明这一创新在各个行业的广泛潜在影响。

谷歌的Imagen 3和Veo:重新定义照片真实感和视频生成

谷歌在AI图像和视频生成方面取得了重大进展,推出了Imagen 3Veo,这两款产品在Google I/O 2024上首次亮相。这些模型标志着该领域的重要进展,扩展了AI处理更复杂和真实内容创作的能力。

Imagen 3:视觉保真度的飞跃

None

来自Guillaume Blaquiere的Imagen符号,Medium

Imagen 3代表了对其前身的显著升级,提供了更先进的照片真实感和更少的视觉伪影。其一个关键优势是能够解释复杂的长文本提示。与旧模型不同,Imagen 3使用先进的自然语言处理(NLP)来理解提示中的关键词以及详细描述中嵌入的细微差别和上下文。这种能力使其能够生成高度真实和上下文准确的图像,这比之前的版本有了显著改善。

例如,如果用户提示“黄昏时分繁忙的城市街道,霓虹灯在湿滑的路面上反射”,Imagen 3不仅可以渲染场景的基本元素,还能捕捉到细微的细节,如特定的反射、光源,甚至随着落日而变化的微妙情绪。模型解释这些细节的能力为用户提供了更真实、更符合其创意愿景的图像。

与谷歌产品的集成

Imagen 3最令人兴奋的方面之一是其与日常工具如谷歌照片的集成。用户现在可以利用AI生成的图像进行视觉搜索,模型根据描述或推断的上下文帮助检索记忆。例如,用户可以搜索“去年夏天的家庭野餐”,Imagen 3将提取相关图像,即使这些特定术语不在元数据中。AI可以识别用户照片库中的户外场景、熟悉的面孔和相关上下文等视觉模式。

这种数据组织和检索能力突显了AI图像生成不仅用于创意目的,还可用于实际应用,如组织个人照片档案。这也暗示了未来谷歌镜头和其他图像驱动工具利用AI生成内容以增强视觉搜索基于记忆的导航的可能性。

欲了解更多信息,您可以访问谷歌Imagen 3页面

Veo:谷歌的视频生成先锋

None

来自Ben Khalesi的Veo符号,Android Police

与Imagen 3一起,谷歌还推出了Veo,这是一款高度先进的AI视频生成模型,在生成高质量1080p分辨率视频方面迈出了重要一步。与静态图像生成器不同,Veo专门为动态、移动视觉设计,满足电影制作人、内容创作者和希望大规模制作真实视频内容的企业的需求。

Veo的关键能力 Veo可以根据详细的文本提示生成电影视频片段。例如,用户可能输入提示“在大峡谷上空的日落延时摄影”,Veo将提供一段高分辨率视频,捕捉光、影和色彩的自然变化。Veo的独特之处在于其能够以与真实摄影师相同的复杂程度管理运动、光照和镜头角度

该模型调整光照和通过电影效果创造深度的能力,使视频创作者对项目的艺术方向有更多控制。无论是对特定主题进行特写,还是创建具有景深的全景场景,Veo都能生成所需的视觉效果,而无需进行实际的拍摄。这为电影制作人、市场营销专业人士和社交媒体影响者提供了新的机会,他们需要在短时间内制作动态视觉内容。

在电影制作中的应用

值得注意的是,Donald Glover是最早使用Veo进行电影项目的人之一,展示了该模型在专业媒体创作中的潜力。Glover是一位知名的电影制作人和艺术家,他利用Veo探索新的叙事技巧。他的作品展示了Veo创造完全由AI驱动的电影或至少在主要制作任务(如预视觉化)中提供帮助的潜力,电影制作人可以提前规划他们的镜头和序列。

除了娱乐行业,Veo能够从简单的文本提示生成真实的1080p视频,可能会对广告教育内容社交媒体营销产生深远影响。例如,企业可以生成高质量的商业广告或社交媒体片段,而无需昂贵的视频制作团队。

欲了解更多信息,您可以访问官方谷歌Veo页面

结论:AI在创意和专业领域的扩展角色

过去六个月标志着AI图像和视频生成领域的惊人创新。从Stable Diffusion 3的突破性新架构到Flux的开源灵活性,再到DMD的前所未有的速度,这些技术正在重塑行业和创意工作流程。随着AI模型的不断发展,它们越来越多地融入日常工具和应用,为专业和业余创作者提供了强大的新方式来表达他们的想法。AI在视觉媒体中的未来不仅充满希望——它已经到来。

随着这些技术的不断演进,AI生成内容与人类创作艺术之间的界限将继续模糊,为市场营销、医疗、游戏等各个行业的创新提供无尽的可能性。这些AI模型代表了我们生成、消费和互动视觉内容方式的重大转变。我们可以期待未来的发展将进一步将AI工具融入我们的个人和专业生活,使我们更接近一个AI不仅是助手,而是真正的创意和生产力伙伴的世界。

参考文献

FluxAI 中文

© 2025. All Rights Reserved