超过 1 年前
帕特里克·德马谢尔 --ar 4:5 --style raw --v 6.1
Gavin Li在博客中讨论了他的开源模型Latte,类似于SORA,采用视觉变换器的架构。文章回顾了从二维到三维的视觉理解历程,U-Net在图像处理中的作用,以及如何将其扩展到视频生成。尽管Latte表现良好,但尚未超越其他模型。Gavin强调简单有效的设计理念,认为更多的数据和改进将会提升Latte的性能。
本文介绍了基于RF反演的ComfyUI工作流程,结合Alimama的Turbo LoRA,图像生成速度大幅提升,仅需8步即可生成高质量图像。该工作流程支持语义风格迁移、光照效果增强、高分辨率图像生成等功能,无需依赖ControlNet或IP-Adapter模型。用户可通过上传合适的参考图像,调整参数,实现多种风格和效果的图像生成。
自2023年秋季以来,我开始体验AI图像生成,Midjourney从当时的4.1版本发展到即将推出的6.2版本,新增编辑、个性化及“拼接”无限画布等功能。未来的7.0版本将增强多图像的一致性。我在Ko-fi平台上构建了自己的AI艺术社区,希望为会员提供更多服务,并探索色彩概念。理解色彩理论有助于生成更具吸引力的图像,特别是在创建色彩搭配时。通过对比基本颜色、类似色和三元色,能够提升作品的表现力。
Flux模型家族在AI界引发关注,以高质量输出和多样化应用而闻名。本文澄清官方Flux模型与基于Flux的检查点的区别,并比较四个流行的检查点:Shuttle 3 Diffusion、fluxRealistic、PixelWave和stoiqoNewreality。通过对这些模型在性能四个关键维度的测试,帮助用户理解每个检查点的优缺点,从而选择适合其创作项目的模型。文中还介绍了Flux模型的基础及其演变历程。
© 2026. All Rights Reserved