🔥 开源SORA训练秘籍:你也能成为AI大师!🚀


4 个月前

我最近读了一篇由 Gavin Li 撰写的博客文章(你可以在这里阅读原文这里),Gavin Li 在文章中尝试解释他的开源模型(类似于 SORA)是如何紧密遵循一种叫做 Vision Transformer 的技术,这是一种特殊的模型组织方式。这种结构使得 SORA 和 Latte(另一个模型)与旧模型相比显得非常独特和不同。

但我在想,到底是什么让它如此酷炫呢?所以让我们来分解一下从 2D 到 3D 的视觉旅程,就像我们眼睛的工作原理一样。

从 2D 到 3D 的旅程!

很久以前,计算机通过一种叫做 U-Net 的技术来理解和处理二维图像(就像一张平面图片)。它会将图片压缩以便更好地理解,然后再将其放大。可以想象成先看一张地球的平面地图,然后将其变成像地球仪一样的 3D 模型。

Gavin 和其他聪明的研究者们希望将同样的概念应用到视频上,视频其实就是一系列快速播放的图片。但与 2D(高度 x 宽度)不同,视频多了一个维度(时间!)。于是,他们将 U-Net 扩展到了第三维度,让模型能够从一个想法生成 16 张图片!

视频中时间作为另一个维度的描绘

图片来源:Gavin

但这里有一个问题。模型中的 Transformer 部分只能在它的小 U-Net 世界中工作,有时无法生成帧与帧之间连贯的视频。它也难以学习大幅度的动作。想象一下,试图通过钥匙孔画出整个森林的画面,是不是很让人抓狂?

于是,Vision Transformer 登场了!

为了解决这个问题,Vision Transformer 应运而生。它的工作原理有点像孩子们阅读书中的句子。视频被看作是一系列句子(其中每一小部分图像就像单词)。就像我们可以重新排列单词来组成句子一样,我们可以通过 Vision Transformer 重新排列图像来生成视频。

这个模型的设计非常简单,就像将视频切成许多小部分并重新排列它们。Gavin 将这种方法与 OpenAI 的设计进行了比较——简单、有效。

OpenAI 是另一个研究团队,他们并没有设计出复杂的东西。他们的 GPT-2 模型甚至因为“太简单”而受到质疑。但你知道吗?简单和可靠意味着他们可以处理更多的数据,并且在……你猜怎么着?更多的数据中竞争!

Gavin 幽默地提到,他和 OpenAI 之间唯一的区别就是一堆高性能计算机(GPU),这证明你并不需要最炫酷的工具来创造出伟大的东西。

你自己的 SORA 替代品——Latte!

现在,借助这个酷炫的 Vision Transformer,Gavin 做了一件很棒的事情。他训练了一个 SORA 的替代模型,并将其命名为 Latte!就像你可以在拿铁咖啡上装饰漂亮的图案一样,你可以用许多视频来训练这个 Latte。

按照 Gavin 的 Github 页面 上的三个简单步骤,你就可以开始制作你的 Latte 了!

看看你的 Latte 表现如何

AI 图像生成的描绘

总的来说,Latte 生成了一些很棒的视频。虽然它是一个不错的模型,但它并没有超越其他一些模型。似乎要让 Latte 表现得更好,还需要更多的训练数据和一些其他改进。就像老师们常说的“熟能生巧”,这些模型也需要更多的练习!

不过别担心,Gavin 会继续分享其他性能更好的模型!

训练 Latte 可能需要的东西

虽然看起来一切都很简单,但训练 Latte 需要一些非常强大的计算机(比如 A100 或 H100,拥有 80GB 内存),因为它非常庞大。就像建造一个巨大的乐高城堡需要很多乐高积木一样!

继续关注 Gavin 的更多更新,他会继续分享更多酷炫的 AI 模型和技术。

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved