如何理解大型语言模型(LLM)预测下一个词:深入解析ChatGPT的原理
6 个月前
大型语言模型(LLMs)如 ChatGPT 被训练来预测句子中的下一个单词,将零散的输入转化为连贯、类人化的响应。本文将探讨这些模型如何处理这一任务,包括分词、嵌入、注意力机制和神经网络层。
一个简单的提示:
"我从动物园订购了一只宠物,动物园给我发来了……"
想象一下你在 ChatGPT 中输入这个提示:"我从动物园订购了一只宠物,动物园给我发来了……" LLM 的任务是根据整个输入的上下文预测这个句子中的下一个单词。
1. 分词
这个过程的第一步是 分词。ChatGPT 将输入句子拆分成模型可以理解的更小的单位(即 tokens)。
例如,句子:
"我从动物园订购了一只宠物。动物园给我发来了……"
被分词为:
"我" → 101 "从" → 2052 "动物园" → 103 "订购" → 2933 "一只" → 2049 "宠物" → 4294 "。" → 102 "动物园" → 4294 "给" → 2378 "我" → 2033 "发来" → 2033
这些 token ID 是至关重要的,因为它们使模型能够处理数字数据,而不是原始文本。
2. 嵌入:赋予 Tokens 意义
一旦分词,每个 token 被转换为一个 向量(一系列数字),表示其在多维空间中的语义含义。这些被称为 嵌入。
考虑这些简化的 token 嵌入向量:
"宠物" → [0.15, -0.23, 0.12, 0.31] "老虎" → [0.20, -0.10, 0.14, 0.29] "猫" → [0.18, -0.21, 0.11, 0.32] "动物园" → [0.11, -0.19, 0.25, 0.45] …….
这些向量捕捉了单词之间的关系。例如,“猫”和“宠物”在语义上更相似,这反映在它们的向量在这个四维空间中更接近,而“老虎”则稍微远一些。
3. 自注意力机制:学习上下文
变换器架构(驱动 ChatGPT 的架构)在很大程度上依赖于 自注意力机制 来确定句子中哪些 tokens 对预测下一个单词最为相关。
让我们看看 "发" 是如何关注 "动物园" 和 "宠物" 这些 tokens 的。
对于每个 token,模型计算 查询、键 和 值 向量,以确定其他 tokens 的重要性。为了简单起见,这里是一些示例向量:
- "发" 的查询 = [0.12, -0.08, 0.09, 0.07]
- "动物园" 的键 = [0.11, -0.19, 0.25, 0.45]
- "宠物" 的键 = [0.15, -0.23, 0.12, 0.31]
点积 在查询和键向量之间计算注意力。例如:
得分越高(在这种情况下,动物园 的得分更高),模型在预测下一个单词时就越关注该 token。
4. 前馈网络:预测下一个单词
在计算出注意力得分后,它们会通过变换器模型的 前馈层,根据注意力得分微调决策。
例如,在句子 "动物园给我发来了……" 中,模型预测哪个单词可能跟随。它利用 "动物园" 的上下文来建议可能的动物,如 "猫"、"老虎" 或 "狗",并根据学习到的模式为每个单词分配概率:
- 概率分布:
"猫" → 0.50 "狗" → 0.30 "老虎" → 0.15 "车" → 0.05
模型选择 "猫"(概率最高的单词)作为下一个单词。
水果和动物的嵌入在二维图中根据属性分开。
5. 训练期间的层和权重调整
在训练期间,模型在做出预测时使用 反向传播 和 梯度下降 来调整层之间的权重。这些权重代表了模型的知识,通过分析大量数据集和数十亿句子模式建立起来。
简单来说,在做出错误预测后,模型会更新连接相关层的权重。例如,如果模型在 "动物园" 后预测了 "车" 并且是错误的,它会调整 "动物园" 和可能的动物(如 "老虎" 或 "猫")之间的连接,增强这些关联。
6. 嵌入示例:向量相似性
为了进一步说明嵌入,"猫"、"宠物" 和 "老虎" 的向量表示帮助模型决定哪些单词在上下文中是合适的。
考虑这些向量:
- "宠物" → [0.15, -0.23, 0.12, 0.31]
- "老虎" → [0.20, -0.10, 0.14, 0.29]
- "猫" → [0.18, -0.21, 0.11, 0.32]
"宠物" 和 "猫" 之间的距离小于 "宠物" 和 "老虎" 之间的距离,表明 "宠物" 和 "猫" 在语义上更相似。这帮助模型在上下文倾向于较小的家养动物时选择 "猫" 而不是 "老虎"。
结论:预测下一个单词的艺术
ChatGPT 预测下一个单词的能力源于其对语言的深刻理解,这通过分词、嵌入和变换器架构得以实现。通过利用自注意力机制和反向传播,模型能够精细化其预测并生成准确、上下文相关的响应。每一层在塑造模型“思考”方式中都发挥着关键作用,使其能够逐字生成连贯且符合上下文的文本。
FluxAI 中文
© 2025. All Rights Reserved