【深度揭秘】ChatGPT究竟是什么?一起探索AI的奥秘!
4 个月前
上周,我在赫尔辛基的应用科学大学 Haaga-Helia 举办了一场令人兴奋的 ChatGPT 工作坊。参与者来自不同领域:有希望将 AI 融入教学任务的教师,有期待自动化魔法的金融从业者,有希望撰写有竞争力的资金申请的研究服务人员,还有其他充满好奇心的听众。简而言之,房间里坐满了对 ChatGPT 潜力充满期待的人,但他们对其背后的工作原理一无所知。
我的任务是教他们如何高效地将 ChatGPT 用于工作和日常任务,同时也让他们了解它的特点、风险以及使用时的注意事项。
面对如此多样化的听众,找到一个完美的起点并不容易。直接跳到“ChatGPT 可以做这个、那个”感觉就像把一个人扔进深水区却不给救生衣。因此,我决定从头开始,从真正的基础开始,先介绍神经网络。
对于不熟悉的人来说,神经网络是受我们大脑工作原理启发的数字大脑。它们是幕后英雄,帮助像 ChatGPT 这样的系统识别模式并以类似人类的方式做出回应。而大语言模型(LLMs)呢?它们是神经网络的超级版本,经过大量数据训练,能够理解和生成语言。
为了让内容有条理(也为了让自己不紧张),我将工作坊分成了三个易于消化的小部分:
- 神经网络的简单介绍:用通俗的语言解释 AI 概念,避免复杂的术语,使用比喻,甚至可能画几个有趣的涂鸦。目标是让每个人都觉得:“啊,现在我明白了!”
- ChatGPT 的启动与运行:这是 ChatGPT 的入门部分:创建账户、登录、配置设置,并了解如何设置它以便为你工作。有点像“设置好就忘了”的方法,当然,你实际上不应该忘记它。
- 像专业人士一样使用 ChatGPT 的技巧:这是最重要的部分,涵盖了如何写出更好的提示、获得更准确的回复,以及如何将 ChatGPT 用于多种用途,从生成定制回复到撰写文章和知识提取。
听众的反应非常热烈且投入:充满好奇的眼神、积极的提问,以及不少“啊哈!”的时刻。他们的热情激励我坐下来,将这些工作坊的讨论整理成这篇文章,以便与更多人分享这些见解。但我也学到了很多关于普通或新 ChatGPT 用户的想法,让我告诉你,这是一种混合了着迷、困惑和一些常见误解的情感。
- 大多数人对 ChatGPT、LLMs 和 AI 的工作原理非常好奇。他们想揭开帷幕,了解背后的魔法,但问题是所有的技术术语就像向一个从未玩过牌的人解释复杂的纸牌魔术。太多了。这让我想起 13 岁的自己对量子力学的着迷。我对量子纠缠这样的酷炫概念非常感兴趣,但一旦方程式出现?不,谢谢。这里也是一样。普通用户不需要深入了解技术细节,但给他们一个简单的高层次解释?这非常有用。它能满足他们的好奇心,而不会让他们感到头大。
- 许多人对 ChatGPT 有误解。有些人认为它正在成为机器人霸主,有些人则将其视为高级自动补全工具,还有一些人认为它可以解决他们所有的生活问题(剧透:它不能)。这就是为什么 ChatGPT 教育如此重要。人们需要看到 ChatGPT 和 LLMs 的真实本质,即工具。毫无疑问,它们非常强大,但我们需要将它们用作信息处理器,而不是知识来源。
- 通过有效的提示与 ChatGPT 互动是充分利用它的关键。许多用户不知道如何为 ChatGPT 提供额外的上下文,以使其更高效。很多人会输入一些模糊的内容,比如“告诉我关于能源解决方案的信息”,然后奇怪为什么输出感觉泛泛而谈。
- 许多“如何使用 ChatGPT”工作坊只停留在高层次的概述。当然,这对于快速介绍来说没问题,但它们跳过了用户真正想了解的细节,比如 ChatGPT 如何处理问题,或者为什么提示如此重要。
工作坊后的反馈表明,策略和内容都达到了预期效果。因此,我将那次演讲的核心内容扩展成了这篇文章。这篇文章将作为任何想从基础开始并学习如何为各种任务编写有效提示的指南。
ChatGPT 的简要介绍
ChatGPT 是由 OpenAI 创建的对话界面,由一种称为大语言模型(LLM)的先进 AI 模型驱动。它旨在根据提供的上下文生成类似人类的文本。LLMs 是一种专门为自然语言处理训练的人工神经网络,能够以直观的方式理解和回应语言。以下是 ChatGPT 中 GPT 的含义:
- G:生成式:ChatGPT 可以根据提示生成类似人类的文本。目前,它的能力不再局限于文本,正在扩展到生成图像、视频等领域,利用其核心的生成能力。
- P:预训练:该模型已经在包括书籍、文章、百科全书、博客等大量数据集上进行了训练。这种训练使 ChatGPT 能够广泛理解主题和上下文,使其在不同领域中具有多功能性。
- T:Transformer:Transformer 架构由Google 于 2017 年推出,是 AI 领域的革命性突破,特别是在理解单词与上下文之间的联系方面。与旧模型不同,Transformer 能够有效处理长期上下文,并能够关注序列中最重要的单词,这一概念称为注意力机制。例如,如果你在对话中提到去巴黎旅行,ChatGPT 可以在几次回应后仍然记住并连接这一上下文。同样,在查询“巴黎下周的天气如何?我下周要去那里旅行。”中,Transformer 机制会关注关键细节:“天气”、“巴黎”和“下周”,并使用它们生成回应。旧模型在处理这些单词时常常遇到困难。
OpenAI 的 GPT 模型(作者图片)
理解像 ChatGPT 这样的 LLMs 的工作原理对于有效且负责任地使用它们非常重要。要全面了解它们的能力和局限性,首先需要了解简单神经网络的基础知识。神经网络是 LLMs 的基础,理解它们的基础知识可以更容易地了解 LLMs 如何处理和生成自然语言。
一个非常简单的神经网络的简单介绍
让我们考虑将水果分类为苹果或橙子的任务。听起来很简单,对吧?但神经网络做这件事的方式就像剥洋葱的层层皮。
想象一下,神经网络是由一层层神经元组成的。每个神经元就像一个小决策者。输入层接收水果的特征(例如颜色、质地和重量),输出层给出可能的输出概率:“苹果”或“橙子”。魔法发生在中间的隐藏层,真正的处理在这里进行。
一个非常简单的神经网络,用于将水果分类为苹果或橙子,示例数据如表所示(作者图片)
每一层的每个神经元都连接到下一层的每个神经元。但它如何决定是什么?这就是权重的作用。
权重就像小旋钮,控制一个神经元对另一个神经元的影响程度。当我们开始训练模型时,这些权重是随机的,就像有人在黑暗中猜测水果类型。神经网络通过随着时间的推移调整这些权重,直到它能够做出正确的预测。
以下是它的工作原理,逐步进行:
- 输入特征:我们向网络提供水果的特征(例如,颜色 = 210,质地 = 0.1,重量 = 170)。
- 加权和:每个神经元接收这些输入,将它们乘以权重,并计算一个和。
- 输出概率:输出神经元输出概率,例如,65% 苹果,35% 橙子。得分最高的就是预测结果。
为了简单起见,示例神经网络中没有包含其他元素(例如偏差或激活函数)。
但当预测错误时会发生什么?比如网络预测“苹果”,而实际上是一个橙子。这时事情就变得有趣了。
当网络出错时,它会计算误差(预测与实际答案之间的差异)。然后,这个误差通过网络反向传播,逐层调整权重。就像告诉网络:“嘿,你需要重新考虑你给‘颜色’和‘重量’赋予的重要性。”这个过程称为反向传播。
网络不断迭代,调整权重,重新计算并改进,直到它对所有训练示例的预测都准确无误。这时,我们说模型已经训练好了。
反向传播误差到网络中的所有层以调整权重的简单演示(作者图片)
整个过程,从猜测权重到通过反向传播微调它们,是像 ChatGPT 这样的复杂 AI 模型工作的基础。
1986 年共同撰写论文推广反向传播算法用于训练神经网络的人获得了2024 年诺贝尔奖。所以,是的,我们正在学习一些既基础又具有突破性的东西。
预测下一个字符:神经网络在工作
现在,让我们考虑一个神经网络,它预测字符序列“twinkle twinkl”中的下一个字符。
预测字符序列中下一个字符的神经网络(作者图片)
这个神经网络在输入层有14 个神经元,每个神经元代表序列中的一个字符。但由于计算机不能直接处理字母,我们将它们转换为数字。使用简单的编号方案(a=1, b=2, c=3, …, z=26),“twinkle twinkl”中的字母变成了数字。例如,'t' = 20,'w' = 23,依此类推。
输出层有26 个神经元,每个字母一个。每个神经元将产生一个概率,得分最高的字母是我们的预测输出。因此,如果网络做得好,它将预测下一个字符('e')的概率最高。
以下是幕后发生的事情:
- 输入字符(数字)被输入到输入层。
- 每个输入连接到隐藏层神经元,魔法在这里发生。隐藏神经元接收输入,将它们乘以权重(网络在训练期间“学习”到的那些神奇数字),并将它们发送到输出层。
- 在输出层,我们得到一个概率分布。网络不会直接输出一个字母,而是为所有可能的字母分配概率。例如:
- 'e' = 75%(最有可能)
- 'a' = 11%
- 'b' = 5%
得分最高的字母('e')胜出!
现在我们有了 'e',接下来会发生什么?我们将其反馈到输入层,替换第一个字符 't',因为输入层只有 14 个神经元,新的预测字符无法容纳到 14 个神经元的输入层中,直到我们省略其中一个字符。新的序列变为 "winkle twinkle"。
这个反馈循环不断重复:
- 更新后的序列被输入到网络中。
- 预测下一个字符。
- 该过程继续,直到预测出所有所需的字符("twinkle twinkle little star ")。
用神经网络预测下一个单词
一次预测一个字符可能感觉像教蜗牛冲刺——缓慢且低效。相反,让我们专注于预测序列中的下一个单词,这是一种更实用的方法。我们在形成句子时不会一次说一个字母,那么为什么神经网络要这样做呢?
在自然语言处理中,我们使用术语token而不是单词。Token 可以被视为文本的构建块,可以是整个单词("hello "),甚至是更小的块,如子词("ing ", "pre ")和单个字符("h ", "e ")。例如,句子“I love AI ”可能被分解为三个 token:“I ”、“love ”和“AI ”。将所有内容分解为 token 有助于 AI 系统更高效、一致地处理文本,无论其复杂性如何。
由于神经网络的输入层具有固定数量的神经元,网络一次只能接受有限数量的 token。这个限制称为其上下文长度,这是你经常听到的关于 LLMs 的流行术语。它表示 LLM 一次可以处理的最大 token 数量(输入)。
预测的单词被反馈到输入层,替换输入序列中最旧的单词,“滑动”上下文窗口向前移动。然后,网络使用这个更新的输入来预测下一个单词。这个循环不断重复,直到生成完整的响应。
为 ChatGPT 提供动力的 LLMs,如 GPT-4o,基于同样的基本原理,即预测下一个 token。在 ChatGPT 的对话中,你的新输入和模型的先前响应被反馈到模型中,作为生成下一个输出的上下文。如果对话历史变得太长并超过此限制,较早的内容会被丢弃,为新输入腾出空间。这就是为什么当与 ChatGPT 的对话变得太长时,它可能会开始“忘记”对话的早期部分。同样,如果你的输入(上下文)在一个提示中超过了 LLM 的上下文窗口,模型将无法处理所有内容。
示例神经网络只是一个简化的说明。实际上,语言模型要复杂得多。它们可以包含数万个输入和输出神经元以及数百个隐藏层,用于复杂的计算和深入的语言理解。
最重要的是,你可能已经听过数百次的流行词:参数。这些是模型中的权重或神经元之间的连接,是的,它们的数量令人难以置信。我们谈论的是数十亿或数万亿的参数(例如,GPT-4 据称有 1.76 万亿参数)。
LLM 是如何训练的?
训练 LLM 就像教孩子说话,但规模要大得多。LLMs 在大量数据上进行训练,这些数据来自书籍、文章、博客、百科全书和其他数字内容。模型通过预测句子中的下一个单词来学习。例如,给定短语“The cat sat on the”,模型尝试预测“mat”。当它猜对时,模型的参数(权重)会进行调整以强化这一知识。当它猜错时,会进行调整以改进未来的预测。这个过程重复数十亿次,使模型能够学习语法和关于世界的事实。这个过程称为自监督学习。
使用自监督学习训练 LLM。模型通过屏蔽某些单词并尝试预测它们来学习预测文本语料库中的单词。误差(损失)通过反向传播来调整模型权重。(作者图片)
在最初的监督学习阶段之后,我们获得了一个预训练模型。在这个阶段,模型对语言有了基础理解,但还不能有效地回答问题。为了增强其能力,模型会进行进一步的训练。它在包含大量问答对的数据集上进行训练,这个过程称为指令微调。这个过程教会模型生成对用户查询的适当响应。随后,它进一步训练以提供对同一问题的多样化和更具创造性的答案,这个过程称为指令对齐。一旦集成到像 ChatGPT 这样的对话代理中,模型会通过从人类反馈中进行强化学习(RLHF)的过程继续进化。在这个阶段,用户与模型互动并提供对其响应的反馈。此反馈作为奖励或惩罚信号,指导模型调整自身以更好地符合人类偏好。
训练 LLMs 不仅需要大量数据集,还需要大量的计算资源和时间。这些资源所需的财务投资通常超出了大多数公司的能力范围。这就是为什么只有像 OpenAI、Google 和 Anthropic 这样的科技巨头在领导这些模型的开发。
从本质上讲,LLM 的主要技能是预测句子中的下一个单词。但这种能力是 LLM 可以执行的各种令人印象深刻的任务的基础,从聊天到头脑风暴、代码生成和编写故事。
LLM 本质上是一个巨大的单词预测器(作者图片)
够了,技术部分到此为止。让我们开始使用 ChatGPT 吧!
好了,我们已经涵盖了基础知识,窥探了 LLMs 的内部结构,并抛出了一些大词,如“参数”和“上下文窗口”。但我知道你在想什么:“够了,给我看看魔法吧!”
让我们探索如何有效地使用 ChatGPT。无论你是想起草会议记录、头脑风暴、撰写文章、创建演示文稿,还是从文档中提取知识,我们都将涵盖帮助你充分利用此工具的技巧。
系好安全带!是时候将理论付诸实践,看看 ChatGPT 到底能为你做什么了!
但首先,让我们一步一步地了解 ChatGPT 的配置,以便你能充分利用它。如果你已经了解 ChatGPT 的设置并进行了配置,请跳到下一部分。
设置和配置 ChatGPT
访问 chatgpt.com。创建一个账户或使用现有的 Google 账户登录。你将看到以下欢迎屏幕。
如果你是免费用户,你只能使用“ChatGPT”版本,其中你对模型的访问有限。
使用 ChatGPT 的 Plus 版本,每月费用约为 20 美元,你可以选择 ChatGPT 迄今为止发布的所有模型。这些模型中的每一个都有不同的能力,其中 O1 模型是最强大的。ChatGPT 的免费版本现在使用 GPT-4o 和 GPT-4o-mini 模型,使用受限,其他功能有速率限制,每天最多生成 2 张图像。
配置 ChatGPT 的行为对于定制响应和增强安全性非常重要。要开始,请点击右上角的姓名首字母,然后选择“设置”。这将弹出一个带有各种选项的对话框。
如果你经常运行涉及数据分析的提示并希望查看生成的代码,请打开第二个选项。此外,你可以从 ChatGPT 左侧的聊天栏中存档聊天,稍后在设置中管理它们。
你可以个性化 ChatGPT,以便根据你的个人资料和偏好提供定制响应。在“个性化 → 自定义指令”中,你可以定义你希望 ChatGPT 了解你的哪些信息以提供更好的响应。同样,你也可以定义你希望 ChatGPT 如何响应(正式或随意,长或短响应等)。我没有在第二个框中定义偏好,因为我通过提示设置这些偏好。
为了使你的体验更加定制化和一致,ChatGPT 从你的对话中提取关键点并将其存储在其记忆中。这使 ChatGPT 能够记住有关你的特定细节以供未来互动。你可以
推荐阅读:
FluxAI 中文
© 2025. All Rights Reserved