普通教育从业者也能看得懂的GPT原理：知其厉害，知其所以厉害

今天小编分享的教育经验：普通教育从业者也能看得懂的GPT原理：知其厉害，知其所以厉害，欢迎阅读。

文 |2709 教育行业研究者

编者按：

本文系多知网约稿。作者认为无论是国内外，教育领網域的 AI 应用正在蓬勃发展，并且大模型正在快速渗透教育行业。对于广大教育从业者来说，如何使用好大模型才是正途，而知晓了大模型的底层逻辑和运作原理才能更好地使用它。

OpenAI 的 ChatGPT 用户量直线飙升至月访问 10 亿，跻身顶流网站之列。无论是国内外，教育领網域的 AI 应用正在蓬勃发展。海外的多邻国、可汗学院、Quizlet 等纷纷拥抱 AI；国内，好未来推出 MathGPT，投资深言科技；科大讯飞发布星火大模型的产品；网易有道加速研发 " 子曰 " 大模型；作业帮正在内测针对国内市场的教育大模型。无疑大模型正在快速渗透教育行业。然而，对于广大教育从业者来说，如何使用才是正途。但只有真正理解大模型的工作原理，才能知其优劣势，从而更精准地应用于工作和产品研发中。

本文将用通俗的语言，帮助大家理解大模型典型代表 GPT 是如何运作、如何训练的。

‍第一个问题：GPT 是如何回答出大段文字的

‍

首先我们来了解一下什么是 GPT。ChatGPT，顾名思义，就是利用 GPT 技术实现聊天的軟體。其中 "Chat" 代表聊天功能，"GPT" 则是实现这一功能的技术核心。

那 GPT 的核心原理是什么呢？答案就是："单字接龙。"也就是，一个字一个字的接龙，在上文最后一个字的后面，接下一个字。" 苹果 "-" 果实 "-" 实在 "-" 在意 " 就是典型的词语接龙，只不过，GPT 单字接龙的依据，不是和最后一个字组成词语，而是基于上文的语境，来预测下一个字。如上文语境是 " 今天天气好，太 "，那么机器在这句话后面，大概率会接的就是 " 阳 " 字。

那 GPT 是如何生成长文的呢？即，将自己生成的字，和刚才的上文组成新的上文，然后紧接着再生成下一个字。正如刚才的那句话 " 今天天气好，太 " 后接了 " 阳 " 字后，新的上文就是 " 今天天气好，太阳 "，紧接着就可能依次生成 " 当 "" 空 "" 照 "，如此循环，就形成了一段文字。我们在用 GPT 问答的过程，GPT 也是把问题作为上文，答案作为下文一个字一个字生成而得。所以我们在使用 GPT 的时候，也会发现他在生成内容的时候，有明显的一个字一个字打出来的感觉，这就是他在单字接龙。

第二个问题：GPT 是如何回答出我们想要的答案的

GPT 原理不难，就是一个字一个字的生成，最终回答出一段文字。但如何确保生成的内容符合我们的期望，而不是随意堆砌文字呢？答案是：概率。

实际上，生成的下一个字时可以是任何字，但由于 GPT 经过了多次训练，所以它会根据概率选择下一个字，以生成我们期望的文字。例如，当 GPT 遇到 " 今天天气好 " 这个上文时，下一个字生成 " 太 " 的概率就很高，接着是生成 " 阳 "" 当 "" 空 "" 照 " 几个字。

那为什么 " 太 " 字的概率就很高呢？因为 GPT 被类似的段落训练过。我们可以将训练过程想象成是一位老师一遍又一遍地告诉机器：今天天气好，下一句是 " 太阳当空照 " ’。经过多次训练， GPT 就学会了这个组合，之后在进行单字接龙时，按照 " 今天天气好，太阳当空照 " 的顺序接龙下去的概率就很高。

那下一个字的概率是如何计算的呢？概率本是数学的概念，文字和文字之间是不能进行数学运算的。所以机器会先把上文的文字，转化成向量（数学上可以进行计算），通过对向量进行一系列复杂的计算和比对，最终来选择下一个字。

这样，通过利用上文和连续选择最高概率的下一个字，机器就能够生成连贯的文本。那什么样的下一个字概率大呢？这与它与训练数据（或者说，教导它的内容）的接近程度有关，越接近，概率就越大。

然而上文的组合形式是五花八门，即便两种组合相似度很高，计算出的下一个字的概率分布也可能大相径庭。这就解释了为什么我们在问同样的问题时，机器可能会给出不同的回答。这也帮助我们理解为什么提示词能够协助我们得到更佳的答案，因为提示词为 GPT 提供了具体的上文环境。比如，如果我们先告诉 GPT 我是一名律师，那么在计算下一个字的概率分布时，与法律相关的字的概率就会显著提高。

第三个问题：是如何训练 GPT 让它拥有上述能力的？

步骤一【预训练】

GPT 是如何进行训练的呢？我们可以将其与我们背诵课文或古诗时的方式进行类比。想象一下，我们遮住下文，然后回忆，直到想起下一句是什么。GPT 在训练阶段采用了类似的方法，称为自回归训练。它会给定一段文字，遮住下文部分，然后尝试猜测接下来的内容，如果猜错了就重新尝试，直到猜对为止。不同的是，机器会运用一些方法来调整模型参数，以便更准确地猜测下一个字。这个过程被称为无监督学习，即不用老师去指出学生错误或者纠正，只需将数据或文本提供给机器，让它自己学习。

通过大量的数据和无数次的计算，机器学会了按照人类的方式逐字生成内容。以 GPT-3 为例，它使用了 45TB 的文本数据进行训练。如果我们假设一本书有 200 页，每页有 500 字，那么相当于 GPT-3 学习了 4500 亿本书的内容。而现在的 GPT-4，训练的数据量更大，使其具备了更强大的生成能力。当这个过程完成时，也就称完成了预训练，GPT 便拥有了通才的能力。

步骤二【微调】

然而，即使机器学会了文本生成，我们仍然需要防止它乱说话。因为在各类文本中，存在大量不适当的内容，包括恐怖主义、歧视和脏话等。这就引入了第二步，即微调过程。简而言之，我们使用规范的文本来纠正这个 " 话痨 "，当它说脏话时，我们告诉它 " 不可以 "；当有人询问 " 如何安稳地自杀 " 时，我们告诉它回答 " 要劝导提问者不要自杀，要热爱生命 "。这个过程被称为监督学习，就像有个老师在监督机器学习，对于机器输出的内容，是有标准答案的，如果回答不好，就重新回答。为什么叫微调呢，因为相比第一个步骤（预训练），规模要小很多。正如需要培养一个绅士，在预训练基础上，你只需要规范他的礼仪即可。

步骤三【强化学习】

机器学会了说话并能够正确表达，但如果它始终按照训练文本的模式生成内容，就会变得呆板和缺乏创意。为了鼓励机器生成更具创造性和独特性的内容，引入了强化学习的方法，即基于人类反馈的强化学习（RLHF）。

RLHF 的思想很简单，当机器生成了我们认为不错的回答时，我们给予它鼓励；而当机器生成的回答不够理想时，我们给予它批评或纠正。通过不断的反馈和调整，机器能够逐渐学会生成更加优秀和独特的回答。我们可以观察到，在与 chatGPT 聊天时候，回答里会有 "better""worse""same" 的评价，这实际就是 GPT 在利用我们这些用户对机器进行纠正，让它知道什么样的回答是我们喜欢的，机器就更倾向于生产那类回答。

问题四：训练一个大模型和养一个聪明的孩子有什么不同

如果你能看到这里，你会发现训练一个大模型和抚养一个小孩很像。小时候，让他去接触各种各样的事物，然后通过正规教育规范他的行为，再同时通过奖惩去激发他的创造性。

但，他和抚养一个小孩有什么不同呢？

1、模型并不是真正学会了语言并了解了语言的意义，而是学会了一种承载了语言及意义的文字搭配方式。（请多读 3 遍，有点绕口）而小孩是可以理解其意义的。

2、模型不是数据库，不是你问问题后，它去庞大的数据库里去找答案。而是，他学会了推理，知道了文字与文字之间的关系。你提问后，它按照它学到的推理结构，去产生你要的问题的答案，这并不是记忆。但小孩既有推理能力，也有记忆能力。

由此，就出现了大模型目前无法解决的问题，一把双刃剑——生成性。

这一特性让它能产生未见过的内容，是本次大模型技术飞跃的关键亮点。虽然大模型不理解自己生产的内容是什么，但它确实给我们提供了非常良好的体验，如近似人的聊天。然而，这也带来了问题，即模型的答案无法完全受到控制，无论微调或强化学习如何进行，始终存在不确定性，会生成一些我们不想要的答案。这就是模型幻觉，即使这种不可控随着模型完善可以降低，但却无法消除，这也是人工智能领網域目前的一大挑战。

就如同儿童玩具不应包含不适内容，游戏 NPC 的对话必须和游戏世界观一致，教育工具不应违背核心价值观一样，内容生产需要可控。因此，大企业通常不会冒险采用成熟产品试水，即使这个风险的概率非常小。这样的挑战在很大程度上阻碍了大模型的商业应用，所以我们能看见大模型在资本圈火热，但在商业上暂时未创造出与其匹配的价值。对于这个问题我们将在接下来的文章中进行探讨，若有感兴趣的话题，请留言。

注：以上仅为初步阐述 GPT 原理，为方便理解而进行简化。实际操作过程中涉及各类复杂细节，若需深入理解，建议查阅相关学术论文。

（本文仅代表作者个人观点，供读者参考。）