今天小编分享的教育经验:普通教育从业者也能看得懂的GPT原理:知其厉害,知其所以厉害,欢迎阅读。
文 |2709 教育行业研究者
编者按:
本文系多知网约稿。作者认为无论是国内外,教育领網域的 AI 应用正在蓬勃发展,并且大模型正在快速渗透教育行业。对于广大教育从业者来说,如何使用好大模型才是正途,而知晓了大模型的底层逻辑和运作原理才能更好地使用它。
OpenAI 的 ChatGPT 用户量直线飙升至月访问 10 亿,跻身顶流网站之列。无论是国内外,教育领網域的 AI 应用正在蓬勃发展。海外的多邻国、可汗学院、Quizlet 等纷纷拥抱 AI;国内,好未来推出 MathGPT,投资深言科技;科大讯飞发布星火大模型的产品;网易有道加速研发 " 子曰 " 大模型;作业帮正在内测针对国内市场的教育大模型。无疑大模型正在快速渗透教育行业。然而,对于广大教育从业者来说,如何使用才是正途。但只有真正理解大模型的工作原理,才能知其优劣势,从而更精准地应用于工作和产品研发中。
本文将用通俗的语言,帮助大家理解大模型典型代表 GPT 是如何运作、如何训练的。
01
第一个问题:GPT 是如何回答出大段文字的
首先我们来了解一下什么是 GPT。ChatGPT,顾名思义,就是利用 GPT 技术实现聊天的軟體。其中 "Chat" 代表聊天功能,"GPT" 则是实现这一功能的技术核心。
那 GPT 的核心原理是什么呢?答案就是:"单字接龙。"也就是,一个字一个字的接龙,在上文最后一个字的后面,接下一个字。" 苹果 "-" 果实 "-" 实在 "-" 在意 " 就是典型的词语接龙,只不过,GPT 单字接龙的依据,不是和最后一个字组成词语,而是基于上文的语境,来预测下一个字。如上文语境是 " 今天天气好,太 ",那么机器在这句话后面,大概率会接的就是 " 阳 " 字。
那 GPT 是如何生成长文的呢?即,将自己生成的字,和刚才的上文组成新的上文,然后紧接着再生成下一个字。正如刚才的那句话 " 今天天气好,太 " 后接了 " 阳 " 字后,新的上文就是 " 今天天气好,太阳 ",紧接着就可能依次生成 " 当 "" 空 "" 照 ",如此循环,就形成了一段文字。我们在用 GPT 问答的过程,GPT 也是把问题作为上文,答案作为下文一个字一个字生成而得。所以我们在使用 GPT 的时候,也会发现他在生成内容的时候,有明显的一个字一个字打出来的感觉,这就是他在单字接龙。
02
第二个问题:GPT 是如何回答出我们想要的答案的
GPT 原理不难,就是一个字一个字的生成,最终回答出一段文字。但如何确保生成的内容符合我们的期望,而不是随意堆砌文字呢?答案是:概率。
实际上,生成的下一个字时可以是任何字,但由于 GPT 经过了多次训练,所以它会根据概率选择下一个字,以生成我们期望的文字。例如,当 GPT 遇到 " 今天天气好 " 这个上文时,下一个字生成 " 太 " 的概率就很高,接着是生成 " 阳 "" 当 "" 空 "" 照 " 几个字。
那为什么 " 太 " 字的概率就很高呢?因为 GPT 被类似的段落训练过。我们可以将训练过程想象成是一位老师一遍又一遍地告诉机器:今天天气好,下一句是 " 太阳当空照 " ’。经过多次训练, GPT 就学会了这个组合,之后在进行单字接龙时,按照 " 今天天气好,太阳当空照 " 的顺序接龙下去的概率就很高。
那下一个字的概率是如何计算的呢?概率本是数学的概念,文字和文字之间是不能进行数学运算的。所以机器会先把上文的文字,转化成向量(数学上可以进行计算),通过对向量进行一系列复杂的计算和比对,最终来选择下一个字。
这样,通过利用上文和连续选择最高概率的下一个字,机器就能够生成连贯的文本。那什么样的下一个字概率大呢?这与它与训练数据(或者说,教导它的内容)的接近程度有关,越接近,概率就越大。
然而上文的组合形式是五花八门,即便两种组合相似度很高,计算出的下一个字的概率分布也可能大相径庭。这就解释了为什么我们在问同样的问题时,机器可能会给出不同的回答。这也帮助我们理解为什么提示词能够协助我们得到更佳的答案,因为提示词为 GPT 提供了具体的上文环境。比如,如果我们先告诉 GPT 我是一名律师,那么在计算下一个字的概率分布时,与法律相关的字的概率就会显著提高。
03
第三个问题:是如何训练 GPT 让它拥有上述能力的?
步骤一【预训练】
GPT 是如何进行训练的呢?我们可以将其与我们背诵课文或古诗时的方式进行类比。想象一下,我们遮住下文,然后回忆,直到想起下一句是什么。GPT 在训练阶段采用了类似的方法,称为自回归训练。它会给定一段文字,遮住下文部分,然后尝试猜测接下来的内容,如果猜错了就重新尝试,直到猜对为止。不同的是,机器会运用一些方法来调整模型参数,以便更准确地猜测下一个字。这个过程被称为无监督学习,即不用老师去指出学生错误或者纠正,只需将数据或文本提供给机器,让它自己学习。
通过大量的数据和无数次的计算,机器学会了按照人类的方式逐字生成内容。以 GPT-3 为例,它使用了 45TB 的文本数据进行训练。如果我们假设一本书有 200 页,每页有 500 字,那么相当于 GPT-3 学习了 4500 亿本书的内容。而现在的 GPT-4,训练的数据量更大,使其具备了更强大的生成能力。当这个过程完成时,也就称完成了预训练,GPT 便拥有了通才的能力。
步骤二【微调】
然而,即使机器学会了文本生成,我们仍然需要防止它乱说话。因为在各类文本中,存在大量不适当的内容,包括恐怖主义、歧视和脏话等。这就引入了第二步,即微调过程。简而言之,我们使用规范的文本来纠正这个 " 话痨 ",当它说脏话时,我们告诉它 " 不可以 ";当有人询问 " 如何安稳地自杀 " 时,我们告诉它回答 " 要劝导提问者不要自杀,要热爱生命 "。这个过程被称为监督学习,就像有个老师在监督机器学习,对于机器输出的内容,是有标准答案的,如果回答不好,就重新回答。为什么叫微调呢,因为相比第一个步骤(预训练),规模要小很多。正如需要培养一个绅士,在预训练基础上,你只需要规范他的礼仪即可。
步骤三【强化学习】
机器学会了说话并能够正确表达,但如果它始终按照训练文本的模式生成内容,就会变得呆板和缺乏创意。为了鼓励机器生成更具创造性和独特性的内容,引入了强化学习的方法,即基于人类反馈的强化学习(RLHF)。
RLHF 的思想很简单,当机器生成了我们认为不错的回答时,我们给予它鼓励;而当机器生成的回答不够理想时,我们给予它批评或纠正。通过不断的反馈和调整,机器能够逐渐学会生成更加优秀和独特的回答。我们可以观察到,在与 chatGPT 聊天时候,回答里会有 "better""worse""same" 的评价,这实际就是 GPT 在利用我们这些用户对机器进行纠正,让它知道什么样的回答是我们喜欢的,机器就更倾向于生产那类回答。
04
问题四:训练一个大模型和养一个聪明的孩子有什么不同
如果你能看到这里,你会发现训练一个大模型和抚养一个小孩很像。小时候,让他去接触各种各样的事物,然后通过正规教育规范他的行为,再同时通过奖惩去激发他的创造性。
但,他和抚养一个小孩有什么不同呢?
1、模型并不是真正学会了语言并了解了语言的意义,而是学会了一种承载了语言及意义的文字搭配方式。(请多读 3 遍,有点绕口)而小孩是可以理解其意义的。
2、模型不是数据库,不是你问问题后,它去庞大的数据库里去找答案。而是,他学会了推理,知道了文字与文字之间的关系。你提问后,它按照它学到的推理结构,去产生你要的问题的答案,这并不是记忆。但小孩既有推理能力,也有记忆能力。
由此,就出现了大模型目前无法解决的问题,一把双刃剑——生成性。
这一特性让它能产生未见过的内容,是本次大模型技术飞跃的关键亮点。虽然大模型不理解自己生产的内容是什么,但它确实给我们提供了非常良好的体验,如近似人的聊天。然而,这也带来了问题,即模型的答案无法完全受到控制,无论微调或强化学习如何进行,始终存在不确定性,会生成一些我们不想要的答案。这就是模型幻觉,即使这种不可控随着模型完善可以降低,但却无法消除,这也是人工智能领網域目前的一大挑战。
就如同儿童玩具不应包含不适内容,游戏 NPC 的对话必须和游戏世界观一致,教育工具不应违背核心价值观一样,内容生产需要可控。因此,大企业通常不会冒险采用成熟产品试水,即使这个风险的概率非常小。这样的挑战在很大程度上阻碍了大模型的商业应用,所以我们能看见大模型在资本圈火热,但在商业上暂时未创造出与其匹配的价值。对于这个问题我们将在接下来的文章中进行探讨,若有感兴趣的话题,请留言。
注:以上仅为初步阐述 GPT 原理,为方便理解而进行简化。实际操作过程中涉及各类复杂细节,若需深入理解,建议查阅相关学术论文。
(本文仅代表作者个人观点,供读者参考。)