本篇文章是 ChatGPT 系列文章的最后一篇。在之前的文章中,依次介绍了 Transformer->GPT1->GPT2->GPT3 ,下面是参考链接:
如果你已经看过上面的文章,那么理解 ChatGPT 的技术原理就简单的多。
实际上 OpenAI 并没有公布 ChatGPT 的技术细节,但是在2022年的时候,曾经放出过 InstructGPT 的论文(Training language models to follow instructions with human feedback),而根据 OpenAI 的说法,ChatGPT 是 InstructGPT 的兄弟模型。
我们通过下面的图,也可以看出 ChatGPT 和 InstructGPT 之间的关系。
本篇文章,我们一起来了解一下 ChatGPT 背后的技术原理。
GPT-3有什么问题?
既然 ChatGPT 是由 GPT-3 迭代过来的,那么原有的 GPT-3 究竟有哪些问题?ChatGPT 又是如何做的改进?
如果你明白了上面两个问题,那么 ChatGPT 的核心你就算真正掌握了。
GPT-3 最大的问题就是训练目标和用户意图不一致 。也就是 GPT-3 并没有真正拟合用户真实的问题(prompt)。
GPT-3 本质上是语言模型,优化目标也是标准语言模型的目标,即最大化下一个词出现的概率。GPT-3 的核心技术是 Next-token-prediction 和 Masked-language-modeling。
在第一种方法中,模型被给定一个词序列作为输入,并被要求预测序列中的下一个词。如果为模型提供输入句子:
「猫坐在」它可能会将下一个单词预测为「垫子」、「椅子」或「地板」,因为在前面的上下文中,这些单词出现的概率很高。
Masked-language-modeling 方法是 Next-token-prediction 的变体,其中输入句子中的一些词被替换为特殊 token,例如 [MASK]。然后,模型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子:
「The [MASK] sat on the 」它可能会预测 MASK 位置应该填的词是「cat」、「dog」。
这些目标函数的优点之一是,它允许模型学习语言的统计结构,例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本,并且是每个语言模型预训练阶段的重要步骤。
然而这些目标函数也可能导致问题,这主要是因为模型无法区分重要错误和不重要错误。一个非常简单的例子是,如果给模型输入句子:
"罗马帝国[MASK]奥古斯都的统治"它可能会预测 MASK 位置应该填入「开始于」或「结束于」,因为这两个词的出现概率都很高。
更一般地说,这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差,因为仅经过训练以预测文本序列中的下一个词(或掩码词)的模型可能不一定会学习 一些其含义的更高层次的表示 。因此,该模型难以泛化到需要更深入地理解语言的任务或上下文。
这也导致了 GPT-3 这样的语言模型, 很难理解用户的真实意图,经常出现答非所问的情况,一本正经的胡说八道 。
因此 ChatGPT 要解决的核心问题,就是怎么让模型和用户对齐。
备注: 模型和用户对齐。就是让模型学会理解人类的命令指令的含义(比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令),以及让模型学会判断对于给定 prompt 输入指令(用户的问题),什么样的答案是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。
那么 ChatGPT 又是如何做的改进?核心方法就是引入「人工标注数据+强化学习」(RLHF,Reinforcement Learning from Human Feedback ,这里的人工反馈其实就是人工标注数据)来不断Fine-tune预训练语言模型。
在「人工标注数据+强化学习」框架下,训练 ChatGPT 主要分为三个阶段。
后面我们会详细介绍上面的三个阶段。
这里有一个疑问,为啥不直接使用 SFT,而是又要引入强化学习?
这个问题非常重要。强化学习的目的是让模型的答案更接近人类意图,本阶段无需人工标注数据,而是利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数。
既然目标是让模型能更好拟合<prompt, answer>,那为什么不直接使用 SFT,这样不是更直接吗?或者为了拟合<prompt, answer1, answer2,...>这个序,再做一次 Fine-tuning。
之所以没有这样做,主要原因还是标注数据太少了,一共才3万条标注数据。换句话说,如果标注数据足够多,有可能 SFT 就足够了。
那么怎么能获取更多 prompt?就像 OpenAI 一样,快速推出产品 ChatGPT,然后不断收集用户的 prompt,再把收集的数据用于 SFT。这也是为什么 ChatGPT 越来越强,因为它在不断的收集->训练->收集...
ChatGPT 技术原理
在「人工标注数据+强化学习」框架下,具体而言,ChatGPT 的训练过程分为以下三个阶段:
阶段一:有监督微调Supervised fine-tuning (SFT)
为了让 ChatGPT 初步具备理解指令中(prompt)蕴含的意图,首先会从测试用户提交的 prompt (就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定 prompt 的高质量答案,然后用这些人工标注好的<prompt, answer> 数据来 Fine-tune GPT-3 模型。经过这个过程,我们可以认为 ChatGPT 初步具备了理解人类 prompt 中所包含意图,并根据这个意图给出相对高质量回答的能力,但是由于样本太少,很难达到理想效果。
我们来看一下这部分标注数据都有哪些问题:
问题类型 | 占比(%) |
---|---|
生成任务(Generation) | 45.6% |
开放问答(Open QA) | 12.4% |
头脑风暴(Brainstorming) | 11.2% |
聊天(Chat) | 8.4% |
重写(Rewrite) | 6.6% |
摘要(Summarization) | 4.2% |
分类( classification) | 3.5% |
其它(Other) | 3.5% |
封闭问答(Closed QA) | 2.6% |
抽取(Extract) | 1.9% |
这里面最主要的问题是生成任务,然后是一些问答,头脑风暴。下面看几个例子:
问题类型 | Prompt |
---|---|
头脑风暴(Brainstorming) | 列出5个方法用于重新对职业充满热情 |
生成任务(Generation) | 编写一个短篇故事,讲述一只熊前往海滩,结识了一只海豹,然后返回家中的经历。 |
重写(Rewrite) |
将下面一段话翻译成法语:
<English sentence> |
SFT 就是根据这些问题和答案,对 GPT-3 进行微调。
阶段二:训练回报模型(Reward Model, RM)
这个阶段的主要目的是通过人工标注训练数据,来训练回报模型。具体而言,随机抽样一批用户提交的 prompt (大部分和第一阶段的相同),使用第一阶段 Fine-tune 好的模型,对于每个 prompt,由之前的 SFT 模型生成 K 个不同的回答,于是模型产生出了<prompt, answer1>, <prompt, answer2>….<prompt, answerK>数据(这里面 K 是4到9之间)。之后,标注人员对 K 个结果按照很多标准(上面提到的相关性、富含信息性、有害信息等诸多标准)综合考虑进行排序,给出 K 个结果的排名顺序,这就是此阶段人工标注的数据。
接下来,我们准备利用这个排序结果数据来训练回报模型,采取的训练模式其实就是平常经常用到的 pair-wise learning to rank。对于K个排序结果,两两组合,形成\binom{k}{2} 个训练数据对,ChatGPT 采取 pair-wise loss 来训练回报模型。RM 模型接受一个输入<prompt, answer>,给出评价回答质量高低的回报分数 Score。对于一对训练数据<answer1, answer2>,我们假设人工排序中 answer1 排在 answer2 前面,那么 Loss 函数则鼓励 RM 模型对<prompt, answer1> 的打分要比 <prompt, answer2> 的打分要高。
下面是回报模型的损失函数:
\text{loss}\left( \theta \right)=-\frac{1}{\binom{k}{2}}E_{\left( x,y_w,y_l \right)\sim D}\left[ \text{log}\left( \sigma\left( r_{\theta}\left( x,y_w \right)-r_{\theta}\left( x,y_l \right) \right) \right) \right]\tag1 其中 r_{\theta}\left( x,y \right) 表示回报模型的输出, x 是给定的 prompt, y 表示对于的回答。 y_w 和 y_l 表示回答 w 排在回答 l 前面 ,类似上面的 answer1 排在 answer2 前面。
总结下:在这个阶段里,首先由 SFT 监督模型为每个 prompt 产生 K 个结果,人工根据结果质量由高到低排序,以此作为训练数据,通过 pair-wise learning to rank 模式来训练回报模型。对于学好的 RM 模型来说,输入<prompt, answer>,输出结果的质量得分,得分越高说明产生的回答质量越高。
阶段三:使用强化学习微调 SFT 模型
本阶段无需人工标注数据,而是利用上一阶段学好的 RM 模型,靠 RM 打分结果来更新预训练模型参数。具体而言,首先,从用户提交的 prompt 里随机采样一批新的命令(指的是和第一第二阶段不同的新的 prompt),且由一阶段的 SFT 模型来初始化 PPO 模型的参数。然后,对于随机抽取的 prompt,使用 PPO 模型生成回答answer, 并用上一阶段训练好的 RM 模型给出 answer 质量评估的回报分数 score,这个回报分数就是 RM 赋予给整个回答的整体 reward。
强化学习的目标函数如下:
\text{object}\left( \phi \right)=E_{\left( x,y\right)\sim D_{\pi _{\phi}^{RL}}}\left[ r_{\theta}\left( x,y \right)-\beta\space \text{log}\left( \pi _{\phi}^{RL}\left( y|x \right)/\pi^{SFT}\left( y|x \right) \right) \right]+\gamma E_{x\sim D_{\text{pretrain}}}\left[ \text{log}\left( \pi _{\phi}^{RL}\left( x \right) \right) \right]\tag2 这里面第一项是最大化回报 score,第二项是让强化学习的输出不要偏离 SFT 太多,最后一项是保证微调的同时,原有语言模型的效果不会变差。
效果评估
上图是最终的效果对比。对比的是 SFT 175B 的GPT-3 模型。可以看到只做 SFT,1.3B 和 6B 都干不过 175B,但是加入强化学习后,1.3B 的效果就比 175B 的效果还好。
总结
GPT 出来之后,基于 GPT 架构的大模型层出不穷,比较知名的有清华大学的 GLM ( General Language Model Pretraining )模型,百度的文心一言。而后面腾讯、阿里、字节、知乎,都会推出自己的大模型,这些大模型用的数据可能不一样,但是有一样是共同的:都是基于 GPT 进行预训练。
目前 ChatGPT 的相关技术已经介绍完了,而目前 OpenAI 已经推出了最新版本的 GPT-4,支持多模态,可以理解图片,后面应该会加入视频理解。
AI 的时代,真的来临了。
参考
Introducing ChatGPT
https:// arxiv.org/pdf/2203.0215 5.pdf
张俊林:ChatGPT会取代搜索引擎吗
机器之心:深入浅出,解析ChatGPT背后的工作原理
数据科学人工智能:ChatGPT 算法原理
How ChatGPT actually works
JioNLP团队:一文读懂ChatGPT模型原理
书籍推荐