酷应用

比GPT-3更擅长理解用户意图，OpenAI发布InstructGPT

百家作者：大数据文摘 2022-02-10 16:45:20

大数据文摘授权转载自数据实战派

作者：青苹果

近日，OpenAI 发布了一项令人瞩目的研究—— InstructGPT。

在这项研究中，相比 GPT-3 而言，OpenAI 采用对齐研究（alignment research），训练出更真实、更无害，而且更好地遵循用户意图的语言模型 InstructGPT。论文题为 Training language models to follow instructions with human feedback。? ? ? ? ? ? ? ? ? ? ? ? ? ?

以往，GPT-3 也很可能产生不真实、有害或反映不良情绪的输出。这在一定程度上是因为，在互联网文本的大数据集上，训练 GPT-3 来完成下一个单词的预测，并非是安全地执行用户想要的语言任务。换句话说，这些模型与其用户可能实际上并不一致。

为了让模型更安全、更有用、更一致，OpenAI 使用了一种称为从人类反馈中强化学习（RLHF，Reinforcement Learning from Human Feedback）的现有技术。根据客户向 API 提交的反馈，OpenAI 对模型的多个输出进行排序。然后，OpenAI 使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型，在遵循指令方面，远比 GPT-3 要好得多。而且，它们也较少的凭空捏造事实，有害输出的产生呈现小幅下降趋势。InsructGPT 的参数量为 1.3 B。

InstructGPT 模型，已经在 API 上进行了一年多的测试，现已成为 API 上可访问的默认语言模型。OpenAI 相信，用 RLHF 的解决方案来微调语言模型是提高安全性和可靠性的强大工具。

这也是团队多年来首次将对齐研究应用到产品上。

实验结果

OpenAI 将 InstructGPT 的输出与 GPT-3 的输出进行比较，以评估InstructGPT 的输出是否很好地遵循了用户指令。

结果发现，在 API 上，对于提交给 InstructGPT 和 GPT-3 模型的提示，InstructGPT 模型明显更受欢迎。当 OpenAI 为 GPT-3 提示符添加一个前缀，使其进入“指令跟随模式”时，这一点是成立的。

为了衡量模型的安全性，OpenAI 主要在公开可用的数据集上使用了一套现有的度量指标。

与 GPT-3 相比，InstructGPT 产生的模仿性谎言更少，危害更小。OpenAI 还对 API 提示分布展开了人工评估，结果显示，InstructGPT 捏造事实（“幻觉”）的频率更低，而且还能生成更恰当的输出。

最后，OpenAI 发现在客户分布上，InstructGPT 的输出要优于那些来自 FLAN 和 T0 的输出。这表明用于训练 FLAN 模型和 T0 模型的数据，主要是学术 NLP 任务，并不能完全代表部署的语言模型在实践中的使用情况。

为了训练 InstructGPT 模型，OpenAI 的核心技术是 RLHF，这是 OpenAI 在早期对齐研究中帮助开发的一种方法。该技术利用人类的偏好作为奖励信号来微调模型，这一点很重要，因为 OpenAI 旨在解决的安全性和对齐问题是复杂且主观的，并且无法被简单的自动度量指标所捕获。

OpenAI 首先在提交给 API 的提示上收集人工编写的演示数据集，然后用它来训练监督学习的基线。

接下来，在更大的 API 提示集上收集两个模型输出之间的人工标记的比较数据集。然后，在此数据集上训练奖励模型（RM，Reward Model），以预测 labelers 更偏爱哪一种输出。最后，使用 RM 作为奖励函数，并通过 PPO 算法微调 GPT-3 策略来最大化这个奖励。

可以用以下方式来思考上述过程，它“解锁”了 GPT-3 已经具备的功能，但很难仅通过提示工程（promptengineering）来实现：这是因为相对于预训练学到的知识而言，OpenAI 的训练程序在帮助模型 get 更多技能方面的确能力有限。相比于模型预训练，它使用的计算和数据甚至不足 2%。

这种方法的局限性在于它引入了“对齐税”（alignment tax）：模型如果只对齐客户任务，可能会使其在其他一些学术 NLP 任务上的性能表现更差。

显然，这是不可取的，因为如果 OpenAI 的对齐技术使模型在人们关心的任务上变得更糟，那么，他们在实践中被采用的可能性会有多小便可想而知。不过，OpenAI 发现了一种简单的算法更改，可以最小化这种对齐税：在 RL 微调期间，OpenAI 混合了一小部分用于训练 GPT-3 的原始数据，并使用正常的对数似然最大化训练这些数据。

这大致维持了安全性和人类偏好的表现，同时还降低了学术任务的性能表现，在某些情况下甚至超过了 GPT-3 的基线。