强化学习如何在实际环境下使用？

2020-05-26汽车

泻药。强化学习（RL）在游戏领域上已经取得了巨大成功，比如下围棋；但是目前在现实问题上的应用还有很多困难。俞老师有一个很有名的回答：强化学习领域目前遇到的瓶颈是什么?

据我的观察，现实任务相较于游戏，最大的挑战就是stochasticity（随机性）。这篇文章我就用我们最近的工作作为例子来讲一下用RL解决现实问题的一些经验，包括怎么去建模现实问题、什么是随机性、解决的算法应该有怎样的性质、base model怎么选等等。

这里有一个选择：RL可以用来做pre-training和post-training，但是post-training更亲民一点，作为科研乞丐我也只能玩的起微型的post-training，比如这份工作从头到尾用的GPU甚至没超过13G，一张T4就够了。但是模型小并不代表性能差，关键还是怎么去建模这个问题然后选择合适的算法。例如我们把这个小模型的性能从18%（跟GPT-4水平差不多）直接飙到了82%，翻了好几倍。现在LLM无脑堆数据和模型，我感觉还是有不少别的东西可以做的。如果大家关心工作的内容，也可以先看看我们的website，有很多demo和可以玩的东西：https://digirl-agent.github.io。

现实环境中的RL困境

Stochasticity

RL目前打游戏很强，而游戏往往是符合某种可预测的规则的。比如下围棋，规则是放在那里的，你下5行4列的黑子，这个黑子就会出现在5行4列；玩atari也是，你按一下往右的按键，人物就一定会往右一格。但是real-world的task不一定，会有 几乎无限 的扰动，比如如果你要买一个东西，输入物品名字后淘宝每次会给你推不同的东西。现在很多的RL工作做机械臂的一些模拟，都是在同一个工作台上做实验，如果换一个桌面环境，就秒挂了。但是现实任务下，几乎没有办法避免环境中出现随机性，因此应该去 显式地建模这种随机性 （将解决随机性作为任务的一部分）。为了体现随机性，我们选了一个用手机完成查资料、购物这些现实任务的方向（之前没有人在这个上面做过RL），这个任务的所有环境都是在手机模拟器里面运行的，所以用户自己玩会出现的各种随机性，环境都会建模进去。一些比较典型的随机性有这些：

比如网页过一段时间主页会变，这个会导致每次点击网页同一个地方都可能看到不同的结果，比如前两张图，有时候网页上面的广告只有两行，有时候有三行，这样会导致整个网页的布局变化；再比如后面有几张图，有时候网页会有弹窗或者广告，必须先解决掉才能继续；又比如商品每次搜索的顺序都可能不同，是根据服务器的推荐算法排序的。这些随机性会导致直接behavior cloning比较困难，直接用monte carlo去做RL也很困难，因为之前monte carlo用的data很可能没法generalize到stochastic的情况上。

Scale

要解决stochasticity，一般来说需要 巨大的数据量 。可以这么理解：每一个可能存在stochasticity的自由度都需要一批cover到尽可能多情况的数据进行拟合。比如上面提到的google弹窗，理想情况下我们应该尽可能多地收集在google页面可能弹出的弹窗，以及成功的trajectory是怎么解决这些弹窗的。当类似这样的stochasticity的量多起来时，所需要的数据也是成倍增长的。要解决这个问题，如果用offline RL，显然需要大量数据；如果是online RL，那每次training间隔时收集的数据也是越多越好：因为如果有偏地建立对stochasticity的表示，一定会降低collected trajectory的质量。

例如我们的工作中，为了解决这个问题，就专门写了一个多机distributed parallel的脚本，支持多机大规模收集trajectory。例如一台机子能开8个安卓模拟器的话，可以轻松scale到四机甚至十六机，收集速度是线性增长的，而且不需要任何GPU。我们对比了只在一个更多CPU的机子上开更多的模拟器的方案，这个单机方案的速度是logarithm增长的，比我们的方法慢很多，在repo里面有详细的分析：digirl/multimachine/README.md。工作早期四天的训练，有了多机支持，后面只需要两天甚至一天就搞定了。

Reward: Step-level or Trajectory-level?

之前在Jiayi的工作里面大家尝试了用step-level reward去解这个问题，但是发现evaluator很难正确地给出reward。比如如果我们要查询淘宝上某一个商品的价格，那么从淘宝跳到百度应该是一个负的reward；但是百度搜索也是可以找到淘宝的商品的，只要给一个「淘宝」的关键字就可以了（有时候甚至不需要关键字搜出来的也都是淘宝的结果）。这使得这个reward具体的数值很难确定（有时候甚至正负也不好确定）。因此我们认为应该将reward做成trajectory-level的，因为 判断「一个任务是否成功」比「这一步是否更靠近结果」简单很多 ，现在的LLM例如Gemini都可以完美解决了；而对于step-level上是否离目标更近，LLM还不太行，所以应该转而交由一个专用算法解决，例如训练一个很靠谱的critic。

小模型能否逆袭？

「小」不一定「差」

大家会好奇我们用的是什么模型，好像想要解这个问题，需要一个很fancy的模型架构。其实我们用的模型非常小而且朴实，参数加起来才 1.5B，一张T4就能跑 ，无lora的training才用了13G的vram。模型的架构是一个freeze的CLIP配一个要tune的T5，之前一个大哥pre-train的，模型名字叫做AutoUI。模型的输入是一张当前和上一个state的手机的屏幕截图 + 上一步的action + 最终的goal。模型会输出接下来要做什么，例如文字或者坐标。 注意输出的是坐标，比如[528, 129]，屏幕上是没有任何提示的。 之前的工作，例如GPT，都是屏幕上有很多tag，让GPT去选一个出来，比如GPT的屏幕被弄成了这样来让他好做一点：

我们的是没有这些tag的，直接输出一个text形式的坐标。这个难度要大得多，也更realistic一点，但是我们一个1.5B的模型直接把GPT干趴了，领先三倍多（详见后面的结果部分）。大模型固然好，但也不是人人都玩得起的，这个结果充分说明了一个专精的模型不需要很大。当然，如果要scale到general tasks，可以想像1.5B的容量还是有点小了。

选择base模型的一些通用建议

这里我有一些选base模型的建议，首当其冲的就是 base模型的性能不能太差 。如果policy initialization太差，那么采集到的trajectory大概率是错的，这个时候RL必死无疑，不管你用什么算法都救不回来，没有data拿什么学。那怎么获得一个还可以的policy initialization？往往需要先从human/很厉害的模型（比如GPT-4）那边用监督学习学到一点知识，然后再上RL。比如我们的工作中，大概的流程是这样的：

务必先拿一个稍微靠谱的pre-trained模型 （性能有10%以上），然后RL。如果性能太差（比如只有1%），还是早点换一个base model比较好，不然不知道要学到什么时候。有同学会问为什么自己上课时作业里遇到的RL可以用random initialization：这是因为游戏的action space很小，盲猜也能对的。在real-world problem上一抓几千个potential action，给random policy直接干玉玉了。

第二个是 base模型的大小不能太大 。一个原因是模型大，就需要更多的data去fit，简称训不动。特别是online RL，所有data都是边训边收集的，如果model需要成倍的数据，那么collect也会需要成倍的数据，这需要很多机器一起跑collection。如果想偷懒少收集一点，那得调learning rate，可能更痛苦。试想你跑一轮实验需要一个星期，还要不要毕业了。另一个原因是穷。这个就不太需要解释了。作为一名合格的科研乞丐，我深刻认识到穷是不需要任何解释的。

算法

这一部分会稍微烧脑一点，可能需要反复读几次。我会把用到的知识都做成link放在旁边。

Filtered AWR

环境的基础搭好以后，就可以着手思考什么样的算法适合这个问题了。一个能想到的最简单的解法就是filtered behavior cloning（filtered BC），就是让模型自己玩，玩对了就拿对的整条trajectory让模型去学习自己是怎么做对的，玩错了就扔掉这个数据。train的方法也很简单，直接用language modeling的老方法去训练即可。但是filtered BC有两个问题：第一是只要trajectory成功了，那么其中的每一步，不管好坏，都会被模仿到；第二是没法高效地建模stochasticity，因为没有critic去专门fit这种随机性。

因此我们想到了， 可以不使用最终的reward，转而使用advantage去filter data 。这种算法会产出一个模型，这个模型在infer时的架构与原来完全相同，不需要为了RL往模型里面加新的module；而在train时，我们可以加入critic来估计这个advantage，从而用这个advantage来filter data；然后用这个filtered data来用和BC一样的loss训练模型。这是一个非常简单的想法，灵感来源于AWR（没听说过的同学可以略看这篇：AWR(Advantage-Weighted Regression)算法详解与实现），但是我们把AWR硬化成了hard filtering。

GAE的通俗理解

现在我们就要思考如何去设计这个advantage了。前面提到了stochasticity的问题，其实有关随机性，RL的前人已经有过非常多的讨论，其中John Schulman的GAE（Generalized Advantage Estimation）很大程度上缓解了随机性的问题。对GAE还不了解的同学强推这篇：张海抱：【强化学习技术 28】GAE。其实GAE本质上就是下面这一串advantage estimate的加权平均：

其中， \hat{A}^{(k)}_t 称为 k -step advantage。 当 k=1 时，就是1-step TD；如果我们把 k 拉到无穷大，那其实就是 t 时刻的monte carlo estimate \sum_{l=0}^{\infty}\gamma^lr_{t+l} 减掉baseline V(s_t) 。 这体现了GAE 「generalized」的原因：将advantage考虑成TD和MC的某种融合。因为MC是低bias的，TD是低variance的，所以可以根据实际情况调这个比重。

GAE被当成各种baseline（包括PPO也用GAE）是有原因的 - 在实验中，我们发现GAE用来做real-world task效果比单纯的TD/MC的estimate要好不少，因为TD很大程度上看value的准确度，而因为现实任务下的训练数据非常noisy，这个value critic是极难学的。这个时候就需要MC过来帮忙。但是单纯的MC又是不行的，因为现实任务有随机性，之前拿到的data没法generalize到随机出现的情况。

GAE的简化

我们的state-level advantage就是受到GAE的启发， 只取了GAE的第一项和无穷项 。对于每一个state action pair，我们取它的MC return advantage \sum_{t=h}^H r(t) = r(s_H,a_H, c) （这个是因为我们是trajectory-level reward，只有最后一步reward可能为1）和one-step TD advantage V(s_{t+1}, c)+r(s_h,a_h,c)-V(s_h,c) ，两者weighted sum可得

我们发现这个简化版的GAE能够比较robust地估计每个step的advantage。从行为的角度看，MC使得如果trajectory是成功的，那么其中的每一个step都会有比较大的advantage（在实践中我们发现，这样导致不成功的trajectory基本没有机会，这是件好事）；TD使得critic认为value gain比较大的transition会获得更大的advantage，从而相对更不会被filter掉。下面是一个例子：

左图中要买一个笔记本电脑，agent从搜索框跳到商品展示页面，我们发现算法给了一个正的transition difference；右图中也是买一个笔记本电脑，但是agent点错了，从costco的主页跳到了地址栏，这个时候我们发现算法给了一个负的transition difference。这些都是比较符合我们设计的结果。由于这些filter都是step-level的，我们将这里的critic称为state-level value critic。

Automatic Curriculum

在实践中，我们发现了另外一个问题：由于我们训练时用的task是从task set里randomly sample出来的，所以 当一个task已经被完全掌握了以后，重新sample到不会带来很大的提升 ，也就是说正信息量比较小。因此我们的filter同时需要过滤掉那些经常成功的trajectory。但是，如果一个task没做对，它带来的信息量大概率是负的。要同时考虑这两种情况，就可以设计一个简单的instruct-level advantage：

其中这个instruct-level value critic直接去 回归task的成功率 即可。这个算法的一个妙处在于，一个简单的task会在早期被解决，这个时候它应该被学到；一个稍微难一点的task在早期没法被解决，但是由于早期的任务解决后，模型通过automatic curriculum有更多资源去学习更难的task，从而加速中期task的解决，但这个时候依然无法解决最难的task；等中期的也被解决的差不多后，训练资源又会向最难的方向倾斜。一个训练到中期的automatic curriculum的功能大致如下：

如图，在中期阶段，最简单的task已经学会了，因此这个instruction（也就是task）的value会比较大，导致instruction-level advantage小；较难的task在这个阶段做对了以后会有更小的instruction value，因此反而可能不被filter掉。在实操中有一个细节，如果是offline-to-online的学习，那么offline阶段不要用instruction-level critic，因为模型一开始还没有学会最简单的task，而pre-collected data里面有很多成功的简单的task，这会导致filtered buffer损失大批简单task的trajectory，模型被critic坑了，完全学不到。在fully online的学习下这倒不是个问题，因为critic的学习和模型一样，也是渐进的，一开始大家的value都小，那成功了也就都会进buffer。

其实Automatic Curriculum是从更大的尺度上在解决stochasticity的问题，因为解决stochasticity需要scale，而大家的计算资源都是有限的。如果一个简单的task已经被解决了，那么它一定在可观察的范围内已经解决了stochasticity的问题，那么更多的计算资源应该被分配到更难的task上，因为更难的task往往难在更强的stochasticity。

组装

接下来，将instruction-level advantage和step-level advantage分别依次用来做filtering，剩下来的高质量数据就能直接用MLE loss训练模型了。所有的代码都开源到github了，欢迎来看源码。

我们把算法和很多baseline比了一下，发现了很consistent的提升，最后的算法是最有效的：

结果

我们的结果不仅远超GPT-4V/Gemini这种off-the-shelf agent，而且比在相同数据集（但是他们是用的pre-collected数据，我们是interactive去收集的）上训过的CogAgent也强一倍多。filtered BC在这里也是我们的baseline，因为我们想要看看这种critic-based filter RL的方法究竟带来了多少好处，结果也是普遍高了10分左右。

Online learning curve大概分别长这样（我们目前测了aitw这个task集的两个subset，左边一个右边一个）：

一些qualitative的结果：

资源

非常欢迎大家入坑！我们提供了全套环境、模型、算法代码，并且公开了模型checkpoint和pre-collected data，可以快速启动。 一张T4就够，这不抓紧star起来 ;p

GitHub: https:// github.com/DigiRL-agent /digirl