A System for General In

2021-11-15知識

今天我們來了解一下今年CORL的best paper: A system for general in-hand object Re-Orientation.(https:// taochenshh.github.io/pr ojects/in-hand-reorientation )

首先我們來了解一下任務：in-hand orientation, 就是操縱在手中的物體. 這篇文章的具體任務就是：給定初始手和物體的位置以及姿態, 再告訴物體末態的姿態，然後讓手來操作這個物體使其從初始狀態到達末態. 我們在日常生活中有大量類似的任務：比如轉筆等動作. 大家對這個方向可能最熟悉的工作就是OPENAI曾經做的手轉魔術方塊。這類問題主要困難在復雜的contact dynamics. 我們可以想一下, 如果是走路, 我們的腳會和地面進行有規律性的接觸. 但是對於手部操作,接觸點的位置可能會頻繁地發生變化. contact狀態發生變化意味著整個系統開始出現突變(導數不連續), 從而導致整個問題的最佳化求解變得極為困難. 除此之外,手的自由度就很高, 使得問題的搜尋空間也很大.

之前的相關工作可以大體上分為兩類：model-based method和model-free method. model-based method需要我們建立一個精確的physics dynamics model, 利用它來指導問題的求解. 比如我們可以用一個神經網絡來擬合系統的dynamics equation, 再使用model-based RL來求解問題. 再或者我們顯式地建立牛頓力學方程式,把這些方程式做為最佳化問題的約束來求解. 總而言之, model-based的方法較為復雜, 而且很難推廣到現實的機器人上, 大多用於CG以及simulation. 第二類方法是model-free methods, 即不建立dynamics model, 直接暴力搜尋求解問題. 比如model-free RL就是這類方法, 我們把整個系統當作black box, 透過定義的reward function來求解問題. 這類方法通常較為簡單, 缺點是搜尋空間較大, 不一定能夠學到滿足我們需求的策略. 之前的model-free method只在一些較為簡單的task上進行了測試, 比如openai訓練機械手轉魔術方塊, 而且需要高精度的mocap器材獲取被操作物體的位置資訊. CORL的這篇best paper處理了大量不同的幾何體, 並且不需要獲取精確的geometry資訊, 只需要獲取大概的點雲即可. 由於這些優點，他們的方法更容易被部署在真實機器人上.

這篇文章的核心想法很intuitive: 如果我們直接訓練機械手以少量物體資訊作為輸入完成任務，可能太困難了. 但是我們在simulation中可以獲取物體的全部資訊. 所以我們可以拿full state作為policy network的輸入訓練一個teacher network. 然後訓練partial state的policy network時利用teacher network提供action的label.

我個人覺得這個想法很有趣, 在真實世界中部署的機器人很難獲取周圍環境和自身的精確資訊，所以很難在硬件上用RL. 所以我們可以在simulation中先獲取精確資訊訓練出一個策略, 然後再利用這個teacher策略來訓練模糊資訊下的控制策略, 最後輔以sim2real就可以拿到一個在真實環境中執行的機器人了.

這篇文章很有意思的一點是: 透過在大量物體上的訓練，得到的control policy可以直接用來處理其他不同的幾何體. 換而言之, 即便我們不知道物體準確的幾何形狀,也可以完成reorientation的task. 這件事情乍一想反直覺, 但是再思考一下也覺得符合我們人類的策略, 人即便是沒有精確的幾何資訊甚至閉上眼睛也可以完成這個task.

總結一下，這篇文章利用了teacher studuent的學習策略, 得到了一個可以在不精確幾何資訊下轉動大量不同幾何體的手部控制器. 方法思想簡單,效果fancy, 一顆賽艇！