LeCun神預言大模型路線再顛覆？OpenAI宣告強化學習取得穩定突破

2024-12-25心靈

編輯：LRS

【新智元導讀】只需幾十個樣本即可訓練專家模型，強化微調RLF能掀起強化學習熱潮嗎？具體技術實作尚不清楚，AI2此前開源的RLVR或許在技術思路上存在相似之處。

在2016年的NeurIPS會議上，圖靈獎得主Yann LeCun首次提出著名的「蛋糕比喻」：

如果智能是一塊蛋糕，那麽蛋糕中的大部份都是無監督學習，蛋糕上的糖霜（錦上添花）是有監督學習，蛋糕上的櫻桃則是強化學習。

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

從大型語言模型的發展路線來看，這種比喻實在是完美預測：從計算量FLOP上的開銷來看，對互聯網上的海量數據進行自監督學習占據了大部份訓練時間；之後是用指令監督微調（SFT）數據進行後訓練，開銷相比自監督訓練來說大大降低；最後的強化學習則是讓大模型走向終端使用者的必備階段，可以提高模型的安全性，但模型只是從部份訓練樣本中學習少量資訊。

在OpenAI的第二天直播中，宣布即將開放 「強化微調」（RFT）的API ，開發者只需提供最低「幾十個」高質素樣本，就能實作領域專家模型的客製，還能根據提供的參考答案對模型的回復進行評分，再次印證了強化學習的重要性！

強化微調的重點是「匹配答案」（matching answer），給定查詢和正確答案，RFT可以幫助模型「學習」如何獲得正確答案。

相比標準的指令調優（instruction tuning）只是對數據進行1-2個epoch的損失計算，並更新模型權重，強化微調則是透過對相同的幾個數據點進行成百上千個epochs來讓模型有時間學習新行為。

重復數據在基礎模型訓練的時候作用不大，但卻可以提升RFT的穩定性。

強化學習的發展可能已經超過了Yann LeCun的預測，不再只是一顆蛋糕上的櫻桃，未來或許「有監督微調」不再那麽重要，只需要在互聯網數據上進行自監督，然後進行自我強化學習，而不需要明確的人工設計。

大模型技術路線再次顛覆

「強化微調」的出世，也標誌著語言模型和強化學習的發展路線再次發生變化：

1. 強化學習的穩定性是可以解決的

開發人員在考慮是否采用強化學習時，其穩定性一直是核心因素，主要體現在兩方面：強化學習本身可能會發生劇烈變化，不一定穩定有效；其次，強化學習的訓練本身比標準語言模型訓練更脆弱，更容易出現損失峰值、崩潰等情況。

如今OpenAI能釋出強化學習的API，雖然目前仍然處於測試階段，但也代表著他們對這項技術的穩定性有了突破，不管使用者的數據是什麽樣，都能穩定、有效地訓練。

以往，研究人員要執行強化學習演算法時，通常都會一次性執行多個隨機種子，然後選擇那些沒有崩潰的模型繼續執行；而現在就可以依賴強化學習模型的穩定執行，並在模型檢查點上與初始策略計算KL距離，以確保效果不會下降。

2. 開源版本或許已經「存在」

強化微調與AI2最近釋出的「具有可驗證獎勵的強化學習(RLVR)」工作非常相似，核心元件，如數據格式和最佳化器類別是相同的，只要開源社區繼續合作來增加強化學習數據，對不同的模型、不同類別的數據等進行實驗。

3. 高級推理模型的潛在數據飛輪

之前有猜測認為，OpenAI的o1模型使用了某種搜尋策略，主要透過大規模RL數據進行訓練，並具有可驗證的輸出，和這個API很類似。

按照預期來說，使用者透過API上傳數據，OpenAI就可以積累海量數據集來繼續訓練o1模型的下一個版本，o1目前的主要限制仍然是適用領域缺乏多樣性，如果有使用者的飛輪數據參與進來，o1勢必會更加強大。

4. 強化學習語言模型訓練的範圍不斷擴大

在基礎科學層面上，o1的最大的貢獻是，讓我們有了更多的方法來訓練語言模型，以實作潛在的高價值行為；向研究人員和工程師開放的大門越多，我們對人工智能的總體發展軌跡就應該越樂觀。

大概一年前，OpenAI的一位研究人員就曾提到過，他們對RLHF及相關方法非常有信心，因為損失函數比自回歸預測更通用，最近的發展也正如大部份人期待的，強化學習中的人類反饋（human feedback）也並不是特別必要。

強化微調實作的猜測

由於OpenAI沒有公布任何技術細節，所以對具體的實作仍然只能靠猜。

分類模型/配置（Grader models/configs act as reward shaping for generalized answer checking）

強化學習能成功實作的核心是「正確界定環境範圍」，其中環境由轉移函數（transition function）和獎勵函陣列成；

語言模型的轉移函數是人為設計的，也就是語言模型策略本身；獎勵函數是從狀態和動作（即提示和模型回復）到獎勵純量值的對映。

對語言模型的輸出答案進行評分並不新鮮，比如Llama 3.1同時使用「Python程式碼」和「其他大模型」作為判斷器來檢查數學答案是否正確；答案的錯誤或正確對應0或1的二進制分數。

12月7日，OpenAI微調團隊的John Allard此前釋出過一份關於評分器背後思路的說明，以及相關配置的螢幕截圖，基本思路是把待評分的回復分解成一個結構化的物件，然後對每一項的數值進行比較，得到精確率、召回率等指標。

比如想訓練一個資訊抽取器模型，評分器會根據預定義的結構，比如就讀的大學、已知的程式語言、當前居住城市等項分別進行評分，最後獲得一個匯總評分。

{ "university": "University of California Berkeley", "programming_languages": ["python", "c++", "java"], "city": "Los Angeles", "state": "California"}