7B模型數學推理擊穿o1，直逼全美20%尖子生！微軟華人新作爆火

2025-01-12心靈

編輯：編輯部 JHY

【新智元導讀】小模型也能擊敗o1？微軟全華人團隊提出rStar-Math演算法，三大革命性技術突破，不僅讓SLM在數學推理能力上重新整理SOTA，更是擠進了全美20%頂尖高中生榜單。

一夜之間，微軟用小模型（SLM），在數學推理上擊敗o1，沖爆了AI社群熱搜。

不僅如此，SLM在美國數學奧林匹克（AIME）上，拿下了53.3%的亮眼成績，直逼全美20%頂尖高中生！

瞬間，大波Reddit網友線上發出靈魂拷問，「我們將在25年年終前就會有AGI了，不是嗎」？

HugginFace CEO發文，rStar-Math成為HF熱門論文

這篇論文究竟做出了怎樣的技術創新，能讓o1甘拜下風？

論文中，來自微軟亞研院的全華人團隊，提出了全新演算法rStar-Math，證明了SLM無需從高級模型蒸餾，就能在數學推理上，媲美甚至一舉超越o1。

論文連結：https://arxiv.org/pdf/2501.04519

rStar-Math核心在於，讓小模型具備「深度思考」的能力。

團隊借鑒了AlphaGo中蒙地卡羅樹搜尋（MCTS）技術，設計了一個由2個協同工作的SLM組成的系統：

一個數學策略小語言模型（SLM）

一個過程獎勵模型（PRM）

此外，rStar-Math具體設計中，引入了三項技術創新：全新程式碼增強CoT數據合成；全新PRM訓練方法；自我前進演化方案。

透過4輪自我前進演化，並結合數百萬個為747k數學問題合成的解答，rStar-Math讓SLM數學推理能力重新整理SOTA。

在MATH基準測試中，它將Qwen2.5-Math-7B的成績從58.8%提升至90.0%，將Phi3-mini-3.8B的成績從41.4%提升至86.4%，比o1-preview分別高+4.5%和+0.9%。

在美國數學奧林匹克（AIME）上，rStar-Math解決了平均53.3%（8/15）的題目，排名位於高中數學優等生前20%。具體結果如下所示。

Keras之父預言道，2025年將會不斷湧現這樣的研究，透過結合程式搜尋、CoT搜尋，在LLM指導下提升推理基準（包括ARC和數學基準）的表現。

MCTS、遺傳搜尋，你能想到的方法，都會被嘗試。

數學推理難在哪兒？

在測試時計算scaling新範式中，關鍵是訓練一個強大的策略模型來生成有前景的解答步驟，以及一個可靠的獎勵模型來準確評估這些步驟，這兩者都依賴於高品質的訓練數據。

眾所周知，在數學推理中，正確的最終答案並不能確保整個推理過程的正確性。錯誤的中間步驟會顯著降低數據的品質。

然而，策略模型很難區分出來推理步驟到底正確還是錯誤的，從而很難去剔除低品質數據。

與此同時，能夠對中間步驟提供細粒度反饋的獎勵模型，訓練數據更加稀缺：準確的逐步反饋需要大量的人力標註，難以大規模擴充套件，而自動標註由於獎勵分數的雜訊，取得的效果有限。

由於上述問題，現有的訓練策略模型使用基於蒸餾的合成數據，如擴充套件GPT-4蒸餾的CoT數據，但報酬越來越少，無法超越其教師模型的能力；同時，至今為止，訓練可靠的PRM來進行數學推理仍然是一個開放問題。

rStar-Math，三大創新

與依賴更強大的LLM合成數據不同，rStar-Math利用小語言模型（SLM）結合蒙地卡羅樹搜尋（MCTS）建立了自我前進演化過程，叠代生成更高品質的訓練數據。

為了實作自我前進演化，rStar-Math引入了三項關鍵創新。

新CoT數據合成方法

首先，全新程式碼增強型CoT數據合成方法，將數學問題求解被分解為MCTS中的多步驟生成。在每一步中，作為策略模型的SLM會對候選節點采樣，每個節點生成一個單步的CoT推理和相應的Python程式碼。

為了驗證生成品質，只有那些成功執行Python程式碼的節點會被保留，從而減少中間步驟中的錯誤。

此外，多步MCTS回合會根據每個步驟的貢獻自動分配Q值：那些貢獻更多推理軌跡並導向正確答案的步驟會獲得更高的Q值，並被認為是更高品質的。這確保了SLM生成的推理軌跡由正確且高品質的中間步驟組成。

過程偏好模型

第二，引入了一種新穎的方法，訓練一個作為PPM的SLM，旨在實作所需的PRM，該模型能夠可靠地預測每個數學推理步驟的獎勵標簽。

PPM利用了這樣一個事實：盡管使用廣泛的MCTS回合，Q值仍然不足以精確評分每個推理步驟，但Q值可以可靠地區分正向（正確）步驟和負向（無關/錯誤）步驟。

因此，訓練方法基於Q值為每個步驟構建偏好對，並使用成對排名損失來最佳化PPM對每個推理步驟的評分預測，從而實作可靠的標註。

這種方法避免了傳統方法直接使用Q值作為獎勵標簽，因為這些方法在逐步獎勵分配中固有地存在雜訊和不精確。

自我前進演化

最後，四輪自我前進演化的方案逐步從0構建前沿策略模型和PPM。

研究人員從公開可用的來源中，策劃了一個包含747,000個數學題的數據集。

在每一輪中，使用最新的策略模型和PPM執行MCTS，利用上述兩種方法生成越來越高品質的訓練數據，以訓練更強的策略模型和PPM用於下一輪。

每一輪都實作了逐步的改進：（1）更強的策略SLM，（2）更可靠的PPM，（3）透過PPM增強的MCTS生成更好的推理軌跡，以及（4）改進訓練數據覆蓋範圍，解決更多高難度的甚至是競賽級別的數學問題。

四輪自我前進演化

由於SLM的能力較弱，要進行四輪MCTS深度思考，可以逐步生成更高品質的數據，並透過更多高難度的數學問題來擴充套件訓練集。

每輪都要用MCTS生成逐步驗證的推理軌跡，然後用這些軌跡訓練新的策略SLM和PPM。新模型隨後套用於下一輪，以生成更高品質的訓練數據。

第一輪：啟動初始強策略SLM-r1

為了使SLM能夠自我生成合理的訓練數據，要執行一輪引導訓練，微調初始的強策略模型，記作SLM-r1。

如表2所示，使用DeepSeek-Coder-V2-Instruct（236B）執行MCTS，收集SFT數據。

在這一輪中，由於沒有可用的獎勵模型，因此使用終端引導註釋來標註Q值，並將MCTS的回合數限制為8，以提高效率。對於正確的解答，選擇Q值平均值最高的前兩條軌跡作為SFT數據。

第二輪：訓練可靠的PPM-r2

在這一輪中，使用更新後的7B策略模型SLM-r1，進行大量的MCTS回合以獲取更可靠的Q值標註，並訓練了第一個可靠的獎勵模型PPM-r2。其中，為每個問題執行16輪MCTS回合。生成的逐步驗證推理軌跡在品質和Q值精確度上都有顯著提升。

如表3所示，策略SLM-r2如預期般得到改進；類似的，如表4所示，PPM-r2也比引導輪中的表現更為有效。

第三輪：使用PPM增強的MCTS顯著提高數據品質

在這一輪中，借助可靠的PPM-r2，要執行PPM增強的MCTS以生成數據，從而生成了明顯更高品質的推理軌跡，這些軌跡覆蓋了訓練集中更多的數學和奧林匹克級問題（表2）。

生成的推理軌跡和自註釋的Q值隨後被用於訓練新的策略SLM-r3和PPM-r3，二者均表現出顯著改進。

第四輪：解決高難度的數學問題

在第三輪之後，盡管基礎學科和MATH問題已達到較高的成功率，但只有62.16%的奧林匹克級問題被納入訓練集。

為了提高覆蓋率，采用了一種簡單的策略：對於16輪MCTS回合後仍未解決的問題，增加執行64輪回合，必要時增至128輪。並對不同隨機種子進行多次MCTS擴充套件。成功將奧林匹克級問題的成功率提高至80.58%。

在經過四輪自我前進演化後，747k數學問題中有90.25%成功被納入訓練集，如表2所示。在剩余的未解決問題中，絕大部份是合成問題。

作者隨機檢查了20個問題樣本，發現其中19個被錯誤標註為錯誤答案。因此，得出結論，剩余未解決的問題品質較低，因此在第4輪結束時終止了自我前進演化過程。

小模型擊敗o1，攻克奧賽級難題

表5展示了rStar-Math與最先進推理模型的比較結果。有三點需要強調：

（1）rStar-Math顯著提升了SLM數學推理能力，達到了與OpenAI o1相當或更佳的效能，同時模型規模大大縮小（1.5B-7B）。

（2）盡管使用了更小的策略模型（1.5B-7B）和獎勵模型（7B），rStar-Math仍顯著超越了最先進的系統2基準模型。rStar-Math持續提升了所有基礎模型的推理準確性，達到最先進的水平。

（3）除了像MATH、GSM8K和AIME這樣的知名基準，rStar-Math還在其他高難度的數學基準測試上表現出了強大的泛化能力，包括奧林匹克數學基準、大學數學和國內的高考數學試題。

擴充套件測試時計算

rStar-Math使用MCTS來增強策略模型，依據PPM引導搜尋解決方案。透過增加測試時的計算量，可以探索更多的軌跡，從而間接地提高效能。

在圖3中，透過比較在四個高難度的數學基準上，不同數量的采樣軌跡下，官方Qwen Best-of-N的準確率，展示了測試時計算擴充套件的影響。

僅采樣一條軌跡時，對應策略LLM的Pass@1準確率，表明模型回退到系統1的推理方式。

（1）僅使用4個軌跡，rStar-Math顯著優於Best-of-N基準，超過了o1-preview並接近o1-mini。

（2）擴充套件測試時計算在所有基準上均提高了推理準確率，但提升趨勢有所不同。在Math、AIME和Olympiad Bench上，rStar-Math在64個軌跡時表現出趨於飽和或提升緩慢，而在College Math上，效能持續穩步提升。

關鍵發現

內在自我反思能力的出現

OpenAI o1的一個關鍵突破是其內在的自我反思能力。當模型出錯時，它能夠辨識錯誤並透過正確的答案進行自我修正。然而，在開源的大語言模型中，這一能力通常表現得相當不好。

這次意外地觀察到，MCTS驅動深度思考在問題求解過程中表現出自我反思。如圖4所示，模型最初使用SymPy在前三步中形成一個方程式，但會導致錯誤的答案（左分支）。

有趣的是，在第四步（右分支），策略模型意識到其早期步驟的品質較差，並避免繼續沿著最初的問題求解路徑走下去。相反，它回溯並使用一種新的、更簡單的方法解決問題，最終得出正確答案。值得註意的是，並未包含任何自我反思訓練數據或提示，這表明先進的系統2推理能夠促進內在的自我反思。

PPM決定了系統2的推理上限

實驗表明，一旦策略模型的能力達到相對較強水平，決定效能上限的關鍵因素就是過程偏好模型（PPM）。圖5總結了不同規模策略模型的準確性以及獎勵模型帶來的提升。

盡管由於訓練策略、數據集和模型規模的差異，Pass@1準確性存在變化，但足以證明獎勵模型是系統2推理中的主導因素。

PPM辨識定理套用的步驟

在新的實驗中，發現在rStar-Math的問題求解過程中，PPM能夠有效地辨識過程中關鍵的中間步驟。這些步驟透過高獎勵分數進行預測，引導策略模型生成正確的解決方案。

泛化

rStar-Math提供了一種通用的方法，能提升LLM推理能力，適用於各種領域。

首先，rStar-Math可以推廣到難度更高的數學任務，如定理證明。rStar-Math已展示了證明數學命題的潛力。

其次，rStar-Math還能夠推廣到其他領域，如程式碼推理和常識推理。特別是，生成逐步驗證的訓練軌跡需要一個機制來提供反饋，判斷給定的軌跡是否在MCTS回合結束時達到了預期的輸出。

論文也討論了模型消融並在附錄中給出了更多的實驗細節或結果。