當前位置：華文星空 > 心靈

GPT-5降臨，代號獵戶座？OpenAI疑用草莓訓練，數學推理暴漲

2024-08-28心靈

編輯：Aeneas 好困

【新智元導讀】 OpenAI又憋大招了！據悉，下一代旗艦模型GPT-5或名為「獵戶座」，由「草莓」合成的數據訓練。而草莓具有極強的復雜推理（數學、編程）和語言能力，或將超越當前的任何模型的推理和生成的能力。

OpenAI的下一代旗艦大語言模型，要來了？

據悉，新模型代號Orion（獵戶座），就是能超越GPT-4的下一代模型。

而獵戶座的預訓練數據，正是由草莓模型生成的。

而草莓模型驅動的聊天機器人，很可能就會在今年秋天上線！

關於OpenAI的草莓，外媒The Information最近又挖到了新的細節。

根據The Information的資訊，網友推測：「GPT-4+草莓」會在秋季推出，之後上線的繼任者「獵戶座」可能就是GPT-5。

由於大概率要避開11月，因此，獵戶座的釋出時間要麽在之前要麽是在12月。

甚至，AI大V、Hallid.ai聯創「indigo」提出了一個大膽的猜測：獵戶座或許不是GPT-5，而是GPT-6。

AI大V「Chubby」表示附議。

最後，Chubby激動地表示：所有人都覺得AI的發展正在放緩？並不是。在大公司，廚房裏的東西正在沸騰！

網友們紛紛表示：「我們正在見證一種超越我們自己思想的誕生」。

開啟Q*之門，一切模型憑此叠代。

有人擔心，如果GPT-5控制整個互聯網，人類會從此迷失。

所以，獵戶座到底是GPT-5還是GPT-6呢？網友們各持己見。

但有人猜測，我們目前還沒有足夠的算力來達到GPT-5，更不用說GPT-6了。

透個底，讓美國政府安心

此前，關於草莓的傳聞早已滿天飛。

今年夏天，Sam Altman的團隊已經向美國國家安全官員展示了這項技術。

在安全問題日益敏感的情況下，OpenAI的做法也算給大家打了個樣。

如果政府官員覺得這項AI不安全怎麽辦？那就給他們展示一下。

這次演示，就是OpenAI讓政策制定者覺得更透明的努力的一部份。畢竟，如果他們感覺到受到這項技術的威脅了，很可能就會給公司帶來麻煩。

現在，OpenAI的安全團隊已經出走，憤怒的前員工在網上大肆爆料，這種時候，對政府官員更加透明的做法，就顯得尤為重要。

The Information表示，這次演示還可能另有目的：跟政府隊員就如何保護技術進行對話，以防止美國的AI技術被他國竊取。

說不定，還可以借此機會攻擊Meta一波，因為他們的AI是開放權重的，其他國家想要獲取，是非常容易的事。

總之，未來幾年內，AI開發者應該會經常出現在舊金山和華盛頓之間的航線上了，因為他們時不時就需要跟政府官員來往一下。

草莓：數學提升，能解字謎

一個月前路透社曾報道，OpenAI內部測試了一種AI，在MATH基準上得分超過了90%。

據猜測，這個模型很可能就是草莓。

如今的傳言是，今年秋天OpenAI研究者會推出代號為草莓的新AI（也就是之前的Q*），或許會聊天到ChatGPT之類的聊天機器人中。

它能做到目前的聊天機器人無法做到的很多事情，比如解決未曾遇到的數學問題，還能解決編程難題。

在獲得額外「思考」時間後，草莓模型還可以回答更主觀的問題，比如產品的行銷策略。

據悉，在語言任務上，草莓表現出了強大的能力。比如OpenAI的一位員工曾向同事演示了草莓成功解決【紐約時報】的Connections——復雜的文字謎題。

OpenAI在LLM和會話AI領域的領先地位，一直在遭受沖擊，因此OpenAI只能對外不時放出點草莓的訊息，提升一下自己的存在感。

另外，據說草莓的技術已經顯示出了智能體的能力。

草莓模型似乎能夠自主瀏覽網絡，像人類研究人員一樣，獨立上網、進行深度研究。

它不僅能生成答案，還能規劃、執行一系列復雜任務，還能收集資訊。

與之類似的，還有史丹佛的Quiet-STaR。

就像人類會在說話或寫作前會停下來思考自己的想法一樣，Quiet-STaR可以訓練LLM去生成在復雜推理問題中采取步驟的內部「思考」，從而做出更好的決策。

論文地址：https://arxiv.org/abs/2403.09629

眼下，OpenAI的業務正以驚人的速度增長：跟去年相比，今年它向企業銷售LLM和ChatGPT訂閱的收入大約增加了三倍，達到了每月2.83億美元，盡管公司每月的虧損可能高於此。

目前，OpenAI的私人估值為860億美元。

Sam Altman還希望為公司籌集更多資金，找到減少損失的方法。

自2019年以來，OpenAI已經從微軟籌集了約130億美元，與這家企業軟件巨頭的協定，會持續到2030年。

合作條款可能會發生變化，包括OpenAI向微軟支付租用雲伺服器以開發AI的方式。

雲伺服器，是OpenAI最大的成本。

OpenAI的新希望： Orion （獵戶座）

但說到底，OpenAI的前景終究還是依賴正在開發的新旗艦——Orion。

有人能解釋一下為什麽OpenAI、谷歌和亞馬遜一直用希臘神話來命名他們的模型嗎？

去年初推出後，GPT-4已經被各家趕超得差不多了，現在GPT-4級的模型，可以說是各家人手一個。

有人猜，OpenAI可能會推出一個比原始草莓模型更小、更簡化的模型，也就是蒸餾版。

這個版本被寄望於提升GPT-4和ChatGPT效能，目的是保持和更大模型相同的效能水平，而且更易於操作，成本更低。

另外，還有知情人士透露，OpenAI還在用更大的草莓版本，為Orion的訓練生成數據。

這種人工合成數據，意味著草莓能幫助OpenAI克服獲取高質素數據的限制，從而可以從現實世界數據（比如從互聯網獲取的文本或影像）中訓練新模型。

研究人員表示，使用草莓可以幫助Orion減少幻覺的產生。

這是因為，AI模型是從訓練數據中學習的，所以它們看到的復雜推理的正確範例越多，就越好。

對此，智能體初創公司Minion AI的CEO兼GitHub Copilot前首席架構師Alex Graveley給予了高度厚望。

「想象一個沒有幻覺的模型，一個你問它邏輯難題、它第一次就答對了的模型。」

「訓練數據中存在較少的歧義，因此它的猜測更少。」

The Information猜測，草莓改進的推理能力，可能會整合到ChatGPT中。這些答案可能會更準確，但也可能更慢。

因此，草莓可能並不適合需要即時即時響應的套用。而在GitHub中修復非關鍵編碼錯誤，則是理想的選擇。

或許，以後的ChatGPT使用者，可以根據請求的時間敏感性來切換草莓模型。

Sam Altman在五月的一次活動中曾表示：「我們感覺，為下一個模型準備的數據已經足夠」。

這個模型，很可能指的是就Orion。Altman表示：「我們進行了各種實驗，包括生成合成數據。」

解決復雜數學問題：有前景的套用

如果說目前AI最有前景的套用，那解決復雜數學問題，必然是其中一個了。

畢竟，現有的AI在數學密集的領域如航空航天和結構工程中，表現實在不佳。

各種LLM在回答數學問題時，往往會給出各種讓人啼笑皆非的答案。

而且，數學推理能力的提升還能幫助AI模型更好地推理會話查詢，比如使用者的服務請求。

谷歌和一些初創公司，也在這方面發力。

上個月，谷歌DeepMind開發的AI，已經能在國際數學奧林匹克競賽中擊敗大多數人類參賽者。

OpenAI的另一大競爭對手Anthropic祭出的最新模型，也能編寫更復雜的軟件程式碼，還能回答有關圖表和圖形的問題，這些都要歸功於它推理能力的改進。

還有一些初創公司為了提高模型的推理能力，采用了一種廉價的技巧，將問題分解為更小的步驟，盡管這些方法速度慢且成本高昂。

無論Strawberry是否會作為產品推出，人們對Orion的期望都不會低了，因為OpenAI會力求繼續保持領先地位，同時還要保證顯著的的收入增長。

OpenAI的領先者優勢，已經不明顯了。

雖然在5月宣布了「Her」的版本，但谷歌卻搶先推出了AI驅動的語音助手，後者也足夠靈活，還能處理使用者的打斷，和突然變化的話題。

而Lmsys Chatbot Arena等大模型排行榜上，谷歌、 xAI 、Anthropic和Meta的模型也都在趕上OpenAI的步伐。

Ilya看到了什麽？

值得一提的是，「草莓之父」，其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。

幾年前，Ilya啟動了一個專案，在研究過程中，誕生了草莓。

而在Ilya離職之前，OpenAI的研究人員 Jakub Pachocki 和Szymon Sidor，就已經在Ilya的工作基礎上開發了一個新的數學求解模型Q*，這讓不少關註AI安全的研究人員感到擔憂。

另外，在去年Q*的前期準備中，OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體，目的是提升LLM的問題解決能力。

這樣，LLM就會花更多時間考慮被要求執行的命令，或問題的各個部份。

當時，Ilya發表了一篇與這項工作相關的網誌。

網誌地址：https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/

在網誌中，模型解決了數個有難度的數學問題。

比如在這道有挑戰性的三角函數題中，需要連續套用幾個並不明顯的等式。

在這道題，GPT-4成功執行了一系列復雜的多項式分解。

步驟5中使用的Sophie-Germain恒等式是重要的一步，可以被認為極有洞察力。

在這道題的步驟7和8中，GPT-4開始執行猜測和檢查。

這也是模型可能產生幻覺的常見情況，LLM會聲稱某個特定的猜測是成功的，但實際上並不成功。

在這種情況下，獎勵模型會驗證每個步驟，並確定思路是否正確。

在最後這道題中，模型成功地套用了多個三角恒等式，來簡化了運算式。

或許，我們能從中窺見草莓和Orion的端倪。

參考資料：

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=epv9gi

https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=epv9gi

Copyright © 2025 www.atoomu.net NO.1 華文星空

商務合作：xingwausa#gmail.com（傳送郵件請將#換成@）