編輯:Aeneas 好困
【新智元導讀】 OpenAI又憋大招了!據悉,下一代旗艦模型GPT-5或名為「獵戶座」,由「草莓」合成的數據訓練。而草莓具有極強的復雜推理(數學、編程)和語言能力,或將超越當前的任何模型的推理和生成的能力。
OpenAI的下一代旗艦大語言模型,要來了?
據悉,新模型代號Orion(獵戶座),就是能超越GPT-4的下一代模型。
而獵戶座的預訓練數據,正是由草莓模型生成的。
而草莓模型驅動的聊天機器人,很可能就會在今年秋天上線!
關於OpenAI的草莓,外媒The Information最近又挖到了新的細節。
根據The Information的資訊,網友推測:「GPT-4+草莓」會在秋季推出,之後上線的繼任者「獵戶座」可能就是GPT-5。
由於大機率要避開11月,因此, 獵戶座的釋出時間要麽在之前要麽是在12月。
甚至,AI大V、Hallid.ai聯創「indigo」提出了一個大膽的猜測:獵戶座或許不是GPT-5,而是GPT-6。
AI大V「Chubby」表示附議。
最後,Chubby激動地表示:所有人都覺得AI的發展正在放緩?並不是。在大公司,廚房裏的東西正在沸騰!
網友們紛紛表示:「我們正在見證一種超越我們自己思想的誕生」。
開啟Q*之門,一切模型憑此叠代。
有人擔心,如果GPT-5控制整個互聯網,人類會從此迷失。
所以,獵戶座到底是GPT-5還是GPT-6呢?網友們各持己見。
但有人猜測,我們目前還沒有足夠的算力來達到GPT-5,更不用說GPT-6了。
透個底,讓美國政府安心
此前,關於草莓的傳聞早已滿天飛。
今年夏天,Sam Altman的團隊已經向美國國家安全官員展示了這項技術。
在安全問題日益敏感的情況下,OpenAI的做法也算給大家打了個樣。
如果政府官員覺得這項AI不安全怎麽辦?那就給他們展示一下。
這次演示,就是OpenAI讓政策制定者覺得更透明的努力的一部份。畢竟,如果他們感覺到受到這項技術的威脅了,很可能就會給公司帶來麻煩。
現在,OpenAI的安全團隊已經出走,憤怒的前員工在網上大肆爆料,這種時候,對政府官員更加透明的做法,就顯得尤為重要。
The Information表示,這次演示還可能另有目的:跟政府隊員就如何保護技術進行對話,以防止美國的AI技術被他國竊取。
說不定,還可以借此機會攻擊Meta一波,因為他們的AI是開放權重的,其他國家想要獲取,是非常容易的事。
總之,未來幾年內,AI開發者應該會經常出現在舊金山和華盛頓之間的航線上了,因為他們時不時就需要跟政府官員來往一下。
草莓:數學提升,能解字謎
一個月前路透社曾報道,OpenAI內部測試了一種AI,在MATH基準上得分超過了90%。
據猜測,這個模型很可能就是草莓。
如今的傳言是,今年秋天OpenAI研究者會推出代號為草莓的新AI(也就是之前的Q*),或許會聊天到ChatGPT之類的聊天機器人中。
它能做到目前的聊天機器人無法做到的很多事情,比如解決未曾遇到的數學問題,還能解決編程難題。
在獲得額外「思考」時間後,草莓模型還可以回答更主觀的問題,比如產品的行銷策略。
據悉,在語言任務上,草莓表現出了強大的能力。比如OpenAI的一位員工曾向同事演示了草莓成功解決【紐約時報】的Connections——復雜的文字謎題。
OpenAI在LLM和會話AI領域的領先地位,一直在遭受沖擊,因此OpenAI只能對外不時放出點草莓的訊息,提升一下自己的存在感。
另外,據說草莓的技術已經顯示出了智慧體的能力。
草莓模型似乎能夠自主瀏覽網路,像人類研究人員一樣,獨立上網、進行深度研究。
它不僅能生成答案,還能規劃、執行一系列復雜任務,還能收集資訊。
與之類似的,還有史丹佛的Quiet-STaR。
就像人類會在說話或寫作前會停下來思考自己的想法一樣,Quiet-STaR可以訓練LLM去生成在復雜推理問題中采取步驟的內部「思考」,從而做出更好的決策。
論文地址:https://arxiv.org/abs/2403.09629
眼下,OpenAI的業務正以驚人的速度增長:跟去年相比,今年它向企業銷售LLM和ChatGPT訂閱的收入大約增加了三倍,達到了每月2.83億美元,盡管公司每月的虧損可能高於此。
目前,OpenAI的私人估值為860億美元。
Sam Altman還希望為公司籌集更多資金,找到減少損失的方法。
自2019年以來,OpenAI已經從微軟籌集了約130億美元,與這家企業軟體巨頭的協定,會持續到2030年。
合作條款可能會發生變化,包括OpenAI向微軟支付租用雲伺服器以開發AI的方式。
雲伺服器,是OpenAI最大的成本。
OpenAI的新希望: Orion (獵戶座)
但說到底,OpenAI的前景終究還是依賴正在開發的新旗艦——Orion。
有人能解釋一下為什麽OpenAI、谷歌和亞馬遜一直用希臘神話來命名他們的模型嗎?
去年初推出後,GPT-4已經被各家趕超得差不多了,現在GPT-4級的模型,可以說是各家人手一個。
有人猜,OpenAI可能會推出一個比原始草莓模型更小、更簡化的模型,也就是蒸餾版。
這個版本被寄望於提升GPT-4和ChatGPT效能,目的是保持和更大模型相同的效能水平,而且更易於操作,成本更低。
另外,還有知情人士透露,OpenAI還在用更大的草莓版本,為Orion的訓練生成數據。
這種人工合成數據,意味著草莓能幫助OpenAI克服獲取高品質數據的限制,從而可以從現實世界數據(比如從互聯網獲取的文本或影像)中訓練新模型。
研究人員表示,使用草莓可以幫助Orion減少幻覺的產生。
這是因為,AI模型是從訓練數據中學習的,所以它們看到的復雜推理的正確範例越多,就越好。
對此,智慧體初創公司Minion AI的CEO兼GitHub Copilot前首席架構師Alex Graveley給予了高度厚望。
「想象一個沒有幻覺的模型,一個你問它邏輯難題、它第一次就答對了的模型。」
「訓練數據中存在較少的歧義,因此它的猜測更少。」
The Information猜測,草莓改進的推理能力,可能會整合到ChatGPT中。這些答案可能會更準確,但也可能更慢。
因此,草莓可能並不適合需要即時即時響應的套用。而在GitHub中修復非關鍵編碼錯誤,則是理想的選擇。
或許,以後的ChatGPT使用者,可以根據請求的時間敏感性來切換草莓模型。
Sam Altman在五月的一次活動中曾表示:「我們感覺,為下一個模型準備的數據已經足夠」。
這個模型,很可能指的是就Orion。Altman表示:「我們進行了各種實驗,包括生成合成數據。」
解決復雜數學問題:有前景的套用
如果說目前AI最有前景的套用,那解決復雜數學問題,必然是其中一個了。
畢竟,現有的AI在數學密集的領域如航空航天和結構工程中,表現實在不佳。
各種LLM在回答數學問題時,往往會給出各種讓人啼笑皆非的答案。
而且,數學推理能力的提升還能幫助AI模型更好地推理會話查詢,比如使用者的服務請求。
谷歌和一些初創公司,也在這方面發力。
上個月,谷歌DeepMind開發的AI,已經能在國際數學奧林匹克競賽中擊敗大多數人類參賽者。
OpenAI的另一大競爭對手Anthropic祭出的最新模型,也能編寫更復雜的軟體程式碼,還能回答有關圖表和圖形的問題,這些都要歸功於它推理能力的改進。
還有一些初創公司為了提高模型的推理能力,采用了一種廉價的技巧,將問題分解為更小的步驟,盡管這些方法速度慢且成本高昂。
無論Strawberry是否會作為產品推出,人們對Orion的期望都不會低了,因為OpenAI會力求繼續保持領先地位,同時還要保證顯著的的收入增長。
OpenAI的領先者優勢,已經不明顯了。
雖然在5月宣布了「Her」的版本,但谷歌卻搶先推出了AI驅動的語音助手,後者也足夠靈活,還能處理使用者的打斷,和突然變化的話題。
而Lmsys Chatbot Arena等大模型排行榜上,谷歌、 xAI 、Anthropic和Meta的模型也都在趕上OpenAI的步伐。
Ilya看到了什麽?
值得一提的是,「草莓之父」,其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。
幾年前,Ilya啟動了一個計畫,在研究過程中,誕生了草莓。
而在Ilya離職之前,OpenAI的研究人員 Jakub Pachocki 和Szymon Sidor,就已經在Ilya的工作基礎上開發了一個新的數學求解模型Q*,這讓不少關註AI安全的研究人員感到擔憂。
另外,在去年Q*的前期準備中,OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體,目的是提升LLM的問題解決能力。
這樣,LLM就會花更多時間考慮被要求執行的命令,或問題的各個部份。
當時,Ilya發表了一篇與這項工作相關的部落格。
部落格地址:https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/
在部落格中,模型解決了數個有難度的數學問題。
比如在這道有挑戰性的三角函式題中,需要連續套用幾個並不明顯的等式。
在這道題,GPT-4成功執行了一系列復雜的多項式分解。
步驟5中使用的Sophie-Germain恒等式是重要的一步,可以被認為極有洞察力。
在這道題的步驟7和8中,GPT-4開始執行猜測和檢查。
這也是模型可能產生幻覺的常見情況,LLM會聲稱某個特定的猜測是成功的,但實際上並不成功。
在這種情況下,獎勵模型會驗證每個步驟,並確定思路是否正確。
在最後這道題中,模型成功地套用了多個 三角恒等式 ,來簡化了運算式。
或許,我們能從中窺見草莓和Orion的端倪。
參考資料:
https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=epv9gi
https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=epv9gi