當前位置: 華文星空 > 心靈

GPT-5降臨,代號獵戶座?OpenAI疑用草莓訓練,數學推理暴漲

2024-08-28心靈

編輯:Aeneas 好困

【新智元導讀】 OpenAI又憋大招了!據悉,下一代旗艦模型GPT-5或名為「獵戶座」,由「草莓」合成的數據訓練。而草莓具有極強的復雜推理(數學、編程)和語言能力,或將超越當前的任何模型的推理和生成的能力。

OpenAI的下一代旗艦大語言模型,要來了?

據悉,新模型代號Orion(獵戶座),就是能超越GPT-4的下一代模型。

而獵戶座的預訓練數據,正是由草莓模型生成的。

而草莓模型驅動的聊天機器人,很可能就會在今年秋天上線!

關於OpenAI的草莓,外媒The Information最近又挖到了新的細節。

根據The Information的資訊,網友推測:「GPT-4+草莓」會在秋季推出,之後上線的繼任者「獵戶座」可能就是GPT-5。

由於大機率要避開11月,因此, 獵戶座的釋出時間要麽在之前要麽是在12月。

甚至,AI大V、Hallid.ai聯創「indigo」提出了一個大膽的猜測:獵戶座或許不是GPT-5,而是GPT-6。

AI大V「Chubby」表示附議。

最後,Chubby激動地表示:所有人都覺得AI的發展正在放緩?並不是。在大公司,廚房裏的東西正在沸騰!

網友們紛紛表示:「我們正在見證一種超越我們自己思想的誕生」。

開啟Q*之門,一切模型憑此叠代。

有人擔心,如果GPT-5控制整個互聯網,人類會從此迷失。

所以,獵戶座到底是GPT-5還是GPT-6呢?網友們各持己見。

但有人猜測,我們目前還沒有足夠的算力來達到GPT-5,更不用說GPT-6了。

透個底,讓美國政府安心

此前,關於草莓的傳聞早已滿天飛。

今年夏天,Sam Altman的團隊已經向美國國家安全官員展示了這項技術。

在安全問題日益敏感的情況下,OpenAI的做法也算給大家打了個樣。

如果政府官員覺得這項AI不安全怎麽辦?那就給他們展示一下。

這次演示,就是OpenAI讓政策制定者覺得更透明的努力的一部份。畢竟,如果他們感覺到受到這項技術的威脅了,很可能就會給公司帶來麻煩。

現在,OpenAI的安全團隊已經出走,憤怒的前員工在網上大肆爆料,這種時候,對政府官員更加透明的做法,就顯得尤為重要。

The Information表示,這次演示還可能另有目的:跟政府隊員就如何保護技術進行對話,以防止美國的AI技術被他國竊取。

說不定,還可以借此機會攻擊Meta一波,因為他們的AI是開放權重的,其他國家想要獲取,是非常容易的事。

總之,未來幾年內,AI開發者應該會經常出現在舊金山和華盛頓之間的航線上了,因為他們時不時就需要跟政府官員來往一下。

草莓:數學提升,能解字謎

一個月前路透社曾報道,OpenAI內部測試了一種AI,在MATH基準上得分超過了90%。

據猜測,這個模型很可能就是草莓。

如今的傳言是,今年秋天OpenAI研究者會推出代號為草莓的新AI(也就是之前的Q*),或許會聊天到ChatGPT之類的聊天機器人中。

它能做到目前的聊天機器人無法做到的很多事情,比如解決未曾遇到的數學問題,還能解決編程難題。

在獲得額外「思考」時間後,草莓模型還可以回答更主觀的問題,比如產品的行銷策略。

據悉,在語言任務上,草莓表現出了強大的能力。比如OpenAI的一位員工曾向同事演示了草莓成功解決【紐約時報】的Connections——復雜的文字謎題。

OpenAI在LLM和會話AI領域的領先地位,一直在遭受沖擊,因此OpenAI只能對外不時放出點草莓的訊息,提升一下自己的存在感。

另外,據說草莓的技術已經顯示出了智慧體的能力。

草莓模型似乎能夠自主瀏覽網路,像人類研究人員一樣,獨立上網、進行深度研究。

它不僅能生成答案,還能規劃、執行一系列復雜任務,還能收集資訊。

與之類似的,還有史丹佛的Quiet-STaR。

就像人類會在說話或寫作前會停下來思考自己的想法一樣,Quiet-STaR可以訓練LLM去生成在復雜推理問題中采取步驟的內部「思考」,從而做出更好的決策。

論文地址:https://arxiv.org/abs/2403.09629

眼下,OpenAI的業務正以驚人的速度增長:跟去年相比,今年它向企業銷售LLM和ChatGPT訂閱的收入大約增加了三倍,達到了每月2.83億美元,盡管公司每月的虧損可能高於此。

目前,OpenAI的私人估值為860億美元。

Sam Altman還希望為公司籌集更多資金,找到減少損失的方法。

自2019年以來,OpenAI已經從微軟籌集了約130億美元,與這家企業軟體巨頭的協定,會持續到2030年。

合作條款可能會發生變化,包括OpenAI向微軟支付租用雲伺服器以開發AI的方式。

雲伺服器,是OpenAI最大的成本。

OpenAI的新希望: Orion (獵戶座)

但說到底,OpenAI的前景終究還是依賴正在開發的新旗艦——Orion。

有人能解釋一下為什麽OpenAI、谷歌和亞馬遜一直用希臘神話來命名他們的模型嗎?

去年初推出後,GPT-4已經被各家趕超得差不多了,現在GPT-4級的模型,可以說是各家人手一個。

有人猜,OpenAI可能會推出一個比原始草莓模型更小、更簡化的模型,也就是蒸餾版。

這個版本被寄望於提升GPT-4和ChatGPT效能,目的是保持和更大模型相同的效能水平,而且更易於操作,成本更低。

另外,還有知情人士透露,OpenAI還在用更大的草莓版本,為Orion的訓練生成數據。

這種人工合成數據,意味著草莓能幫助OpenAI克服獲取高品質數據的限制,從而可以從現實世界數據(比如從互聯網獲取的文本或影像)中訓練新模型。

研究人員表示,使用草莓可以幫助Orion減少幻覺的產生。

這是因為,AI模型是從訓練數據中學習的,所以它們看到的復雜推理的正確範例越多,就越好。

對此,智慧體初創公司Minion AI的CEO兼GitHub Copilot前首席架構師Alex Graveley給予了高度厚望。

「想象一個沒有幻覺的模型,一個你問它邏輯難題、它第一次就答對了的模型。」

「訓練數據中存在較少的歧義,因此它的猜測更少。」

The Information猜測,草莓改進的推理能力,可能會整合到ChatGPT中。這些答案可能會更準確,但也可能更慢。

因此,草莓可能並不適合需要即時即時響應的套用。而在GitHub中修復非關鍵編碼錯誤,則是理想的選擇。

或許,以後的ChatGPT使用者,可以根據請求的時間敏感性來切換草莓模型。

Sam Altman在五月的一次活動中曾表示:「我們感覺,為下一個模型準備的數據已經足夠」。

這個模型,很可能指的是就Orion。Altman表示:「我們進行了各種實驗,包括生成合成數據。」

解決復雜數學問題:有前景的套用

如果說目前AI最有前景的套用,那解決復雜數學問題,必然是其中一個了。

畢竟,現有的AI在數學密集的領域如航空航天和結構工程中,表現實在不佳。

各種LLM在回答數學問題時,往往會給出各種讓人啼笑皆非的答案。

而且,數學推理能力的提升還能幫助AI模型更好地推理會話查詢,比如使用者的服務請求。

谷歌和一些初創公司,也在這方面發力。

上個月,谷歌DeepMind開發的AI,已經能在國際數學奧林匹克競賽中擊敗大多數人類參賽者。

OpenAI的另一大競爭對手Anthropic祭出的最新模型,也能編寫更復雜的軟體程式碼,還能回答有關圖表和圖形的問題,這些都要歸功於它推理能力的改進。

還有一些初創公司為了提高模型的推理能力,采用了一種廉價的技巧,將問題分解為更小的步驟,盡管這些方法速度慢且成本高昂。

無論Strawberry是否會作為產品推出,人們對Orion的期望都不會低了,因為OpenAI會力求繼續保持領先地位,同時還要保證顯著的的收入增長。

OpenAI的領先者優勢,已經不明顯了。

雖然在5月宣布了「Her」的版本,但谷歌卻搶先推出了AI驅動的語音助手,後者也足夠靈活,還能處理使用者的打斷,和突然變化的話題。

而Lmsys Chatbot Arena等大模型排行榜上,谷歌、 xAI 、Anthropic和Meta的模型也都在趕上OpenAI的步伐。

Ilya看到了什麽?

值得一提的是,「草莓之父」,其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。

幾年前,Ilya啟動了一個計畫,在研究過程中,誕生了草莓。

而在Ilya離職之前,OpenAI的研究人員 Jakub Pachocki 和Szymon Sidor,就已經在Ilya的工作基礎上開發了一個新的數學求解模型Q*,這讓不少關註AI安全的研究人員感到擔憂。

另外,在去年Q*的前期準備中,OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體,目的是提升LLM的問題解決能力。

這樣,LLM就會花更多時間考慮被要求執行的命令,或問題的各個部份。

當時,Ilya發表了一篇與這項工作相關的部落格。

部落格地址:https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/

在部落格中,模型解決了數個有難度的數學問題。

比如在這道有挑戰性的三角函式題中,需要連續套用幾個並不明顯的等式。

在這道題,GPT-4成功執行了一系列復雜的多項式分解。

步驟5中使用的Sophie-Germain恒等式是重要的一步,可以被認為極有洞察力。

在這道題的步驟7和8中,GPT-4開始執行猜測和檢查。

這也是模型可能產生幻覺的常見情況,LLM會聲稱某個特定的猜測是成功的,但實際上並不成功。

在這種情況下,獎勵模型會驗證每個步驟,並確定思路是否正確。

在最後這道題中,模型成功地套用了多個 三角恒等式 ,來簡化了運算式。

或許,我們能從中窺見草莓和Orion的端倪。

參考資料:

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=epv9gi

https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=epv9gi