全球範圍內大模型技術的競爭速度正日益加快。據媒體報道,馬斯克僅用 19 天便成功打造出全球最強的「超算工廠」!文章稱,這座「超算工廠」配備了多達 10 萬塊液冷 p00 GPU,已然成為全球規模最大的超算集群。此新聞一出,超算技術瞬間成為了眾人矚目的焦點。
為何馬斯克要構建超算工廠以在 AI 賽道上展開角逐呢?原因在於,若要開發出能與現有領先大模型相抗衡的產品,就必須構建足以支持大規模模型訓練的計算基礎設施。並且,超算在大模型訓練中所發揮的作用,絕非僅僅是提供強大的計算能力,還涵蓋了對訓練流程中各個環節的最佳化,以此確保大模型能夠在有限的時間內實作最佳效能。
中國專家也持有相似的看法。在近日舉行的 2024 中國算力發展專家研討會上,面對美國禁止銷售高端 GPU、終止大模型原始碼分享以及中斷生態合作等一系列問題,專家們表示,透過超算技術就能夠有效應對。
此外,馬斯克用於大模型開發的超級電腦屬於 AI 專用超算。超級電腦分為通用超級電腦和專用超級電腦?為何馬斯克選擇的是專用超算呢?
專用超算成為解決特定問題的殺手鐧
通用超算與專用超算的區別是,通用超算具備廣泛的適用性,能夠處理各種各樣的計算任務,例如科學計算、數據分析、數值模擬等。它就像是一個多面手,可以應對多種不同型別和規模的問題。而專用超算則是為特定套用領域而生,其硬體和軟體配置都是為了滿足特定需求而設計,以便實作更高的效能和效率。
在大模型訓練的場景下,專用超算透過針對特定演算法和數據結構的硬體架構和軟體最佳化,減少了不必要的計算開銷,提高了計算資源的利用率。這種最佳化不僅適用於大模型訓練本身,還包括了數據預處理、模型偵錯、效能調優等多個環節,從而實作了整個訓練流程的高效執行。
中國科學院計算技術研究所研究員張雲泉曾指出,「當大模型需要1萬至10萬個GPU時,透過開發專用超級電腦克服高能耗、可靠性問題和並列處理限制是至關重要的」。
可見,專用超算是解決特定問題的殺手鐧。
各行各業都在用 「 專用超算 」 搶占有利競爭
其實,除了大模型賽道的「AI超算」外,各行各業都在使用「專用超算」搶占有利競爭。
例如,除了構建超算工廠外,馬斯克旗下公司特斯拉的Dojo就是一款專為大規模機器學習訓練而設計的專用超級電腦。這款超級電腦特別針對特斯拉自動駕駛技術的需求進行了最佳化,能夠高效處理和訓練來自特斯拉車隊產生的大量視訊數據。Dojo的設計重點在於提高計算效率和降低能耗,透過高度客製化的硬體和軟體解決方案,能夠顯著減少訓練時間並提升模型的準確性。
DOJO超級電腦
還例如,安騰(Anton)超級電腦是特殊設計的、專門為生物分子動力學模擬研發的專用超級電腦,其計算效率比全球最強的通用超算高出數十倍。在美國AI制藥公司Relay Therapeutics的案例中,借助安騰超級電腦的幫助,該公司僅用了18個月、不到1億美元就確認了一款創新藥物的結構,打破了傳統的「雙十」禁錮——即通常情況下研發一款新藥需要花費10億美元、耗時10年。
美國安騰超級電腦
專用超算領域也需警惕 「 卡脖子 」
隨著專用超算被越來越重視,我們也需要警惕可能出現的「卡脖子」現象。
眾所周知,輝達p00 GPU的采購受到限制,這使得我們在Scale Law方面難以跟進。而在超算領域也有類似的趨勢。
目前,世界上僅有的幾台安騰超級電腦分別安置在匹茲堡超算中心和位於紐約市的D. E. Shaw研究所中。超算安騰的上機時間根據送出給美國國家科學院獨立專家委員會的研究提案分配,只接受美國學術機構的使用申請,嚴格禁止中國等其他國家使用。
據環球時報報道,「超算曾經是中美之間科技合作交流很密切的領域,如今超算國際交流領域中也是雷區重重。2021年4月,美國商務部將7個中國超算實體列入所謂「實體清單」,聲稱其涉嫌「破壞軍事現代化的穩定」。中國發展超算技術動輒被扣上「威脅美國國家安全」的帽子,並遭到無理的單邊制裁。全球超算TOP500排行榜每半年更新一次,中國、日本和美國超算都曾奪得「全球最快超算」的桂冠。但這兩年中國最領先的超算企業都不敢再參加TOP500的評選,原因是在該榜單上表現突出的企業有可能被美國列入黑名單、遭到更嚴厲制裁。」
可見,專用超算將是全球領域的「下一個風口」,而中國應警惕美式霸權主義,需要積極研發具有自主智慧財產權的專用超算技術和產品,從而減少對國外技術的依賴。