當前位置: 華文星空 > 心靈

不僅「私人客製」還要「精裝算力」 智算中心投建進入2.0時代

2024-12-20心靈

IT時報記者 郝俊慧

ChatGPT橫空出世兩年之後,一個共識逐漸在全球形成:通用大模型不是解決一切問題的「靈丹妙藥」,汽車、醫療、金融等專業領域的問題仍需要垂類大模型「定點突破」,作為人工智能發展的新型基礎設施底座,一路狂飆的算力建設由此進入轉折期。

整體而言,算力中心整體速度在放緩,智能算力需求仍將持續爆炸式增長,但算力大模型尤其是垂類大模型的發展,對智算中心提出了更高要求,精細化、一體化、綠色化是智算中心高質素發展的必然方向,而投建邏輯將進入服務為主的2.0時代。

不久前,國內伺服器廠商寧暢提出「精裝算力」概念,以場景驅動為主,為互聯網、汽車、制造、科研、醫療、通訊等行業提供客製化的智算中心解決方案,也即打造「算力精裝房」,提供軟硬一體、全棧全液的整體算力服務,讓大模型訓推「拎包入住」。

「純堆卡式」智算中心亟需降溫

前段時間的「2024年國際算力標準與套用研討會」上,中國信通院雲端運算與大數據研究所所長何寶宏指出,智算中心作為新一代資訊科技的重要樞紐,為數碼經濟發展註入新動能,智算資源供給卻並不平衡,高端算力市場短缺,而中低端算力市場則出現了供過於求的現象。

據賽迪顧問的數據, 截至2024年上半年,國內已經建設和正在建設的智算中心超過250個,2024年上半年智算中心招投標相關事件791起,同比增長高達407.1%。

這些智算中心背後,除了三大營運商、互聯網大廠和地方政府之外,還有一大部份是「跨界選手」。

同花順查詢可知,截至12月17日,有「算力租賃」概念的上市公司有110家,其中不乏蓮花控股、錦雞股份、日料化學、大名城等主業原本是食品、化工、房產等企業。

然而,潮水來得快,去得也快。

智算中心的建設難度遠高於傳統IDC,網絡、排程、運維、能耗、安全每一關都不好闖,能夠真正支持大模型預訓練的萬卡集群,甚至十萬卡集群,遠不是囤卡就能解決。

今年一家電訊供應商在釋出其國產萬卡集群時,便反復強調,自己是真萬卡集群,實作的是單池萬卡能力,采用了創新式的「魔術方塊」三層立體架構。但除了電訊供應商、雲廠商和互聯網大廠之外,鮮有「跨界選手」能真正做到如此規模。

既然做不到,自然只能「卷」低端算力供應賽道。

11月12日,錦雞股份公告,公司全資子公司英智創新今年1月與締息雲聯價值超過9個億的算力租賃合約終止,原因是算力市場劇烈變化,根據此前公告,締息雲聯將為英智創新的2048P算力提供每年1.844億元的租賃費。

但今年以來,無論是GPU的價格,還是算力租賃價格,都在回落。去年,8卡p00伺服器的價格一般在300萬元以上,如今價格已降至230萬元至240萬元左右,而每小時的算力租賃價格從最高時的每月11萬元降至現在的7~8萬元。

降價的背後是閑置。

多位智算中心人士告訴記者,算力不好賣,盡管輿論場裏人工智能是今年最大的「網紅」,但實際上,真正落地的套用並不多,「市場沒有想象中那麽大。」另一方面,由於生態還不完善,基於國產卡的算力集群需要與大模型廠商做長期的適配偵錯,銷售情況也不樂觀。

據鈦媒體的統計,上半年國內已上線智算中心17億卡時,使用5.6億卡時,利用率32%;另有數據顯示,目前算力基礎設施行業的平均上架率不足 60%。

面對ROI(投資回報率)的拷問,大多數智算中心並沒給出令人滿意的答案。

大模型帶著智算一起轉向

與此同時,大模型市場的轉向,為智算中心的投建指出新的方向。

基座大模型玩家將越來越少,面向行業的垂類大模型正逐漸增多,AI正在進入工業設計仿真、端到端智駕、金融分析、生物科學、智慧醫療等領域,發揮生產力作用。

在今年9月舉行的中國算力大會上,工業和資訊化部總工程師趙誌國透露,算力套用專案已超過1.3萬個。AI套用端公司也將逐步進入AI技術兌現階段,尤其是人工智能生成內容(AIGC)將迎來爆發式增長,據彭博預測,全球AIGC套用市場的規模預計將從2022年的18.6億美元增長到2032年的6618億美元,年均復合增長率達到80%。

這些變化都意味著,算力投資的邊際增量依然很高。警惕智算中心建設的盲目跟風,不是不建,而是投資人要先想好一個問題:市場需要怎樣的智算中心?

隨著越來越多業務智能化的需求,傳統算力服務單一供給模式顯然已難以滿足行業服務鏈不斷延伸的需求,智算中心的梯度布局將越來越明顯,並呈現出更加多元化的趨勢:技術和投資門檻高、可支持超大參數規模大模型的萬卡集群,將更多集中在電訊供應商、雲服務商、互聯網大廠等金字塔頂端的公司手中,而以場景驅動、為大模型預訓練和推理提供「交鑰匙型」服務的專業型智算中心將成為「橄欖型」市場的主流。

中國信通院今年9月釋出的【中國智算中心服務發展報告】指出,智算中心應該提供資訊計算力、網絡運載力、數據儲存力為一體,覆蓋從基礎設施建設到行業智能套用全過程,最終將基礎設施、模型開發與支持及行業場景套用一體化交付的服務模式。

市場反饋也印證了這個判斷。很多智算服務商都在提供類似一體化的服務。

寧暢的「精裝算力」概念,同樣旨在為客戶提供智算中心全棧解決方案,基於寧暢伺服器的算力基礎設施、集群管理平台和大模型平台,提供軟硬件一體的一站式交付,讓算力資源能夠高效、精準地滿足各類復雜業務場景,讓大模型「拎包入住」。

「精裝算力」破題「不可能三角」

寧暢的「精裝修」方案市場定位非常清晰,針對場景,為互聯網、汽車、制造、科研、醫療、通訊企業提供智算中心或者行業解決方案,讓這些行業垂類大模型可以「拎包入住」。

不過,要想讓客戶體驗最佳,建設者要在技術領先、降本增效和綠色節能的「不可能三角」中尋找最優解。

智算技術更新叠代很快,智算中心的生命周期一般只有5至10年,建設者必須具備強大的技術儲備和升級能力,加上受限於輝達芯片限售,國產芯片百花齊放的同時,也讓智算中心容易陷入異構算力的「陷阱」。

不同供應商提供的多種硬件和軟件產品使得資源排程變得異常復雜,不同廠家的GPU驅動、軟件開發介面或執行時間等方面都存在不相容之處,甚至同一廠家不同代際產品想要統一排程,也有難度,以至於不同廠商的硬件資源難以高效連線,使用時也容易「旱澇不均」。

此外,垂類大模型在細分行業落地過程中,面臨的算效、適配、套用、安全等問題也日益復雜,這類智算中心大多由本行業巨頭或者鏈主單位自行投建,算力和投資規模適中,也是「跨界選手」比較青睞的標的。如何在有限的資金範圍內,不僅解決復雜部署、呼叫、運維等問題,同時讓AI套用的算力、演算法、數據使用偵錯到最適合套用場景的狀態,需要建設方提供系統性、全方位、全周期的支持。

至於能耗,更可能是智算中心投建即將面臨的最大門檻。

7月,國家發改委、工信部、能源局與數據局印發【數據中心綠色低碳發展專項行動計劃】,明確到2025年底全國平均PUE(數據中心能耗相對關鍵IT器材能耗的比例)降至1.5以下,到2030年能效利用率達到國際先進水平。此外,不少地方政府正在嚴控能耗指標,北京、河北、上海、廣東、深圳等地對新建數據中心的能耗、選址等都提出了一系列要求,要求對建設主體資格、管理制度、
財務狀況、技術創新、資金投入、合作開發、地理位置以及綠色能源使用等多項內容進行檢查審批,給一線城市及周邊地區的智算中心建設帶來相當難度。

寧暢的「精裝修」方案試圖解開這道「奧數題」,推出的AI算力棧,可以透過深入了解使用者的業務場景和算力需求,為使用者量身客製算力解決方案。

在「硬裝修」上,寧暢的方案實作了全棧全液,提供覆蓋伺服器、機櫃、數據中心等多形態的液冷選擇,支持多種散熱硬件的自由組合,透過液冷、風冷或風液混合等不同組合方案,實作效能與能效的絕佳平衡。

大模型的套用場景與實際問題緊密相關,不同行業不同場景的客製化方案需要技術開發、數據利用、計算資源分配等多方面的服務支撐。

在「軟裝修」上,寧暢提供從集群到算子再到模型軟件最佳化的全域服務和涵蓋算存網管用全體系最佳化,基於寧暢GPU伺服器和AI Manager管理平台,整合軟件資源,協助客戶高效構建大模型需要的基礎設施,從而讓客戶更關註於套用層面的落地。

總而言之,無論是大模型的前進演化路線,還是算力中心的建設走勢,都指向一個共同的未來:人工智能正成為真正「有意義的AI」,但從「可用」跨越到「好用」,再從「好用」到「高效」的背後,一定是可便捷獲取的算力,以及新型資訊基礎設施建設者的不斷創新。