當前位置: 華文星空 > 心靈

九曲黃河富寧夏,人工智能富了金山雲

2024-09-26心靈

黃河發源於青藏高原巴顏喀拉山北麓,全長約 5464 公裏,自西向東流經9個省市自治區,黃河所到之處,河水泛濫帶來無窮災難,但也有例外就是寧夏,素有九曲黃河富寧夏的說法。

如今,以生成式AI為代表的人工智能技術來勢洶洶,誰能夠抓住機會,就能立於不敗之地。從最新第二季度財報顯示:金山雲的人工智能業務表現亮眼,第二季度收入大幅增長至3.26億元,占公有雲收入的26%,環比翻倍,在行業中處於領先地位,顯現出其在人工智能領域的潛力及對機遇的把握。數據顯示,金山雲第二季度整體營收為18.9億元,較去年同期增長3.1%,環比增長6.5%。其中,公有雲收入達12.3億元,同比增長6.5%,行業雲收入為6.6億元。

金山雲做對了什麽?有哪些成功的技術策略?

為此,記者采訪了金山雲高級副總裁劉濤,希望從中一探究竟。

金山雲高級副總裁劉濤

「答案是圍繞智算雲所進行的一系列產品升級和落地探索。」 劉濤開門見山地說。

劉濤表示:「作為一家深耕雲賽道十余載的中立雲服務商,金山雲一直重視技術創新和客戶體驗,始終保持與前沿技術同頻,以契合多元化的客戶業務新需求。」

這裏的 「中立」非常重要。試想如果「金山系」、「雷系」也把大模型作為自己的賽道,即使你有強大的算力基礎設施和技術作為支撐,但戰略上競爭和沖突,一定會讓其他大模型廠家敬而遠之。

「中立」優勢也收獲了客戶認可。目前專業大模型市場排前列的公司,大多都選擇了金山雲。從規模上看,一個大型的算力集群,不僅是算力,更是對規模組網能力的考驗。

劉濤表示:高頻寬是被GenAI催生出來的需求,技術本身沒有那麽成熟,其結果就會出現效能上的抖動。此外,多達上萬根的網絡布線在工程上也容易造成差錯,這些都是網絡層面必須要解決的工程難題。

「我們透過過去大概一年左右時間磨合,解決了大型集群能力的交付問題。我們自研的RoCE網絡監控平台提供集群端側和網側的基礎資訊與指標、網絡故障感知和告警、主動排障能力;在GPU自動化運維外掛程式方面,透過整合資源管理、硬件監控和Kubernetes排程能力,實作秒級故障感知、分鐘級完成故障自愈動作。」劉濤說。

金山雲另外一個優勢:大數據集群的能力也發揮了作用。

針對大模型訓練中的CheckPoint快速保存問題,金山雲提供了兩套方案:1.高效能全閃檔案系統可提供高達500GB/s的並列寫入能力;2.並列檔閘道器加上全快閃記憶體儲物件組合的解決方案,提供數十GB/s的寫入能力。其中,前者用於模型訓練緩存,後者用於數據儲存。以Llama 70B訓練中的CheckPoint為例,金山雲的CheckPoint寫入最佳化方案可以實作訓練中斷時間小於15s。

劉濤強調:專業大模型廠商往往會有都有自己的工程、任務排程、故障處理和檔原數的管理的平台,但是對於一些偏重套用類別的使用者,他們沒有那麽強的管理和排程能力,以及CheckPoint的寫入最佳化能力,也沒有故障自愈恢復能力,他們希望雲廠商能夠提供一站式的服務。從數據的管理、清洗,到標註,金山雲瀚海平台能夠幫助使用者更好地處理和利用數據,從而提高模型訓練效果。此外,為了幫助大模型套用到業務場景,金山雲瀚海平台提供了豐富的工具和介面,並協助使用者進行業務系統的整合、模型的調優和適配等問題。這涉及到數據配方管理、SFT(Supervised Fine-Tuning,有監督微調)等技術,金山雲有足夠經驗和能力幫助到使用者。

同時,針對生成式AI客戶對數據清洗的需求,金山雲還整合星曜裸金屬伺服器EPC、大數據平台KMR和物件儲存KS3推出了針對該場景的數據清洗解決方案,滿足預訓練數據集、微調數據集生成對於數據清洗的需求。

針對智駕等場景,金山雲還提供公有雲專區解決方案,這是一種創新的分布式雲建設模式,能夠滿足客戶對數據安全和合規性的高要求。金山雲與客戶私有雲環境的身份驗證系統進行整合,實作了統一的管理界面和API支持,為客戶提供了便捷的使用體驗。

用劉濤的話說:你想要算力,我可以提供;你想訓模型,我可以輔助;工程上遇到問題,我可以做咨詢;涉及大模型落地,我可以幫你梳理需要解決的問題。從這個維度來看,金山雲可以被稱為一站式MaaS解決方案服務商。

「在全球算力需求快速增長的當下,金山雲將持續打磨核心技術,攜手生態合作夥伴加速創新技術轉化,為行業和企業的高質發展提供助力。」劉濤說。

前不久,金山雲基於與英特爾長期緊密合作以及對其產品在業務表現上的信心,釋出了基於英特爾®至強®6能效核處理器的第九代雲伺服器高效型SE9,在整機效能提升的同時,核心密度翻倍,充分釋放技術紅利。相較於線上主售機型,SE9單核效能提升30%,性價比提升超60%,最大套餐規格支持256核512G;在記憶體效能上,SE9的單CPU支持8個DDR5記憶體通道,頻率高達6400MT/s,非一致性記憶體存取效率更優;在網絡能力上,物理網絡支持至2x100G,能夠提供最高單虛機2400萬PPS,支持單虛機內網吞吐最高可達100G,單虛機連線數最高可達400萬;在儲存能力上,搭載極速雲盤ESSD,最高可支持單盤吞吐1GB/s、12萬IOPS,存取時延低至0.2ms。

劉濤表示,GenAI將是一場深刻的革命,從大模型到自動駕駛、機器人套用等很多領域,人工智能技術的加持,就像大腦一樣,為業務場景化註入了靈魂,勢必會帶來翻天覆地的變化。

雷軍說過:「站在風口,豬也能夠飛上天」。

這一次,卡位GenAI的賽道,金山雲再一次證明了自己的眼光和實力,成績的取得,不過是水到渠成。