當前位置: 華文星空 > 心靈

阿裏雲釋出全棧AI負載高可用 與使用者共建AI時代雲上IT新治理

2024-12-28心靈

12月17日上午,在中國資訊通訊研究院主辦的2024第五屆「GOLF+IT新治理領導力論壇」主論壇上,阿裏雲重磅釋出了全棧AI負載高可用架構,以滿足AI大模型企業級套用在大規模參數量、復雜結構和高效能算力背景下,對雲服務處理能力可延伸性、服務連續性、服務質素和故障快速恢復的需求。

以為生成式 AI 打造持續的卓越使用者體驗為目的,阿裏雲全棧AI負載高可用架構可達到GPU故障預測準確率92%,千卡規模集群連續訓練有效時長大於99%,秒級模型自動保存、分鐘級故障恢復;每分鐘10000個pod擴充套件,分鐘級自動擴容;核心模型服務99.99%的API SLA,模型套用服務全鏈路可觀測等重要的AI業務高可用目標,在大規模數據處理和訓推場景下,實作了對Gen AI套用業務連續性、響應速度、穩定性和安全性的全面保障。

在論壇上,2025年中國數碼化治理領域最新評估結果揭曉,阿裏雲成為首批透過信通院「企業用雲治理能力成熟度評估」評測的兩家企業之一,同時獲得該項能力評估最高等級。

阿裏雲全棧AI負載高可用架構正式釋出

在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的套用場景和技術倍增,雲上企業需要處理和儲存的數據量呈指數增長,AI驅動的套用在高負載情況下,對保障業務的連續性、響應速度、穩定性和安全性均提出了更高要求。

為此,阿裏雲在升級雲平台自身的技術服務能力的同時,將GPU、異構算力集群、容器集群、儲存、向量數據庫、機器學習平台等AI負載高可用全面融入雲平台架構設計,圍繞大模型訓練微調、推理、多模態數據處理等環節,構建具備 「高可用模型訓練、靈活彈性的推理資源、數據高可靠」 特性的全棧AI負載高可用架構,實作了從通用負載向AI負載的可用性演進,為客戶AI業務構建提供穩定的業務服務和出色的使用者體驗。

在高可用模型訓練方面,阿裏雲AI基礎設施高可用能力融入雲服務整體架構設計,基於AI演算法的故障預測,實作訓推環節的效能瓶頸分析和潛在故障分析,GPU故障預測準確率達92%,同時將異常預測接入自愈鏈路,訓練恢復自愈率超90%、千卡規模集群連續訓練有效時長大於99%,實作秒級模型自動保存、分鐘級故障恢復;同時,CPFS 高效能儲存集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫,能夠更好地防止數據遺失,並提升訓練的穩定性和可靠性。在網絡層面,阿裏雲自研的高效能網絡,業界首創雙平面的高可用網絡架構,網絡Link和器材中斷,訓練任務不中斷。

在推理資源方面,阿裏雲容器計算服務ACS的彈效能力實作每分鐘可以進行10000個pod擴充套件,分鐘級自動擴容;PAI-EAS模型線上服務,適用於即時推理、近即時異步推理等多種AI推理場景,能感知每個請求的執行進度,做到更公平的任務排程,提高擴縮容效率。同時,阿裏雲將跨區域的主動式重路由技術運用到數據中心間的通訊,從而在跨數據中心推理網絡上,達到跨域頻寬業界最高的 99.995% SLA,實作秒級內重新路由,提供一個更加穩定的網絡通訊延遲。

對於在即時語音互動、即時AI搜尋等高效能場景有推理需求的客戶,阿裏雲百煉模型服務平台,基於預訓練模型為使用者提供模型推理與套用構建托管服務,核心模型服務API達到 99.99% SLA,高效能場景核心使用者用例中的首包延時小於300毫秒,能夠有效解決套用開發、模型呼叫等過程中的跨區域TPM限制、高並行需求下API響應變慢等問題,提升Gen AI套用推理與構建時的使用者體驗。

在數據高可靠方面,阿裏雲數據儲存與數據庫服務面向不同計算引擎、多種 AI 框架進行了深度整合,形成承載PB級甚至EB級大規模數據統一的儲存底座,同城冗余容災,高達99.995% SLA,數據多副本冗余、大檔斷點續傳、批次和多執行緒數據操作保障數據服務高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務,跨Region AI數據的就近讀寫和負載均衡,滿足AI數據多活的強一致性,AI數據冷備、熱備、故障自動切換,解決AI數據故障風險。

AI時代與使用者共建雲上的IT新治理

AI時代的浪潮中,企業對於高可用架構的需求不僅僅停留在節點的穩定性上,而是在更高的層面追求智能化營運。阿裏雲全棧AI負載的高可用架構已為企業奠定了堅實的技術基礎,而進一步的挑戰則在於如何提升雲上系統的運維管理與治理能力。透過與使用者攜手,阿裏雲致力於在雲環境中構建一個AI-Native的智能化、自動化和可持續的IT治理體系,為企業的創新之路保駕護航。

阿裏雲根據多年服務客戶的經驗總結為一系列的方法論和架構設計原則,推出了阿裏雲卓越架構 Well-Architeched Framework,意在幫助企業在雲上構建一個安全、穩定、高效的套用環境。面向AI技術融入帶來的更復雜更大規模的,根據雲端運算的彈性、即時交付、自助化等特點,阿裏雲卓越架構進一步升級了用雲企業運維管理和治理規則基線的最佳實踐,依靠Well-Architeched雲卓越架構來學習-度量-最佳化,落地治理潛在的風險隱患,從安全、穩定、效率、成本、效能五大支柱全面提升系統整體韌性和營運效率。

阿裏雲開放平台負責人何登成表示,「在雲上構建可靠的系統是雲廠商與使用者共同的責任。雲廠商負責提供雲平台的可靠性,確保提供的雲服務可用性符合或超過阿裏雲服務等級協定;使用者需要根據業務需求,選擇合適的產品服務,並根據雲相關文件的指導搭建高可用架構,來確保雲上套用的可靠性。」

尤其在AI迅猛發展的今天,企業更應讓業務系統利用現代雲平台的基礎設施達到高可用,總結成三個"面向":面向失敗的設計架構,面向精細的運維管控,面向風險的應急快恢。同時,使用者可以在建設持續穩定的雲環境過程中,面向AI並結合AI,透過良好的AI模型訓推架構設計、AI數據資產處理與儲存、智能診斷與風險預測等手段,進一步提升系統可用性、可靠性、可持續性。

阿裏雲獲信通院企業用雲治理能力成熟度評估最高等級

據信通院釋出的【企業用雲治理能力成熟度分級要求】,企業用雲治理能力成熟度評估共分為L1-L5共5個等級,分別為L1基礎級、L2套用級、L3優秀級、L4先進級、L5卓越級。該分級要求不僅適用於對雲服務使用方用雲治理能力成熟度進行評估,也適用於對雲服務提供商雲服務治理產品、技術能力成熟度進行評估。阿裏雲測評結果為L4+,是目前階段雲服務提供商實際獲得的最高等級。

此前,阿裏雲企業用雲治理能力曾兩度獲得信通院評測認可,包括2022年「企業雲治理能力成熟度模型」獲信通院科技治理領域年度明星解決方案及產品;2023年「雲治理中心」獲信通院科技治理領域年度明星解決方案。

今年,針對企業用雲發展路徑、企業雲治理發展趨勢分析與洞察,阿裏雲聯合埃森哲釋出【雲治理企業成熟度發展2024年度報告】,報告調研取樣來自400多家企業客戶,橫跨互聯網、金融、新零售、交通等多個行業,旨在幫助使用者理解雲治理概念、企業用雲實踐的現狀及變遷趨勢,並基於雲治理框架的五大分類(即穩定性、安全合規、成本效益、高效效能、卓越營運),報告作為企業雲上旅程的實踐樣本,為面向AI時代做好IT新治理和雲上架構最佳化提供更多的參考與決策依據。