當前位置: 華文星空 > 知識

商湯推出SenseCore AI大裝置,要沖破AI大規模落地的圍城

2021-07-09知識

智東西(公眾號:zhidxcom)
作者 | 心緣
編輯 | 漠影

智東西7月9日報道,在2021世界人工智能大會上,商湯科技展示並正式推出其人工智能(AI)的集大成者——AI大裝置SenseCore。

近年來,商湯一直以知名AI獨角獸的身份活躍於公眾視野,無論是其開發的17000多個AI演算法,還是算力高達3740 PFLOPS的新型AI計算中心,都在AI初創公司中鮮見敵手。

而這些,僅是商湯AI大裝置的一部份能力。

超大規模算力、豐富演算法模型、全鏈路AI開發工具,這些商湯沈澱了7年之久的能力,都被整合到AI大裝置中,並打通了算力、演算法和平台之間的連線與協同,構建成一整套端到端的架構體系。

在會前的深入交流中,商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華教授告訴我們,AI大裝置「 標誌著商湯科技內部的AI研發和生產進入到了一個全新的階段 」,「 是將原來基於專案的客製化開發轉向規模化落地的關鍵一步」

據悉,這一新型AI基礎設施建設完成後,將使得AI以自動化、自適應的方式進行生產和落地,大幅降低AI解決方案的研發與部署成本,並解決城市管理、企業服務和個人生活中的長尾套用問題。

一、破解AI大規模落地挑戰,商湯的「三板斧」

打造AI大裝置的初衷,是為了解決許多AI解決方案存在的一個通病——面向某個具體需求而打造,方案與方案之間,關系並不緊密。

商湯發現,不同AI產品或解決方案在技術之間存在許多關聯性,都會依賴於 數據、算力、演算法和最後部署的整體協同 。如果讓每個專案單獨執行,那麽高昂的AI生產要素成本,將成為限制AI進一步擴大落地規模的關鍵壁壘。

為此,商湯將多年積累的AI演算法、底層系統和框架技術以及落地經驗打通,融合到AI大裝置。

商湯AI大裝置由算力層、平台層、演算法層組成。

在算力層, 商湯自主建設的新型人工智能計算中心(AIDC),整合AI芯片及AI傳感器,為演算法模型的分析、訓練和推理提供強大算力支撐。

目前上海臨港在建的AIDC是亞洲最大AI算力中心,總算力達3740 Petaflops,據稱1天內可處理時長23600年的影片。

今日商湯還宣布聯合行業夥伴成立「人工智能算力產業生態聯盟」,以連線AI算力產業各方,希望為中國AI開發者建立一個高效統一、資源豐富的異構計算開發平台。

在平台層, 商湯打通從數據準備到模型生產、測試、部署的全鏈路AI開發及批次化套用流程,將數據平台、深度學習訓練框架、深度學習推理部署引擎、模型生產平台打通。

林達華說,這是商湯在過去五六年間對行業落地深刻認知後形成的真正有效的、能在工業級裏面使用的平台層,遠不止是將開源的內容拼在一起就能做成的。

也正是在長期實踐的沈澱下,商湯深度學習訓練框架SenseParrots能高效利用GPU集群算力,訓練單個大模型時可以在千卡上取得超過90%的加速效率,達到單卡900倍的效果,遠高於開源方案。

在演算法層, 商湯已開發超過17000個演算法模型,其演算法開源框架OpenMMLab在GitHub上已經超過37000顆星,為亞洲最高。

據林達華透露,OpenMMLab將再一次進行升級,從一個開源演算法體系演變為具備完整能力的開源開放平台,提供AI研發的全方位支持。

「它能從根本上提升AI研發的效率,降低所需要的各種要素成本。」林達華說,「我想,它所帶來的,是整個AI的研發與生產範式全面的革新,所有需要AI賦能的行業,都將從中受惠。」

二、全自研、高效能推理引擎,滿足雲上多後端部署

商湯AI大裝置不僅積累了豐富的演算法研發成果,而且擁有多樣的落地商用案例。

例如,上海長寧區江蘇路街道基於商湯方舟城市開放平台SenseFoundry,構建多場景、一站式AI城市治理解決方案,有效解決了暴露垃圾辨識、共享單車亂堆放、人群聚集等城市痛點問題。

在博物館、展館、景區、商場、機場、火車站等城市級文旅場景,商湯透過原創SenseMARS火星混合現實平台進行3D建模、AR套用部署。

這些套用的高效部署,離不開商湯最重要的計算引擎之—— 深度學習推理部署引擎SensePPL

SensePPL有 通用性、全自研、高效能、多後端、開源 五大亮點。

首先,在通用性方面 ,SensePPL覆蓋各種套用領域, 支持主流深度學習訓練框架的各種模型,可將其轉換成業界通行的ONNX標準模型格式

其次,商湯從五年前就認識到計算對於人工智能的關鍵價值,決定自研計算庫,並建立一個能力頂尖的高效能計算團隊 。商湯將豐富的技術及落地經驗融入SensePPL,能更好發揮各種國產芯片的效能,從而推動國產化行程。

目前國內在雲端的推理框架基本上靠整合輝達TensorRT和英特爾OpenVINO來獲得效能保證,各芯片廠商也都會提供一些計算庫。這些計算庫在AI業務落地時,效能、記憶體占用、功耗等方面距離實際需求還有較大距離,全鏈條端到端的效率不高。而 商湯完全自研的SensePPL,不依賴任何廠商的庫,還能取得效能優勢。

SensePPL設計了微架構友好的任務/數據/指令等多級並列策略,自研輝達GPU、x86 CPU計算庫, 能充分發揮芯片算力,滿足部署場景對神經網絡推理、常用影像處理的效能需求

面向雲端異構推理場景,SensePPL支持多平台部署 ,支持開源框架OpenMMLab檢測、分類、分割、超分等系列的多種模型,同時提供模型前後處理所需的影像處理算子。

OpenMMLab開源後,我們發現AI社區不僅需要開源的訓練演算法,對於推理部署也有殷切的需求。只有當訓練和推理銜接在一起,才能形成AI整個價值鏈條的完整閉環。

因此,我們從決定把SensePPL中雲端推理的能力開源給社區,這就是 OpenPPL計劃 。我們的目標是將從訓練到推理的完整技術生態輸出給社區,從而加速AI技術的普及與進步。OpenPPL現在開源的部份僅僅是一個開端,商湯未來將 持續叠代完善OpenPPL,不斷給社區開發者帶來新的價值

三、3740 PFLOPS算力背後,商湯的基建底氣

除了演算法和平台外,AI大規模落地也離不開超大規模算力的支撐。

商湯決心建設AI大裝置的原因之一,是看到了根本性的技術區別: AI大模型訓練需要大規模的高效能異構計算能力、高速跨節點通訊能力、以及海量數據隨機存取的能力,這是現有互聯網基礎設施所難以支撐的

林達華告訴我們,高算力不是簡單的堆砌就能實作,而需要整體系統設計能力的積累。AI廣泛落地的前提是降低算力成本,而支撐海量數據的高速隨機存取,當前主要基於昂貴的快閃記憶體,這與降低成本的目標相悖;同時,現有互聯網廠商只是面向外界使用者提供高並行的存取,但無法滿足高密集的、高容量通訊的AI訓練過程。

從2018年起,商湯更加嚴肅地審視算力、硬件及它們與產業賦能的深刻聯系,並做出重要戰略決策,即建設新一代人工智能計算平台(AIDC)。

經過審慎的專案籌備和科學論證後,2020年,這一平台正式啟動建設,至今已有實質性進展, 擁有3740 PFLOPS超大算力的上海臨港新型人工智能計算中心預計將在年底建成。

一家以演算法著稱的AI初創公司,如何做到建設起如此龐大規模的算力基礎設施?對此,林達華分享了商湯在三方面的底氣。

首先是人才基石。 商湯科技內部有一個專門做平台和技術系統的團隊,團隊既有頂尖大學畢業的博士、碩士,又有擁有豐富經驗的業界老兵。這些人才正共同攻克很多AI帶來的新技術挑戰。

其次是長期積累。 商湯一直將基礎設施建設視作達成未來AI廣泛賦能產業的戰略基石。3740 PFLOPS,相當於3萬塊輝達V100或者超過1萬塊輝達A100的峰值算力的總和。截至現在,商湯內部已有約2萬塊GPU在用,因此具備構建萬級GPU規模數據中心、支撐AIDC建設的能力。

最後是連線真實場景的客戶需求 。真正要最佳化一個系統,不僅要了解技術,還需知道工作負載是什麽。商湯恰恰積累了來自真實場景的大量工作負載,承載了在許多場景、行業中的多樣化客戶需求,這樣多樣化的落地場景更成了打磨系統的「金礦」。

在這些底氣的支撐下,商湯重點克服了AI系統設計的一大技術挑戰——即兼顧合理的成本、海量的數據和高速的隨機存取。為了實作深度學習訓練框架足夠高的加速效率,商湯還做了許多通訊、計算、I/O等各種聯合的最佳化。

林達華透露說,這幾年AIDC首先在商湯內部使用,慢慢會向合作夥伴開放,後面持續拓寬套用邊界,實作在更廣的AI產學研範圍賦能。

結語:降本增效,AI規模化落地的長期議題

近些年,大模型正成為顯著提升AI業務能力的新興發展方向,訓練大模型固然離不開大量的資源和成本,但一旦完成,大模型成為一個公共的AI基礎設施後,數以萬計的行業模型將基於此,能快速滿足AI套用的需求。

這與商湯構建AI大裝置的思路契合,即最終降低AI生產的邊際成本,大幅提升需求響應的效率。林達華相信,預訓練會成為AI研發的重點,在此基礎上,行業需求的響應將變得更加輕量化,最終實作真正的規模化賦能。

未來,商湯計劃在AI大裝置上支撐不同行業的演算法模型生產鏈條,進一步連線和打通跨行業的技術體系,形成一個突破技術邊界的技術生態。同時,林達華提到商湯希望將AI大裝置從企業級設施變成開放服務的平台,讓更多行業、企業受惠於AI大裝置所帶來的生產效率提升。