商湯推出SenseCore AI大裝置，要沖破AI大規模落地的圍城

2021-07-09知識

智東西（公眾號：zhidxcom）
作者 | 心緣
編輯 | 漠影

智東西7月9日報道，在2021世界人工智能大會上，商湯科技展示並正式推出其人工智能（AI）的集大成者——AI大裝置SenseCore。

近年來，商湯一直以知名AI獨角獸的身份活躍於公眾視野，無論是其開發的17000多個AI演算法，還是算力高達3740 PFLOPS的新型AI計算中心，都在AI初創公司中鮮見敵手。

而這些，僅是商湯AI大裝置的一部份能力。

超大規模算力、豐富演算法模型、全鏈路AI開發工具，這些商湯沈澱了7年之久的能力，都被整合到AI大裝置中，並打通了算力、演算法和平台之間的連線與協同，構建成一整套端到端的架構體系。

在會前的深入交流中，商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華教授告訴我們，AI大裝置「 標誌著商湯科技內部的AI研發和生產進入到了一個全新的階段 」，「 是將原來基於專案的客製化開發轉向規模化落地的關鍵一步」 。

據悉，這一新型AI基礎設施建設完成後，將使得AI以自動化、自適應的方式進行生產和落地，大幅降低AI解決方案的研發與部署成本，並解決城市管理、企業服務和個人生活中的長尾套用問題。

一、破解AI大規模落地挑戰，商湯的「三板斧」

打造AI大裝置的初衷，是為了解決許多AI解決方案存在的一個通病——面向某個具體需求而打造，方案與方案之間，關系並不緊密。

商湯發現，不同AI產品或解決方案在技術之間存在許多關聯性，都會依賴於 數據、算力、演算法和最後部署的整體協同 。如果讓每個專案單獨執行，那麽高昂的AI生產要素成本，將成為限制AI進一步擴大落地規模的關鍵壁壘。

為此，商湯將多年積累的AI演算法、底層系統和框架技術以及落地經驗打通，融合到AI大裝置。

商湯AI大裝置由算力層、平台層、演算法層組成。

在算力層， 商湯自主建設的新型人工智能計算中心（AIDC），整合AI芯片及AI傳感器，為演算法模型的分析、訓練和推理提供強大算力支撐。

目前上海臨港在建的AIDC是亞洲最大AI算力中心，總算力達3740 Petaflops，據稱1天內可處理時長23600年的影片。

今日商湯還宣布聯合行業夥伴成立「人工智能算力產業生態聯盟」，以連線AI算力產業各方，希望為中國AI開發者建立一個高效統一、資源豐富的異構計算開發平台。

在平台層， 商湯打通從數據準備到模型生產、測試、部署的全鏈路AI開發及批次化套用流程，將數據平台、深度學習訓練框架、深度學習推理部署引擎、模型生產平台打通。

林達華說，這是商湯在過去五六年間對行業落地深刻認知後形成的真正有效的、能在工業級裏面使用的平台層，遠不止是將開源的內容拼在一起就能做成的。

也正是在長期實踐的沈澱下，商湯深度學習訓練框架SenseParrots能高效利用GPU集群算力，訓練單個大模型時可以在千卡上取得超過90%的加速效率，達到單卡900倍的效果，遠高於開源方案。

在演算法層， 商湯已開發超過17000個演算法模型，其演算法開源框架OpenMMLab在GitHub上已經超過37000顆星，為亞洲最高。

據林達華透露，OpenMMLab將再一次進行升級，從一個開源演算法體系演變為具備完整能力的開源開放平台，提供AI研發的全方位支持。

「它能從根本上提升AI研發的效率，降低所需要的各種要素成本。」林達華說，「我想，它所帶來的，是整個AI的研發與生產範式全面的革新，所有需要AI賦能的行業，都將從中受惠。」

二、全自研、高效能推理引擎，滿足雲上多後端部署

商湯AI大裝置不僅積累了豐富的演算法研發成果，而且擁有多樣的落地商用案例。

例如，上海長寧區江蘇路街道基於商湯方舟城市開放平台SenseFoundry，構建多場景、一站式AI城市治理解決方案，有效解決了暴露垃圾辨識、共享單車亂堆放、人群聚集等城市痛點問題。

在博物館、展館、景區、商場、機場、火車站等城市級文旅場景，商湯透過原創SenseMARS火星混合現實平台進行3D建模、AR套用部署。

這些套用的高效部署，離不開商湯最重要的計算引擎之—— 深度學習推理部署引擎SensePPL 。

SensePPL有 通用性、全自研、高效能、多後端、開源 五大亮點。

首先，在通用性方面 ，SensePPL覆蓋各種套用領域， 支持主流深度學習訓練框架的各種模型，可將其轉換成業界通行的ONNX標準模型格式 。

其次，商湯從五年前就認識到計算對於人工智能的關鍵價值，決定自研計算庫，並建立一個能力頂尖的高效能計算團隊 。商湯將豐富的技術及落地經驗融入SensePPL，能更好發揮各種國產芯片的效能，從而推動國產化行程。

目前國內在雲端的推理框架基本上靠整合輝達TensorRT和英特爾OpenVINO來獲得效能保證，各芯片廠商也都會提供一些計算庫。這些計算庫在AI業務落地時，效能、記憶體占用、功耗等方面距離實際需求還有較大距離，全鏈條端到端的效率不高。而 商湯完全自研的SensePPL，不依賴任何廠商的庫，還能取得效能優勢。

SensePPL設計了微架構友好的任務/數據/指令等多級並列策略，自研輝達GPU、x86 CPU計算庫， 能充分發揮芯片算力，滿足部署場景對神經網絡推理、常用影像處理的效能需求 。

面向雲端異構推理場景，SensePPL支持多平台部署 ，支持開源框架OpenMMLab檢測、分類、分割、超分等系列的多種模型，同時提供模型前後處理所需的影像處理算子。

OpenMMLab開源後，我們發現AI社區不僅需要開源的訓練演算法，對於推理部署也有殷切的需求。只有當訓練和推理銜接在一起，才能形成AI整個價值鏈條的完整閉環。

因此，我們從決定把SensePPL中雲端推理的能力開源給社區，這就是 OpenPPL計劃 。我們的目標是將從訓練到推理的完整技術生態輸出給社區，從而加速AI技術的普及與進步。OpenPPL現在開源的部份僅僅是一個開端，商湯未來將 持續叠代完善OpenPPL，不斷給社區開發者帶來新的價值 。

三、3740 PFLOPS算力背後，商湯的基建底氣

除了演算法和平台外，AI大規模落地也離不開超大規模算力的支撐。

商湯決心建設AI大裝置的原因之一，是看到了根本性的技術區別： AI大模型訓練需要大規模的高效能異構計算能力、高速跨節點通訊能力、以及海量數據隨機存取的能力，這是現有互聯網基礎設施所難以支撐的 。

林達華告訴我們，高算力不是簡單的堆砌就能實作，而需要整體系統設計能力的積累。AI廣泛落地的前提是降低算力成本，而支撐海量數據的高速隨機存取，當前主要基於昂貴的快閃記憶體，這與降低成本的目標相悖；同時，現有互聯網廠商只是面向外界使用者提供高並行的存取，但無法滿足高密集的、高容量通訊的AI訓練過程。

從2018年起，商湯更加嚴肅地審視算力、硬件及它們與產業賦能的深刻聯系，並做出重要戰略決策，即建設新一代人工智能計算平台（AIDC）。

經過審慎的專案籌備和科學論證後，2020年，這一平台正式啟動建設，至今已有實質性進展， 擁有3740 PFLOPS超大算力的上海臨港新型人工智能計算中心預計將在年底建成。

一家以演算法著稱的AI初創公司，如何做到建設起如此龐大規模的算力基礎設施？對此，林達華分享了商湯在三方面的底氣。

首先是人才基石。 商湯科技內部有一個專門做平台和技術系統的團隊，團隊既有頂尖大學畢業的博士、碩士，又有擁有豐富經驗的業界老兵。這些人才正共同攻克很多AI帶來的新技術挑戰。

其次是長期積累。 商湯一直將基礎設施建設視作達成未來AI廣泛賦能產業的戰略基石。3740 PFLOPS，相當於3萬塊輝達V100或者超過1萬塊輝達A100的峰值算力的總和。截至現在，商湯內部已有約2萬塊GPU在用，因此具備構建萬級GPU規模數據中心、支撐AIDC建設的能力。

最後是連線真實場景的客戶需求 。真正要最佳化一個系統，不僅要了解技術，還需知道工作負載是什麽。商湯恰恰積累了來自真實場景的大量工作負載，承載了在許多場景、行業中的多樣化客戶需求，這樣多樣化的落地場景更成了打磨系統的「金礦」。

在這些底氣的支撐下，商湯重點克服了AI系統設計的一大技術挑戰——即兼顧合理的成本、海量的數據和高速的隨機存取。為了實作深度學習訓練框架足夠高的加速效率，商湯還做了許多通訊、計算、I/O等各種聯合的最佳化。

林達華透露說，這幾年AIDC首先在商湯內部使用，慢慢會向合作夥伴開放，後面持續拓寬套用邊界，實作在更廣的AI產學研範圍賦能。

結語：降本增效，AI規模化落地的長期議題

近些年，大模型正成為顯著提升AI業務能力的新興發展方向，訓練大模型固然離不開大量的資源和成本，但一旦完成，大模型成為一個公共的AI基礎設施後，數以萬計的行業模型將基於此，能快速滿足AI套用的需求。

這與商湯構建AI大裝置的思路契合，即最終降低AI生產的邊際成本，大幅提升需求響應的效率。林達華相信，預訓練會成為AI研發的重點，在此基礎上，行業需求的響應將變得更加輕量化，最終實作真正的規模化賦能。

未來，商湯計劃在AI大裝置上支撐不同行業的演算法模型生產鏈條，進一步連線和打通跨行業的技術體系，形成一個突破技術邊界的技術生態。同時，林達華提到商湯希望將AI大裝置從企業級設施變成開放服務的平台，讓更多行業、企業受惠於AI大裝置所帶來的生產效率提升。