當前位置: 華文星空 > 心靈

青雲科技釋出智算十大解決方案,引領企業數智革命

2024-10-20心靈

近日,青雲科技 2024 AI 算力釋出會成功舉辦,以 「無界算力,共創數智未來」 為主題,全面展示了青雲在 AI 算力領域的產品創新、生態建設及場景落地成果。

青雲科技解決方案總監傅帥以 「十大場景,數智未來觸手可及」 為主題,深入闡釋了青雲在金融、自動駕駛、具身智慧、高校科研、生物醫藥等多個行業積累的豐富經驗,以及針對各行業核心痛點所形成的十大智算解決方案。

以下為青雲科技解決方案總監傅帥的分享,經整理呈現。

算力與業務雙輪驅動

從 2019 年起,青雲便開始涉足智算領域。此前一直在默默耕耘,今天希望借此 AI 算力釋出會的契機,與各位領導、生態夥伴以及線上觀眾分享青雲在 AI 領域的方案與案例。

AI 推理為最終目標,訓練仍為當前重點

首先,從大趨勢來看,AI 推理被廣泛認為是人工智慧發展的最終目標或形態。就國內目前 AI 的發展行程而言,更多的重心仍在訓練階段。因為只有擁有良好的模型,才能支撐優質的套用;而有了好的套用,才能在實際套用場景中落地。

此次青雲釋出的十大解決方案分為兩個層級。一個層級面向算力,涵蓋智算中心、大模型/多模態以及邊緣智慧方向,探討算力如何實作。當具備算力之後,再思考套用和業務如何落地。在落地層面,既涉及傳統行業如金融,也包括新興場景如自動駕駛、具身智慧,後者對 AI 的運用更加深入和硬核。

十大場景,服務數智變革

智算中心:商用閉環是關鍵

自去年起,全國各地都在思考是否建設智算中心。實際上,建設智算中心是必然趨勢。全球範圍內 AI 是大勢所趨,是不可逆轉的。

有建設智算中心想法的機構或者個人找到青雲後,首要關心的問題是:智算中心能否盈利?有哪些盈利方式?從青雲的角度來看,能否盈利的背後隱含著許多非 IT 行業或未涉足過 AI 計畫的參與者、投資者所不了解的因素。

簡單來說,過去我們常提到要建設數據中心,但從國內實際基礎資源的角度來看,能夠容納千卡集群的數據中心屈指可數。如果要求更高,比如現在是千卡規模,明年要達到萬卡規模,能支撐萬卡集群的數據中心更是鳳毛麟角。因此,如果關註智算中心能否實作商業閉環,其基礎在於強大的計算能力。

以 IDC 和 AIDC 為例,兩者的差別主要在於電力。青雲曾經在不同場合強調過,AI 是能源,沒有充足的電力,智算中心就無從談起。其次,AI 作為一個全新的計算領域,涉及算力、運力、存力等全新技術。這些新技術帶來的挑戰在於,目前還沒有人能夠在實際生產過程中大範圍、長期地運用這些技術。技術方面的短板和未知,導致國內去年到今年上半年建設的智算中心,可能有一半都無法達到設計上的效能指標。原因在於不同技術、不同品牌的軟硬體之間的配合存在諸多問題。

那麽,智算中心如何變現或產生價值呢?這需要工具和團隊的支持。以青雲為例,青雲自 2012 年開始做公有雲,從事與雲服務相關的工作,引進一套系統和團隊,才能將算力、存力和運力持續對外發揮作用,提供對外服務,從而產生實際價值,實作商業閉環。

在去年下半年到今年上半年,青雲落地了 20+ 智算中心,包括如何建設 AIDC、軟體和硬體如何配套,以及建成後如何銷售、推廣和營運。青雲提供這三方面的服務,以應對智算中心這一熱門領域的需求。

大模型:追求穩定與安全

除了智算中心,第二個話題是大模型/多模態。在國外,OpenAI、Meta 等紛紛釋出大模型,且 Meta 在釋出一個版本後,不超過一周又推出第二個版本。隨後,Google 也釋出了新版本。國內同樣如此,上百家企業投身於大模型技術研發。這些大模型廠商對算力和數據的要求極高,且大模型領域競爭激烈,他們雖然多為創業公司,但體量龐大。青雲為他們提供工單服務的人員經常在深夜收到支持工單。

大模型廠商、多模態廠商的核心資產是什麽?一方面是各種參數量級的模型;另一方面是訓練模型所需的訓練數據集、推理時產生的生產數據。這些數據和模型是他們的核心資產。他們最為關心的問題只有一個,即如何保證數據和模型的安全。

此外,這類使用者通常處於高算力、高壓力的使用場景,需要一個持續、穩定、可靠的平台,為模型訓練提供保障。過去我們認為一個模型只需訓練一兩周就能投入使用,但實際上,與許多模型訓練廠商交流後發現,模型訓練就如同煉丹,同樣參數在訓練時效果可能不如訓練前,但經過不斷調整,下一版本訓練時模型品質會更好。這是一個需要時間和效率去提升模型品質的過程。因此,平台業務的連續性非常重要,尤其是針對大模型、多模態的廠商,他們訓練任務多、時間非常長、規模非常大,任何一個故障都會影響整個生命周期,會影響最終模型的效果。

因此,對於大模型、多模態以及垂類模型這類客戶,青雲提供專屬的算力專區或私有化的算力平台。專屬算力專區和私有化平台從實體層面保障了數據的安全性和可靠性,同時透過軟體平台提供持續、穩定、可靠的平台服務,為這類客戶提供場景支持。

邊緣智算:中心與邊緣的協同

之前談到了智算的趨勢,現階段 AI 以訓練為主,未來則是推理。訓練由中心端提供,具備千卡甚至萬卡的算力能力。而產出的模型要真正套用於業務場景和套用場景,這些場景通常處於邊緣側。

以我們的金融行業客戶為例,如今都在追求降本增效、提升效率。比如銀行網點的智慧化,透過邊緣裝置實作開戶、辦理信用卡等業務流程,不再需要人工辦理。客戶在銀行網點透過帶有網路攝影機的機器,與數位人進行語音或視訊互動,完成整個業務流程。這是一個典型的在中心端進行訓練、在邊緣側實作推理的金融邊緣行業場景。

在交通行業也一樣,全省的高速公路、收費站、網路攝影機等都裝有傳感器。要實作整個流程的串聯,需要對邊緣裝置進行統一管理。邊緣裝置種類繁多,有網路攝影機,有 ETC 之類的傳感器,各種各樣的架構。有的只能進行初步的簡單推理,而有的新硬體裝置則具備高級推理能力。因此,需要面向全國或一個大的省份、片區,對多種邊緣裝置進行統一管理。

針對這些需求,青雲可以提供 」中心 + 邊緣「 統一管理的能力,對算力資源和網路資源進行統一納管。同時,根據裝置的不同算力能力,如網路攝影機具備一定的推理能力,而某些終端裝置可能不具備高級的推理能力,我們需要使平台能夠適配終端和邊緣裝置,以及平台上的套用。平台需要將不同的算力資源匹配到不同的業務場景,以實作算力資源的排程和協調。這就是青雲在邊緣場景的智算方案。

金融行業:安全合規與靈活部署

前面談到了智算中心和邊緣計算,這些都是相對新興的領域。現在來談談傳統領域,首先是金融行業。青雲從 2014 年就開始與金融客戶合作,推動數位化轉型。當時還是 CPU 時代,青雲就已經深入了解了金融行業對 IT 系統建設的要求、基礎能力需求和基礎框架設定。進入 AI 和 GPU 時代後,青雲的產品基因已深深植入金融方案中。

例如安全合規方面,以及國家一直強調的國產供應鏈要求。在智算領域,如何保障智算中心實作硬體合規,是廣大國產裝置廠商需要努力的方向。青雲則在算力平台本身,延續了企業雲、分布式儲存、容器雲平台上對儲存、算力和網路的安全保障能力,為金融行業使用者提供符合安全要求的產品。

金融行業最常見的交付方式是私有化部署。這涉及到兩個方面的安全問題:一是產品能力是否可以根據使用者情況做客製化交付和部署;二是能否根據使用者體量進行靈活排程。青雲在金融行業探索時間較長,既有像四大行、股份制銀行這樣的大體量客戶,也有各省的農商行、農信等中小規模客戶。從規模上來講有幾百台、千台千卡的集群需求,同時也有 1-4 台的小規模。不論集群規模大小,青雲都可以用一套平台實作多種規模的彈性部署,滿足不同客戶的需求。

具身智慧:資源極致利用與安全保障

如今談到 AI,如果不提及自動駕駛和具身智慧,就有點脫離行業了。在新興領域,具身智慧主要涉及機器人制造。在具身智慧領域,我們觀察到的客戶訴求主要有兩個方面:

一是資源的極致利用,因為具身智慧有較多場景客製,模型大小不一,對算力的需求也有多有少。同時,與大模型和多模態廠商一樣,他們也非常註重數據的絕對安全。由於對數據安全的要求,他們通常不太接受雲服務方式提供算力,而是以中小規模的算力雲進行私有化部署。

二是由於新技術廠商競爭激烈,資源往往不足,任務總是超出預期。如何調整需求和任務之間的關系,也非常關鍵。

青雲透過一個平台的管理和排程策略,來解決匹配使用者端的資源錯配問題。此外,在具身智慧領域,青雲還可以根據使用者的使用習慣,靈活調整平台相關能力,快速將使用者在開發和產品叠代過程中的 GPU 和智算需求更新到平台中。

生物醫藥:AI 融合與開發合作

在生物醫藥的專業領域,人員配置通常是生物醫藥或者醫療專業的套用人才,其基礎技術人員主要在上層業務端,對硬體、網路、儲存只是一知半解。那麽,生物醫藥企業也希望擁抱 AI,引入 AI 技術套用到行業,如何來實作呢?青雲所推薦的方案有兩個方面:

第一,采用 AI 智算一體機,將硬體和軟體進行整合整合,統一交付給使用者,讓使用者無需擔心底層硬體架構和伺服器配置,只需使用算力進行藥物研發工作即可。

第二,在國產化方面,雖然國產化在金融和具身智慧領域均有所滲透,但生物醫藥領域,更多平台仍建立在非國產化平台之上。借助 AI 行程,希望將國產算力和平台融入生物醫藥流程中。

更重要的是,生物醫藥領域涉及很多專業套用軟體,青雲作為 AI 基礎設施提供商,沒有專業領域的套用軟體開發能力。因此,透過平台的開放性和穩定性,整合更多面向生物醫藥領域的套用合作夥伴,為藥物研發的合作夥伴或客戶提供服務。

高校科研:高價效比與資源管理

在高校和科研領域,AI 需求非常高。如果高校沒有人工智慧、模型訓練和推理等相關課程,學生畢業後將面臨很大挑戰,因此高校一定會做和 AI 相關的事情。但高校也面臨一個問題,即 GPU 算力資源價格高,而高校經費有限,無法花費大量預算采購海量算力服務。青雲提供的解決方案有以下特點:

第一,青雲精心打造的 AI 智算一體機,能夠將硬體效能發揮到極致,同時具備極高的價效比。

第二,可以將所有算力資源,包括算力和存力發揮到每個算力因子,實作算力和存力的劃分,滿足教育教學需求。

第三,針對教學場景,透過青雲 AI 智算平台的統一排程和管理能力,可以在一堂課結束後快速重建環境,服務下一堂教學或課題,實作資源的快速回收和發放。

第四,高校有很多歷史留存的 IT 基礎設施,包括 CPU 資源、傳統虛擬化資源和高效能計算資源。透過青雲的混合雲能力,可以將這些資源進行整合和管理,實作統一平台、統一管理,根據不同業務需求排程不同算力,以支撐上層套用和業務。

自動駕駛:數據支撐與車路協同

談到自動駕駛,在場的各位如果是開車來的,很多人駕駛的可能就是新能源汽車。新能源汽車之所以受歡迎,原因之一是北京新能源不限號可以隨便開,二是其技術能力,如市區的自動駕駛、自動領航功能,借助汽車本身的網路攝影機和軟體能力實作。

在自動駕駛領域,數據非常重要,主要有兩個維度:一是透過高精地圖,二是透過純視覺收集海量數據,包括地圖數據和傳感器數據,為自動駕駛演算法的快速叠代提供支撐。因此,自動駕駛非常看重是否有海量數據的支撐能力。

其次,自動駕駛是車路協同的過程,車和路之間的有效協同需要透過模型實作,而模型從中心產生。這就需要車、路和中心三者的有機整合,其基礎是透過平台對海量數據進行全生命周期管理,在中心進行訓練,在邊緣側進行推理,實作車與中心端的即時互動,以支持自動駕駛的快速叠代。有自動駕駛功能的新能源車,升級同步時會產生很多數據,從而支撐中心端進一步打磨模型。

互聯網:彈性排程與多儲存服務

在互聯網領域,很多人都在嘗試使用 AI。國內常用 kimi、智譜進行英文轉譯或文件總結,國外可能更多使用 OpenAI 的 ChatGPT、Google 的 Gemini。互聯網領域的 AI 套用面向 To C 端,最典型的特點是有潮汐分布情況,白天使用非常多,晚上資源相對空閑。因此,互聯網需要較高的資源彈性和排程能力。

另一方面,互聯網數據型別多樣化。除了視訊檔,還有大量圖片檔、文字檔案,以及其他非結構化檔,數據海量且存放方式多樣。青雲為互聯網行業客戶提供服務時,還可以提供多種儲存服務,將各種形式的數據納入青雲智算平台。同時,提供削峰填谷的排程方案,白天發揮最大推理優勢,晚上對任務進行編排,將有限的算力資源分配到不同任務中。

政務:營運排程與國產算力

最後是政務領域。國內投資機構和地方政府建設了大量智算中心,分布在省、市、區縣各級,規模有大有小。如何將這些中心算力有效營運起來,需要一定的工具。國家也看到了這方面的問題,提出東數西算和算力互聯互通政策。

青雲在設計 AI 智算平台時,考慮到了國家的要求和未來發展。首先,針對國產算力,到場的芯片廠商所有智算卡都已在青雲平台管控範圍內。同時,平台的對接能力能夠統一納管分布在全國各地各省、市、區縣的算力中心。最重要的是,青雲有持續可靠的營運團隊和平台,持續探索政務行業智算中心產生價值的路徑。

總結一下,前面談到了青雲針對不同行業、中心以及細分領域的落地方案。AI 的三要素是算力、演算法和數據,在此基礎上,還應加上規模這一要素。規模可大可小,可以是中心端也可以是邊緣端。在這個維度裏,才涉及到 AI 基礎設施。

青雲的基礎設施從中心到邊緣,從小規模到大規模,實作了 AI 全領域、全覆蓋的能力。青雲所做的工作是覆蓋上層行業和場景,希望與到會的合作夥伴和線上合作夥伴一起,為中國百行千業的客戶提供 AI 支持和服務能力。