最強伺服器CPU來了！AI效能直接翻倍

2024-09-30心靈

伺服器CPU領域持續多年的核心數量大戰，被一舉終結了！

英特爾最新釋出的至強®6效能核處理器（P-core系列），超越了過去單一維度的競爭，透過「升維」定義了新的遊戲規則：

>算力、存力，要全方位提升。不能做到這一點的CPU，不是智算時代的好U。

在過去，CPU升級換代往往要在單個芯片上整合更多的核心，但這難免會受到工藝和芯片尺寸的限制，更別提與IO和記憶體的匹配難題。

這一次，至強®6效能核處理器采用了計算芯片單元與I/O芯片單元解耦的分離式模組化設計，可以靈活組合不同數量的計算單元，實作核心數量的擴充套件及記憶體和IO的同步強化，保證更優的整體效能和能效。

用最直觀的方式感受一下：

2023年12月15日，英特爾數據中心與人工智能集團副總裁陳葆立從褲兜裏掏出第五代至強®可延伸處理器，還只有64個核心。

2024年9月26日，還是陳葆立，同樣從褲兜裏掏出至強®6效能核處理器，卻直接翻倍到128核心。

兩款處理器外形大小相似，都能輕松放入口袋，但效能卻發生了質的飛躍。

具體來說，剛剛登場的是至強®6效能核處理器大家族中的先鋒+頂級戰力——英特爾®至強®6900P系列。

擁有多達128個效能核和504MB的超大L3緩存，更大、更寬的記憶體支持，更多、更快的IO能力。非常適用於各種數據和計算密集型套用任務，比如科學計算、海量數據處理，還有AI。

看到這裏，可能很多人會有疑問：你們又要說用CPU跑AI？是GPU它不香了麽？

NoNoNo，我們是想說：有了這款CPU，你的GPU或其他的AI加速器，會更香！

談到這個話題，就要先說說AI伺服器。

在生成式AI套用百花齊放的當下，AI伺服器的重要性可謂是不言而喻，無論是對於大規模的訓練、推理，亦或是RAG等任務，都對其提出了更高的要求。

也正如綜合市場預測數據從側面反應出來的那般：

>AI伺服器市場規模已經達到了211億美元，預計2025年達到317.9億美元，2023-2025年的CAGR為22.7%。

我們都知道AI伺服器裏GPU或AI加速器很重要，卻很容易忽視其中CPU的作用。一個真正為AI伺服器或AI數據中心基礎設施設計的出色的CPU，應該是什麽樣的？

英特爾®至強®6效能核處理器，可以說是給出了一個正解。

外媒甚至評測過後，對英特爾這次的新CPU給予了極高的評價：

>不僅僅是Xeon，更是XEON。

嗯，用中文來說的話，就是英特爾至強，這次是真的至強（達到最強）了。

那麽英特爾®至強®6效能核處理器是如何解鎖這種認同的呢？

至強，何以至強

首先要說的是算力。

英特爾®至強®6900P系列產品此次最亮眼的128核（三個計算芯片單元），這就是它看似符合此前遊戲規則的一大技術亮點。

透過核心數量的不同排列組合方式，至強®6效能核處理器可以應對不同的場景來提供不同核心的型號，除了最高128核的產品系列（6900P）外，還有最高86核（2個計算芯片單元），最高48核（1個計算芯片單元）和16核（1個計算芯片單元）的產品系列。

用來做這種排列組合的模組中，計算芯片單元采用的是Intel 3制程，包含一體式網格、核心、緩存、記憶體控制器等，可以保證數據傳輸的一致性。

I/O芯片單元則是采用Intel 7制程，包含UPI、PCIe、CXL和加速器引擎等。

不同於第五代英特爾®至強®產品，至強®6是將I/O和計算兩個單元進行了解耦，不僅易於做核數的擴充套件，還有利於驗證、重復和靈活使用。

除此之外，英特爾®至強®6效能核處理器的亮點還包括：

6400 MT/s DDR58800 MT/s MRDIMM記憶體6條UPI 2.0鏈路；速率高達24 GT/s96條PCIe 5.0/ 64條 CXL 2.0通道L3緩存高達504MB支持FP16數據格式的英特爾® AMX

接下來要說的是存力。

至強®6效能核處理器超脫此前遊戲規則的亮點就藏在其中。

它同時支持了更快的DDR5記憶體（6400MT/s）和更「寬」的MRDIMM記憶體（8800MT/s）。

僅把前者替換成後者，就已經能讓科學計算和AI場景的多項任務提升7%-33%不等了。而且相比此前至強® CPU Max采用的HBM，MRDIMM記憶體的引入，不僅頻寬和速度優勢更明顯，它與CPU解耦的型態，也更利於使用者的靈活采購、配置與升級。

存力除了記憶體本身的效能，還包含CPU與記憶體之間的互連技術，至強®6匯入了最新的Compute Express Link 2.0 (CXL 2.0) 。

CXL 2.0支持多種器材類別，且可回溯相容，實作對記憶體和儲存器材的靈活擴充套件。

支持鏈路分叉、更強的CXL記憶體分層支持，以及以受控熱插拔的方式添加/移除器材，為未來的數據中心架構帶來了更多可能性。

更值得一提的是至強®6獨占的「Flat」記憶體模式，CXL記憶體和DRAM記憶體被視為單一的記憶體層，讓作業系統可以直接存取這一統一的記憶體地址空間。

這樣的分層管理可以確保最大限度地提升記憶體使用效率，並且實作利用好CXL記憶體擴充套件而無需修改軟件。

如此這般能對記憶體速度、頻寬、容量和可延伸性全面兼顧，已經形成了至強®6效能核處理器獨樹一幟的競爭力。

具體到伺服器設計上，CLX2.0可以支持每機提供8TB記憶體容量擴充套件，同時提供384GB/s的記憶體頻寬擴充套件。

當然，作為CPU的至強®6效能核處理器並沒有忘記自己的本份，把存力與算力的硬指標優勢結合起來，轉化成真正的優勢，才是它被看好的底氣。

在算力方面，除了更多內核，它還有內建加速器與指令集更新帶來的加成。

主攻AI加速的英特爾®高級矩陣擴充套件（Intel® AMX）新增對FP16數據類別的支持，現已全面覆蓋 int8、BF16和FP16數據類別。

其在每個內核中的矩陣乘加（MAC）運算速度可達 2048 FLOPS（int8）和1024 FLOPS（BF16/FP16），能大幅提升 AI 推理和訓練效能。

英特爾® 高級向量擴充套件 512（AVX-512）雖然是員老將了，但在得到如此豐沛的內核資源支持後，也依然是科學計算、數據庫和 AI 任務中的向量計算擔當。

這些加速器的升級與煥新帶來的成果就是下圖這種多負載效能表現普遍倍增的現象，在AI領域，尤其是在Llama2-7B上的提升直接達到了前一代產品的3.08倍。

最後在硬件增強的安全特性方面，英特爾早期的方案為SGX，但從第五代至強® 開始新增了TDX方案。這些看似難以透過Benchmark數值來證明自身價值的技術，實則不可或缺，是確保關鍵數據和套用更為安全可靠的壓艙石。

而安全，恰恰是目前AI數據中心或智算中心這種涉及海量數據、關系萬千機密和私密的環境中較少提及，卻最應補足和鞏固的一環。

說了這麽多，如果要用一句話總結至強®6效能核處理器，尤其是6900P系列產品的定位，那就是「更強通用計算，兼顧AI加速」了。

那麽新處理器具體都有哪些用法，表現又如何呢？

還請繼續往下看。

全能型CPU：加速AI推理，統領異構計算

首先，至強®6效能核處理器可以做「獨行俠」，直接加速AI推理，助力AI套用普及。

用CPU做AI推理加速，其意義並非在於與GPU或其他專用加速器競爭極致的速度或效率，而是要在一些成本、采購、環境等條件受限的情況下，借助CPU部署更廣泛、人才儲備更紮實和套用更便捷的優勢，讓AI能夠更快、更有效地落地。

帶著這樣的整體目標，英特爾在軟件生態和工作負載最佳化方面投入了大量精力，以確保使用者能夠充分發揮至強®6效能核處理器的潛力。

例如，英特爾與TensorFlow和PyTorch等主流深度學習框架進行深度合作，將針對英特爾CPU的最佳化整合到官方發行版中，從而使得在英特爾CPU上執行深度學習模型時，效能得到顯著提升。上文提到的Llama2-7B成績便是這些努力的成果之一。

另外，至強®6效能核處理器還可以做「指揮官」，強化AI系統整體實力。

這其實是很多使用者更為熟悉，也是至強®6效能核處理器更主打的套用方式，所謂「指揮官」，另一個名稱就是機頭（head-node）CPU或主控CPU。

如果將至強®6效能核處理器用作AI伺服器的機頭CPU，那麽其在算力（更強的單執行緒效能）、存力（對MRDIMM記憶體和CXL記憶體擴充套件能力的支持）以及 I/O（更多的PCIe 5.0通道）等方面的優勢和潛能就能更加充分地發揮和釋放出來。

使其能夠與GPU或專用的AI加速器高效協作，出色地處理數據預處理、數據傳輸分享和混合工作負載。

我們最初的設問，至此終於拼湊出了一個更為完整的答案，即為何至強®6效能核處理器能夠被稱作AI伺服器或AI數據中心的「嚴選」，甚至是優選CPU ？

這正是由於它既能夠單槍匹馬地加速AI推理，又可以居中協調以提升異構系統的整體效能輸出。

更不必說，它還能夠兼顧眾多傳統但同樣不可或缺的套用負載，例如前文提及的科學計算和數據庫，以及高效能雲基礎設施構建等任務。

以Flatiron Institute的案例來說，作為一家科研機構，他們對科學計算有著強烈的需求。透過測試得知，至強®6效能核處理器在常見科學計算負載上表現優異。

他們還覺得對MRDIMM記憶體的支持將進一步突破傳統DDR記憶體的效能瓶頸，推動數據密集型科學發現。

在本次至強®6效能核處理器的釋出會上，英特爾也展示了本地數據庫軟件合作夥伴——科藍軟件的成果。

英特爾市場行銷集團副總裁、中國區&行業解決方案和數據中心銷售部總經理梁雅莉在介紹生態系支持狀況時表示：

>基於我們的新品，科藍軟件構建了高效能國產分布式數據庫，其吞吐較第五代至強®可延伸處理器提升達到 198%。

值得一提的是，在她分享中出現的中國合作夥伴數量眾多且都是各領域的核心力量，英特爾雖然在產品研發上有了更多創新，但在商業模式上仍然非常依賴開放架構平台之上的產業合力。

十數家OEM、ODM、OSV和ISV在至強®6效能核處理器釋出時同步推出新產品，以及多家雲服務提供商的支持，在英特爾看來，才是新品真正走近使用者和價值放大的基礎。

建好AI伺服器，CPU不能是短板

從前面列舉的眾多數據和用例可以看出，在當前AI套用加速落地、新推理計算範式和合成數據等趨勢的推動下，AI算力需求越來越註重推理和復合工作負載。

在這之中GPU或專用加速器固然重要，但CPU作為整個系統的「指揮官」，絕不能成為短板。

大家需要真正兼顧通用計算，以及AI伺服器及AI數據中心場景的CPU產品。它不僅能支持廣泛的第三方GPU及AI加速器，與它們組合形成強大的異構計算平台，還能在其中補足GPU或專用加速器覆蓋不到或不足的地方，為更多樣和復雜的場景提供靈活的算力選擇，並增強整個AI平台的穩定性、安全性和擴充套件性。

英特爾®至強®6效能核處理器的出現，就為AI計算帶來了這樣一個全新的支點。(來源：量子位作者：夢晨金磊)