喬布斯時代之後，會迎來黃仁勛時代嗎？

2024-03-25心靈

輝達強勢的崛起速度，讓業界為之動容。資本市場為之癡狂。新一代AI技術的高效能芯片需求造就了一個新時代的啟蒙開啟。

有人把黃仁勛比作喬布斯。這是對一個新工業革命時代降臨之後的盛譽，自然也是對新傳奇的預期。

效能翻30倍的恐怖Blackwell芯片，我們曾經為摩爾定律為傾倒，如今，或許對於AI芯片的發展，註定了多了一份期許，這極有可能是一次新的超越，或許會奠定未來三十年的發展基業。

3月18日的GTC上，黃仁勛上台開始演講，這場釋出會在SAP中心進行，人們在百米長的隊伍裏要經過兩個小時地檢票和等待，才能進到演講會場。

這裏是矽谷很多演唱會和演出的舉辦地，占地4.2萬平方米，曾舉辦過滾石和Bon Jovi 演唱會、美國NHL全明星賽，而現在站在舞台中央的是黃仁勛，很容易讓現場的許多開發者想到了喬布斯。

一場開發者大會，能有演唱會的效果，這不是一般的科技創業人能達到的效果。就如同相聲演員在舞台上表演的相聲，能達到演唱會的效果。這顯然不是一般人能夠達到這樣的效果的。

沒有持續的追逐力度，沒有持續的影響力，沒有持續的期待值，怎麽可能有這樣的火爆和熱烈。

黃仁勛說。這是一場只有模擬而沒有動畫的釋出會。「今天抵達GTC現場的公司們價值1 trillion。這麽多夥伴，需要這麽多的算力，怎麽辦？我們需要大得多的GPU。把所有GPU 連線起來，成千上萬個大的GPU裏是成千上萬小的GPU，百萬個GPU讓你的效率提升！」

期待是對科技未來的向往，這是紐帶，也是聯系每一個節點的不可或缺的要素。雖然AI的提出已經很多年了，但也只有在OpenAI推出ChatGPT之後，尤其是GPT3.5和Sora推出之後，人們對AI能夠做的工作有了更強烈的預期和緊迫感，而且各種大模型如雨後春筍一般地湧現出來，市場對於高效能芯片的需求度也爆棚了。

黃仁勛推出B200的時候，人們忍不住要驚呼了。這是Hooper後的新一代架構，以數學家Blackwell命名。

B200釋出後，包括微軟執行董事長兼行政總裁薩提亞·納德拉、Alphabet和谷歌行政總裁桑達爾·皮查伊、亞馬遜總裁兼行政總裁安迪·賈西等一眾雲服務廠商大佬紛紛月台支持。

特斯拉及xAI行政總裁埃隆·馬斯克也不吝溢美之詞：「當下的AI領域，輝達硬件無可比擬。」大佬們的肯定也說明輝達在AI芯片領域的絕對領先位置。

黃仁勛總結的Blackwell GPU的效能特點：高AI效能：B200 GPU提供高達20 petaflops的FP4計算能力，這是由其2080億個晶體管提供的。高效推理：當與Grace CPU結合形成GB200超級芯片時，它能在LLM推理工作負載上提供比單個GPU高出30倍的效能，同時在成本和能源消耗上比p00 GPU高出25倍。

訓練能力：使用Blackwell GPU，訓練一個1.8萬億參數的模型所需的GPU數量從8000個減少到2000個，同時電力消耗從15兆瓦降低到僅四兆瓦。GPT-3效能：在GPT-3 LLM基準測試中，GB200的效能是p00的七倍，訓練速度提高了4倍。

第二代Transformer引擎透過使用每個神經元的四位而不是八位，實作了計算、頻寬和模型大小的翻倍。允許多達576個GPU之間進行通訊，提供每秒1.8太位元的雙向頻寬。擁有500億晶體管和3.6 teraflops的FP8計算能力，用於支持大規模GPU集群的通訊。Nvidia的系統可以擴充套件到數萬個GB200超級芯片，透過800Gbps的Quantum-X800 InfiniBand或Spectrum-X800乙太網路連線。

單個NVL72機架可以支持高達27萬億參數的模型。GB200超級芯片將兩個B200 GPU與一個Grace CPU結合在一起，它能將成本和能源消耗比 p00降低多達25倍。黃仁勛還強調，之前訓練一個1.8萬億參數的模型需要使用8000個Hopper GPU和15兆瓦的電力。如今，使用2000個Blackwell GPU就可以完成相同的任務，同時僅需要4兆瓦的電力。

輝達正在打包預訓練模型及其附屬延伸，並簡化了稱為NVIDIA推理微服務（NIMS）的微服務部署。這樣可以讓模型更易於實施和管理的平台。NVIDIA提供服務幫助企業和應用程式對模型進行微調或客製。

據悉，亞馬遜、谷歌、微軟和甲骨文，將成為首批提供Blackwell芯片驅動的雲服務提供商。在這場釋出會上，黃仁勛表達的很感慨，「如果你問我，心目中的GPU是什麽樣子，今天的釋出就是我的答案。」「我們站在計算科學和物理等其他一切科學的交叉點」。「新的工業革命來了。」或許，黃仁勛時代也要來了。