當前位置: 華文星空 > 心靈

輝達開源Cosmos:加速物理AI開發,直解人形機器人訓練難點

2025-01-16心靈

作者 | ZeR0
編輯 | 漠影

智東西1月13日報道,在CES 2025主題演講中,NVIDIA(輝達)創始人兼CEO黃仁勛宣布推出了一個 世界基礎模型平台Cosmos 。該平台將解決掣肘通用機器人及自動駕駛發展的一大關鍵阻力——訓練數據。

這是一個由先進的生成式世界基礎模型(WFM)、高級視訊tokenizer、護欄、加速視訊處理流水線組成的平台,針對NVIDIA數據中心GPU進行了最佳化,將有助於推動自動駕駛汽車、機器人等物理AI系統的發展。

物理AI模型的開發成本很高,需要大量真實數據和測試。Cosmos世界基礎模型使開發者能夠輕松生成大量基於物理學的逼真合成數據,以用於訓練和評估其現有的模型。開發者還可以透過微調Cosmos世界基礎模型來構建自訂模型。

其首批使用者包括 1X、思靈機器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利葉(Fourier)、銀河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi、小鵬汽車 等的全球物理AI領先企業,涉及機器人、自動駕駛、共享出行等領域。

Cosmos模型將以 開放模型授權證 的方式提供。首批模型有8款,參數量從40億到140億不等。

Hugging Face地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

NVIDIA API目錄中可預覽首批模型,NVIDIA NGC目錄或Hugging Face也支持下載整個系列的模型和微調框架。很快這些模型將以經過全面最佳化的NVIDIA NIM微服務形式提供。

開發者可以使用NVIDIA NeMo Curator加速視訊處理,並使用NVIDIA NeMo來客製自己的世界模型,然後可透過NVIDIA DGX Cloud快速、簡單地部署這些模型,還可以獲得NVIDIA AI Enterprise軟體平台提供的企業支持。

一、機器人ChatGPT時刻將近,世界基礎模型助攻物理AI普及

「機器人技術的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎模型是推動機器人和自動駕駛汽車開發的基礎。」NVIDIA創始人兼CEO黃仁勛談道,並非所有開發者都擁有自主訓練模型所需的專業知識和資源,輝達建立Cosmos的目的是普及物理AI,讓每一位開發者都能接觸到通用機器人技術。

借助NVIDIA Cosmos的開放模型套件,開發者可以根據目標套用的需要,使用數據集客製自動駕駛汽車旅行視訊、機器人在倉庫中的移動軌跡等世界基礎模型。

Cosmos世界基礎模型專為物理AI的研發而生,是一套開放擴散和自回歸Transformer模型,為實作基於物理學的互動、物體恒存性以及生成高品質的仿真工業環境(如倉庫、工廠)和駕駛環境(包括各種路況)而構建。

這些模型接受了來自2000萬小時真實世界人類互動、環境、工業、機器人、自動駕駛數據的訓練,可根據文本、影像和視訊等輸入組合以及機器人傳感器或運動數據生成基於物理學的視訊。

黃仁勛在CES主題演講期間展示了一些開發者使用Cosmos模型的用例:

1) 視訊搜尋和理解: 使開發者能從視訊數據中輕松找到特定的訓練場景,例如雪天路況或倉庫擁堵等。

2) 基於物理學的逼真合成數據生成: 使用Cosmos模型從NVIDIA Omniverse平台上開發的可控3D場景中生成逼真視訊。

3) 物理AI模型開發和評估: 在基礎模型上構建自訂模型,使用Cosmos進行強化學習以改進模型,或者測試模型在特定仿真場景中的表現。

4) 預測與「多元宇宙」模擬: 使用Cosmos和Omniverse生成AI模型所有未來可能實作的結果,以便幫助其選擇最佳和最準確的路徑。

二、提供先進開發工具,保護數據私密安全

構建物理AI模型需要數PB(petabytes)的視訊數據以及數萬小時的計算,來處理、整理和標記這些數據。

為了幫助節省在數據整理、訓練和模型客製方面的巨大成本,Cosmos提供了以下功能:

  • NVIDIA NeMo Curator 驅動的NVIDIA AI和CUDA加速數據處理管線 ,使開發者能夠使用NVIDIA Blackwell平台在14天內處理、整理和標記2000萬小時的視訊,而如果僅用CPU則需要3年以上。

  • NVIDIA Cosmos Tokenizer 是先進的視覺化tokenizer,可將影像和視訊轉換成token。與當前領先的tokenizer相比,其總壓縮率提高了8倍,處理速度提高了12倍。

  • NVIDIA NeMo框架 可用於高效的模型訓練、客製和最佳化。

  • 關於世界模型的私密和數據保護問題,NVIDIA也做了一系列設計。Cosmos根據NVIDIA的可信AI原則開發而成。該原則將優先考慮私密、安全、保障、透明和減少不必要的偏見。

    Cosmos開放平台加入了專為減少有害文字和影像而設計的 護欄 ,並提供了一個增強文字提示準確性的工具。使用NVIDIA API目錄上的Cosmos 自回歸模型和擴散模型生成的視訊會帶有隱形浮水印,可辨識AI生成的內容,這有助於減少錯誤資訊和錯誤歸屬的可能性。NVIDIA還將進一步改進其套用的護欄和浮水印解決方案。

    三、多家物理AI企業已采用,加速人形機器人、自動駕駛開發

    許多物理AI行業的領先者已開始使用Cosmos技術。

    例如AI人形機器人公司 1X 使用Cosmos Tokenizer推出了1X World Model Challenge數據集。 Hillbot Skild AI 正在使用Cosmos加速其通用機器人的開發。 小鵬汽車 也將使用Cosmos加快其人形機器人的開發。

    「數據的稀缺性和可變性是在機器人環境中成功學習的主要挑戰。」 Agility 技術長Pras Velagapudi分享說,「借助Cosmos的文本、影像和視訊到世界的能力,我們能夠在各種任務中生成和增強逼真的場景並利用這些場景訓練模型,而不需要采集那麽多昂貴的真實數據。」

    一些交通運輸領域的領先企業也在使用Cosmos構建適用於自動駕駛汽車的物理AI。

    Waabi 是一家從自動駕駛汽車開始致力於開發物理世界生成式AI的公司,正在評估Cosmos在自動駕駛汽車軟體開發和仿真中數據整理的套用。自動駕駛AI基礎模型公司 Wayve 也正在評估使用Cosmos搜尋用於提高安全性和驗證的極端駕駛場景。

    自動駕駛汽車工具鏈提供商 Foretellix 將使用Cosmos與NVIDIA Omniverse Sensor RTX API大規模評估和生成高保真測試場景與訓練數據。

    全球共享出行巨頭 Uber 正與NVIDIA合作共同加速自動駕駛汽車的發展。Uber豐富的駕駛數據集在與Cosmos平台和NVIDIA DGX Cloud的功能結合後,能幫助自動駕駛汽車合作夥伴更加高效地構建更強大的AI模型。

    Uber執行長Dara Khosrowshahi提到生成式AI將驅動未來的移動出行,這需要豐富的數據和強大的算力。他相信在NVIDIA的助力下,Uber團隊能夠幫助行業更快開發出安全、可延伸的自動駕駛解決方案。

    結語:開啟AI理解物理世界之門

    機器人、自動駕駛等物理AI的開發離不開大量真實數據。NVIDIA Cosmos平台的出現恰逢其時,透過能夠生成高仿真虛擬世界狀態的世界基礎模型,為一眾開發者們提供了教AI理解物理世界的關鍵工具。

    這是也是NVIDIA未來AI雄心的展現。真實世界充滿各種物理原理,要讓AI具備更強的通用智慧、能夠模擬出與現實世界如出一轍的自然運作,理解物理世界是不可避免的下一個重點發展方向。而NVIDIA打造的Cosmos、Omniverse平台組合,將使得生成逼真合成數據更加輕而易舉,從而加速物理AI的構建與套用。