人形機器人，能橫掃工業場景嗎？

2024-12-11心靈

具身智慧在2024年成為科技領域的新熱詞。

人形機器人和具身智慧公司，紛紛成立，一時風頭無兩。

不過，目前的人形機器人和具身智慧，往往更多停留在概念和demo之中，何時能真正落地，仍然未知。包括特斯拉的Optimus在內的不少人形機器人企業，都將人形機器人落地的第一場景，設在工業場景當中。

然而，工廠場景中，實際早已存在不少工業機器人。這些更傳統的工業機器人，未來會被人形機器人取代嗎？或者，它們是否將在哪些方面結合新的具身智慧技術，帶來新的生產效率的突破？

近期，極客公園接觸到了移動機器人解決方案提供商優艾智合。

優艾智合在2017年就已經成立，為工業企業提供物流機器人和巡檢機器人，尤其深耕半導體行業，已經形成上遊晶圓生產、芯片封測、模組封裝到下遊組裝的生產環節全覆蓋機器人解決方案，是半導體領域出貨量最大的移動機器人企業。在2022年，優艾智合的機器人已經做到年出貨量兩千余台。

極客公園了解到，從2022年起，優艾智合也在部署具身智慧相關的技術能力，並在11月20日，與西安交通大學共同宣布成立具身智慧機器人研究院。

在具身智慧火起來之後，人們常常暢想，一個通用的人形機器人，可能會替代很多原有的專用機器人的未來。作為一個已經有真實成熟的工業落地場景的公司，優艾智合如何看待具身智慧呢？

帶著這樣的疑問，極客公園采訪了優艾智合CTO邊旭。采訪記錄有刪節。

具身智慧可以讓機器人更聰明

問：什麽時候開始思考落地具身智慧？

邊旭：這應該是從 22 年 10 月份到2023年我們開始真正關註具身智慧這個概念。

當時谷歌和Everyday Robotics合作，第一次將大型語言模型整合到機器人中，我們當時看了論文，下了一個判斷是，多模態大模型，最終只是一個介面，真正機器人要發揮作用，光靠大模型是遠遠不夠的，需要強化學習、模擬學習等很多技術產生突破。

這是我們思考的起點，我們也開始從2023年開始投入了一些預研的資源。

問：目前的具身智慧技術進步，能夠解決哪些你們面臨的問題？

邊旭：目前在進展中的，最快能解決的問題是視覺模型對環境的理解，能夠讓我們做出更安全、柔性的控制策略。

傳統的機器人對物理環境的重建，基本都是基於雷射雷達的這種直接測量的方法進行構建。雷射測距這項技術是有極限的。

比如我們的地面是平的，但是其實傳感器掃描出來的地面不是平的，是震蕩的。它掃出來，可能是5cm厚的一個點雲。其中上下2cm，都是它對地掃描的誤差。但是這仍然導致有些情況下，地上出現一條電線，這條電線本身的凸起並不超過2cm，這時候對微小物體的辨識，會被淹沒在雜訊中。

而透過視覺辨識，則機器人能夠直接認識到前方出現細小物體，從而進行避障。

我們運送晶圓的機器人，如果被絆一跤，一點點損傷都會帶來很大的經濟損失。在之前，我們只能透過工廠的安規管理，給機器人開辟出專門的執行區域來保證這樣的事情不會發生。

優艾智合晶圓盒搬運機器人｜圖源：優艾智合

但是真正解決這個問題，要依靠具身智慧中可自主學習的多模態感知——也就是機器人能夠透過視覺辨識，辨識出物體，進行更智慧的規避。

在這點上，我們的研發已經有了階段性的成果，在我們的樣機上，demo上效果已經能做到比較好了。

問：具身智慧的下一步技術進步中，作為一個有落地場景的工業機器人公司，你們更關註於哪方面的技術進步？

邊旭：我們也在關註端到端的運動控制，這件事本身是很難的，目前我們也只是在做前期的研究工作。

端到端的自動控制，類似於特斯拉在做的端到端的自動駕駛，也就是整個運動控制的指令都是模型生成的。而我們提供工業機器人，要到運動控制的指令都由機器人生成，實際上需要更精準，犯錯率更低。

另外，達成端到端的運動控制，也依賴為我們提供機械臂本體的上下遊生態夥伴，做相應的底層調整，共同進步。

問：端到端的運動控制可以幫你們解決什麽樣的問題？

邊旭：比如我們為半導體行業提供工業物流機器人，機器人的形態是復合機器人，這樣的機器人，每台對接一個工位，正常都需要經過一些參數化的配置和偵錯，這是行業通用的做法。

但實際上這個是非常耗時的。你要做一些標定，做一些過渡點的錄制，這樣的配置和偵錯過程其實是非常不柔性的，也無法被批次復制。

我們之前做出海，已經賣出了不少機器人解決方案，其實我們在全世界都有很大的需求，但是在近中國的日本和東南亞，開展地更順利，原因之一就是出海的話，我們也需要很大的部署成本。

透過我們前面說的目標辨識，融合視覺和3D的點雲數據，保證目標辨識的魯棒性，再根據目標辨識，做到透過少量學習和零次學習，可以讓機器人完成手眼協同，自適應部署。

這樣基於目標的端到端的運動控制模型，和通用程式碼大模型去自動化腳生成檢測、生成部署指令碼能夠幫助我們大幅降低部署成本。

企業客戶希望有更聰明的機器人，但最好沒有成本增加

問：在之前已經落地的場景中，其實透過安規管理等方式，可以部份解決機器人不夠智慧的問題，那麽使用具身智慧會不會使成本提升很高？

邊旭：在人形機器人上要做具身智慧，可能需要非常強大的GPU，上萬塊的成本，這確實在工業機器人裏是不可接受的。

我們考慮要使用低算力的平台，實作高具身智慧的效果。我們主要是使用NPU，6-7 TOPS的算力，來跑一些視覺模型。

即使是我們後面說的這種，運動控制方向的具身智慧的部署，在我看來，未來也是成本可控的。因為我們機器人硬體中，本身已經有了視覺和雷達的部份，這部份的成本是本來就有的。只是需要再對數據進行演算法層面的訓練。

問：你覺得企業實際上能接受多少成本的上升？

邊旭：我覺得對企業來說，其實最好是沒有成本增加，甚至有運維成本的下降。

比如我們前面說的，透過管理的方式可以解決的問題，實際上本身還是依賴於人工，而人是工業生產中最不可控的變量，根本上如果機器人能智慧化地解決這個問題，整體運維成本是下降的。

對於我們自身而言，也會降低很多和企業之間的溝通成本。

問：除了成本之外，企業還會比較關註哪些問題？

邊旭：企業也會比較在意數據鏈路的絕對安全。

很多客戶的要求是數據不出園區，那可能一些人形機器人使用公有雲上的模型的這種操作模式就不適合我們。

優艾智合智慧巡檢操作機器人｜圖源：優艾智合

此外，前面說過，工業場景對AI的犯錯容忍度很低。客戶對我們的要求就是零異常。一般的工業公司對推AI都比較謹慎。

所以我們認為純靠AI演算法解決所有問題的思路本身是錯的。越智慧就越容易不可控。泛化性的智慧控制，還是需要結合一些條件策略，才能更好地讓產品閉環。

問：在工業領域，具身智慧還有什麽獨特的特點？

邊旭：我們理解具身智慧是兩部份，第一個是單體智慧，也就是一腦多型的這種智慧控制系統，另一方面是，群體智慧。

在這套解決方案裏，機器人只是一環，機器人的智慧化水平可以無限接近於人。但是工廠中要實作全廠的生產，它還需要其他的，比如說電梯、產線，和其他裝置類的東西，都會參與到整個的過程中。我們現在傳感器只是布置在機器人上，未來可能傳感器是部署在全場的解決方案裏面的。

這個全場的解決方案，裏面涉及到的就是群體智慧。這裏面怎麽去融合感知，來保證機器人的安全和效率，我覺得想象的空間比機器人本體更大。

人形機器人，能夠橫掃工業場景嗎？

問：過去一兩年，有很多具身智慧和人形機器人的公司成立。很多公司的願景都是最後走向一個通用的人形機器人，它泛化性非常強，什麽工廠都能進，什麽工廠內的任務都能做。你怎麽看待未來的通用人形機器人，它會成為傳統工業機器人的終結者嗎？

邊旭：其實為什麽工廠在很多場景下已經開始使用機器人了？就是因為其實人類在很多情況下已經不夠適應工業所需的一些情況了。

比如在工業巡檢領域，人只能看到可見光，看不到紅外光，也看不到聲波。我們只能依靠目視距離操作。

因此我們在巡檢中，提出了超視距的多模態感知，首先傳感器不局限於機器人在哪裏，都能獲得數據，其次能夠透過AI的分析處理，獲得隱藏在聲紋等數據中的一些異常，得到自適應感知，這其實都是對人類能力的超越。

對於我們工業從業者來說，我們看問題比較實際。我認為我們的積累其實是一種壁壘。

一個機器人，你沒有做過這個場景，怎麽能講它有泛化的能力，去解決這個場景的問題？

對於工業場景而言，首先，工業場景比較閉塞，很難透過互聯網去學習到相關的知識，有很強的行業內容，機器人很難透過通用的數據進行泛化地學習。

其次，工業機器人的產品定義，本身就是工業機器人企業和工業企業一起推動的。客戶需要機器人，但又不完全清晰的知道需求的細節。很多產品定義都是我們在這個場景中積累總結，和客戶共創獲得的。

問：傳統工業場景下已經落地的機器人企業的主要優勢在哪裏？

邊旭：主要還是在行業深耕後，獲得的壁壘。

比如我們在最基本的SLAM能力上，我們有很多corner case的應對經驗。比如環境對機器人定位的多種非線性擾動，對於機器人定位導航的幹擾是非常大的，並且是很難量化。這對於你的定位導航的魯棒性，和智慧化要求很高。

人形機器人本身，如果能找到一個合適落地的場景，再有很強的技術基礎，或許未來在工業場景中也會有一席之地。

但我認為在一個我們已經深耕過的行業裏，我們再加入具身智慧的技術，我們做這件事的路徑可以是最短的。

問：工業場景，最終的形態會是人形機器人嗎？

邊旭：一個通用人形機器人，來適配所有的場景是很難的，你很難倒逼所有行業客戶改去適配你的裝置。

可能只有純人工的場景，用人形做，客戶改造成本就低一點。但也可能在那之前，全場景的移動機器人的方案已經覆蓋了這個行業了。

我覺得工業，相對於對於服務場景等，最大的區別就是成本和效率。

越通用，代表著對於某個細分行業來講，套用成本越高，它會有很多功能的冗余。

考慮到效率因素，其實不應該所有行業都用一樣機器人。

特斯拉人形機器人Optimus ｜圖片來源：視覺中國

而為不同行業打造的話，模型也可以是更加針對這個場景的，可以就是以更小的數據去訓練，然後運用的成本也更低，然後更針對這個場景，

問：對於只做大腦的具身智慧企業而言，如果不是一個通用的人形機器人來承載其大腦的部份，而是有多種多樣的終端形態，會對執行產生一些困難嗎？

邊旭：會有一些困難。

不同的上整合其實是一個新的模型。雖然從目標辨識，視覺的角度來講差別不大，但在執行和安全形度講，不同的本體構型是有差異的。

在工業裏邊，其實在機電系統和機構學上不存在通用的。就是每一種構型其實都要滿足它的一個特殊工藝的一個設計生產要求。

問：怎麽看未來的人形機器人？

邊旭：我覺得，現在的人形機器人，不論從技術成熟度、量產能力，還是商業模式的成熟度上，其實是和幾年前工業移動機器人剛興起的時候很像。

機器人本體是一部份，但更重要的是智慧系統端的進步。

在移動機器人行業，目前其實有很多做移動機器人本體的廠家，可以把產品做得很標準，成本很低，穩定性很強。而我們做解決方案的企業的優勢，則在於需要長時間積累的智慧系統。

我想未來，可能也會有很多做這種人形機型本體的廠家，將本體做的很好。而像我們這樣的公司，可以在人形機器人上，構建我們的工業套用。

我們目前的技術布局，已經在具身控制器這塊布局了未來相容足式機器人的架構，我們目前看不到人形機器人在工業場景有太好的套用，但不代表未來沒有，我們會持續關註提前布局。

比起機器人的形態，我們更關註具身智慧技術在工業領域規模化落地的路徑與節點。我們認為「一腦多型」是具身智慧落地工業場景的最佳形態，再透過集群化的協同互動，可以實作工業企業生產效率和效率的提升。