謝邀,作為曾經搞多傳感器融合,現在只做純視覺演算法的工程師,我只想說,那麽多回答的人既不寫演算法,甚至對第一性原理的理解和使用都是錯的。
我上周又重新在迪士尼最快的過山車——創極速光輪上做了SLAM效果演示,只使用視覺慣導,沒有激光雷達。搞SLAM的應該都可以看出這是什麽地獄級難度,同時包含強振動、劇烈機動、黑暗、光照突變、視覺欺騙、長走廊等幾乎所有挑戰性元素。
當然,SLAM和自動駕駛的感知所用的演算法還不一樣,但重要的是,我們的演示說明了即便在最極端的場景中,視覺仍具有極高的資訊量!
很多人可能對影像和激光雷達的資訊量差距沒有概念,總覺得激光雷達的數據更好。實際上大多數都搞反了,影像資訊量要高的多,只是更難提取。比如我們使用的OAK相機,傳輸原始數據需要5Gbps的頻寬。而激光雷達呢?即便是多線激光雷達,一般也只需100Mbps的連線。這個對比雖然不是最科學的,但至少說明了二者資訊量是幾十倍的差距。你跟我說激光雷達更好?不,只是激光雷達數據虛警率更低,處理更簡單。這就是為什麽馬斯克會說「傻子采用激光雷達」,因為提取影像資訊確實更難。但我們不就應該迎難而上嗎?那麽多聰明的腦袋如果總選最偷懶的路線做,那還有什麽意思?在我們的視覺SLAM方案中,也用了神經網絡提取影像資訊,但核心還是靠傳統演算法,對算力要求極低。永遠不要低估傳統演算法的潛力,數學不好的人才會迷信大模型,迷信算力。
為什麽說很多人對第一性原理的理解和使用是錯的?因為第一性原理是要先找到最底層,最本質的真理,然後再進行推演。你們說,「因為人類靠視覺駕駛,所以自駕也套用純視覺」,這是基於本質的真理推演的嗎?不是,這是換皮的經驗主義,而不是第一性原理。考慮視覺和激光的成本也不是第一性原理。目前能作為本質真理的只有:影像包含的資訊量比激光雷達高的多。
另外,不管是什麽生物,用什麽傳感器,測距的原理本質上只有兩種:飛行時間和三角測量。使用雙目相機可以構成最基本的三角測量系統。但沒有哪個生物會只用單次觀測的數據,隨著視角移動,多次觀測可以使測距收斂到極高的精度。這也是為什麽我們要堅持搞SLAM,因為可以做延遲三角化。我們此前做多傳感器融合時發現激光雷達在最極端的環境中幫助不大,IMU和視覺才是最重要的。結合我們上面所說的第一性原理,自然要果斷拋棄激光雷達。