當前位置: 華文星空 > 汽車

BEV演算法的發展方向和尚待解決的問題有哪一些潛在的解決方案和論文?

2023-11-06汽車

想用一個關於我們BEV 量產落地的計畫經歷來回答這個問題,其中BEV 演算法他當然也有他的自己不知,但是相比傳統的2D 演算法,輕感知,重後處理的思路,還是有著巨大的潛力的!

1: 21年的大爭論

現在回看21年底組內決定做BEV障礙物的時候,應該來說是一個幸運,或者說有一點運氣在裏面。最開始面臨的當時是大家每個人都熟悉的拍板的事情,到底是按照業界成熟的2D檢測方案,或者說單目3D的的檢測方案來做。還是說按照21 在自動駕駛屆最火的那個Tesla Ai Day 的方案來做。爭論,和仿徨應該持續了有一個月左右的時間。很幸運的是,最終我們老大直接拍板了,決定做BEV 障礙物。現在回看為什麽說幸運:一個是在21年後學術屆有很多優秀的BEV論文出來,一個是行車感知這塊一直沒有作為一個正式計畫立項,給了我們足夠的時間去試錯,(最開始只有2-3個人來做這件事情)。如果缺少這一些因素,也許最後是做不出來的。這樣可能往往一件成功的事情都伴隨著一些幸運在裏面吧。

2: BEV 如何做方案

在21年10份的時候,能夠找到的BEV 障礙物檢測的資料還是比較少的,看的最多的就是21 年Tesla AI day 上面的BEV pipeline。 我記得很清楚組內對21年的Tesla AI day 的pipeline 方案(感知部份)進行了拆解分析,最後的難點卡在了2D image Feature 到 BEV Feature 的轉換上面。其實那個時候還真不知道如何和Tranformer 結合來做這個。在這裏不得不感慨CV 領域的開源文化,有一天看到了 Patrick Langechuan Liu. (在這裏很感謝劉蘭個川博士 持續關於自動駕駛經典論文的輸出Paper notes,不過近期看到 劉蘭個川博士 從自動駕駛行業跳去做機器人和大模型去了。 )寫的一篇文章,裏面有一個圖,感覺對2Dto BEV 的轉換清楚了很多。如圖1

圖1 來自

https:// towardsdatascience.com/ monocular-bev-perception-with-transformers-in-autonomous-driving-c41e4a893944

然後我們就開始按圖索驥,開始設計我們的網路,後面Detr3D DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queri 開源,結合Detr3D 我們的BEV 障礙物網路在nuscenes 數據集上開始收斂還不錯。在驗證集上跑出一個視訊效果,大家都比較興奮。那個時候我們只有2張40G的A100, 現在回想哈哈,我們真是無知者無畏。

(關註我,這裏有一群奮鬥在自動駕駛量產第一線的小夥伴等你加入)

3: 痛苦開始的22年

到22年的時候,我們面臨的兩個問題一個是自己車型的BEV訓練數據如何構建,一個是如何把BEV 網路部署到車上。先說數據,這面臨兩個問題,一個是采集,一個是標註,還有一個是標定。采集我們搞了一台真值采集車,但是因為沒有搞硬同步,導致7v(前視2V,後視1V,周視4V) 網路攝影機 和lidar 時間同步有問題,然後我們就搞了一套所謂的軟同步的方案,只能說湊合著夠用。 然後說到標註,其實在22年標註行業裏面,或者說我們選到標註供應商他們是沒有標註過BEV 障礙物的, 然後我們就從零開始寫標註文件( 這個過程是真痛苦 ), 第一版的標註文件,加上供應商提供的標註工具,最後標註出來的數據,一個字是真貴呀, 每標一幀都在滴血。經過1-2個月雙方痛苦的磨合和最佳化過程,最終價格在一個合理的範圍內了,不過現在回看,我們在22年標註的數據量還是有點多了。標定,最開始標定我們是求助外力來搞的,但是效果是真不行。最終只能自己動手風衣足食,磕磕絆絆搞了一個lidar 和7v 的聯合標註。 經過這一系列的操作,在這裏感謝商湯開源的標定工具,https:// github.com/pjlab-adg/se nsorscalibration 。 我們終於搞到了品質還算可以的數據(現在回看,我們應該提早為時序模型的數據進行布局)。然後就是部署了,我記得很清楚上海剛好有疫情,然後我們居家了3個月左右。我們差不多痛苦了1個多月,在部署的時候,有一些算子不支持(也主要是2D-to-3D 的算子),後面是轉出來模型效能差,然後最佳化。然後是Pytroch 的模型和轉出來在工程上部署的模型掉點很嚴重,我們曾一度想搞一個Fcos3D(https:// arxiv.org/abs/2104.1095 6 ) 的網路先搞到板子上。 組內的同學很給力的,我們差不多就3-4個人力左右的情況下,最後我們的模型能跑到10hz, 然後在大家的努力下我們差不多在22年7,8月份的時候,我們的視覺 BEV 障礙物就能跑上車了。看到BEV 障礙物在車上即時跑起來的時候,還是感覺到很興奮的。( 跨相機的case 是真穩,整個後處理pipeline 是真的很簡潔的)。 整個22年對我們來說收獲還很大的,BEV 障礙物跑的不錯。但22年我們也面臨了來自計畫的壓力我們曾面臨著人力資源緊缺,只有一個人力在投入在BEV 上面,還好大家堅持了下。

4: 收獲的23年

在前面差不多1年多的積累下,也隨著組內的資源越來越多,23年我們做出來BEV 車道線,還有前融合的BEV多工模型,端到端的紅綠燈(一介書生:城市自動駕駛紅綠燈方案何去何從?)目前都已經落地,在計畫中開始測試,交付中。目前我們在探索時序的BEV,以及大模型相關的(一介書生:2024年自動駕駛標註行業是否會被世界模型所顛覆?) 現在來看在21年投入去積累BEV技術,是一個很恰當的時機,當然拋開技術本身,我們老大也頂下來很大的壓力和質疑,因為有人的地方就有江湖的。