谢邀,作为曾经搞多传感器融合,现在只做纯视觉算法的工程师,我只想说,那么多回答的人既不写算法,甚至对第一性原理的理解和使用都是错的。
我上周又重新在迪士尼最快的过山车——创极速光轮上做了SLAM效果演示,只使用视觉惯导,没有激光雷达。搞SLAM的应该都可以看出这是什么地狱级难度,同时包含强振动、剧烈机动、黑暗、光照突变、视觉欺骗、长走廊等几乎所有挑战性元素。
当然,SLAM和自动驾驶的感知所用的算法还不一样,但重要的是,我们的演示说明了即便在最极端的场景中,视觉仍具有极高的信息量!
很多人可能对图像和激光雷达的信息量差距没有概念,总觉得激光雷达的数据更好。实际上大多数都搞反了,图像信息量要高的多,只是更难提取。比如我们使用的OAK相机,传输原始数据需要5Gbps的带宽。而激光雷达呢?即便是多线激光雷达,一般也只需100Mbps的连接。这个对比虽然不是最科学的,但至少说明了二者信息量是几十倍的差距。你跟我说激光雷达更好?不,只是激光雷达数据虚警率更低,处理更简单。这就是为什么马斯克会说「傻子采用激光雷达」,因为提取图像信息确实更难。但我们不就应该迎难而上吗?那么多聪明的脑袋如果总选最偷懒的路线做,那还有什么意思?在我们的视觉SLAM方案中,也用了神经网络提取图像信息,但核心还是靠传统算法,对算力要求极低。永远不要低估传统算法的潜力,数学不好的人才会迷信大模型,迷信算力。
为什么说很多人对第一性原理的理解和使用是错的?因为第一性原理是要先找到最底层,最本质的真理,然后再进行推演。你们说,「因为人类靠视觉驾驶,所以自驾也应用纯视觉」,这是基于本质的真理推演的吗?不是,这是换皮的经验主义,而不是第一性原理。考虑视觉和激光的成本也不是第一性原理。目前能作为本质真理的只有:图像包含的信息量比激光雷达高的多。
另外,不管是什么生物,用什么传感器,测距的原理本质上只有两种:飞行时间和三角测量。使用双目相机可以构成最基本的三角测量系统。但没有哪个生物会只用单次观测的数据,随着视角移动,多次观测可以使测距收敛到极高的精度。这也是为什么我们要坚持搞SLAM,因为可以做延迟三角化。我们此前做多传感器融合时发现激光雷达在最极端的环境中帮助不大,IMU和视觉才是最重要的。结合我们上面所说的第一性原理,自然要果断抛弃激光雷达。