车东西(公众号:chedongxi)
作者 | Juice
编辑 | 晓寒
就在今年4月份,由车东西和2021上海车展承办方上海市国际展览有限公司(SIEC)联合主办的「GTIC 2021全球自动驾驶创新峰会」在上海成功举办。
峰会受到了全国各地赶来的自动驾驶工程师、创业者、投资人的热情支持,会场全天座无虚席,全网观看直播的人数高达243万人。
峰会现场
互联网巨头百度、滴滴、美团同台演讲,从无人出租车、低速配送车和辅助自动驾驶方面讲解了自动驾驶的落地问题;明星创企小马智行、文远知行、蘑菇车联、元戎启行等也分享了自己在无人驾驶出租车和车路协同方面的思考。
福瑞泰克、驭势科技、MAXIEYE则分享了L2级自动驾驶量产落地方面的进展;智加科技、嬴彻科技和希迪智驾从商用车自动化方面出发,分析了对于无人驾驶重卡和无人矿卡的布局情况。
理想汽车从主机厂的角度分享了自己对于自动驾驶的思考,高通、地平线、黑芝麻智能、超星未来等企业也分享了其车载AI芯片、车载软件和算法方面的心得。
本届峰会上,西安交通大学薛建儒教授则从学术研究角度全面剖析了无人车行业的概况和所面临的一些关键问题,并发表了题为【无人车的场景理解与情境预测】的学术报告。
薛教授演讲现场
薛建儒表示目前无人车主要有两条技术路线,分别是自主驾驶和车路协同,而随着5G技术的发展和大面积普及,已经开始呈现出深度融合的发展趋势。
现阶段,全球多个国家都在做自动驾驶的研究,而薛教授则从2002年就开始研究自动驾驶了。2009年开始国家自然科学基金委启动了认知信息计算重大研究计划,选择无人车作为物理载体来验证视听觉信息计算模型的有效性,每年举办一次比赛。
薛教授的团队也连续参加了多届比赛,通过大量的参赛经验,薛教授认为感知与理解交通场景是无人车所面临的最主要问题之一,其技术发展可大致分为交通场景理解和驾驶情景预测两个阶段。
交通场景的感知与理解就是要无人车理解自己所处的环境,需要通过多传感器协同构建交通场景的层次化表征,以满足无人车自主运动决策的需求。而要想让无人车更好地驾驶,交通情境的预测必不可少,薛教授的团队目前已经实现了4秒后行人运动轨迹的预测。
但尽管如此,薛教授还认为目前无人车交通场景还有四个挑战性的问题,分别为广域环境下的自主定位、长时间的情境预测、自主与人机协同、车路协同。如果能够顺利解决这些问题,国内无人驾驶的研究也将会更进一步。
以下为薛建儒教授的演讲干货。
一、单车智能和车路协同趋于融合 完全无人驾驶仍存难度
薛建儒教授说到,智能驾驶要求车辆能够自主适应环境、自主运动。越来越多的自主应用系统不断涌现,而无人车是一个非常典型的自主应用系统,也是国家新一代人工智能发展规划里重点的突破方向。
薛教授演讲现场
无人车的技术路线方面主要有两条,一是通过单车智能实现自主驾驶,通过车辆配置的传感器以及规划和控制来实现自适应环境的调整;另外一条则是车路协同,即通过联网通信,使得车与车之间、车和交通设施之间的互联互通信息来降低感知以及决策的技术难度。
薛教授表示,随着5G技术的发展和大面积普及,这两条技术路线正在呈现出深度融合的发展趋势。
目前,无人驾驶企业做的最多的还主要是单车智能这条路线,在这条技术路线上,L3级~L5级自动驾驶之间还存在着技术鸿沟。
但是这种情况也有所缓解,尤其是去年Waymo发布完全取消安全员无人车的测试,展示了L4级、L5级自动驾驶商业应用的可能性。
而在中国,近些年也出现了大面积的自动驾驶测试,而这种大面积的测试,也出现了一些典型的事故。这说明,实现真正安全、可信的无人驾驶的挑战性仍然存在,而且非常巨大。
判断一辆车是否具有智能性,要从车辆的行为去看,而车辆的行为则取决于车辆的决策。但对于自动驾驶车辆来说,其驾驶决策是一个动态的决策,存在复杂性、不确定性和歧义性。
复杂性是说测试收集到的数据是大量的,并且存在冗余关系,如何从纷繁复杂的冗余关系当中找出因果关系,实现推理正是其复杂性所在;存在不确定性是因为测试环境是开放的环境,不像取得巨大进步的AlphaGo只面临封闭状态就可以;歧义性主要是因为车辆从数据里面得到的很多判断是有冲突的,而消解这些冲突,得到合理安全可信的解释还比较复杂。
薛教授演讲PPT
因此来看,现阶段无人车所依赖的行为决策、运动规划和运动控制等术语模型表征能力仍然不足,没有办法像人应对复杂交通环境时所具有的效率、适应性和自主学习能力。
目前,国家也正在推动自动驾驶的发展。在2009年,国家自然科学基金委启动了认知信息计算重大研究计划,选择无人车作为物理载体来验证视听觉信息计算模型的有效性,每年举办一次比赛。这个比赛里有大量的参赛团队,为国家培养了大批自动驾驶人才。
从2017年开始,这项比赛的场景主要分为两个,一是城市环境,另一个则是高速环境,这两个环境主要用来验证车辆能不能适应真实的车流。从实验结果上来看,目前的自动驾驶车辆表现还不错。
二、交通场景理解是关键 无 GPS 也能成功定位
薛教授把对交通场景的理解划分成了两个阶段,第一个阶段是交通场景的理解,第二个阶段驾驶情境的预测。
薛教授也介绍了自己团队在交通场景理解方面所做的工作和思考,他认为对交通场景的理解需要多传感器的协同来构建交通场景的层次化表征,而且这个层次化表征必须满足无人车自己运动决策的需求。
从无人车自动运动决策的需求来看,它主要需要的信息是几何度量、拓扑、运动规则、语义推理,从传感器的数据出发提取满足自主决策所需要的三个层次的信息。
薛教授演讲PPT
计算的角度可以划分成三个层级,初级为了满足度量和定位,也就是说为了满足定位和导航;中级则是对环境里面的运动物体进行分类,推测它们对场景的占据情况,来实现决策;高级则需要预测场景的变化,要对交通的情形进行认知和理解,支撑更高层级更高智能水平的驾驶决策。
而要实现这样的表征,就需要输入传感器数据,包括GPS和地图信息,并转化为对车辆的方向盘、油门、方向和速度的控制。
场景理解需要实现自主定位以及对周围障碍物的运动分析。自主定位可以分成两个范围,一个是相对定位,也就是要在距离出发点车辆行驶过程中每个时刻的位置状态,另外一个是绝对定位,通过高精度地图实现。
自主定位不仅仅在无人车里面,在机器人领域里面也是一个长期都在研究的问题。目前主要的技术路线如何利用环境的传感器和对车辆状态感知的惯性测量单元融合在一起,实现自主定位。这种自主定位技术路线可以划分成两条,一种松耦合,一种紧耦合。
薛教授演讲PPT
所谓的松耦合,通过环境感知器来实现一个里程计,通过惯性测量单元实现一个里程计,两个融合,实现最终的可靠定位。紧耦合就是在数据层次上考虑两个数据之间的互助交叉验证等等关系,把惯性测量引入到环境感知数据的推理里面来,主要的技术在持续力波框架下增加了滚动窗口的优化。
现在随着技术的发展,尤其是扩展滤波器技术,可以通过定义不同的状态,让状态包含更多的信息,以及对IMU数据处理的速度还有后端的优化滤波框架逐渐发展一个图来做优化,也就是在巩固窗口里面集中更多的测量数据,来测量车辆的位置。
而绝对定位则是地图,对环境的表征就是用地图来表示的,那么做地图的时候,首先需要对什么做出表征呢?
目前的情况是对环境三维模型的表征,要对场景车辆行驶的环境实现全覆盖,每个位置都有一个三维的栅格来表示是占据还是不占据,从度量和定位的角度来出发,后期的发展不仅实现定位,而且要支撑无人车适应环境的环境变化自适应,还需要更多嵌入拓扑信息以及语义信息。
而且通过里程计和回环检测和因子图优化技术结合到一起,还可以构建三维点云地图生成的算法。这个算法实现大的范围里面点云模型的构建,实际就是环境表征,某一个部分放大以后可以看到,它是一个三维表征,比如西安交通大学四大发明广场里面的雕塑外形可以在地图里面拍出来。
这不仅仅可以实现度量,还有一个拓扑信息,薛教授团队会把车道线信息和度量信息结合起来。车道线地图创建要解决的问题就是局部的测量之间的时空对齐,这方面薛教授团队也做了一些研究工作,在创建三维点云地图的时候,同时把车道线的地图也创建起来,形成度量和拓扑混合的地图。下一步的工作主要考虑把位置信息、对任务相关的一些重要信息集成到地图里面来。
而位姿系统实现了50赫兹到厘米级的定位精度,没有GPS的情况下也可以实现自主定位。2019年的时候,薛教授等人在中国智能车未来挑战赛里面提出来不依赖GPS完成城区和高速的比赛。
薛教授演讲PPT
整个挑战赛里面不仅有城区交通公路,还有乡村越野路,包括要完成从地下车库进去和自主泊车再出来的工作。这对于自主定位的时效性,以及自主定位的范围之广和时长都是一个严峻的挑战。但最终,团队的表现效果还不错。
三、情境检测也是重点 自动驾驶还存四大挑战
除了对服务于车辆的定位和导航的静态场景进行理解,车辆还要遵守交通规则,也就是说,车辆还需要对车道线、道路边界和红绿灯进行检测。
目前所有的障碍物运动分析都是从检测、跟踪和预测开始的,尤其是预测这件事情现在变得越来越重要。支撑车辆运动决策,运动规划都是建立在预测的基础上,所以研究的时候必须要根据当前时刻障碍物的状态预测将来这些障碍物的占据情况。
薛教授演讲现场
预测的时间越长,难度就越大,这不仅会涉及到跟踪,而且对障碍物的行为要进行识别,运动异同进行判断。
薛教授团队做的比较多的就是三维障碍物的检测,通过立体视觉或者三维激光,把三维点云和障碍物的信息,如位置和速度提取出来,进一步把三维形状重建出来,就能提高研究者对车辆运动速度的掌握。
车辆在运动过程中可能只有局部,但要估计准确的速度,就需要知道完整的三维形状图,如果找不到在时间上的对应点,速度就无法计算出来。因此,研究者要对车辆进行长期的跟踪,预测移动行为,最终决定无人车什么时候插入车流,什么时候离开。
薛教授演讲PPT
但是一个比较明显的事情就是,无论用视觉还是激光或者是激光和视觉融合的方案,三维障碍物检测的准确率均没有超过90%,这也就意味着在这样的基础上要实现障碍物的运动分析有很多的歧义性。
为了解决这一问题,薛教授的团队也做了很多工作,把几何和物理关系的表征模型引入到检测跟踪和预测里面来,而不是把障碍物的运动分析分解为单独的检测跟踪或者预测。对于场景里面交通要素之间的关系时空变化看作一个整体,提高障碍物的检测、跟踪和预测线路。
随着应用的深入也开始发现更多的问题,此前采用对各个子问题的表征和计算的方法,相对驾驶任务而言并非是最优的。现在薛教授的团队直接开始预测参与实体间的拓扑关系的时空变化,这种关系的变化主要包括为它们之间的因果关联以及控制关系,而且对这个关系的预测准确度是形成准确驾驶策略的基础。
驾驶策略需要建立在预测的基础上,而且预测应该是对场景里面各个交通参与者时空关系的预测。
更进一步来看,在驾驶策略方面,研究者不仅仅需要将无人车的状态和环境的变化关联在一起,而且需要将其定义为一个情境,然后对情境进行预测。
薛教授认为,目前在传感器的数据处理方面已经有了大量的研究,包括在深度神经网络里面对记忆和注意的研究,把卷积神经网络里面的权重看作是训练集里面的样本和类别之间的对应关系。
对RNN(循环神经网络)这样的网络来讲,记忆体现在对类比状态的描述上,通过对于从属控制的读写来实现长时间的记忆。对传统的RNN网络改造,现有的RNN网络对于输入的数据没有区分性,输入是一个向量,而整个向量里面的各个元素是统一来处理的。
薛教授团队在这里引入了一个元素重要性的概念,而这个重要性通过一个门控单元实现元素重要性的调整,同时也给RNN神经原里面赋予了细粒度的注意力,对于RNN网络来讲,对于动作的识别有了明显的提升。
动作的识别在无人车研究里主要指一个对外界环境里面行人的动作识别,例如行人到底过马路还是不过马路,在人机共驾的情况下,对驾驶员的操作也非常重要,是一个通用性的指标。
薛教授团队提出来视角自适应的识别,比现有的方法都好一些,经过了大量的试验数据,现在也得到了大量的应用。
另外,行人运动轨迹的预测对于在城区里面的无人车来讲也是非常关键的问题,此前研究者在做预测的时候往往对单个人的运动进行预测,主要考虑人与人之间的相互作用关系。而薛教授团队则增加了社会交互的关系,通过一个SR单元,可以显著提升对行人轨迹预测的准确度,目前可以预测4秒钟以内的行人轨迹。
薛教授演讲PPT
而且薛教授团队还对运动的数据集、三维形状、运动轨迹、交互的事件等都做了标注,这对于地图模型的设计和测试带来了很大方便。
但尽管如此,薛教授还认为,目前无人车方面还存在四个挑战性的问题。
一是广域环境下的自主定位。如何在卫星不可用的情况下高精导航,这是中国科协2020年发布的10个对技术和产业具有关键作用的工程难题第七个。
二是长时间的情境预测。各个交通主体之间的时空关系是怎么来演化的,从而来决定预测。常识的交通驾驶预测仍然是挑战性的问题。
三是自主与人机协同。无人车依然离不开人,无论是远程的还是安全员,如何实现超越人类驾驶水平的自主运动预测,这仍然是一个开放的问题,是一个挑战性的问题。
四是车路协同。在5G网络的情况下,尤其交通设施云边端架构如何来分配任务,如何来促进自动驾驶的技术发展,这也是中国科协对科学发展具有导向作用的科学问题的第六个。
结语:自动驾驶发展迅速但还面临多重难题
从谷歌让无人驾驶汽车走入公众视野之后,自动驾驶行业在短短的十余年间已经取得了跨越式的发展,无人驾驶出租车开始落地,甚至都已经逐步开始拿掉了安全员。
而自动驾驶技术也从单车智能逐步过渡到单车智能和车路协同融合,在技术上也取得了大跨步的发展。
不过还需要注意的是,虽然技术已经取得了不断的发展,但是目前技术的发展已经走过了快速增长期,现阶段面临着诸多瓶颈,只有打破这些瓶颈,完全无人驾驶时代才能真正到来。