当前位置: 华文星空 > 汽车

不懂就问「端到端」是自动驾驶的曙光吗?为什么呢?

2024-07-27汽车

「端到端」是不是撕开完全自动驾驶的那道裂缝?
流量/声量这么大,大家都创造条件上,

  • 特斯拉的FSD V12 Beta,又是它第一个
  • 小鹏汽车的端到端算法,升级了Xnet和Xbrain模型
  • 华为ADS 3.0,GOD网络和PDP网络为核心
  • 百度Apollo ADFM
  • 辣应该是的光吧,至少是在聚光灯下的。

    说是曙光/微光,是因为这道光真的能照进来的话。
    可能意味着: 最终世界模型的路,真有可能走通

    一个可解释的一端式端到端,性能表现类人类、稳定、可靠的话。
    确实是一道微光。

    和现在搭积木(场景),以量取胜的自动驾驶相比。
    端到端最大的区别在于。
    有一点点摸到, 直接理解物理世界的那道坎

    就像,看剧,不需要字幕组:

    直接生吞物理世界这个「生肉」

    是生吞, 全量的、瞬息万变的、包含小概率事件 的现实世界。

    怎么生吞的:
    「端到端」是通过一个 单一 的神经网络模型直接从传感器输入到控制输出。
    这样能简化多个模块之间的复杂交互和信息传递过程。误差积累也就少了,计算效率也提升了。

    对比现在传统的架构:用分模块的方法,将感知、预测、规划和控制等任务分别由不同的算法模块处理,每个模块之间通过接口传递数据。
    虽然降低了开发难度,但容易导致信息传递损耗、误差累积以及计算延时。
    可以快速的搭起下限不低的自动驾驶,但是天花板隐隐也就在上头了

    而端到端架构则通过深度学习模型直接处理原始传感器数据。
    关键,衍生出了 全局优化和泛化 的能力
    所以,端到端,是隐隐摸到

    高度抽象以后,有自主思维能力的自动驾驶?

    但为什么是 隐隐摸到 ,能不能生吞现实世界?
    八戒吃人生果那样可不行。
    可解释 ,这是目前最大的难题。

    目前也有一些方案来攻克 可解释性

    多模态大模型
    牛津大学提出的RAG-Driver通过使用多模态大模型的上下文学习,提供人类可理解的解释,增强自主决策的可信度和透明度。 类似于给代码写一个阅读性很强的文档?

    从算法建模前、中、后三个阶段插手
    在算法模型建模前、建模中与建模后三个阶段赋予模型从始至终的可解释性。 类似于,每一个模块都「打印」出来,做过程检验? 但,这与一段式端到端是不是背离的。

    但是底层的,需要超量的高质量数据及仿真/实车验证。

    要靠时间,不能压缩的时间。

    希望,这道光快点照进来吧。