预测技术已经超越感知，成为无人驾驶领域最大的挑战

无人驾驶技术包含了感知、决策和控制等技术，目前，感知技术已经取得了阶段性成果，但是，在复杂的动态环境中运行的无人驾驶汽车，仅仅有感知还是远远不够的。无人驾驶要想“更上一层楼”，就需要在新的领域发力研究。这个领域是什么呢？那就是：预测。InfoQ 中文站翻译了无人驾驶技术公司 Voyage 的联合创始人兼 CEO 亲自撰写的这篇文章，解读无人驾驶领域未来需要重点深耕的技术，以飨读者！

本文最初发表在 Oliver Cameron 的个人博客，经原作者授权，InfoQ 中文站翻译并分享。

为什么预测已经超越感知，成为该领域最大的挑战？

在过去的十年里，无人驾驶机器学习社区内的大多数讨论都集中在目标检测（object detection）上。动态目标对所有安全导航至关重要，我们该如何提高无人驾驶汽车检测和跟踪这些动态目标的能力呢？2010 年，在深度学习普及之前，感知是无人驾驶汽车能力的主要限制。对于一台 3 吨重的机器来说，有着如此之高的误报率和漏报率，都是不可接受的。最能说明这一点的是 ImageNet 的分类正确率，在这方面，最先进的解决方案在 2010 年仅达到 50% 的正确率（相比之下，今天的正确率为 88%）。尽管 ImageNet 的分类与当前最先进的目标检测技术相提并论，但它确实可以作为计算机视觉进步的一个代表。

IriYNnn.png!web

两年后的 2012 年， AlexNet 成为首批利用卷积神经网络进行深度学习的 ImageNet 竞赛的参赛者之一。AlexNet 也许是计算机视觉领域最有影响力的论文，2012 年就在 ImageNet 上实现了当时最先进的正确率。

深度学习，无论是应用于激光雷达、摄像头，还是雷达，都在 2014 年左右开始涉足无人驾驶技术。Google 最著名的一个例子是，它的无人驾驶汽车碰到了一名老太太坐着电动轮椅在车辆前面转来转去追赶一只鸭子的场景，当即就做出了躲避的行为，这一例子说明了感知技术从 2010 年发展到现在已经走了多远。

今天，用于感知的深度学习在无人驾驶汽车中已经很普遍了，我们也因此不断看到性能的惊人提升。去年以来，像 VoxelNet 、 PIXOR 和 PointPillars 这样的网络推动了我们在计算机视觉方面的思考。尽管我们不应认定现在的机器人已经实现了完美的感知能力，但计算机视觉领域的发展如此之快，可以说，它现在已经不再是无人驾驶汽车商业化应用的主要障碍了。

注：我有严重的偏见，但以上的说法，是基于一款具备多钟传感器模式的无人驾驶汽车，包括一个飞行时间传感器，它会返回物理上准确的深度信息，并提供给感知模型。对不起了，特斯拉！

既然感知已经不再是无人驾驶技术的星星之火，那下一步是什么呢？预测！

既然我们可以安全地探测到我们周围的关键物体，那么，我们现在就必须预测它们下一步要做什么。正确的预测意味着我们将在正确的时间执行正确的操作，同时考虑周围人们的行动。错误的预测意味着我们可能会将自己推向危险的境地。作为人类，我们使用数以千计的环境输入来直观地进行这种预测。

正如我在第一篇关于无人驾驶汽车的强化学习和模仿学习的博文中所讨论的那样，让我们来看看机器人无人驾驶汽车如何处理没有保护的左转弯。

预测问题是无保护左转弯实例化的核心问题，该问题也是最困难的。在执行左转弯之前，无人驾驶汽车必须预测周围所有动态目标的未来动作，这项任务比无人驾驶中的其他问题需要更多的智能。人类驾驶员虽然不完美，但在很大程度上只需依靠一般智力、现实世界的驾驶经验和社会线索（如轻推或手势），就能够成功执行无保护的左转弯。

尽管机器比人类有着明显的优势（如 360°远程视野），但与人类相比，无人驾驶技术的传统预测可能还相当原始。

感知器模块输出无人驾驶汽车特定半径内的一组目标检测（例如车辆、行人），然后将其输入到预测模块。
预测模块使用当前（例如方向、速度）和先前的观察结果来生成每个目标在接下来 5 秒内可能会做什么动作的单独预测。
通过将所有这些单独预测输入到一个算法中，就可以生成关于无人驾驶汽车可以执行的最安全动作的假设。
无人驾驶骑车开始规定的动作，并每 100 毫秒重新评估该决策。

你可以想象得出，这种机器人的方式会导致不舒服甚至潜在的危险驾驶行为，在人口稠密的城市环境中尤为如此。在过去的几年里，我们看到了深度学习方法进行预测的实验爆炸式增长。这些方法有显著提高预测正确率的潜力，能够将它们从机器人转变为类似人类的预测。

用数据驱动的方法解决这些原始的预测，与 2010 年代中期深度学习如何取代经典感知的方式有着惊人的相似之处。

下面是一些实际应用的例子。

Cruise 的感知工程经理进行了一次精彩的演讲，讲述了他们是如何将学习预测作为一个分类问题来处理的。我对他们构建的工具特别感兴趣，除了他们场景自动标记的“车队学习”（Fleet learning）的能力之外，他们还构建了支持快速实验的工具。
Uber 分享了他们在 DRF-Net 上的工作，该网络增强了行人预测的能力：“大量实验表明，我们的模型表现出高可能性、低误差、低熵和高多模态，优于几个强基线。DRF-Net 离散预测的强大性能对于基于成本和约束的机器人规划提供了很好的前景。”
Apple 发表了一篇关于强化学习的新论文，题为《最坏情况下的策略梯度》（Worst Cases Policy Gradients）：“构建智能系统的关键挑战之一，是开发在复杂环境中做出健壮且安全的连续决策的能力。”
isee 在 2019 年的 CVPR 峰会发表了关于学习预测方法的研究成果：“这种 MAT 编码自然地处理具有不同数量的动态目标和场景，并通过 AMT 上的卷积运算来预测场景中所有动态目标的轨迹，并且计算复杂度与动态目标的数量呈线性关系。”

虽然预测目前还没有达到它所需的性能要求，但我很清楚，我们将看到数据驱动方法在预测性能方面上的巨大飞跃，就像深度学习对经典感知的影响一样。这些即将到来的飞跃，无疑将极大改善无人驾驶汽车的决策能力，从而为乘客带来更安全、更顺畅的乘车体验。

作者介绍：

Oliver Cameron，Voyage 联合创始人兼 CEO。Voyage 致力于兑现无人驾驶汽车的承诺。

原文链接：

https://olivercameron.substack.com/p/the-next-leap-in-self-driving-prediction

既然感知已经不再是无人驾驶技术的星星之火，那下一步是什么呢？预测！

下面是一些实际应用的例子。

作者介绍：

原文链接：

Recommend

疫情期，APP 崩了怎么办？

gRPC in ASP.NET Core 3.x - gRPC 消息定义

钟南山团队携腾讯成立联合实验室攻坚流行病防控AI科研

2019年并购报告：回归冷静、转变思路，多元化交易显现新机

天猫国际联合海外商家募集安心裤和卫生棉，捐助湖北8家医院

下一代游戏主机即将到来，我们可以期待什么？

中国铁塔：已解决6名学生无法在家上网课问题

高三学生医院备高考援鄂护士送他手机上网课(视频)

宇宙怎样才能拥有多个维度？

钟南山：疫情首出现在中国，疫情不一定发源在中国

About Joyk