一个基于博弈MPC的交互运动预测-规划方法

2022-04-18 13:44:53来源：计算机视觉深度学习和自动驾驶

arXiv论文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“，ETH、MIT和KU Leuven的科学家一起发表于2022年4月5号。

在大多数经典的自动驾驶车（AV）栈中，预测层和规划层是分开的，这限制了规划者对自动驾驶车规划轨迹不知道的预测做出反应。这项工作提出了一个通过博弈论的模型预测控制器（MPC）将这两层紧密耦合的模块，其采用一种新型的交互式多智体神经网络策略，作为预测模型的一部分。在设置中，MPC规划器通过将规划状态序列通知多智体策略来考虑所有周围的智体。这个方法的基础是设计了一个新的多智体策略网络，可以在给定周围智体的状态和地图信息的情况下驾驶车辆。该策略网络使用真实观测数据，通过时间反向传播（BPTT）和可微分动力学模型隐式训练，在时域向前展开轨迹。最后，多智体策略网络在与环境交互时学习驾驶，并且与博弈论的MPC规划器结合，成功地生成交互行为。

项目网站是：

Deep Interactive Motion Prediction and Planning

作者定义的策略叫做Interactive Multi-Agent Prediction (IMAP) ，为训练它，采用了一种强化学习和模仿学习所启发的方法。

如图是联合预测-规划模块：将场景中所有车辆的过去状态缓冲区和以车道图表示的高清地图作为输入；预测规划模块内的模型预测控制器（MPC）用学习到的预测模块在内部模拟多智体驾驶场景。

首先定义基于模型的策略训练方法如下：

采用一个递推策略结构，基于Gated Recurrent Unit (GRU) 。

另外一个注意机制 multi-headed dot-product attention，建模意图交互（intent interaction）。

智体物理状态之间的交互，则采用GNN建模。

采用VectorNet做编码器，和地图的交互通过cross-attention机制建模。

如图是递归IMAP策略π的示意图：其将物理状态ski和地图信息m融合成共享嵌入表示，然后用于递归地控制动力学模型f。单个递归模型用于编码和解码阶段，并通过BPTT用状态/观测值的直接损失进行训练。IMAP策略还用隐嵌入来生成key，value和query（K，V，Q），在意图和地图交互网络中使用。

InterGNN的架构细节如下：其中Message Passing Netwotk (MPN) 是一种GNN

下图是IMAP模型的编码器架构：其中IntentAttention 和 MapAttention两个注意机制模块组合连接在一起。

而其他智体之间的运动规划可以理解为一个“非零和”博弈，其中所有智体考虑其奖励函数来规划轨迹。奖励函数特定于智体，涵盖了驾驶的基本原理，如避撞、路径跟踪和舒适性。求解这个博弈有几个缺点：首先，其他智体的奖励函数通常是未知的，其次，找到这个博弈的Nash或其他均衡点可能需要计算。

这个运动规划问题定义如下：

用交叉熵法（CEM）等无导优化算法来解决这个问题。然而，和博弈论中的通常情况一样，博弈的顺序可能会产生巨大的影响。作者给出两种方法，一种是导致领导者-追随者均衡，

Iterative Leader-Follower MPC

(ILF-MPC)

；另一种是Nash式均衡，

Iterative Best-Response MPC

(IBR-MPC)

。这些均衡适用于轨迹空间中的游戏，其中每条轨迹都被解释为参与者的策略。

两种方法均基于最佳响应迭代法，其中智体根据其他智体的当前动作，通过最佳可能动作，迭代更新策略。IMAP策略自然会对其他智体做出“最佳”响应，即使其轨迹是事先确定的。在实现中，IMAP策略中添加了自智体，并在展开中通过教师强制（teacher- forcing）使用MPC轨迹。注：IMAP策略的奖励函数未知。

两个算法的伪代码分别给出如下：

在预测和规划任务中对该交互策略进行测试。在预测任务中，根据标准单模态预测指标重实现Argoverse冠军算法SAMPP（Mercat et al.，Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting. 2020），对模型进行消融分析。此外，添加的非线性最小二乘NLS（Bansal et al，ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst. 2019）干扰方法不会影响模型的标称性能。在规划任务中，探索车道合并场景，展示IBP-MPC和ILF-MPC如何规划变车道行为，同时最大限度地增加接近车辆的间距。此外，展示ILF-MPC如何利用优化中采用反应式预测模型来规划高度交互轨迹。

实验结果如下：

标签：地图信息动力学模型预测模型

责任编辑：hnmd003