【聚看点】BITS: 交通仿真的双层模仿学习方法

2022-09-01 15:42:35来源：计算机视觉深度学习和自动驾驶

arXiv论文“

BITS: Bi-level Imitation for Traffic Simulation“，2022年8月26日，Nvidia的工作。

【资料图】

仿真是自动驾驶车辆等机器人系统扩大验证和检验（V&V）的关键。尽管在高保真物理模型和传感器模拟方面取得了进展，但在模拟道路使用者的真实行为方面仍存在严重差距。这是因为，与模拟物理模型和图形学不同，为类人行为设计第一原理模型，通常是不可行的。

这项工作

采用一种数据驱动的方法，并提出了一种可以学习真实驾驶日志生成交通行为的方法。

该方法将交通模拟问题解耦为高级意图推理和低级驾驶行为模拟，利用驾驶行为的双层结构，实现了高采样效率和行为多样性。

该方法还结合一个规划模型，获得稳定的长期行为效果。

用两个大规模驾驶数据集的场景对方法进行了经验验证，该方法称为BITS（Bi-level Simulation for Traffic Simulation），并表明BITS在真实性、多样性和长时稳定性方面实现了平衡的交通模拟性能。

还探索了评估行为真实性的方法，并为交通模拟引入了一套评估指标。

最后，开发并开源了一个软件工具，该工具统一了不同驾驶数据集的数据格式，并将现有数据集的场景转换为交互式模拟环境。

如图是BITS的框架：决策上下文ct是一个张量，包含语义图和光栅化智体历史，

按通道连接在一起

。给定ct作为输入，（1）空间目标网络产生短视野目标的2D空间分布，（2）目标条件（goal-conditioned）策略为每个采样目标（goal）生成一组动作，（3）轨迹预测模型预测相邻智体的未来运动，以及最后（4）基于预测的未来状态，该框架选择让基于规则的成本函数最小化的一组动作。

交通模拟看作模仿学习

采用以智体为中心的方法进行交通模拟，即每个智体以分散方式进行决策，无需显式协调。其允许与包含其他类型模拟智体的仿真框架灵活地集成，并鼓励出现新的交互行为。这项工作专注于模拟车辆交通，但智体可以是驾驶日志中捕获的任何类型道路用户（例如，骑自行车的和行人）。

用s和c分别表示智体的动态状态和决策上下文。具体而言，状态s包括智体的位置、航向和速度。上下文c=（I，S）包括局部语义图I和一个智体及其N个相邻智体的h个先前状态St−h：t = {s（0），s（1），…，s（N）}。给定决策上下文信息ct和当前状态st，交通仿真模型πθ的目标是生成智体的下一个状态st+1 = T（π

θ（ct），st）

。用动力学约束的简单单轮（unicycle）模型作为T。

真实世界中捕获的驾驶日志训练交通模型。由于日志数据很容易包括语义图和所有观测的智体轨迹，将驾驶日志视为一组多智体专家演示序列τ ＝ {c（i）、s（i）、c（i）、（s（i）…、c（i），s（i）}，

将交通模拟描述为有监督的模仿学习问题。然而，城市驾驶的性质带来了重大的技术挑战。首先，由于模型无法访问演示者的潜在意图和其他与决策相关的线索，例如其他车辆的转向信号，因此是一个部分观察的决策过程。因此，动作监督本质上是模糊的，通常用概率分布建模。

虽然这种模糊性使训练复杂化，但有效地建模动作分布也可以生成不同的反事实（counterfactual）交通模拟。其次，由于每个智体的行为没有明确的协调，它们的联合行为生成了一个可能未来状态的组合空间。这种不确定性使得生成稳定的交通模拟非常具有挑战性。

双层模仿学习为多模态行为生成

交通模仿模型的目标，是通过学习真实世界的驾驶日志（作为演示），来产生各种各样的合理行为。轨迹预测中的大多数现有方法用深度潜变量模型（例如VAE）来捕获行为分布。然而，学习生成稳定的长视野行为需要大量的训练数据。相反，这里提出的方法将学习问题分解为（1）训练高层目标网络，捕获可能的短期目标空间分布，以及（2）训练确定性目标条件策略，学习如何达到预测目标。

空间目标网络（goal network）利用驾驶运动的2D BEV结构，并用2D网格高效地表示空间目标分布。这种分解将多模态轨迹建模的负担，转移到高级目标预测器，使低级目标条件策略能够重用达成目标的技能，提高样本效率。

为长视野稳定性的预测和规划

这样一个双层模拟学习方法，可以从有限的数据中生成合理的交通模仿。该策略可以从多模态空间目标预测器中采样，综合各种行为。然而，该策略的执行仍然受到训练数据规模和覆盖范围的限制。

驾驶日志偏向于正常行为，几乎不包含碰撞或越野驾驶等安全-紧要情况。生成多样行为的目标进一步放大了这一挑战，因为鼓励智体进入地图上未见过的区域并创建新的交互。因此，为了实现稳定的长时间模拟，即使在缺乏训练数据指导的状态下，智体也必须生成合理的行为。

为此，建议使用预测和规划模块来增强策略，以稳定长期轨迹展开。该模块从上述随机双层策略πθ中提取动作样本at，并根据预测的环境未来状态St:t+H，选择基于规则成本函数C

最小化

的动作，即argmin C(at,St:t+H,ct)。

该方法类似于典型的模块化AV堆栈中的运动规划流水线，重要的区别在于，用学习的策略生成类人运动轨迹候选。关键思想是，策略πθ可以直接跟踪分布内状态下的数据似然，其中大多数行为样本都遵循规则，在最可能的动作可能导致不良后果的状态下，接受纠正指导。此外，采样模块允许在无需再训练的情况下对模拟器进行灵活调整（例如，多样性水平、多个目标的强调）。

交通仿真的评估测度

由于缺乏真值，设计仿真指标特别困难。因此，通常用于评估轨迹预测的平均位移误差（ADE）和最终位移误差（FDE）等指标不适合评估仿真模型。为了解决这一评估差距，文章提出了三种模拟度量：（i）度量模拟智体违反公共交通规则的程度，如越野驾驶或与其他智体发生碰撞；（ii）测量模拟展开的统计数据指标，包括在驾驶特性方面与收集的驾驶日志的相似性，如速度曲线、控制力、驾驶区域的覆盖率以及不同模拟试验之间的行为多样性；（iii）从真实世界驾驶日志中学习到的数据驱动指标，例如在数据驱动的轨迹预测模型下，

测量

模拟展开的可能性。

SimNet是一种用于交通模拟的确定性行为克隆模型。TrafficSim是原始交通模拟方法以智体为中心的自适应，其特征是各向同性高斯CVAE（isotropic Gaussian CVAE）。消除训练中的场景一致性损失，因为不承担对所有智体的控制。SocialGAN通过对抗性模仿学习生成轨迹。TPP改编自Trajectron++，包括一个离散CVAE，每个离散模式具有高斯轨迹解码器。

还考虑了这些方法的变型，并使用规划和控制模块（标记为“+p”），即选择具有成本函数的未来动作样本。

实验结果如下：

标签：模仿学习数据驱动真实世界

责任编辑：hnmd003