【天天新要闻】用于自动驾驶的概率性3D多模态多目标跟踪

2022-12-28 20:50:16来源：同济智能汽车研究所

编者按：
多目标的跟踪是自动驾驶领域常见的研究问题，而目前简单基于卡尔曼滤波的跟踪方法难以保证足够的精度，且在数据关联阶段和历史轨迹生命周期管理器方面存在很大的提升空间。因此作者提出了一个包含多个神经网络模块的多模态多目标跟踪模型，融合2D图像和3D激光点云的特征来同时利用目标的外观信息和几何信息，并利用神经网络计算双模型的结合权重和判断新目标是否可以直接生成新轨迹。综合来看，作者提出的多模态跟踪方法充分融合了图像和点云的信息，并引入神经网络动态获取原本提前设定的超参数，在KITTI跟踪数据集上取得了领先的性能。

(相关资料图)

本文译自：

《Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous Driving》

文章来源：

2021 IEEE International Conference on Robotics and Automation (ICRA)

作者：

Hsu-kuang Chiu, Jie Li, Rares, Ambrus, Jeannette Bohg.

原文链接：

https://ieeexplore.ieee.org/abstract/document/9561754

https://arxiv.org/pdf/2012.13755.pdf

摘要

：

多

目标跟踪是自动驾驶车辆在交通场景中安全行驶的重要功能。当前最先进的方法遵循“检测-跟踪”范式，其中当前跟踪目标物通过一些距离指标与检测目标物相关联。提高跟踪准确性的关键挑战在于数据关联和跟踪生命周期管理。我们提出了一种基于概率的、多模态、多目标的跟踪系统，该系统由不同的可训练模块组成，以提供鲁棒的和数据驱动的跟踪结果。首先，我们学习如何融合2D图像和3D激光雷达点云的特征，以捕捉目标的外观和几何信息。第二，在比较数据关联中的跟踪目标和新检测目标时，我们提出一种结合马氏距离和特征距离的指标。第三，我们提出了一个何时从未匹配的目标检测中初始化跟踪任务的方法。通过广泛的定量和定性结果，我们表明，当使用相同的目标检测器时，我们的方法优于NuScene和KITTI数据集上的最先

进方法。

Ⅰ 绪论

3D多目标跟踪对于自动驾驶至关重要。

它可以估计所有交通参与者的位置、方向和尺寸。

通过考虑时间信息，跟踪模块可以从基于帧的目标检测中过滤异常值，并且对部分或完全遮挡更加鲁棒。

然后，所得轨迹可用于推断每个交通参与者的运动模式和驾驶行为，以改进运动预测。

这可以在自动驾驶中实现安全决策。

当前最先进的3D多目标跟踪[1, 2]遵循“检测-跟踪”范式。

这些方法首先使用3D目标检测器来估计每帧中每个目标的边界框的位置和方向。

然后，他们使用中心或马氏距离[3]作为检测目标物和现有跟踪目标物之间的数据关联指标。

然而，这些指标仅评估目标的距离以及边界框大小和方向的差异，而忽略每个目标的几何和外观特征。

因此，数据关联性能高度依赖运动预测的准确性。

对于难以精确预测的物体，例如行人、摩托车或急转弯的汽车，预测和正确检测之间的欧氏距离可能很大。

因此，它们可能无法正确匹配。

[4, 5]试图通过从跟踪器的轨迹和检测的特征学习关联指标来改进数据关联。

然而，这些方法仍然无法超过上述基于中心距离的简单方法[1]。

结果表明，建立有效数据关联的神经网络具有挑战性。

我们建议在比较跟踪和检测之间的数据关联时，学习如何权衡马氏距离和基于几何和外观特征的距离[3]。

这些特征是从3D激光雷达点云和2D相机图像中提取的。

与[4]和[5]不同，我们在标准卡尔曼滤波器[6]中使用学习到的指标，这种卡尔曼滤波器对多目标跟踪有效[2]。

此外，卡尔曼滤波器提供了可解释性和显式的不确定性估计，可用于下游决策。

除了数据关联，跟踪目标物的生命周期管理是在线目标跟踪系统的另一个重要组成部分。

跟踪目标物的生命周期管理确定何时初始化和终止每个跟踪任务。

这一决定会显著影响假阳性和ID切换的数量。

然而，跟踪目标物的生命周期管理并没有引起研究界的太多关注。

先前的工作要么为每个未匹配的检测目标物初始化一个新的跟踪任务[1]，要么创建临时跟踪任务，并在足够连续的匹配情况下将其转换为完整轨迹[2, 4, 5, 7, 8]。

基于其几何和外观特征，我们提出了一种是否从未匹配检测目标物中初始化新跟踪任务的方法。

这种方法有助于避免我们的跟踪方法为潜在的假阳性初始化新的跟踪任务。

总而言之，我们提出了一种基于概率的、多模态、多目标的跟踪系统，该系统由三个可训练模块（距离组合、跟踪初始化和特征融合）组成，以提供鲁棒的和数据驱动的跟踪结果。

我们在NuScenes [9]和KITTI [10]数据集上使用领先的目标检测器[1, 11]评估了我们的方法，这些目标检测器将3D激光雷达点云作为输入。

我们表明，所提出的方法优于[1]和[5]中报告的跟踪方法。

通过有效融合2D和3D输入，我们可以进一步提高性能。

我们的定性结果还明确显示出假阳性跟踪的减少，这对决策很重要。

如果使用更加新的目标检测器，我们预计会进一步提高性能，因为我们的方法对选择哪个目标检测器事先未知。

Ⅱ相关工作

A. 3D 目标检测

大多数的3D多目标跟踪系统[1, 2, 4, 5, 7, 8, 12]，在由3D目标检测器提供的目标检测框上进行跟踪。

因此，3D目标检测器的选择对于整个跟踪系统的性能是很重要的。

3D目标检测可以被应用于相机图像[13, 14]，激光雷达点云[11, 15-19]，或者他们的结合上[20-22]。

单目3D目标检测性能不太可能与利用激光雷达或深度信息的模型持平。

因此，依赖单目3D目标检测器的3D多目标跟踪算法[12, 23]通常无法胜过依赖激光雷达或基于深度的目标检测器的跟踪方法。

在我们提出的跟踪系统中，我们使用CenterPoint 3D目标检测器[1]，它是NuScenes检测数据集[9]中表现最好的检测器之一。

需要注意的是，我们的方法与检测器无关。

CenterPoint 量化激光雷达点云并使用PointNet [24, 25]生成特征图。

然后将特征图输入到关键点检测器，用于定位对象的中心并回归边界框的大小和方向。

B. 3D 多目标跟踪

大多数3D多目标跟踪算法采用先检测后跟踪的框架。

他们将 3D 对象检测结果作为跟踪方法的输入。

在数据关联步骤中，使用不同的距离度量来找到匹配的轨迹检测对。

例如，AB3DMOT [7]在2D跟踪算法[26]中使用3D交并比（3D IOU）作为2D交并比的扩展。

ProbabilisticTracking [2]使用马式距离，它考虑了跟踪状态的不确定性。

CenterPoint [1]使用目标的中心距离并实现了有竞争力的跟踪性能，这主要是由于新提出的3D目标检测器比[2, 7]中使用的检测器更好。

CenterPoint [1]目前是NuScenes跟踪数据集[9]中最先进的方法之一。

其他几种3D跟踪方法提出将跟踪的轨迹与对象几何和外观特征相结合。

GNN3DMOT [5]使用图神经网络和2D-3D多特征学习进行数据关联。

PnPNet [4]提出了一个端到端的可训练模型来联合解决检测、跟踪和预测任务。

然而，他们无法在NuScenes [9]数据集上胜过上述更简单的CenterPoint [1]算法。

图1：算法流程图。子图（a）描述了我们提出的架构的高级概述，右侧的（b）（c）（d）表明了每个神经网络模块的细节。在第t帧，我们使用3D物体检测器并提取每个检测到的目标的激光雷达和图像特征。这些特征是由特征融合模块融合的。时间t的检测特征和时间t-1的跟踪特征融合后的特征被用在可训练距离组合模块中，以学习深度特征距离和Mahalanobis距离的组合。我们将贪婪匹配算法应用于数据关联的组合距离，匹配得到的物体对由卡尔曼滤波器进一步处理以细化最终对象状态。轨道初始化模块决定是否为每个不匹配的检测初始化新的跟踪。

Ⅲ方法

我们的方法的流程如图1所示。在ProbabilisticTracking [2]的基础上，我们的算法将激光雷达点云和相机图像作为输入，并通过卡尔曼滤波器进行目标跟踪。我们提出的跟踪算法具有三个可训练的组件，以加强数据关联和跟踪生命周期管理：特征融合模块合并激光雷达和图像的特征以生成融合后的深层特征。距离组合模块将深层的特征距离与马氏距离相结合,作为数据关联的最终度量。此外，我们还引入了轨迹初始化模块，该模块根据融合的2D和3D深度特征来决定是否为每个未匹配的检测目标初始化新轨迹。在下面的内容中，我们将描述我们提出的跟踪模型的每个核心组件。

A. 卡尔曼滤波

我们在ProbabilisticTracking [2]之前的工作基础上，使用卡尔曼滤波器[6]进行对象状态估计。每个对象的状态由11个变量表示:

其中

为物体3D边框的中心位置，

为物体面向方向与

轴的夹角，

表示边框的长、宽、高，

表示当前帧与前一帧

的差值。

我们使用线性运动模型对运动物体的动力学进行建模，并假设线性速度和角速度恒定，物体尺寸恒定，即在预测步骤中不发生变化。根据标准的卡尔曼滤波公式，我们将预测步骤定义为:

其中，

为时刻真实状态

的估计平均值，

为时刻

的预测状态平均值。矩阵

为流程模型的状态转移矩阵。矩阵

是

时刻的状态协方差，而

是时刻

的预测状态协方差。

矩阵是过程模型噪声协方差。

我们使用CenterPoint [1]的3D物体检测器为我们的卡尔曼滤波器提供观测。每帧3D物体检测结果由一组3D边界框组成，每个边界框由9个变量表示:

其中

为检测框的中心位置、方向和比例，类似于式1中的定义。剩下的两个变量

表示当前帧和前一帧之间

的差值。这两个值可以通过将检测器的估计中心速度与两个连续帧之间的时间持续时间相乘得到。我们使用均值为零、噪声协方差为

的加性高斯噪声的线性观察模型

，利用该观测模型和预测的目标状态为

，我们可以预测下一个测量值为

创新协方差为

，表示预测目标检测的不确定性:

过程模型和观测模型的噪声协方差矩阵

和

是根据训练集数据的统计估计的，如[2]中提出的。

B. 2D和3D特征的融合

该模块旨在融合来自2D相机图像和3D激光雷达点云的特征，每次检测的关键帧。融合的特征将被用作距离组合模块和轨迹初始化模块的输入。对于每个检测，我们首先将其2D位置

从世界坐标系映射到3D对象检测器中间特征映射坐标系中的2D位置

。从中间特征图中提取

的激光雷达点云特征。我们不再只提取特征图中位于

的单个特征向量，而是提取以

为中心的相关

区域内的所有特征向量，以便利用更多的上下文信息。

然后将三维检测边界框投影到摄像机图像平面上，从COCO [27]预训练掩码R-CNN[28]中提取相应的二维图像特征。对于每个投影的2D边界框，我们提取一个2D图像特征，该特征将来自投影2D边界框的RoIAlign特征的1024维向量和一个6D one-hot向量连接起来，该向量表示物体投射到哪个相机平面(在传感器扫描的6个平面中)。

最后，我们通过多层感知器(MLP)和一个重塑操作将两个特征向量合并:

其中

是

个检测的融合特征;

为2D特征;

为3D特征;

表示MLP和图1b所示的重塑操作。该MLP的隐藏大小为1536，输出大小为4608，使用整流线性单元(ReLU)作为激活函数。注意，我们不单独训练这个特性融合模块。相反，我们将其连接到距离组合模块和轨迹初始化模块，并使用这两个模块进行训练。

C. 距离关联模块

该模块为

个检测结果和

个轨迹之间的数据关联提供了一个可学习的距离度量。该度量结合了来自状态估计以及外观和几何特征的信息。具体来说，我们设计了马氏距离和深度特征距离的线性组合：

其中，

表示马氏距离矩阵，其中每个元素包含每个检测结果和每个航迹预测状态之间的距离；

表示特征距离矩阵，其元素衡量每个检测和每个航迹之间的特征不相似度，

为合并系数矩阵，其形状为

。符号

表示元素级乘积算子。常数

作为线性组合的初始偏置项，帮助模型训练更快地收敛。

的每个元素的计算公式为：

其中，

为第

个检测值，定义在方程4中，

为线性观测模型，

为第

轨预测状态均值，

为信息协方差矩阵，定义在方程6中。

采用如图1c所示的两阶段神经网络训练方法，首先学习深度特征距离

，然后学习系数矩阵

，生成最终的联合距离度量

。

1）深度特征距离：网络从

个检测和

个轨迹的融合特征

中学习一个

的距离图：

其中

，如图1c所示，表示一个核大小为

，输出通道大小为256的卷积层，后接一个ReLU层和一个隐藏大小为128的MLP层。我们将特征距离学习作为一个二分类问题来处理，并且我们用二进制交叉熵损失来训练网络。

其中

是监督匹配指示矩阵，其中0表示匹配的航迹-检测特征对，1表示不匹配的特征对。由于每个航迹-检测对没有地物标注，如果前一帧中跟踪框最靠近的地物框和当前帧中检测框最靠近的地物框属于同一个目标标识，且它们与最靠近的地物框的2D中心欧氏距离均小于2米，则将该对视为匹配。

2）组合系数：固定学习到的特征距离

，然后训练距离组合模块的剩余部分来学习系数矩阵

和

，从而根据每个深度特征距离的重要性来调整最终的距离D。

其中

表示图1c中的卷积层和MLP层。

具有与

相似的网络结构，只是输出信道大小不同。受PnPNet [4]的启发，我们结合最大间隔和对比损失来训练这个模块。对于一对正样本

和负样本

，我们定义其最大间隔损失如下：

其中

为常数间隔，

为正样本

的组合距离，

为负样本

的组合距离，见公式8中的距离矩阵

。整体的对比损失给出如下：

其中

表示正的航迹检测对集合，

表示负的航迹检测对集合。这种损失函数的设计鼓励神经网络通过调整

和

的元素，学习为每个正轨检测样本生成一个小于任何负样本的距离

的距离

。

为了在推理时也使用学习到的组合距离

来舍弃不匹配的异常值，我们为正样本集和负样本集定义了另外两个最大的

边际损失：

其中，

和

表示固定的边际

，

是用于在推理时舍弃不匹配的异常值的恒定阈值。这种损失函数的设计鼓励神经网络对任何正样本产生一个小于阈值

的距离

，对任何负样本产生一个大于

的距离

。

该神经网络的总体训练损失定义如下：

在我们的实现过程中，选择

，与[2]中使用的阈值相同。设置

，大约是

的一半。同时，我们设置

，是

的一半。

在测试时，一旦我们计算出综合距离，我们就使用ProbabilisticTracking [2]的贪婪匹配算法进行数据关联。

D.轨迹初始化模块

轨迹生命周期管理是多目标跟踪系统的另一个重要组成部分。大多数先前的工作要么总是为每个不匹配的检测初始化一个新的轨迹[1]，要么创建一个临时轨迹，然后在将临时轨迹转换为完整的轨迹之前等待一个固定数量的连续匹配[2, 7, 8]。

与之前的启发式方法不同，我们将轨迹初始化任务视为一个二元分类问题。我们提出了轨迹初始化模块，该模块将不匹配的检测记过的融合特征作为输入，并就是否应该初始化一个新的轨迹生成一个输出信度分数：

其中,

表示图1d中描述的卷积层、MLP和Sigmoid层。其卷积层与MLP层的结构与

。我们使用交叉熵损失将

训练成一个二元分类器：

其中, 如果有一个接近检测目标

的地面真实物体，则

；否则

。在推理时间，如果

大于0.5，我们会使用新的跟踪器来初始化不匹配的检测。这个轨迹初始化模块帮助我们提出的跟踪系统减少了假阳性轨迹的数量，如图2所示。

Ⅳ实验结果

A. 数据集

我们在NuScenes[9]和KITTI[10]数据集上评估我们的方法。

NuScenes数据集包含1000个驾驶序列。

每个序列的长度大约为20秒，包含以2Hz采样的关键帧。

我们遵循官方的数据分割设置，用700个序列训练我们的模型，并报告150个验证序列的结果。

对于KITTI数据集，我们遵循GNN3DMOT[5]的分割设置，其中包含10个训练序列和11个验证序列。

在所有的实验中，我们通过使用Adam[29]优化器来训练我们的模块，初始学习率为0.001，历时10个周期。

B.评估指标

为了评估我们的算法性能，我们使用平均多目标跟踪精度(Average Multi-Object Tracking Accuracy, AMOTA)，这也是NuScenes跟踪挑战(The NuScenes Tracking Challenge [9])中使用的主要评估指标。AMOTA是不同召回阈值下的跟踪精度平均值，定义如下：

其中

为采样点数，

是抽样召回阈值。MOTAR (Recall-Normalized Multi-Object Tracking Accuracy) 是召回归一化多目标跟踪精度，定义如下：

其中

为真阳性数，

为身份开关数，

为假阳性数，

为假阴性数。

对于KITTI [10]，我们还报告了标准的多目标跟踪精度(Multi-Object Tracking Accuracy, MOTA)，定义如下：

其中

和

是在单一最佳召回阈值采样的身份开关、假阳性和假阴性的数量。

C.定量结果

我们在表Ⅰ中报告了我们的方法在NuScenes验证集中验证的结果。我们提出的跟踪方法使用CenterPoint[1]在每帧的3D对象检测结果作为卡尔曼滤波器的输入。为了与最先进的方法[1, 2, 7]进行公平的比较，我们还将我们的跟踪方法在仅使用激光雷达作为输入时的定量结果包括了进去。从表Ⅰ可以看出，输入检测的质量对最终的跟踪性能至关重要。在NuScenes检测挑战[9]中，CenterPoint [1]提供了比MEGVII [15]更好的3D对象检测结果。

从表Ⅰ的最后两行可以看出，当只使用完全相同的3D激光雷达输入时，我们的跟踪方法优于CenterPoint [1]和ProbabilisticTracking [2]。我们的模型能够使用3D激光雷达点云数据学习细粒度的几何特征，并且我们的模型还成功地学习了几何特征距离和马氏距离的有效联合权重。此外，通过融合来自激光雷达和图像数据的特征，我们的方法可以进一步提高整体AMOTA，与之前最先进的CenterPoint [1]相比，性能提高了2.8。这一性能增益表明，我们的模型能够学习如何有效地将3D 激光雷达点云信息和2D相机图像信息输入融合在一起，以实现更好的整体跟踪精度。然而，我们的模型并没有实现对行人跟踪的显著改善。这可能是由于每个行人的外形和几何特征随着时间的推移会发生巨大变化，因为他们的姿势会发生变化，而其他对象没有变形。

我们还将我们的模型与其他多模式跟踪模型进行了比较：GNN3DMOT [5]和PnPNet [4]在NuScenes [9]中的验证结果（表Ⅱ）和KITTI [10]中的验证结果（表Ⅲ）。

表I：NuScenes [9]验证集的评估结果。与基线方法相比，根据每个目标类别的总体AMOTA和单个AMOTA进行评估。在每一列中，获得的最佳结果都用粗体字显示。（*通过使用[2]的开源代码和[1]的对象检测结果实现的。）

表II：NuScenes [9]验证集的评估结果，整体AMOTA和汽车AMOTA的评估。GNN3DMOT [5]仅报告了整体AMOTA，PnPNet[4]仅报告汽车的AMOTA。注意，每种方法使用一个不同的3D目标检测器，这可能会显著影响跟踪精度。（*GNN3DMOT [5]在他们的论文中将AMOTA重命名为sAMOTA。）

表III：KITTI [10]验证集的评估结果，汽车AMOTA和MOTA方面的评估。我们遵循[5]，使用Point R-CNN [11] 3D目标检测器和相同的训练验证数据划分。（*GNN3DMOT [5]在他们的论文中将AMOTA重命名为sAMOTA）

D.消融研究

我们提供了不同可训练模块的消融分析，以更好地理解它们对整体系统性能的贡献：距离组合模块、轨迹初始化模块和特征融合模块。我们在表Ⅳ中报告了我们的结果。我们注意到，距离组合模块和轨迹初始化模块在基线上产生了一致的改进，在同时启用这两个模块时达到了最高的性能点。此外，在融合2D和3D特征时，我们记录了性能的持续增长，这使我们可以得出结论，我们的模型成功地学会了如何利用外观和几何特征。

表IV：NuScenes [9]验证集的消融试验结果。与我们提出的方法的变体相比，根据每个对象类别的整体AMOTA和单个AMOTA进行评估。所有变体都使用CenterPoint [1]的对象检测结果作为输入。在每一列中，获得的最佳结果都用粗体字显示。

(a) 输入的检测

(b)CenterPoint [1]

(d) 真值

图2：摩托车的鸟瞰跟踪结果可视化。我们绘制了每个子图中相同驾驶序列的每个帧的边界框，不同的颜色表示跟踪结果中不同的跟踪id，同时表示真值标注中目标的不同实例。(a)：输入是CenterPoint [1]的对象检测器提供的检测边界框。(b)：CenterPoint [1]的跟踪结果。(c)：我们提出的方法的跟踪结果。(d)：真实值。与CenterPoint [1]的结果相比，我们的跟踪结果明显具有更少的假阳性边界框，我们的追踪结果也更接近于真值。

(a) 序列0, 帧1

(b) 序列0, 帧2

(d) 序列, 帧29

图3：投影到摄像机图像的摩托车跟踪可视化。(a) 、(b)是序列0中的两个连续帧，(c)、(d)来自序列1。彩色框是跟踪结果，不同的颜色表示不同的跟踪id，白色框表示检测结果。我们的模型可以准确跟踪序列0中红色边界框和序列1中黄色边界框中的摩托车。在序列0中，我们的距离组合模块学习生成更大的正α值为2.594，这可能是因为外观特征提供了强大的信息，以匹配这些连续帧中检测到的摩托车。在序列1中，我们的模型生成了更小α值为1.802，这可能是因为边界框更小，图像更模糊。我们的轨道初始化模块也正确地决定了不对序列1帧28中的假阳性检测初始化新的跟踪。

E.定性结果

如表I所示，我们注意到特定类别的显著改善（如：摩托车类别超过10%）。在图2中，我们绘制了BEV上相同驾驶序列的每一帧中摩托车的边界框，不同颜色的图像表示不同的跟踪id，并与方法[1]进行比较。从图2可以看出，与[1]相比，我们的跟踪结果具有明显更少的假阳性边界框。方法CenterPoint [1]依赖于中心欧几里德距离，任何不匹配的检测框总是被初始化为新的跟踪。相反，我们的跟踪初始化模块被设计为基于3D激光雷达和2D图像特征的融合来决定是否初始化新的跟踪。此外，我们的方法使用卡尔曼滤波器基于过去的观测来细化边界框位置、方向和尺度，而[1]直接使用潜在噪声检测框作为跟踪结果，而不使用过去的观测。

虽然我们在数量上记录到，与CenterPoint [1]相比，摩托车类的AMOTA增加了11.0%，但从质量上来说，这意味着假阳性跟踪的数量显著减少，虽然AMOTA度量没有过多惩罚，但这对决策至关重要。定性和定量结果之间的差异背后的主要原因是，大多数假阳性跟踪是由具有低置信分数的假阳性检测框组成的。AMOTA开始从那些具有较高置信分数的人身上取样，因此，大量置信度低的假阳性跟踪不会对AMOTA产生太大影响（有关AMOTA的详细信息，请参考[9]）。

图3显示了我们将摩托车投影到相机图像上的结果。（a），（b）是序列0中的两个连续帧。（c），（d）来自序列1。白色框表示检测框，彩色框表示用彩色编码的跟踪ID的跟踪结果。我们的模型在两个序列中都能精确跟踪摩托车，在序列0中，我们的距离组合模块对履带摩托车预测出了一个较大的正α值为2.594，代表一个可靠的特征距离。这是可以预期到的，因为在2D图像中对应的对象很大且可以清晰地捕捉到。在对象较小且模糊的序列1中，模块预测了一个较小的α值为1.802。此外，我们的跟踪初始化模块还正确地决定了不对序列1帧28中的假阳性检测初始化新的跟踪。

Ⅴ结论

在本文中，我们提出了一种用于自动驾驶的在线概率、多模态、多目标跟踪算法。我们的模型学习融合

相机图像和

激光雷达点云特征。然后，这些融合的特征被用于学习有效的权重，以将深度特征距离与

Mahalanobis

距离相结合，从而获得更好的数据关联。我们的模型还学习以数据驱动的方式管理跟踪循环周期。我们在

NuScenes [9]

和

KITTI [10]

数据集上验证了我们提出的方法，我们的方法在定量和定性上都优于使用相同目标检测器的最先进的基准方法。

对于未来的工作，我们希望包括额外的模式（如：地图数据）以及新型物体检测器。同时，每个类别学习更好的运动模型也有可能进一步改善数据关联。最后，我们或许可以利用可微滤波框架端到端地微调运动和观测模型。