报道：预研 | 基于场景的自动驾驶评估方法

2022-11-10 15:36:23来源：轩辕实验室

摘要：

过去十年，工业界和学术界对自动驾驶功能的开发力度不够。由于操作空间大，各种复杂的场景和自动驾驶功能都需要应对，预计评估工作将大幅增加。为了有效量化这些功能的收益和风险，本文描述了一种使用真实世界驾驶数据评估自动驾驶的整体方法。

基于场景定义，描述了一种从真实世界驾驶数据中识别相关场景的合适方法，该方法能够处理场景特定特征，例如所有交通参与者的时间和空间依赖性。为了量化在考虑的驾驶场景中自动驾驶的影响，应用了统计指标“影响大小”。自动驾驶需要在混合交通中运行的基本要求意味着评估的参考必须是人工驾驶行为。

(资料图片仅供参考)

1.
介绍

由于过去几十年微电子和计算能力方面的技术进步，用于支持驾驶员的各种汽车功能已经开发并引入市场。这些所谓的高级驾驶员辅助系统（ADAS）具有越来越高的自动化程度，以实现舒适和安全的旅行[4]。在环境感知技术和复杂决策算法不断发展的推动下，车辆自动化的最终目标似乎是一个可解决的挑战，过去几年的各种原型车辆都证明了这一点[1,2,3]。

然而，正如Winnerin所描述的那样，随着系统算法和覆盖场景的复杂性不断增加，这些系统的测试和评估工作正在急剧增加[5]。因此，验证自动化驾驶功能的新概念是必要的，例如“基于场景”的评估高维场景空间，如[6,7]。除了建立新的评估框架，还必须确定适当的衡量标准，特别是评估的参考。

为此，应考虑自动驾驶功能的基本要求，即在混合交通中的安全驾驶和功能操作，同时不对其他交通产生负面影响。这些基本要求意味着自动驾驶功能需要在正常驾驶行为的范围内运行，并且至少应该与非自动驾驶一样安全。

因此，评估的参考应该是人类驾驶员或人类驾驶行为。

由于每个驾驶员的驾驶行为是不同的，用分布来描述似乎是有用的。在进行自动驾驶功能的评估之前，

需要获得驾驶行为的这些分布。这项工作通过使用时间序列分类技术来描述人类驾驶行为的综合框架。

2.
背景

在之前的欧洲项目中开发的评估框架，如PReval [9]、eIMPACT [10]、assesse[11]、interactIVe[12]和美国研究项目(如[13])主要涉及主动安全功能或相应的ADAS，其中评估主要集中在功能用例的测试上。对于自动驾驶，需要扩展评估方法，以确保涵盖该功能所涉及的整个情境空间。

已经定义了评估自动驾驶的不同方法[8]。然而，这些方法主要集中在功能安全验证方面或确定这些功能对交通安全的影响。这些方法既考虑了真实世界的测试，也考虑了通过模拟进行的虚拟评估。例如，在[6]中提出了利用不同测试工具进行验证的综合评估框架，其目标是实现有效的评估。在这种情况下，提出了一组相关驾驶情况，即所谓的“相关情况圈”,这些情况被不同的测试工具所利用——从模拟到现场测试。[14]中提出了另一种通过功能运行期间的安全性来评估自动驾驶功能的功能安全性的方法。这里，类似于特洛伊木马方法，自动驾驶功能在“循环之外”执行，以便在真实驾驶情况下测试该功能而没有任何潜在危险。

为了评估辅助和自动驾驶功能的交通安全性能，在[7]中定义了一种方法。这种方法的基础是使用虚拟实验。在此，建议通过结合来自现场操作试验(FOT)、自然驾驶研究(NDS)、实验室和驾驶模拟器实验的知识，量化评估功能的收益和风险。

建议的评估方法的共同点是，在相关的场景下评估被测试的功能。

在过去的几年中，已经为相关的场景导出了几个定义。Reichart[15]描述了一个驾驶场景的分类方案，用于分析基于交通参与者的时间和空间组合的车辆引导中的人类表现。Domschet al.在[16]中引入了一个驾驶情况的定义，包括驾驶员、环境和车辆方面，其中作者引入了变量，以进一步规范驾驶情况的各个部分。

根据场景定义，必须确定应评估功能的相关场景。对于基于用例派生的测试用例来说，这项任务微不足道。对于在一次试驾中包含不同场景的公共道路上分别进行的现场测试，需要一种分类方法。

原则上，用于检测场景的分类方法可以基于三种不同的方法：不同尺度上基于模型的足迹、系统暴露度量或机器学习[8]

在[18]中，提出了一种基于模型足迹的场景分类算法，用于对ADAS影响评估相关场景中的FOT数据进行分类。在此方法中，基于决策树检测相关驾驶情况。在这种情况下，特征选择和检测阈值由专家知识设置。而检测阈值设置在非常保守的水平上，以确保对所有事件的可靠检测。通过视频帧的专家评审来评估最终分类器的性能。根据专家评审的结果，对分类器进行了调整。这个迭代过程一直进行到分类结果令人满意为止。由于手动调整决策树参数的过程非常耗时，

因此使用数学运算调整决策树是很有前途的。

[19]中介绍了建模和识别驾驶情况的概率方法。与前面描述的方法不同，使用贝叶斯网络和模糊特征作为输入参数，对态势和传感器测量中的不确定性进行建模。在此，情况和机动决策的价值可以视为一种质量度量。

在[20]中，提出了一种利用机器学习技术进行车队合并态势方面建模和分类的方法。这种方法的重点是分类器的在线性能，特别是处理驾驶场景中典型的特征集。由于这些通常是随着时间的推移而发展的，所以只使用单一时间快照的分类算法将是不合适的。

因此，作者将驾驶场景分解为称为场景切片的可分析子集，并采用时间序列分类来识别相关场景。

3.
自动驾驶评估场景的定义

为了能够评估相关驾驶场景中的自动驾驶功能，术语场景和情景的定义至关重要。根据第二节中的文献调查和[21]中的定义，驾驶场景是对驾驶情况的抽象和一般描述，没有对驾驶情况参数进行任何说明。此外，这些场景包括对相关参与者意图的语义描述，并受到自动驾驶功能系统状态的启发，如[1]中提出的。与驾驶场景相反，根据[21]，驾驶情况是驾驶场景的具体发展。因此，驾驶情况详细描述了可以模拟和分析的情况。

根据之前的定义，测试和参考数据中包含的驾驶情况通过分类算法分配给定义的场景。为了对测试和参考数据进行分析和分类，所有场景方面的时间和空间序列，例如自我车辆、动态对象和环境，必须分别用信号时间序列描述，如图1所示。

然而，分类算法并不能同时对多个场景进行分类。由于可能同时发生多种情况（例如，变道和车辆跟驰），分类方法的设计必须允许同时对几种情况进行分类。因此，对于每个场景，应用并训练一个分类器，将数据分类到适当的场景类中。表一概述了所有定义的场景。

4.
自动驾驶评估方法

A
.
方法论

在下一节中，给出了在某些情况下评估自动驾驶功能性能的方法。它以前面描述的方法论和情景分类方法为基础。由于自动驾驶功能的操作模式覆盖了高维操作空间，包括许多不同的驾驶场景，因此需要考虑各种变化。

因此，需要一种涵盖尽可能多的不同驾驶场景的整体评估方法。作者提出了一种基于场景的评估方法，该方法分别基于真实驾驶现场数据。现实世界驾驶的使用已经隐含了某些驾驶场景的大量变化。如图

所示，所开发的方法预见了测试和参考驾驶行为数据的分类，以作为相关场景评估的第一步。

然后，通过使用相关场景中的参考数据评估自动驾驶功能，将功能的性能与每个场景中的人的表现进行比较。

B
.
测试工作量估算

由于交通的随机性，测试方法必须确保有足够的测试数据和参考数据可用。为此目的，euroFOT数据库的部分被认为是[22]，用于估计相关驾驶场景的平均频率。为了计算发生k = 30个驾驶场景的最小测试距离，这是评估函数所必需的，根据Winnerin[23]所描述的方法，假设一个累积泊松分布。根据单个事件发生所需的平均距离sref，计算k个事件发生所需的距离，概率为P= 95%。

最小距离的计算依据如下描述泊松分布的方程，而发生驾驶情况的概率则由

对评估方法中考虑到的所有情况估计总必要的测试距离(参见实例表iv)。

C
.
相关驾驶场景的分类

如前一节所述，自动驾驶功能是在基于场景的方法中进行评估的。为了对参考和测试数据中的这些场景进行分类，分析了几种分类器，以找到对驾驶场景进行分类的最佳解决方案。

为了考虑到之前列出的所有驾驶场景和情境参与者的时间和空间依赖性，该方法还包括时间序列分类。第五节详细概述了分类方法。

D
.
自动化效果的统计估计

为了确定自动驾驶功能的行为是否在正常驾驶行为的范围内，并进一步量化与正常驾驶行为的偏差，必须确定一个适当的方法。因此，根据[24]的说法，这是一种量化两组之间差异的简单方法，与单独使用统计显著性检验相比，它显示出许多优点。正如[24]中所描述的，效应量是两组之间的标准化平均差异，强调差异的大小，而不是将其与样本量混淆。

然而，为了估计自动驾驶功能的行为与人类驾驶行为的偏差，通过使用以下等式计算了效应大小:

5.
利用时间序列分类方法对相关场景进行分类

在之前的相关场景分类框架中，如[18]，分类器的特征选择和拟合是通过专家知识完成的，而本文提出的分类方法通过使用过滤器和包装器函数实现自动特征选择。此外，该方法利用分割算法考虑场景的时间序列特征。下面将介绍特征提取、特征选择和分类算法选择的方法。

A
.
特征提取

在对训练和测试数据中从车辆感知传感器获得的数据集进行适当划分的基础上，计算出合适的特征和指标。这些特性可以分为三组:

1
）扩展特征

第一组将车辆数据和传感器的不同信号与专家知识结合起来，生成新的特征。一个很好的例子是临界指标，如时间到碰撞(TTC)或估计时间到下一个Cut-In机动的交通参与者。

2
）拓展特征的导数

在第二组特征中，计算第一组特征的所有特征的导数。

3
）扩展特征的分割

在第三组中，计算第一组特征的分段。由于时间序列是驾驶场景的基本组成部分，在分类方法中必须使用这些时间关系。在这种方法中，由于使用这种方法产生的低数据量，使用了[19]中提出的底部向上分割算法。利用斜率、均值和回归线的长度计算信号时变区间的分段。对每个时间步计算基于分割的特征，而对每个时间步存储前一个、当前和分割元素的分割数据。余量平方和用于测量近似误差的余量平方和图3显示了特征“距离左车道”的信号分割示例。

B
.
特征选择

在数据特征提取的基础上，选择和训练相应的分类算法。首先，将带有人类专家知识标记的驾驶场景数据集分为训练数据集和测试数据集。训练数据集用于基于过滤器和包装器方法的自动特征选择。

最初的特征选择是通过[27]中提出的几种滤波方法完成的。

为了找到特征的最终选择，使用了包装器函数。这些功能能够对特征子集进行评估，因此，由于从选择中添加和排除特征，在特征之间进行互动。通过剔除特征后的剩余分类误差来分析特征子集的性能。这里使用正向选择包装器，因为该方法从单个特征的最小特征集开始，而向后选择则从所有特征开始。由于这两种方法的性能根据[26]是相同的，正向选择包装更有效。对于场景“Cut In”，表2中显示的特征被选中。

C.
分类算法的选择

在特征选择之后，可以使用训练数据集训练每个场景的分类器。分类器的性能通过其在测试数据集中正确检测场景的能力来评估。由于给定的场景在给定的数据集中分布不均匀，F1Score被视为评估分类器性能的主要指标。下表显示了自动化车辆测试数据和驾驶员参考数据集的选定分类算法及其在各个场景中的性能。然而，由于信号可用性和质量较低，驾驶员参考数据集的性能低于测试数据集。

6.
结果

本节介绍了建议评估方法的结果。首先，给出了所用分类方法的结果和优点。之后，评估方法用于评估纵向自动化功能，重点是车辆在以下场景中的性能。

A.分类器的性能

通过分析所使用的分段分类技术对F1Score绩效指标的影响，评估分类器性能。因此，作为基线，根据F1Score计算分类器的性能，而不考虑分割元素。没有分割的结果与有分割的F1Score结果进行了比较。结果表明，特别是对于变道场景，分割对分类器性能有很大影响。与细分的F1得分指标相比，F1得分指标下降约ΔF1得分=-26.09%。关于cut

-in

和free driving/

vehicle following

场景，细分的影响可以忽略不计

。（F1分数（F1 Score），是

统计学

中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。）

B.自动驾驶功能评估

为了确定自动驾驶功能的性能是否偏离人类驾驶行为，必须在规定的场景中对测试和参考数据进行分类。根据评估重点，分别针对应评估自动驾驶功能的场景，必须估计实际测试的测试距离。表IV中概述了使用第四节B中给出的方法估计的测试距离。

为了演示测试长度的估计方法，选择了变道场景，而实际交通中275km的测试行驶是针对k=30变道情况进行的。对测试数据的分析证明，在260公里的试驾过程中发生了23次换道情况，因此测试长度足够。

对于

人类驾驶行为参考数据，考虑了euroFOT数据集[18]