环球关注：用于轨迹预测的多模态深度生成模型：一种条件变分自编码器方法

2022-10-18 19:35:10来源：同济智能汽车研究所

编者按：自动驾驶需要在动态和不确定的环境中做出决策。其中不确定性包含了1) 其他交通参与者的未知意图；2) 未知的未来轨迹；3) 与主车的交互。针对交通参与者的轨迹预测可用于降低上述不确定性，更好的了解交通环境，从而实现更安全高效的自动驾驶。监督深度学习已成功应用于轨迹预测问题，但缺乏概率推理的方法难以对复杂的结构化输出进行建模。本文采用的条件变分自编码器方法对环境中未知的隐变量建模，强调特征设计，通过随机前馈推理进行预测。

本文译自：

《Multimodal Deep Generative Models for Trajectory Prediction: A Conditional Variational Autoencoder Approach》

(资料图片仅供参考)

文章来源：IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 6, NO. 2, APRIL 2021

作者：

Boris Ivanovic; Karen Leung; Edward Schmerling; Marco Pavone

原文链接：

https://ieeexplore.ieee.org/abstract/document/9286482

摘要：基于人类行为预测模型，机器人能够预测人类的反应，这有助于设计安全、主动的机器人规划算法。然而，对复杂的交互动力学进行建模，并在这种交互环境中捕获多种可能性是非常具有挑战性的。在这项工作中，我们提供了一个用于人类行为预测的条件变分自编码器（CVAE）方法，该方法的核心是根据过去的交互和机器人未来的候选动作，在未来的人类轨迹上产生多模态概率分布。本论文的目标是回顾人类行为预测中的最先进方法，从基于物理的方法到纯粹数据驱动的方法，提供一个严格但易懂的描述，以数据驱动、基于CVAE的方法，强调重要的特征设计，使其成为在基于模型的人机交互规划环境中有吸引力的模型，并在使用此类模型时提供重要的设计考虑。

关键词：自动驾驶汽车，深度学习方法，社会人机交互
I.引言
人类的行为在人群、环境甚至不同的瞬间都是不一致的，解决这种固有的不确定性是人机交互(HRI)的基本挑战之一。即使当一个人的意图是已知的，往往有多个不同的行动过程，人们可以追求实现他们的目标。例如，在图1中，穿过道路的行人可以通过迎面而来的行人的左侧或右侧；关于这种情况的推理不能简化为“一般”情况，即行人相撞。对观察者来说，选择似乎有随机性，但也取决于环境的演化。赋予机器人考虑人类对其行为做出反应的能力，是实现前瞻性和主动性机器人决策策略的关键组成部分，该策略可以实现更安全、更高效的交互。
为了创造能够与人类智能交互的机器人，观察于人类交互的数据为建模交互动力学提供了有用的思路（参见[1]中的综述）。机器人可能会根据在类似环境中看到的人类行为，对人类的行为和相应的概率进行推理。为了实现机器人的控制策略，无模型方法以端到端的方式解决这个问题。人类行为预测隐含在机器人的策略中，该策略直接从数据中学习。另一方面，基于模型的方法将模型学习和策略构建解耦——对交互动态的概率被用作策略构建的基础。通过将行动/反应预测与策略解耦，基于模型的方法通常为规划器的决策提供一定程度的透明度，这在无模型方法中通常是不可行的。在本文中，我们采用一种基于模型的方法来研究HRI，重点是学习人类行为的模型，或者更具体地说，学习未来人类行为的分布(例如轨迹)。

图1 一种互动（例如，过马路的行人）可能会演变成许多不同的方式。为了实现安全的人机交互，机器人（如自动驾驶汽车）需要考虑多种结果的可能性（用彩色阴影箭头表示），并了解其行为如何影响其他人的行为。插图：交互的图形表示。

在基于模型的HRI方法中，有许多现有的人类行为建模方法，它们可以大致分为基于本体的或基于现象的。为了将我们的工作与其他方法进行对比，我们将建立一个关于该领域不同类型的本体和现象最新方法的分类。我们注意到，这些方法可以在其他维度上进行不同的分类（例如，模型是否产生概率或确定性预测）。在高层次上，本体论方法（有时被称为“心理理论”）假设了一个关于主体行为的核心底层结构，并在此基础上建立了一个数学模型。例如，他们可能会制定一套智能体必须遵循的规则，或者一个描述智能体内部决策方案的分析模型。相比之下，现象学方法并没有做出如此强大的建模假设，而是依赖大量数据来建模智能体行为，而没有明确地对潜在动机进行推理。

我们从现象学的角度来处理这个问题，特别是关注使用条件变分自动编码器（CVAE）[2]来学习一个非常适合基于模型的规划和控制的人类行为预测模型[3]。我们试图明确描述人类行为在每个时间步的多模态不确定性，这取决于交互历史以及未来的机器人行为选择。对交互历史的条件反射允许机器人对可能影响分布的经验、情绪或参与程度等隐藏因素进行推理，而对机器人下一个动作选择的条件反射则考虑了反应动力学。特别是由于后一种能力，条件行为预测模型在交互场景中的规划中取得了巨大成功，然而，这种模型普遍存在的一个问题是，当从离线数据中学习时，它们可能无法区分相关性和因果关系。

本文目标：本文的主要目标是提供一个关于[3]、[6]、[7]和[8]中提出和开发的基于CVAE的人体轨迹预测模型的完整教程。在深入研究我们方法的细节之前，我们建立了一个在交互环境中预测人类行为的最先进方法的分类，以便深入了解我们的工作最适合的问题设置和系统设计目标。因此，本文的贡献有五个方面：我们（i）提供了交互环境中人类行为预测的本体论和现象学方法的简明分类，并进行了专门的讨论，以提出我们的方法（第二节），（ii）介绍CVAE，并详细介绍了人类轨迹预测的神经网络体系结构（第三节），（iii）展示该模型的优点，重点在于其对多智能体设置的可扩展性、异构数据的使用，以及生成基于动力学模型的输出轨迹分布的分析表示的能力（第四节和第五节），（iv）将这种方法的性能与其他最先进的现象学方法进行比较，并讨论使用该模型的重要注意事项（第六节）。

II.相关工作

预测人类行为的方法可以分为本体论方法和现象学方法。本体论模型对智能体的动力学或动机做出假设。一个方向是对系统的基本物理模型进行假设，然后导出状态空间模型。例如，社会力模型[9]通过对主体之间的吸引力和排斥力进行假设，来制定交互动力学。类似地，智能驾驶员模型（IDM）[10]推导出了一个连续跟车微分方程模型。由于这些模型的简单性，它们在模拟大规模交互时非常有用，例如人群动力学[11]或交通流[12]。尽管这些方法捕捉了智能体之间的耦合，但它们基本上是交互的单峰表示（即不考虑多个不同未来的可能性），并且不利用过去交互的知识。

我们可以对人类的内部决策过程进行假设，而不是明确地制定交互动力学。博弈论方法通过假设另一个智能体是合作的[13]还是对抗的[14]来建模交互动力学，并利用这些信息进行机器人规划。对于具有社会意识的机器人导航，[15]、[16]可以推断出人类的情绪或支配地位，并将其告知机器人规划器。一种流行的方法是将人类建模为最优规划器，并将其在每个时间步的动机表示为依赖于状态/行动的奖励（相当于负成本）函数。最大化这个函数，例如，通过跟随它的梯度来选择下一个动作，可以被认为是人类决策。

逆强化学习（IRL）[17]，[18]是这一思想的推广。奖励函数通常表示为可能的非线性特征r(x, u)=θTφ(x, u)的线性组合，其中权重参数θ适用于最小化优化r的动作和真实人类动作之间的误差度量。IRL的一个典型优势是它的可解释性，包括手工制作的特征，以及学习到的线性权重揭示的特征重要性。最大熵（MaxEnt）IRL[19]以概率的方式应用这一原理；人类行为的概率分布与奖励的指数成正比，即p(u)∝exp(r(x, u))。该框架已被用于模拟驾驶[20]和社交导航[21]环境中的人类行为，然后用于告知机器人的规划策略。理论上，由于奖励函数中有足够复杂和众多的特征，MaxEnt-IRL可以任意很好地逼近任何（包括多峰）分布，这使得它成为我们应用HRI的一个很有吸引力的候选者。然而，Max Erl的典型应用有两个主要缺点，这促使我们考虑另一种方法。首先，尽管学习到的分布可能是多模态的，但如果它被表示为非标准化对数概率密度函数（即r(x, u)），则在规划时（例如，通过采样），可能没有一种计算上易于理解的方法来解释这种多模态。之前的工作依赖于搜索显式模式枚举[21]，或者在[20]的情况下，它为智能车辆基于最大IRL的预测和策略构建开发了一个统一且易于处理的框架，由此产生的策略采用基于梯度的局部优化，尽管学习了名义上的多峰分布，最终导致对交互结果的单峰假设。其次，IRL通常用于学习少数人类可解释特征的重要性权重。使用更复杂、可能更深入的特征来提高模型的表达能力，消除了IRL的一个关键好处，反而促进了现象学方法的使用。例如，虽然这不是IRL的一个基本限制，但为了最大限度地提高可解释性，现有工作通常在构建仅依赖于当前状态的特征时做出马尔可夫假设[20]，因此在对未来行为进行推理时，不会捕捉交互历史。一般来说，基于奖励的方法在数据有限的情况下是有效的，因为只有少数几个参数需要学习，并且可以转移到新的和看不见的任务[22]。然而，在大量数据的存在下，在交互历史的条件下，考虑现象学方法是很自然的。

现象学方法是不对交互动力学和智能体决策过程的结构进行固有假设的方法。相反，他们依靠强大的建模技术和丰富的观测数据来推断和复制复杂的相互作用。最近，随着长短期记忆（LSTM）网络[25]的成功，出现了大量基于深度学习的回归模型，用于预测未来的人类轨迹（例如[23]，[24]）。长短期记忆（LSTM）网络是一种专门构建的用于建模时间序列数据的深度学习体系结构。然而，这种方法只产生单一的确定性轨迹输出，因此忽略了捕捉人类行为固有的不确定性。安全关键系统需要对许多可能的未来结果进行推理，以防止出现最坏情况，最好是考虑到每种情况发生的可能性，从而实现安全决策。因此，最近人们对同时预测多个可能的未来或产生未来可能结果分布的方法产生了兴趣。

由于生成性建模[2]，[26]的最新进展，已经出现了从确定性回归到生成性模型的范式转变，即生成未来可能行为分布的模型。特别是，深度生成方法（基于神经网络的模型，从中学习数据集采样的真实潜在概率分布的近似值）已成为最先进的方法。有两种主要的深层生成方法在该领域占据主导地位，（条件）生成对抗网络（(C)GANs）[26]，[27]和（条件）变分自动编码器（(C)VAEs）[2]，[28]。这两种方法已广泛应用于交互式环境（例如[29]–[32]）中的未来人体轨迹预测。GAN由生成器和鉴别器网络组成，以产生真实的输出，生成器输出样本，然后由鉴别器“判断”。尽管基于GAN的模型显示了有希望的结果，但存在两个主要局限性。首先，GAN学习经常遭受模式崩溃的影响，这种现象是模型收敛到分布模式，无法捕获和产生不同的输出[33]。这与安全型应用不兼容，在这些应用程序中，捕获罕见但潜在的灾难性后果非常重要。其次，众所周知，GAN很难训练，因为生成器和鉴别器之间的冲突会导致训练过程不稳定[34]，[35]。此外，尽管在目标函数的定义方面提供了灵活性，但GANs基本上输出了样本的经验分布，这可能会限制可使用的基于模型的规划器/控制器的类型（例如，依赖参数化分布的规划器）。

(C)VAEs采用变分贝叶斯方法；他们通过将隐藏属性提取为概率分布，然后从潜在分布中“解码”样本，以产生所需的输出，从而学习真实潜在概率分布的近似值。与GANs相比，CVAEs优化了训练集中所有示例的可能性，这意味着考虑了分布的所有模式，并且不太可能出现模式崩溃和缺乏GANs多样性的问题。此外，CVAE可以从分布中生成经验样本，也可以生成分布的分析表示，这使得它们在基于模型的规划和控制环境中可能比GANs更通用。

因此，在选择一种建模交互动力学和执行人类行为预测的方法时，需要考虑很多因素。在具有大量可用数据的HRI环境中，以及需要高表达能力来捕捉交互细微差别和输出空间上的多模态分布覆盖，我们将这项工作的剩余部分集中在使用CVAEs进行人体轨迹预测上。

图2 CVAE的图模型，以及用于人类行为预测的CVAE的神经网络架构。实线表示生成过程（预测过程），虚线表示用于变分推理（训练过程）。

III. 用于交互感知行为预测的条件变分自编码器

A条件变分自编码器

给定数据集

，条件生成建模的目标是拟合条件概率分布p(y|x)的模型，该模型可用于下游应用，例如推理（即给定x，计算观察特定样本y的概率），或者生成给定x的新样本y。因此，我们考虑在由一组固定的参数定义的分布族内的p(y|x)，我们适合于以最大化观测数据的似然为目标的数据集。由于其表达能力，神经网络通常用于表示复杂的高维分布。CVAE[2]是一种条件生成模型。目标仍然是近似p(y|x)，但在输出p(y|x)之前，模型首先将输入投影到一个称为隐空间的低维空间，该空间使模型发现显著特征，以达到提高性能的预期目的，并可能有助于解释性。图2(a)示出了CVAE的图模型。由θ参数化的编码器接收输入x并产生分布pθ(z | x)，其中z是隐变量，可以是连续的或离散的[36]，[37]。由φ参数化的解码器使用x和来自pθ(z | x)的样本来产生pφ(y | x, z)。实际上，编码器和解码器都是神经网络。然后将隐变量z边缘化，得到p(y | x)，

目标是拟合参数φ，θ和ψ，以最大化数据集上p(y | x)的对数似然。通过取双方的对数，使用Jensen不等式，并重新排列这些项，得出了证据下限（ELBO），

其中

是Kullback-Liebler散度，ELBO是对数p(y | x)上的一个下界，我们试图最大化这个量，但直接用(1)来计算它往往很困难。相反，我们最大化ELBO作为代理。通过使用重新参数化技巧[28]、[36]、[37]，ELBO易于计算，并且可以通过随机梯度下降进行优化。单个训练示例(x，y)的损失为，

在训练期间，我们最小化训练集上的蒙特卡罗估计的期望损失。

B 交互感知人类行为预测

我们感兴趣的是学习一个模型，该模型能够预测智能体（即，我们假设这些代理是人类或人类控制的）与环境中其他智能代理交互的未来轨迹。具体来说，我们需要一个模型，该模型（i）依赖于历史，以便捕捉行为趋势或意图，（ii）考虑所有代理之间的耦合交互动力学，（iii）在未来的人类轨迹上产生多模态分布，因为人类在交互环境中可能有许多不同的行为方式，（iv）非常适合基于模型的规划，因为我们的最终目标是设计能够利用这些预测与人类无缝互动的机器人。我们提出的序列到序列CVAE轨迹预测架构，如图2(b)所示，能够通过以下方式解决这些需求。

为了解决上述（i）和（ii），输入条件变量x由表示交互历史的特征、自交互开始以来所有代理的一系列特征（例如位置、速度、动作）以及未来机器人轨迹、机器人计划在规划范围内遵循的一系列状态和/或动作组成。此外，我们还可以包括其他可能与应用相关的功能，例如环境地图或机器人的摄像头图像（见第五节）。输出y是我们感兴趣的所有人类代理的未来状态/动作序列。由于输出部分取决于机器人将来将做什么，因此该模型学习耦合交互动力学。我们将在第五节稍后讨论如何整合预测的动作分布，以生成完整的动态可行轨迹预测。

为了解决（iii），通过使用离散的隐空间来构造多峰分布。z的每个隐向量实例化对应于离散模式（即混合分量），其概率pθ(z | x)由编码器产生（对应于混合权重）。例如，其中一种离散模式可能对应于人类驾驶员的制动，而另一种可能对应于右转。请注意，并不能保证对每个隐变量赋予语义，这是一个活跃的研究领域[38]。可以使用连续的隐空间，但在我们的工作中，我们发现离散的隐空间更有效。对于给定的模式，这种行为的发生方式可能会有所不同（例如，右转的方式略有不同）。为了适应这些变化并考虑连续状态或动作中的依赖性，解码器输出高斯混合模型（GMM）的自回归序列。我们想强调的是，在这里使用GMM并不是在轨迹上创建多模式分布的主要机制；这就是隐空间的作用。在预测时域的每个时间步，解码器输出描述输出特征分布的GMM分量，然后从GMM中提取样本，并用于在下一个时间步生成GMM。重复此过程将创建从p(y | x)中提取的样本。对于单个GMM分量（即高斯分量）的情况，可以传播每个时间步的均值和方差，而不是样本，从而实现输出分布的分析表示（见第五节）。

输出分布表示方式的灵活性（iv）；我们可以根据基于模型的规划器的需求定制输出。具体来说，我们可以选择以经验（即直接输出样本）或分析（即分布的输出参数）来描述学习到的分布。此外，对于如何构造编码器和解码器，还有许多选项。我们主要利用递归神经网络（RNN）来处理具有可变长度的时间序列数据，而不增加问题的规模。正如我们将在第四和第五节中描述的，我们可以增加模型来考虑多个代理和异构数据输入之间的时空关系（例如，状态轨迹、图像和地图）。

C 案例研究

我们重现了[3]中研究的交通场景，以说明我们方法的关键特征。在场景中，最初并排行驶的两辆车必须在短时间和短距离内交换车道，模拟汽车在高速公路上/下合流。这是一个具有挑战性的场景，因为谁将通过谁的固有多模式不确定性。在开始之前，我们要说两句话。首先，我们将LSTM用于编码器和解码器网络，因为我们发现这种RNN架构在评估损失方面提供了最佳性能。其次，我们选择预测未来的人类动作序列，并使用未来的机器人动作序列作为输入，因为这与我们的案例研究一致。但是，对于其他应用，可以使用状态来代替操作。

交互历史被定义为自交互开始以来两个代理的状态和动作序列。我们认为未来的机器人动作序列作为一个额外的输入；这与交互历史一起形成条件变量x。学习CVAE模型定义了隐变量z上的分布pθ(z | x)，该分布与x一起输入解码器pψ(y | x, z)，以生成预测的人类动作序列y。LSTM解码器生成描述每个时间步人类动作分布的GMM分量；为了产生序列y，从GMM中采样一个动作，并将其反馈到LSTM单元以产生下一个动作，依此类推。

在图3中，当机器人决定要采取的下一个动作时，它可以预测人类可能对其每个候选未来动作序列做出的反应（蓝色虚线）。预测中的不同颜色（细线）展示了输出分布中的不同模式，即离散隐变量z。例如，浅蓝色轨迹对应于人类加速，而深黄色轨迹对应于人类减速。根据这个交互模型，机器人可以通过搜索一组可能的未来动作序列并选择一个能产生最高预期回报的动作序列来选择下一个动作。该基于模型的规划器在模拟器[3]和全尺寸试验车辆[5]上进行了测试和验证。

图3 未来人类动作序列的预测取决于机器人的未来动作序列（蓝色虚线）。未来人类行为序列的不同颜色对应于不同的离散隐变量实例化（即多模态输出分布中的不同模式）。该图改编自[3]。

IV. 扩展到多智能体交互

在现实世界中，智能体同时与许多其他智能体交互，例如行人穿过人群、车辆穿过十字路口或高速公路上的合流。因此，在前一节中讨论的模型需要扩展以考虑一般的智能体数量以及它们之间的时空关系。

A 对一般数量的智能体进行建模

建模此类交互的自然方法是将场景抽象为时空图（STG）G=(V, E)，之所以这样命名，是因为它将智能体表示为节点，将其交互表示为边，边随时间演化。边(u, v)∈E表示如果代理u与代理v“交互”。作为学习交互模型的输入，空间接近度是两个智能体是否可以直接交互[23]、[24]、[30]、[31]。具体来说，如果||pu-pv||2

这将轨迹预测问题从一个建模智能体及其交互转变为一个建模节点及边。这里的关键挑战是，一个代理可以有一般数量的邻居，这些邻居会随着场景的变化而变化。因此，生成的模型需要能够处理固定体系结构的一般数量的输入（因为神经网络权重具有固定的大小）。为此，可以扩展第III-C节中讨论的架构，使其模拟场景STG的结构。特别是，为连接到节点的每条边（直接建模边）添加一个LSTM，并使用中间聚合步骤，以便组合来自相同类型的相邻节点的影响。这是[6]中采用的方法，证明了这种结构可以模拟相邻代理的影响。

虽然这使我们能够对一般数量的代理进行建模，但还需要考虑一个事实，即V和E是时变的。这在自动驾驶中尤其明显，因为车辆传感器的范围有限。因此，代理可以在每一个时间步出现和消失，例如，由于在靠近ego车辆的高速公路上或高速公路下合并。即使智能体的数量是恒定的，它们之间的相互作用也必然是时变的，因为智能体在移动时与其他代理的空间接近度会发生变化。因此，本小节中讨论的边缘编码方案需要进一步扩展，以捕获时变结构。

B 建模时变交互

引入时变将STG表示从G=(V, E)修改为Gt=(Vt, Et)。不幸的是，简单地按照每个时间步重新创建一个新的STG并应用上述建模方法将是昂贵且低效的，因为它不会回收可能在多个时间步中持续存在的信息（例如，跟踪哪些边是新的、已建立的或最近删除的）。

另一种方法是引入一个标量，该标量根据边添加或删除的最近时间来调制每个边缘编码LSTM的输出。这是[7]中采用的方法，其中标量在0到1之间变化，并在模型的其余部分包含边影响充当附加权重因子。这种输出重新加权还可以作为一个低通滤波器，以便新添加或删除的边缘不会使模型输出从一个时间步剧烈摆动到另一个时间步，从而抑制上游感知系统产生的高频噪声（例如，当车辆在传感器范围限值附近抖动时）。这种方法的一个主要优点是在线更新速度快，因为模型的状态表示只需要几次矩阵乘法运算就可以捕捉到新的观察结果[7]。这在机器人用例中尤其重要，因为机器人用例通常需要实时从流数据在线运行。我们将在第VI-C节中进一步讨论运行时注意事项。

V.结合智能体动力学和异构输入数据

到目前为止，我们已经了解了如何在场景中概率地建模一般的、时变数量的交互智能体。在本节中，我们将深入探讨输出结构的考虑因素，特别是那些确保输出轨迹可行性的结构，以及包括现代机器人平台上常见的额外信息源的方法，例如周围环境的高清(HD)地图。

A 生成动力学可行的输出

在行为预测中，大多数方法的共同点是最终需要在空间坐标中产生输出，因为这是施加许多规划约束的地方；事实上，学术行为预测文献中的大部分评估指标都是在空间坐标上定义的[1]。因此，大多数方法要么直接生成轨迹样本（例如，GANs），要么利用中间模型将内部表示转换为具有不确定性的位置（例如，基于CVAE的方法，带有输出双变量GMM的解码器），如前几节讨论的体系结构。然而，这两种输出结构都很难实施动力学约束，例如非完整约束，例如由无滑移条件产生的约束。如果不考虑这些因素，可能会导致潜在行为无法实现的预测（例如，预测汽车将侧向移动）。

为了解决这个问题，我们可以利用动力学建模中的已有思想。在选择要实施的动力学模型时，人们通常会在建模复杂性和计算效率之间找到折衷。然而，在自动驾驶的情况下，感知要求的形式还有一个额外的复杂因素。理想情况下，选择的智能体模型将最好地匹配它们的语义类型。例如，人们通常会使用自行车模型在路上模拟汽车[39]。然而，估计另一辆车的自行车模型参数或动作非常困难，因为它需要估计车辆的质心、轴距和前轮转向角。一个没有如此高估计要求的相关模型是动态扩展的独轮车模型[40]。它在精度（考虑关键的车辆非完整约束，例如无滑移约束）和效率（只有四个状态和两个动作）之间取得了很好的平衡，不需要复杂的在线参数估计程序（只需要估计车辆的位置和速度）。这种动力学模型的选择遵循了[8]中的选择，通过实验表明，这种简化模型已经对提高预测精度产生了相当大的影响。

为了考虑这些动力学因素，我们应该将他们的学习体系结构视为在智能体的动作而不是位置上产生分布，并通过智能体的动力学关注从动作到位置的过程。值得注意的是，该方案还可以将模型在其生成动作中的不确定性传播到结果位置上的不确定性，尤其是如果每个时间步的输出动作不确定性具有简单的参数化，例如高斯分布。在这种情况下，对于线性底层代理动力学（例如，经常用于模拟行人的单个积分器），具有不确定性的整个系统动力学是线性高斯的。形式上，对于动作u(t)=dp(t)/dt的单个积分器，t+1处的位置平均值为p(t+1)=p(t)+u(t)δt，其中u(t)由学习架构产生。在非线性动力学的情况下（例如，用于模拟车辆的单轮模型），仍然可以（近似地）通过线性化有关代理当前状态和行为的动力学来使用这种不确定性传播方案。[8]中使用了这种动力学积分方案，使模型能够产生解析输出分布。重要的是，即使包含了额外的动力学，训练也不需要额外的数据（例如，损失没有修正为行动过度）。该模型仍然直接学习匹配数据集的地面真值位置，梯度通过智能体的动力学反向传播到模型的其余部分。因此，在没有任何额外数据的情况下，这种动力学的包含使模型能够生成明确的动作序列，从而实现动态可行的轨迹预测。总的来说，与直接输出位置的方法相比，这种输出方案能够保证其轨迹样本在动力学上是可行的。

B 结合异构数据

现代机器人系统拥有大量先进的传感器，这些传感器为下游用户提供各种各样的输出和数据模式。然而，当前的许多行为预测方法仅利用其他主体的跟踪轨迹作为输入，而忽略了来自现代感知系统的这些其他信息源。

值得注意的是，许多现实世界的系统都使用高清地图来帮助定位和导航。根据传感器的可用性和复杂程度，地图的保真度可以从简单的二进制障碍物地图，即M∈{0, 1}H×W×1，到多层语义映射，例如M∈{0, 1}H×W×L，其中每层1≤l≤ L表示具有特定语义类型的区域（例如道路、人行道）。选择这种地图格式的一个主要原因是，它与图像非常相似，图像也有高度、宽度和通道尺寸。因此，卷积神经网络（CNN）可以有效地进行在线评估，并将其纳入行为预测模型中。这是在[8]中做出的选择，它使用一个相对较小的CNN对被建模的代理周围的本地场景上下文进行编码。

更一般地，通过经由适当的模型将其表示为向量并将结果输出连接到编码器的整体场景表示向量，可以类似地在建筑的编码器中包括进一步的附加信息（例如，原始激光雷达数据、相机图像、行人骨架或凝视方向估计）。

VI.实验和实践考虑

在本节中，我们将第五节中描述的方法与最先进的方法进行定量比较，以解决行人和车辆运动预测这一具有挑战性的问题。此外，我们还讨论了一些重要的实施注意事项，供寻求采用本文中介绍的方法的研究者参考。

A 定量性能

我们将Trajectron++[8]与Social GAN[29]和Social BiGAT[32]进行比较，它们都使用类似的基于RNN的架构来建模时间序列。这些方法是在现实世界的ETH[43]和UCY[44]行人数据集上进行评估的，这是由具有挑战性的多人交互场景组成的领域的标准基准。我们使用[29]中提出的最佳N（BoN）平均和最终位移误差（ADE和FDE）指标以及[7]中提出的基于核密度估计的负对数似然（KDE NLL）来评估它们的性能。如表1所示，基于CVAE的Trajectron++在三个指定指标上的表现明显优于其他产品。此外，表II显示了我们的方法在大规模nuScenes数据集上针对各种方法的强大车辆建模性能[45]。进一步的实验和烧蚀研究见[8]。更广泛地说，现象学方法在大数据领域的成功已经反映在现代轨迹预测竞赛中。例如，最近的ICRA 2020 nuScenes[45]预测挑战赛的所有获奖者（其中一个是Trajectron++[8]）都是现象学的，使用了深度编码器-解码器架构，除了过去的轨迹历史，还利用了异构输入数据。

表1 比较基于CVAE的行人建模方法和基于GAN的行人建模方法。黑体是最好的

表2 比较基于CVAE的车辆建模方法与其他方法。黑体是最好的

B 隐空间维度

隐空间的大小（即潜在变量的数量）是本研究中尚未讨论的问题。虽然找到“最佳”规模最终是一个超参数搜索，但人们通常应该为他们希望建模的每个高级行为或效果分配一个潜在变量。在（常见）情况下，很难确切知道有多少（例如，在驾驶员建模中），应该从高开始，让CVAE通过分配非常低的概率来删减冗余模式。例如，在[3]、[6]–[8]中，我们使用了25个潜在变量（即z可以取25个值）。其中，CVAE一次只为几个模式分配显著概率，例如直线移动、左转、右转、停车。

为了确定使用了多少个模式，可以通过证据理论的视角分析CVAE的学习权重，如[46]所述。具体来说，我们可以确定哪些潜在变量有直接证据支持它们的存在，并在不损失任何性能的情况下删减其他变量。例如，[46]发现只有2−12个隐变量在[8]中用到，其余变量可以在不损失性能的情况下进行删减。

C 模型在线运行

机器人应用模型开发中的一个关键考虑因素是运行时的复杂性。为了实现实时性能，可以利用时空图提供的状态表示。具体来说，模型可以在线更新新信息，而无需完全执行正向传递。例如，由于我们的方法使用LSTM，只有编码器中最后的LSTM单元需要输入新的观察数据。然后，可以使用更新的编码器表示执行模型的其余部分。[7]、[8]中应用了这种更新和预测方案，这两种方案都实现了实时在线性能。

VII.结论和未来工作

我们提供了一个关于CVAE方法的完整教程，该方法用于多智能体交互的多模态轨迹预测。此外，我们还对现有最先进的方法进行了分类，从而确定了主要的方法考虑因素，并对我们提出的方法进行了展望。在存在大量具有潜在异构数据类型（例如，空间特征、图像、地图）的数据，以及未来行为取决于交互历史的非马尔可夫环境中，我们提出的CVAE方法是一个有吸引力的模型，用于预测多智能体交互环境中未来的人类轨迹。特别是，我们的CVAE方法非常灵活，可以轻松地包含异构数据，考虑智能体动力学，并根据不同类型的基于模型的规划算法进行调整。

未来的工作包括对模型的进一步改进，例如开发使隐空间更具可解释性的方法，例如，通过时序逻辑的视角，对上游传感器噪声进行鲁棒性验证，并应用学习的模型生成更真实的模拟代理，以进行测试和验证。更广泛地说，由于未来与下游规划和控制算法的集成，在评估指标和体系结构方面仍有许多悬而未决的问题。这些问题现在变得越来越重要，因为现象学轨迹预测方法在原始性能方面已经超过了其他方法，并且目标是部署在现实世界的安全关键机器人系统上。

参考文献

标签：人类行为不确定性神经网络

责任编辑：hnmd003