面向鲁棒和自适应的运动预测：因果表征方法

12 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17081杂散移位风格面向鲁棒和自适应的运动预测：因果表示观点RiccardoCadei * *Sherwin Bahmani AlexandreAlahiE'colePolytechniqueFe'de'raledeLausanne（EPFL）{firstname.lastname}@ epfl.ch摘要从观测数据中学习行为模式已经成为运动预测的一种事实上的方法。然而，目前的范式存在两个缺点：在分布变化下的脆弱性和知识转移的效率在这项工作中，我们建议从因果表征的角度来解决这些挑战。我们首先介绍了一个因果形式主义的运动预测，它铸造的问题作为一个动态的过程，三组潜在的变量，即不变变量，风格混淆，和虚假的功能。然后，我们引入了一个学习框架，分别对待每一组：（i）与常见的做法混合从不同位置收集的数据集，我们利用他们的微妙区别，通过不变性损失鼓励模型抑制虚假相关;（ii）我们设计了一个模块化的架构，因式分解不变机制和风格混淆的表示近似稀疏因果图;(iii)我们引入了风格对比损失，其不仅加强了风格表示的结构，而且还充当用于运行中的测试时间细化的自监督信号。在合成数据集和真实数据集上的实验表明，我们提出的方法提高了学习的运动表示的鲁棒性和可重用性，显著优于现有的最先进的运动预测模型，用于分布外泛化和低拍摄传输。1. 介绍运动预测对于在动态环境中运行的自主系统是必不可少的。然而，这是一个艰巨的任务，由于强烈的时空相互作用，这产生于两个主要来源：（i）物理定律（例如，（ii）社会规范（例如，目标导向行为）; 间隔距离、左侧或右侧交通）。经典模型试图基于领域知识来描述这些交互，但在复杂场景中往往缺乏社会意识[16，31，76]。作为一种替代方案，从观测数据中学习运动表示已成为一种去...*Riccardo和Jonas对这项工作移位训练环境试验环境图1.环境变化下的运动预测。我们引入了一个框架，该框架使深度运动表示能够鲁棒地推广到虚假特征的非因果性移位，例如，智能体密度，并有效地适应新的运动风格，例如，从右向左行驶。事实上的方法[2，49，65]。鉴于过去几年的快速进展，通过在更大范围内追求这种时尚，解决运动预测似乎然而，当前用于运动预测的学习范例的前景被两个缺点所掩盖：• 努力从数据中发现物理定律，例如，输出虚假移位下的不可接受解[63];• 知识转移效率低下，例如，需要大量的观测来适应从一个环境到另一个环境，即使潜在的变化是稀疏的[18]。这些问题在较大的模型中不会变得不那么严重[64]。相反，它们深深植根于统计学习的原则，即只为手头的预测任务寻找相关性，而不考虑它们在实际中可能发生的分布变化下的鲁棒性和可重用性（如图1所示）。在这项工作中，我们的目标是从因果表征的角度来应对这些挑战。最近，将因果关系纳入统计建模引起了越来越多的兴趣，因为它不仅提供了一种数学语言来表达分布变化[56，59]，而且还为表征学习带来了重要的见解[21，68，81]。认知科学的研究也揭示了它在运动环境中的重要性：几个月大的婴儿已经能够理智地推理出身体和社会的因果关系[67];他们甚至可以通过认真观察成人的行为来学习，而不需要自己的任何实践经验[79]。我们如何才能建立能够以同样的方式获得这种因果知识的学习算法17082为此，我们引入了一种新的运动预测形式，将人类运动行为描述为具有三组潜在变量的动态过程：（i）域不变的因果变量，其解释了任何地方对每个人都普遍适用的物理定律，（ii）与运动风格相关的域特定混杂因素，其可能因地点而异，（iii）非因果虚假特征，其与未来运动的相关性可能在不同条件下急剧变化。这种因果形式主义促使我们用以下三个组成部分区别对待每一组。首先，我们建议通过寻求跨多个域的共同点来促进所学习的运动表示的因果不变性。通常，训练数据集不是从单个地方收集的，而是包括来自不同位置的多个子集。以前的工作通常将它们合并成一个更大的，例如。，值得注意的ETH-UCY数据集[40，57]。然而，每个子集往往本质上是不同的[13]。直接将它们结合起来不仅会带来偏差的风险，而且会破坏关于相关性稳定性的关键信息。为了解决这个问题，我们训练运动预测模型，并对不同环境中的经验风险变化进行惩罚该正则化器鼓励模型抑制虚假特征，仅利用因果不变特征。因此，所得到的模型在所有环境中（无论是训练过程中看到的环境还是测试中遇到的环境）都接近同样的最优，其次，我们设计了一个模块化的架构，以结构化的方式分解不变机制和风格混淆因素的表示。运动问题的一个独特性质是，风格混杂因素也可能因环境而异，但构成了人类运动因果变量中不可或缺的一部分为了明确地模拟它们的影响，我们设计了一个架构，其中包含两个编码器分别负责不变的机制和这种模块化设计近似于我们的运动形式主义中的稀疏因果图[54]，使模型能够精确定位和调整一小部分参数，以解释潜在的风格转变。第三，我们引入了风格对比损失，以进一步加强运动风格的模块结构。具体来说，我们引入了一个辅助对比任务，鼓励风格编码器产生一个嵌入空间，通过一个简单的距离测量捕捉不同场景之间的风格关系这种特殊形式的判别任务不对风格类别的数量施加先验假设，因此特别适合于向新的运动风格的知识转移此外，当预测的输出是次优的时，风格对比损失可以自然地用作用于测试时间改进的自监督信号[5，41通过将模块化架构设计与风格控制紧密结合通过减少传输损失，我们的方法在训练和部署期间有效地利用了存储在样式编码器中的知识。我们评估所提出的方法在两个设置：合成模拟数据集和控制现实世界的实验。在存在虚假相关的情况下，由我们的不变损失训练的运动预测模型表现出优于以前方法的分布外（OOD）泛化能力。在运动风格变化的情况下，我们提出的模块化结构和风格损失大大提高了预测模型在低拍设置中的可移植性。我们希望我们的研究结果将为因果建模和运动背景下的表征学习的紧密集成铺平道路，这是一个在很大程度上未被探索但非常有前途的方向，朝着可靠和自适应的自主性发展。我们的代码可以在https：//github上找到。com/vita-epfl/causal motion.2. 相关工作运动预测。现代运动预测模型[2，29，35，38，65]主要是用神经网络构建的，并使用最大似然原理进行训练。尽管在训练域内短期预测的性能很强，但它们往往难以在协变量变化下进行推广。最近，一些作品提出使用负数据增强来提高其鲁棒性[44，90]。然而，设计高维的反例，例如，长序列在实践中可能是困难我们的工作探索了一种基于自由度的替代方案，它不需要对训练数据进行手工设计的干预，因此更具理论基础和算法通用性。与我们密切相关的另一项近期工作[13]试图通过反事实分析来减轻运动数据集中的偏差。我们的方法在三个方面与他们的方法不同：（i）他们的方法在特征空间中减去它们之前学习估计数据集偏差，而我们的方法旨在直接抑制有偏差的特征;（ii）他们的方法继承了合并和洗牌惯例，这破坏了偏差估计的一些关键信息;相反，我们单独保留每个子集并利用跨环境的不稳定相关性;（iii）在他们的方法中提出的反事实问题通常难以解决（参见Pearl因果学习。在过去的几年里，因果推理和机器学习的交叉一直是一个充满活力的研究领域[21，59，81]。一些早期的工作试图从观察或干预数据中识别因果结构[30，78]。示例包括基于分数的[3，33，66]、基于约束的[34，36，73，82]、条件17083····不···不不联系我们历史观察未来预测图2.我们运动预测的因果形式。我们将人体运动问题转换为具有三组潜在变量的动态过程：域不变物理定律（z），域特定风格混杂因素（c）和非因果虚假特征（s）。伪特征不是因果图中未来运动（y）的父项，例如，没有边缘或反因果（虚线），并且它们的统计相关性在不同条件下可能会有很大变化。这种形式主义促使我们设计和训练预测模型，以提高学习的运动表示的鲁棒性和可重用性。独立性测试[6，23，69，87]，连续优化[47，83，89]和许多其他[15，37，74]。虽然这些方法在理论上很有吸引力，但它们通常在实践中仅限于假设直接访问高级因果变量而不是现代问题中存在的低级观察的经典问题[68]。最近，已经提出了几种不同的方法来从低水平数据中自动发现感兴趣的因果变量。一个值得注意的研究方向是解纠缠表征学习[7，9，14，32]，它与独立的因果机制密切相关[55，72]。然而，在没有强假设的情况下，以无监督的方式分离独立的变异因素通常非常具有挑战性[45]。作为替代方案，其他一些最近的作品通过利用在不同设置下收集的观测数据来寻求偶然不变的表示[1，4，10，39，62]。我们的工作也属于这一范畴：我们揭示了在运动背景下的不变学习原理的优点和缺点，并提出了紧密结合不变表示与基于领域知识的结构化架构设计。分布变化。以前的方法从三个主要的范式来解决分布变化的挑战：域泛化、域适应和迁移学习。域泛化是最雄心勃勃的一个，其目的是学习可以在相关但不可见的测试分布中直接良好运行的模型[8，28]。最近的文献提出了各种解决方案，如分布鲁棒优化[19，20，60]，对抗性数据增强[48，77]。然而，这些技术通常依赖于对测试分布的强假设，这在实践中可能不成立。viewed任务[17，80，88]，它不太适合运动预测，其中未来轨迹形式的标签相当容易获得，无需人工注释，但样本效率至关重要。以前在第三类中的工作-迁移学习给定有限的数据-通常利用特殊的架构设计，例如。、外部存储器[25，53]或面向传输的目标，例如：，元学习[22].其中一些技术也被应用于运动预测[27，85]。我们的工作不同于他们，因为我们采用了因果ap-proach，并提出了一个统一的学习框架，facil- itates既强大的生成和快速适应常见类型的分布变化的运动预测。3. 方法传统的运动预测学习范式因此，现有的模型往往难以有效地推广或适应新的环境。在本节中，我们通过以下方式解决这些挑战：（i）从因果表示的角度对运动预测问题进行形式化，以及（ii）通过三个算法组件显式地提升所学习的运动表示的因果不变性和结构3.1. 运动预测初步的。考虑多智能体环境中的运动预测问题。对于M个代理的场景，让我们=s1，，s M表示它们的联合状态，=（xi，yi）表示个体个体i在时刻的状态不不领域自适应是另一种流行的方法，它通过允许学习算法观察一组未标记的测试样本来放松这些假设。这种类型的现代方法通常尝试学习嵌入空间，其中训练和测试样本通过发散最小化[26，46，70，86]或对抗训练[24，75]受到相似的特征分布。虽然这种方法已被证明是有效的，在各种超级，t. 该模型以过去观测值x=（s1，， st）为输入序列，预测它们在未来y=（st+1，，st）到时间T的状态.现代预测模型主要是用编码器-解码器神经网络构建的，其中，编码器req（）提取过去观测的紧凑运动表示z，解码器g（·）推出预测的轨迹y。训练数据D通常是从一组Ken中收集的17084E{}L◦ΣR布吕格噪音：noise（阴影区域）因果图常见训练示例测试示例��=低w��：密度（邻居数）��=1��，��图3.运动预测中虚假相关性的说明目标轨迹y的曲率通常与虚假特征s相关，例如观察噪声和代理密度。然而，这种相关性并不强。例如，由于外生变量u的变化，噪声水平可以在训练和测试之间以不同的方式与y相关，例如，传感装置。同样地，代理密度和y不是因果相关的，而是被不变特征z混淆，例如，邻环境。在这两个示例中，测试示例本质上更接近左侧训练示例而不是右侧训练示例。然而，建立在训练样本中的虚假相关性上的模型可能会在简单的测试样本上输出错误的预测。位移=e1，e2，. . .，e K.以前的工作通常将它们合并到一个大的数据集，并假设混合物作为未见过的测试元素的代表。在此假设下，训练模型以最小化经验风险：第二组和第三组都不具有与目标未来运动跨环境的稳定相关性。然而，它们可能会对预测模型产生不同的影响在新的设置中，伪相关性可能会变得截然不同，从而导致灾难性的错误，如图3所示。相比之下，1R（m，g）：=任务（g（n（x）），y）.（一）风格往往更受限制。无法捕获|（x，y）∈D|(x,y)∈D其中task是运动预测任务的损失函数，例如均方误差（MSE）或负对数似然（NLL）。然而，I.I.D.假设不始终坚持实践。事实上，最近的工作[13]表明，在广泛使用的ETH-UCY基准中，测试环境可能与培训环境有很大不同接下来，我们将介绍一个因果形式主义的运动预测，使我们能够制定这一挑战和设计解决方案，以解决它。因果形式主义。运动行为本质上是受物理规律、交通规则和社会规范等潜变量支配的动态过程为了建立准确的预测模型，传统的学习范式通常旨在发现这些潜在变量并对其建模。正确的运动方式可能遭受不准确的预测，但是仍然应该输出服从物理定律的合理的解决方案。接下来，我们将描述三种算法组件，它们以不同的方式处理虚假特征和隐藏的混淆因素，以提高学习到的运动表示的鲁棒性和可重用性。3.2. 因果不变预测不变原理。根据定义，不变特征应该与不同环境中的目标变量（未来运动）具有相同的联合分布，而非不变特征则相反。这种区别可以用公式表示为域不变预测子的必要条件，即，，g在每个环境中同样是最优的[58]。更正式地说，我们的目标是解决以下问题：与观察到的未来状态的相关性。然而，所学习的相关性可以在不同环境中变化，因此，mina，g1e（g）|e ∈E|e∈E（二）无法在测试时进行归纳。为了解决这一根本性的挑战，我们引入了一个新的形式主义的运动预测通过镜头的因果性。如图2所示，我们将潜在变量分为三组：• 不变变量：在任何地方对每个人都通用的物理定律;• 隐藏的混杂因素：运动方式可能因部位而异，局部和稀疏;• 虚假特征：其他变量，例如噪声水平，这些噪声不是未来运动的直接原因。S.T. g∈arg minRe（ε，gε）ε∈ E，其中g是建立在个体环境e中的先验特征之上的最佳预测器。直观地说，如果一个学习的预测模型可以表现得同样好，在多个训练环境中，更有可能也推广到另一个相关的测试元素实验。不变损失。不变学习原理的精确形式（等式2）2），但是，导致一个双层优化问题，这是很难解决的实际。最近的工作17085不变量编码器解码器运动g��风格调制器吸引风格编码器投影h头击退a，g|E|G2ℒ��ℒ��图4.我们的模块化预测模型包含两个独立的编码器，分别为普遍规律和风格混淆。该模型分为三个步骤：（i）基于第一个编码器学习一个不变预测器，目标是在所有训练环境中同样最优（§3.2），（ii）基于第二个编码器学习一个嵌入空间，以捕获不同场景之间的风格关系（§3.4），（iii）通过在主任务和辅助风格对比任务上联合训练f，f，g和h，将特定领域的风格特征纳入预测模型（§3.3-§3.4）。[4，62]建议将其放松为每个训练环境中经验风险Re的梯度范数惩罚min1Re（ε，g）+λRe（ε，g）.（三）e∈E为了实现这一目标，我们设计了一个模块化的网络，由两个编码器和一个解码器。第一个编码器训练用于计算域不变特征，如§3.2所述。随后，我们介绍了第二个en-旨在捕捉运动风格特征的编码器这一目标防止预测模型学习虚假特征对未来轨迹的平均我们将在SEC中展示。4.1这种技术可以大大提高预测模型对虚假特征分布变化的鲁棒性。然而，抑制虚假特征的强度伴随着明显的缺点，即，，习得的表示往往会错误地丢弃改变的运动风格跨环境。这可能会导致不准确的预测在不同领域中变化。给出了一些风格观察，从特定的环境E，风格混淆的作用是产生风格混淆因素C的潜在表征。样式编码器的输入与不变编码器的输入之间的一个关键区别在于，前者是一个（或多个）长序列，其中运动样式是完全可观察的，而后者是过去轨迹x，其可能不包含关于底层运动样式的足够信息，例如，在互动之前。更正式地说，我们的模块化网络预测未来的轨迹如下：在训练和测试环境中为了解决这个问题，我们接下来引入一个模块化架构，允许模型正确地构建知识和策略。z=π（x），c=π（o），z=f（z，c）+z，y=g（z，c），（四）很容易从一种风格适应到另一种风格。3.3. 模块化预测模型大多数最近的预测模型都是以密集连接为核心构建的，尽管有一些细节上的差异。一方面，当训练数据足够时，这种设计原则非常强大;另一方面，它通常落在缺乏语义结构的高度互操作性架构中。因此，即使分布偏移仅由运动样式的变化引起，也可能必须更新整个模型这种微调惯例不可避免地导致迁移学习的低样本效率理想情况下，预测模型将保留学习知识的清晰结构，分离物理定律和运动风格对运动行为的影响，并近似于图2中的高级稀疏因果图。其中z是包含z和c，风格调制器f可以由小型多层感知器（MLP）建模。这里，我们还可以基于来自相同环境的多个场景观察来计算c，例如。平均几个风格特征向量，以获得运动风格的更鲁棒的估计如图4所示，我们的模块化设计允许我们精确地本地化和微调一小部分参数，以说明底层的样式转换。3.4. 风格对比损失我们的模块化预测模型由多个子网络组成，实际上很难训练，特别是在从新环境收集的数据有限的少量传输设置中。为了克服这一挑战，我们引入了风格对比损失，其目的是……17086·∥ ∥∥ ∥我 K不仅在训练期间加强了运动表示的模块化结构，而且还允许在测试时重用编码的风格知识。风格对比学习。理想情况下，风格编码器产生的特征向量不仅能准确地提供预测未来运动所需的基本风格信息，而且能正确地捕捉不同场景之间的风格关系。我们将这种直觉以监督对比学习的形式制定为辅助任务具体地说，我们认为来自同一环境的两个场景观测值是一对正样本，而来自不同环境的两个场景观测值是负样本。我们将风格特征c映射到一个小头部h（）的投影嵌入p。正样本对（i，j）的风格对比损失如下，exp（sim（pi，pj）/τ）内部特征Z′。在这里，要优化的变量不再是细化过程逐渐减少预测输出和学习的嵌入空间中相同风格的参考示例之间的距离。通过将模块化架构设计与风格对比损失紧密耦合，我们的方法能够在训练和部署过程中有效地使用辅助对比任务4. 实验我们在两种类型的预测模型（递归STGAT [35]和前馈PECNet变体[51]）上评估了我们提出的方法，这些模型在虚假特征或风格混淆因素的分布变化下。在所考虑的预测任务中，模型处理过去的8个时间步长（3.2秒）Lstyle=−log1K、exp（sim（p，p）/τ）在场景中的人类轨迹，然后预测他们的未来，在接下来的12个（4.8秒）时间步长中移动其中，1[e=e]是等于1的指示函数，如果并且与许多先前的作品相同[2，29，65]，我们评估前-ki铸造模型上的两个指标：仅当两个样本i和k取自同一环境时，τ是温度参数，sim（u，v）=uv/u v表示归一化的u和v之间的点积（余弦相似性）。所提出的风格对比损失相对于传统分类损失的一个关键优点是，它在投影头h的设计中不强加关于域类的数量的任何假设。这个属性允许模型从已经学习的关于现有样式的知识增量地引导到一些额外的样式，而不改变h的形状或从头开始学习任何参数。这在转移设置中是特别有益的，其中附加样式的数量不是先验已知的。总的来说，我们通过三个步骤来训练整个模块化预测模型：1. 基于输入来训练预测器骨干g和g变量损失（等式3）;2. 基于风格对比度损失训练风格嵌入h和h（等式2）。5）;3. 在任务丢失上训练f，f，g和h（等式10）。1）和风格损失（方程。5）在冻结不变量编码器时联合进行。在风格转变的情况下，我们微调参数的子集，例如：风格调节器F，以便有效地使模型从学习的域适应新的域。测试时风格细化。迁移学习中的一个常见现象是，仅对少数样本进行微调的模型在新环境中仍然是次优的。为了缓解这种性能差距，我们重新使用风格对比损失作为自我监督信号，用于测试时实时优化。具体地说，我们将预测输出作为输入反馈给样式编码器，检查其样式与其他观察到的样本的一致性，并迭代调整• 平均位移误差（ADE）：在所有预测时间步长内，预测输出与地面实况之间的平均欧氏距离。• 最终位移误差（FDE）：预测的最终目的地与预测范围结束时的真实最终目的地之间我们评估每种方法超过五个不同的随机种子实验附录B总结了更多实施细节。4.1. 伪偏移我们首先评估了在不同范围的虚假位移下，由我们的不变损失训练的预测模型的鲁棒性特别是，我们将我们的方法与以下两个基线进行比较：• Vanilla ERM：最小化所有训练样本上的平均预测误差的传统学习方法（等式2）。1）;• 反事实分析[13]：一种由偶然性启发的轨迹预测方法，通过反事实干预来估计和减去有偏见的特征。为了与最近的反事实方法[13]进行公平比较，我们基于相同的开源代码实现了我们的方法。具体来说，我们遵循他们对基本模型的选择，即。，STGAT [35]，在我们的实验中。STGAT的编码器包含两个LSTM和一个图形注意力网络（GAT），以解释历史轨迹和社交互动线索，而解码器由LSTM进行建模，以展示未来轨迹。Setup. 原始ETH-UCY数据集包含在不同位置收集的五个子集[40，57]。虽然最近的工作[13]强调了[k=jekei]（五）17087--∈∼- -3.02.52.01.51.01 248 16 32 64在图10中，我们可视化了增强ETH-UCY数据集的特定测试示例的定性结果虽然输入轨迹在所有域中保持相同，但伪特征的强度不断增加导致预测轨迹从基线方法急剧收缩。相比之下，我们的方法的输出几乎保持恒定的虚假移位。4.2. 风格转变Domain参数（）图5. ETH-UCY数据集上不同方法的比较，具有受控的虚假相关性。我们的不变学习方法大大优于传统的ERM，不分配制度中的反事实办法[13α∈（8，64]，而在训练域内是相同的。这些子集中，精确定位每个环境中的详细偏差仍然不是微不足道的为了清楚地检查运动预测模型对非因果偏差的鲁棒性，我们通过引入测量观测噪声水平的第三个输入变量来修改ETH-UCY数据集，因为虚假噪声的变化经常发生在现实世界的问题中[4]。具体来说，在每个时间步长t，我们将观测不确定性σt模拟为局部轨迹曲率的线性函数（更多细节见附录B）：γt：=（xstect+δt-xstect）2+（ystect+δt-ystect）2，我们进一步评估了在存在风格转变的情况下通过我们的方法训练的预测模型如第3.4节所述，模型直接推广到新的风格通常是不切实际的因此，我们考虑两种不同的情况：零触发中的鲁棒性和低触发设置中的迁移学习结果。Setup. 现有真实世界数据的运动样式通常在很大程度上是未知的。因此，我们使用ORCA [76]（一种流行的多智能体模拟器）在具有不同风格参数的圆形交叉场景[12]中创建了一些合成投射。具体来说，我们考虑三种训练风格，其中模拟代理保持不同的最小分离距离彼此，即。、0.1、0.3、0.5米。对于每个训练域，我们生成10，000个用于训练的轨迹，3，000个用于验证的轨迹和5，000个用于测试的轨迹。我们在训练中评估每个模型σt：=α·（γt（六）+1），环境（IID）以及最小间隔距离为0.4（OOD-Inter）的两个新测试环境其中xstect=xt+1xt和ystect=yt+1γt反映了智能体在δt=8的时间窗口内的速度，α是控制虚假特征强度的域特定参数。我们在四个环境（'hotel'，'univ'，'zara1'和'zara 2'）中训练模型，α∈{1，2，4，8}，并在剩下的一个（'eth'）上测试它，α∈ {1，2，4，8，16，32，64}。结果在图5中，我们展示了不同学习方法在测试集上的预测精度。所有的方法都在训练域中表现很好，即。，α[1，8].然而，在分布制度，两个基线方法的精度显着下降的域参数值的增加。值得注意的是，当虚假特征的强度是训练期间看到的最大强度的8倍时，普通ERM的ADE上升到3.0，比其在训练域中的性能差大约三倍。虽然反事实方法[13]比普通的ERM稍好，但它也遭受了较大的ADE，2.5.相比之下，我们的不变量方法训练的预测模型显然对域参数的变化不太敏感在视觉上也明显的是，大的强调（在等式中的λ3）在训练过程中对不变惩罚项进行处理，导致在虚假移位下更鲁棒的模型和0.6（OOD-Extra）。我们使用PECNet [51]的变体作为我们的基础模型，它采用MLP作为我们模块化设计中编码器和解码器的基本更多实施细节见附录B。4.2.1分布外泛化结果在表1中，我们报告了不同预测模型在训练域和分布区域外的结果。与第4.1节类似，普通基线在OOD测试集中的预测误差要比在训练集中的大得多。考虑到风格的变化，我们的不变式方法本身也不会产生明显的优势，因为它往往会忽略特定领域的风格混淆。相比之下，我们的模块化架构设计允许模型有效地结合特定领域的风格功能，从而在所有环境中实现卓越的性能。特别是，在我们的模块化网络中训练具有不变损失的第一个编码器会导致OOD机制中的最佳鲁棒性，同时在训练域中具有同样明显的是，在IID和OOD-Extra域之间仍然存在明显的性能差距，这表明了接下来研究的构建自适应模型的重要性。ERM反事实（=1）Invariant（3）Invariant（5）Ade17088方法IID OOD-内OOD-外香草（ERM）0.113± 0.0040.112±0.003 0.192 ± 0.013不变量（我们的）0.115± 0.005 0.114±0.004 0.191 ± 0.007模数（我们的）0.063±0.0050.070±0.006 0.112 ± 0.004Inv + Mod（我们的）0.065± 0.0070.069±0.007 0.107±0.007表1.风格转换下不同方法的定量比较通过ADE（越低越好）对5个种子的模型进行评估香草基线和我们的不变方法都有很大的误差，因为它们要么平均化域变化样式，要么忽略它们。我们的模块化网络将独特的风格特征融入预测中，从而产生更好的结果。特别是，强制执行第一个因果不变性地面实况预测原始预测F参考= 3= 10测试时精化编码器优化导致最好的OOD鲁棒性，同时在训练环境中具有很强的竞争力。0.120.110.100.090 1 2 3 4 5 6批次数量图6.在给定有限的一批样本的情况下，将学习转移到新的运动风格的不同方法的定量结果。我们的模块化的自适应策略（更新的风格调制器f）产生更高的采样效率比传统的对应在低数据制度。此外，针对3次迭代细化预测输出进一步减少了运行中的预测误差。4.2.2低射传输如上所示（§4.2.1），一种直接推广到各种分布变化的预测模型。接下来，我们评估我们提出的自适应方法在低拍摄传输的背景下的有效性。我们再次考虑具有挑战性的OOD-Extra风格转换场景，并比较以下选项：(a) 常规方法微调所有参数;(b) 我们的模块化自适应策略只微调f(c) 我们在方法（b）之上的测试时间改进。我们评估所有的方法给出了有限数量的样本，即。，{1，2，. - 是的- 是的，6} × BS，其中BS = 64是批量。模块化调整的效果。图6显示了低拍摄设置中不同自适应方法的结果。在只有一批观察结果的情况下，微调所有风格相关的参数（f，f和g）会导致噪声输出，并使结果平均化。相比之下，更新f同时保持剩余的大多数参数固定，在低数据状态下产生明显更好的性能例如，在两个批次的新风格上微调f，可以达到与在五个批次上微调整个模型相同的预测精度水平图7.两个智能体场景下测试时间细化的定性效果初始预测输出遭受明显的预测误差。给定真实风格的场景观察（大分离距离）作为参考，我们的方法逐渐关闭预测轨迹和地面真实之间相反，当以不同风格的场景（小的分离距离）为条件作为参考时，我们的方法也设法将输出转向相应的假风格。测试时间细化的效果。最后，基于风格对比损失，对测试时精化如图6所示，我们的细化技术在微调模型的基础上大大减少了错误。图7显示了对两个智能体场景的定性影响，其中预测的轨迹逐渐接近基于目标样式的场景对象作为参考的地面实况。这一结果表明，gests一个强有力的承诺，重用我们的模块化预测模型在测试时学到的结构知识。其他结果和讨论。请参阅附录中的其他实验、实施细节以及关于限制和未来工作的讨论。5. 结论我们提出了一种用于运动预测的自由度启发学习方法给定从多个位置收集的数据，我们的不变损失比以前的统计和反事实方法在虚假分布变化的存在下产生更强的泛化能力。此外，我们的模块化架构设计加上所提出的风格对比损失，增强了学习的运动表示的鲁棒性和转移能力下的风格转变。我们的研究结果表明，将因果不变性和结构的表示学习是一个有前途的方向，走向强大的和自适应的运动预测。致谢。这项工作得到了瑞士国家科学基金会的支持，基金号为 200021- L92326 。我们感谢 Bastien VanDelft、Brian Alan Sifringer和Yifan Sun对早期草案的周到反馈，感谢Parth Kothari和Hossein Bahari对实验的宝贵建议，以及审稿人的深刻评论。更新，f，g仅更新f +细化阿尔塞风格真正的风格Ade17089\引用[1] Kartik Ahuja、Karthikeyan Shanmugam、Kush Varshney和Amit Dhurandhar。不变风险最小化博弈机器学习国际会议的主持人，2020年1月。3[2] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，AlexandreRobicquet ， LiFei-Fei ， andSilvioSavarese.Social LSTM：拥挤空间中的人类轨迹预测2016年IEEE计算机视觉和模式识别会议（CVPR），第961-971页，2016年6月。ISSN：1063-6919。一、二、六[3] 布莱恩·阿拉干和周青。稀疏高斯贝叶斯网络的凹惩罚估计。J.马赫学习.Res. ，16（1）：2273-2328，2015. 2[4] 马丁 · 阿吉奥 vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。arXiv：1907.02893[cs，stat]，2020年3月。arXiv：1907.02893。三、五、七[5] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.语义- tic照片处理与生成图像之前。ACM Transactionson Graphics，38（4）：59：1-59：11，2019年7月。2[6] Alexis Bellot和Mihaela van der Schaar。使用生成对抗网络的条件独立性测试在神经信息处理系统的进展，2019年。3[7] Y. Bengio，A. Courville，and P. Vincent. 表征学习：回顾与新视角。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798-1828，2013年8月。会议名称：IEEE Transactions on Pattern Analysisand Machine Intelligence。3[8] Gilles Blanchard，Gyemin Lee，and Clayton Scott.从几个相关的分类任务到一个新的未标记样本的一般化。神经信息处理系统进展，第24卷。Curran Associates，Inc.2011. 00168. 3[9] Christopher P. Burgess ， Irina Higgins ， Arka Rupid ，Loic Matthey，Nick Watters，Guillaume Desjardins，andAlexan- der Lerchner. 理解 $ beta$-VAE 中的解开。arXiv： 1804.03599 [cs ， stat]， 2018年 4 月。arXiv：1804.03599。3[10] 彼得· 伯曼。方差、因果关系和鲁棒性。arXiv：1812.08233[stat] ， Dec.2018.00057arXiv ：1812.08233。3[11] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan ， Yu Pan ， Gi- ancarlo Baldan ， andOscar Beijbom.nuScenes：一个用于自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。01006. 15[12] Changan Chen ， Yuejiang Liu ， Sven Kreiss ， andAlexandre Alahi. Crowd-Robot Interaction：Crowd-AwareRobotNavi-gationWithAttention-BasedDeepReinforcement Learning.在2019年国际机器人和自动化会议（ICRA）上，第6015-6022页，2019年5月。ISSN：2577- 087X。717090[13] Guangyi Chen，Junlong Li，Jiwen Lu，and Jie Zhou.基于反事实分析的人类轨迹预测. IEEE/CVF计算机视觉国际会议论文集，第9824-9833页，2021年。二、四、六、七、十三、十四[14] XiChen ， YanDuan ， ReinHouthooft ， JohnSchulman ， IlyaSutskever ， andPieterAbbeel.InfoGAN：通过信息最大化生成对抗网络的可解释表示学习In D.D. 李，M。Sugiyama，U.诉卢森堡I. Guyon和R. Garnett，编辑，《神经信息处理系统进展》29，第2172-2180页。Curran Associates，Inc. 2016.3[15] 崔俊硕罗伯特·查普金杨妮零膨胀泊松贝叶斯网络的贝叶斯因果结构学习在神经信息处理系统的进展，第33卷，2020年。3[16] Pasquale Coscia ， Francesco Castaldo ， Francesco ANPalmieri ， Alexandre Alahi ， Silvio Savarese ， andLamberto Ballan.使用圆形分布的城市场景中的长期路径预测。图像和视觉计算，69：81- 91，2018。1[17] Gabriela 楚卡深视觉域适配。arXiv ： 2012.14176 [cs] ， 2020 年 12 月。 arXiv ：2012.14176。3[18] 托多尔·达夫切夫，迈克尔·伯克，还有萨勃拉曼尼亚·拉玛莫西.学习空间和交互动力学的结构化表示，用于拥挤场景中的轨迹预测。 IEEE Robotics andAutomation Letters，6（2）：7072021年。会议名称：IEEE机器人与自动化快报。1[19] Erick Delage和Yinyu Ye。矩不确定性下的分布鲁棒优化及其在数据驱动问题中的应用。运筹学，58（3）：595- 612，2010年6月。Publisher：Jiangsu. 3[20] John C. Duchi和Hongseok Namkoong通过分布鲁棒优化实现统一性能的学习模型。统计年鉴，49（3）：1378-1406，2021年6月。00090出版社：数理统计研究所。3[21] 作者：

下载后可阅读完整内容，剩余1页未读，立即下载