观测数量对轨迹预测的重要性

90 浏览量更新于2023-10-25 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

65530观测数量足够吗？轨迹预测的知识蒸馏0Alessio Monti 1 Angelo Porrello 1 Simone Calderara 1 Pasquale Coscia 20Lamberto Ballan 2 Rita Cucchiara 101 摩德纳和雷焦埃米利亚大学，意大利 2 帕多瓦大学，意大利0摘要0准确预测未来人员位置对于现代视频监控系统来说是一项重要任务。目前最先进的模型通常依赖于过去跟踪位置的“历史”（例如3到5秒）来预测未来位置的合理序列（例如最多未来5秒）。我们认为这种常见的模式忽视了现实应用的关键特征：由于输入轨迹的收集涉及机器感知（即检测和跟踪），在拥挤场景中可能会累积错误检测和分段错误，导致跟踪漂移。因此，模型将被提供损坏和嘈杂的输入数据，从而严重影响其预测性能。在这方面，我们专注于在使用少量输入观测时提供准确的预测，从而潜在地降低与自动感知相关的风险。为此，我们构思了一种新的蒸馏策略，允许从教师网络向学生网络进行知识转移，后者只使用较少的观测（只有两个）。我们展示了一个适当定义的教师监督可以使学生网络的性能与需要更多观测的最先进方法相当。此外，对常见的轨迹预测数据集进行的大量实验表明，我们的学生网络更好地推广到未见过的场景。01. 引言0行人轨迹预测通过利用个体轨迹信息和行人之间的相互影响来预测未来路径。这个任务在先进的监控系统[24]、行为分析[32]、入侵检测[39]、智能车辆和自主系统[4,37]中有几个实际应用。虽然最近的一些工作专注于为这个任务量身定制的新型深度网络架构[14, 15, 20, 35, 49,52]，但我们认为轨迹预测的推理阶段0dictor尚未得到彻底解决和调查。通常，基于数据驱动的模型是在大型公共数据集上进行训练和评估的，这些数据集包含经过人工干预纠正漏检和身份切换的跟踪轨迹。然而，在推理时无法进行这个过程：因此，用于条件预测的输入轨迹必须由跟踪系统自动提取。在这方面，广泛采用的8-12协议[1, 15, 20，022, 34, 48,52]（即8个输入时间步长和12个预测时间步长），这要求以2.5FPS的频率收集数据，对于上述情况来说并不提供很大的修正余地。在实时应用中，视觉跟踪系统可能为这种长度的序列提供不准确的观测[12]：遮挡、误检和非刚性形状变形都会带来非常困难的问题。为了克服上述限制，一个潜在的解决方案是减少输入轨迹的长度，以尽量减小跟踪关联错误。基于这个想法，本文提出了一种基于知识蒸馏的方法[18]，它可以恢复与更多输入观测获得的相同信息的可靠代理。我们展示了它可以实现有效的推理模式，只需要比训练时更少的样本。我们还证明了在较短的输入轨迹上适当地调整模型可以更好地推广到不同的实验设置。从技术角度来看，本文通过部署教师-学生范式[18]来实现我们的想法：一个学生网络通过使用较少的输入观测来模仿教师的行为。每个网络都设计了一个基于Transformer的架构，通过注意机制考虑了空间和时间的相互作用。为了处理有限数量的观测，我们提出了一种在Transformer架构的编码器和解码器堆栈上同时进行蒸馏的过程。最后，我们的目标函数考虑了真实数据和蒸馏损失，以便方便地匹配教师和学生的内部表示。65540我们强调以下贡献：i）据我们所知，这是第一次对当前轨迹预测模型常用的评估协议的有效性（在推理时间）进行深入分析；ii）我们引入了一种新的蒸馏策略，以减少输入轨迹的长度，同时保持准确的预测；iii）我们探索了学生在适应和转移其知识到展示不同复杂程度的人类动态和场景交互的情景中的能力。实验证明，只需每个行人的最后两个观测（即仅2个观测）就可以构建一个稳定的轨迹预测系统。这只有通过巧妙利用可以从训练数据中推断出的全局知识并蒸馏到推理模型中才能实现。02. 相关工作0社交模型。对人与人之间的相互作用进行建模在预测合理轨迹中起着基础性的作用。先驱性的工作利用手工制作的关系、基于能量的特征或基于规则的模型[3, 9, 17, 27, 41,45]，这些方法无法适应场景变化和复杂的人群动态。近年来，数据驱动的方法受到越来越多的关注：在他们的开创性工作中，Alahi等人[1]通过聚合邻近代理的隐藏状态来捕捉这些相互作用，采用了专用的基于网格的“社交汇聚”方法。Gupta等人[15]改进了这个机制，通过最大池化他们的隐藏状态将其扩展到场景中的所有代理。这些模块还通过注意力机制进行了扩展，而其他工作则提出了将社交汇聚与上下文信息（例如场景语义、群组或头部姿势）相结合的架构[4,8, 16, 26, 34]。图机器学习的最新进展[21, 25,0[28,43]促使采用这种灵活的结构来建模代理之间的关系。几种解决方案[6, 20, 22, 38, 40,44]将代理视为图节点，其特征由其隐藏状态表示。这种解决方案使得可以使用消息传递机制，并且可以使用强大的图神经网络（GNNs）如图注意力网络[43]在每个节点上聚合信息。Zhang等人[52]同样将行人空间视为完全连接的图，但设计了一个定制的消息传递解决方案，该解决方案集成了一个运动门，以根据行人的移动执行特征选择。最后，Yu等人[48]仅依赖于注意力机制来预测未来位置，利用了基于Transformer架构的最新进展[42]。0知识蒸馏。知识蒸馏首先被研究作为模型压缩的一种方法[10,18]：一个小模型（学生）必须模仿一个过参数化模型（教师）。结果是，学生具有较小的内存占用，而整体性能下降不大。[31]旨在减少学生和教师的特征图；[18]建议在最终分类层之前匹配软目标；[50]匹配注意力区域的特征。0知识蒸馏的行为。知识蒸馏首先被研究作为模型压缩的一种方法[10,18]：一个小模型（学生）必须模仿一个过参数化模型（教师）。结果是，学生具有较小的内存占用，而整体性能下降不大。[31]旨在减少学生和教师的特征图；[18]建议在最终分类层之前匹配软目标；[50]匹配注意力区域的特征。0在这项工作中，我们以不同的方式使用知识蒸馏。受到[13,51]的启发，我们的目标不是压缩模型，而是提高其性能。这个过程通常被称为自我蒸馏，因为学生网络与其教师具有相同的架构。与[7,29]类似，我们的方法建立了不对称的网络：鼓励学生通过遵循教师的指导来弥补其知识差距，最终提升其性能。这是在轨迹预测的特定背景下完成的，并且我们证明了即使模型只有很少的观测数据，知识蒸馏也可以导致有效的预测。03. 模型0轨迹预测通常被定义为一个时间序列预测问题[32]。这个任务特别具有挑战性，因为：i）人类运动本质上是多模态的，ii）代理同时与彼此和静态场景元素进行交互。0为了满足这两点，我们设计了一种新颖的方法，模拟代理之间发生的时间和空间关系。具体而言，本节描述了我们如何扩展原始的Transformer[42]架构来处理轨迹预测。03.1. 用于轨迹预测的基本变压器0为了处理序列到序列的任务，变压器遵循已经建立的编码器-解码器范式。输入序列不再依赖于内部的循环层，而是通过纯粹的注意机制整体处理。自注意力旨在发现序列中每对元素之间的关系：这减少了遗忘过去信息的风险，并允许网络学习长程依赖关系[42]。0从技术角度来看，每个嵌入e_t（从时间步t=1到t=T）被线性投影为三个向量：查询q_t，键k_t和值v_t。然后，变压器利用查询和键之间的点积来计算注意力系数（缩放的点积注意力），后者用于加权相应的值并提供最终输出。这个操作在不同位置的Q、K和V的多个表示上执行h次（头部），以便从多个表示中获取信息。4. Distilling the Observations (DTO)Our goal is to set up a model capable of accurately pre-dicting future positions when only a few observations areavailable: this way, we can address the inference-time short-comings outlined in Sec. 1. More specifically, we devise atwo-fold approach (depicted in Fig. 2):• firstly (Sec. 4.1), we train a teacher network to estimatetrajectories given 8-length observation sequences;• secondly (Sec. 4.2), we freeze its parameters and at-tempt to transfer its predictive capability to a studentnetwork. Importantly, the latter is forced to operatewith an information gap, i.e., using only a small frac-tion of available inputs (e.g., two last observations).4.1. Teacher trainingTo train our teacher network, we follow the standard pro-tocol and consider 8 observation time steps and 12 predic-tion time steps. The network is trained by teacher forcing,i.e., when predicting the next time step, the decoder is con-ditioned on past ground-truth samples rather than its ownpredictions. We mark the beginning of the prediction se-quence with a start token and mask the information relatedto the future time steps. Mean Squared Error (MSE) be-tween predictions and ground-truth positions is used as lossfunction while training our teacher network:LGT = 1PP −1�p=0��xp,[:] − ˆxp,[:]��2 ,(1)where P is the number of pedestrians and xp,[:] (ˆxp,[:]) rep-resents the sequence of ground-truth (predicted) positionsof a pedestrian p at time t.By contrast, the inference procedure resembles an auto-regressive model. The decoder forecasts the first future po-sition using the last hidden state of the encoder stack and aninput sequence initially composed only by the start token.At each step, the predicted position ˆxt is concatenated to thecurrent input sequence: this partial sequence is fed again tothe decoder to predict the next position ˆxt+1.4.2. Student trainingTo preserve teacher’s predictive capabilities given onlyfew observations, our training strategy relies on transferringthe knowledge lying in the entire input sequence: to achievethis, we act on both encoder and decoder stacks.Encoder distillation. Firstly, we force the student encoderto mimic the behaviour of its teacher’s counterpart. Giventhe information gap between the two networks, the higherthe transfer occurring at this level, the higher the capabil-ity of the encoder to infer the missing information from the(few) spatio-temporal interactions it observes. Technically,65550时间注意力0空间注意力0时间注意力0加和归一化0加和归一化0前馈0加和归一化0空间注意力0编码器0P0P0P0P0P0图1.我们的时空注意力模块。一个时间编码器利用输入序列连续时间步之间的时间关系，而一个空间编码器收集在固定时间步长上发生的代理之间的人-人交互。03.2. 时空变压器（STT）0与[42]类似，我们的提议首先使用缩放的点积注意力模块在时间轴上进行注意力。这样，它能够恢复不同时间步之间的时间依赖性，并捕捉被监测代理的特征运动模式。然而，这个基本的序列到序列模型并没有明确考虑高级时空结构，即没有考虑交互。因此，我们的时间注意力的输出被馈送到第二个自注意力模块，该模块在空间轴上起作用。在时间注意力中，查询、键和值分别指代特定代理的不同时间步，而在这里Q、K和V指代所有代理在固定时间步的嵌入。这样，每个代理还可以关注其邻居的信息，恢复有用的空间信息。图1显示了我们编码器架构的可视化表示（解码器同样适用）。0与先前的工作关系。虽然[14]中讨论的方法是通过一个变压器网络分别处理每个行人（因此仅处理时间信息），但我们的自注意机制还考虑了行人之间的空间交互作用。这与[48]的作者设计的类似，他们使用一个保留先前预测表示的辅助内存来装备一个时空变压器。然而，我们的方法在解码器的设计上有明显的不同：[48]采用了一个全连接层，而我们则保持与原始变压器[42]相似，并将编码器镜像到解码器中。TEACHER ENCODERAdd & NormAdd & NormSpatialAttentionAdd & NormTemporalAttentionAdd & NormAdd & NormMulti-HeadAttentionAdd & NormTemporalAttentionSpatialAttentionAdd & NormTEACHER OBSERVATIONTEACHER DECODERSTUDENTENCODERAdd & NormAdd & NormMulti-HeadAttentionAdd & NormTemporalAttentiondonSpatialAttentionAdd & NormSTUDENT DECODERSTUDENT OBSERVATIONFeed ForwardFeed ForwardFeed ForwardT = 2HIDDENSTATEST = 8DSpatialAttentionAtAdd & NormTemporalAttentionAdd & NormAdd & NormAteedFeed ForwardTEACHER PREDICTIONSGROUND TRUTH�DDSTUDENT PREDICTIONS�GT�EDAdd & NormAdd & NormMulti-HeadAttentionAdd & NormTemporalAttentiondonSpatialAttentionAdd & NormFeed ForwawardSpatialAttentionAtAdd & NormTemporalAttentionAdd & NormAdd & NormAtFeed ForwardFigure 2. A comprehensive picture of our framework, termed Distilling the Observations (DTO), which provides a training strategy forobtaining accurate trajectory predictions when only few observations are available.we focus on the final hidden representations produced bythe encoder stack (i.e., the outputs of the fully connectedlayer) and match those corresponding to the common timesteps using the following loss:LED = 1PP −1�p=0��hTp,[T −K:T ] − hSp,[0:K]��2,(2)65560其中hT:,:是教师编码器的激活，hS:,:是学生编码器的激活，T和K分别是我们向教师和学生输入的观测次数。0解码器蒸馏。同时，我们专注于匹配教师和学生解码器所涵盖的函数空间。我们通过两个术语来实现我们的目标：一方面，我们匹配在给出最终预测的全连接层之前的激活，即ˆxp,t = FC(oTp,)。另一方面，如[46]所提出的，我们利用最后一个解码器层的自注意力系数ATp,[:]作为额外的学习指导。相应的目标函数定义如下：0LDD = 10P0P^-10p = 00||oTp,[:] - oSp,[:]||^2 + ||ATp,[:] -ASp,[:]||^2. (3)0总目标。最后，学生目标由预测损失和蒸馏损失的加权和组成，其中考虑了地面真实位置：0L = αLGT + βLED + γLDD, (4)0其中α，β和γ是平衡每个术语贡献的三个超参数。05. 实验0指标。我们在比较中考虑了两个标准的误差指标：平均位移误差（ADE）和最终位移误差（FDE）[27]。ADE表示所有预测时间步长与地面真实时间步长之间的平均欧氏距离，而FDE仅表示最终位置的误差。05.1. 数据集0ETH/UCY。如通常所做[1,15]，我们将ETH[27]（ETH和Hotel）的两个场景和UCY[23]（Univ，Zara-1，Zara-2）的三个场景拼接在一起。得到的数据集包含1500多个行人，在室外场景中采用线性和非线性路径。我们遵循常见的留一场景协议，在4个场景上进行训练，测试剩下的一个场景。斯坦福无人机数据集（SDD）。[30]是由无人机监控拥挤的大学校园场景收集的大规模数据集。它包含多个交互代理（例如行人，骑自行车的人，汽车）并由Lyft自主车队的摄像机和激光雷达传感器记录，包含各种城市场景（例如交叉口和公园），人们表现出复杂的动态。我们将SDD World PlaneHuman-Human数据集[33]分为训练（70%），验证（10%）和测试（20%）集。Lyft预测数据集。[19]是交通代理运动数据的最大收集之一。它包括Lyft自主车队的摄像机和激光雷达传感器记录的汽车，行人和其他交通代理的轨迹。我们将该数据集的缩小版本（1000个代理）分为训练（70%），验证（10%）和测试（20%）集。65570ETH酒店Univ Zara-1 Zara-2 AVG0CVM [36] 1.07 / 2.28 0.32 / 0.61 0.52 / 1.17 0.43 / 0.95 0.32 / 0.72 0.53 / 1.15 ST-GAT 1V-1 [20]0.69 / 1.36 0.44 / 0.90 0.58 / 1.23 0.47 / 1.02 0.40 / 0.86 0.52 / 1.07 Ind-TF [14] 0.60 / 1.25 0.27 /0.50 0.64 / 1.23 0.57 / 1.09 0.42 / 0.81 0.50 / 0.96 SR-LSTM [52] 0.63 / 1.25 0.37 / 0.73 0.51 /1.10 0.41 / 0.90 0.32 / 0.70 0.45 / 0.94 STAR [48] 0.56 / 1.11 0.26 / 0.50 0.52 / 1.13 0.40 / 0.890.31 / 0.71 0.41 / 0.870STT（8个观测）0.54 / 1.10 0.24 / 0.46 0.57 / 1.15 0.45 / 0.94 0.36 / 0.77 0.43 / 0.88STT（2个观测）0.72 / 1.45 0.48 / 0.48 0.53 / 1.09 0.64 / 1.21 0.44 / 0.88 0.57 / 1.12 STT +DTO（2个观测）0.62 / 1.22 0.29 / 0.56 0.58 / 1.14 0.45 / 0.98 0.34 / 0.74 0.46 / 0.930表1. ETH/UCY的比较（以ADE/FDE为单位）。我们的教师网络（STT）根据标准协议训练，结果与竞争对手相当，而我们的学生网络（STT+ DTO）尽管存在知识差距，但表现相似。05.2. 与最先进方法的比较0由于我们的方法是确定性的（即给出单个未来样本），我们不考虑随机方法[15, 22,34]，而是将我们的模型与以下最先进的确定性解决方案进行比较：0• 恒速模型（CVM）[36]:一种简单但有效的基线方法，仅考虑最近的两个时间步长来估计未来位置；0• ST-GAT [20]:基于图注意力网络，使用LSTM来建模时间相关性。我们考虑1V-1版本，即没有多样性损失，每个输入对应一个0• Ind-TF [14]: 没有明确的交互建模的基本变压器网络；0• SR-LSTM [52]:基于LSTM的网络，通过邻域信息改进细胞的隐藏状态；0• STAR [48]:基于变压器网络的编码器-解码器架构，用于建模时间信息和空间交互。我们考虑其去除高斯噪声后的确定性版本。0表1和表2报告了我们的结果：按照常规协议进行训练（8个观测-12个预测），我们的教师网络（STT -8个观测）的性能与最先进的方法相当。值得注意的是，学生网络（STT + DTO -2个观测，表1和表2的最后一行）显示出了显著的结果：它在所有数据集上接近教师，表明最后两个观测是输入轨迹的信息摘要。值得注意的是，仅使用两个观测的平凡策略无法达到我们方法的准确性：无论是CVM还是从短序列开始训练（STT -2个观测），都会产生更高的误差。相反，我们的训练过程成功地弥合了推理时模拟的巨大信息差距。值得注意的是，输入两个观测不一定会生成直线输出：在这种情况下，我们的方法将取得与Ind-TF [14]相一致的结果。0SDD Lyft0Ind-TF [14] 0.74/1.46 0.31/0.62 CVM [36]0.69/1.39 0.29/0.61 SR-LSTM [52] 0.72/1.470.20/0.430STT（8个观测）0.63/1.26 0.24/0.53STT（2个观测）0.73/1.44 0.31/0.56 STT +DTO（2个观测）0.64/1.27 0.27/0.550表2. SDD和Lyft上的ADE/FDE结果。0采样策略ADE/FDE0VRNN-1一个样本0.73/1.49 VRNN-20 argminKL(q∥p) 0.75/1.51 VRNN-20 argmin MSE(∙,GT) 0.58/1.170STT（我们的方法）一个样本0.63/1.260表3. 我们的方法与V-RNN [11]的比较。0与恒速模型（CVM）的结果不同（CVM通过设计预测直线）。相反，我们的结果表明并非如此：即使仅观察两个观测，我们的方法也考虑了行人之间的空间关系。我们的方法在空间交互方面的优越性进一步得到证实，相对于独立处理每个轨迹的Ind-TF方法，我们的方法在性能上更好。在这方面，我们认为处理空间交互与我们的蒸馏技术相互作用良好，弥合了使用8个样本输入轨迹（Ind-TF）和仅使用2个样本（STT -2个观测）之间的差距：教师可以引导学生形成新的鲁棒表示（例如更好地理解局部邻域内的空间交互）。最后，为了支持我们只考虑确定性方法的选择，我们根据其他不需要推理时的真值注释的标准对多个轨迹进行排名（例如，对于V-RNN模型，近似后验和真值之间的聚合KL散度）。0.0000.0250.0500.0750.1000.1250.1500.1750100200300400500track_len=8track_len=2 t=0 t=1 t=2 t=3 t=4 t=5 t=6 t=7 0.00.20.40.60.80.0000.0250.0500.0750.1000.1250.1500.1750track_len=8track_len=2 t=0 t=1 t=2 t=3 t=4 t=5 t=6 t=7 65580场景真值跟踪轨迹0STT（8个观测）DTO（2个观测）STT（8个观测）STT（2个观测）CVM（2个观测）DTO（2个观测）0书店0.48 / 0.97 0.49 / 0.95 0.58 / 1.08 0.54 / 1.01 0.55 / 1.02 0.53 / 0.99 nexus 0.64 / 1.26 0.72 / 1.391.38 / 2.10 1.33 / 2.07 1.38 / 2.15 1.29 / 2.03 deathCircle 0.76 / 1.55 0.85 / 1.74 0.99 / 1.83 0.97 /1.83 0.99 / 1.86 0.94 / 1.82 gates 0.75 / 1.63 0.82 / 1.72 1.20 / 2.15 1.00 / 1.94 1.10 / 1.97 0.94 /1.84 hyang 0.37 / 0.80 0.38 / 0.78 0.39 / 0.82 0.48 / 0.95 0.41 / 0.85 0.46 / 0.89 coupa 0.20 / 0.400.20 / 0.38 0.28 / 0.49 0.21 / 0.41 0.26 / 0.44 0.20 / 0.380整体0.55 / 1.12 0.60 / 1.19 0.84 / 1.46 0.80 / 1.40 0.84 / 1.40 0.77 / 1.370表4. 在SDD的场景中，教师模型（STT）和学生模型（STT + DTO）在地面真值和跟踪轨迹上的比较（ADE / FDE）。0条件先验）。在这方面，表3提出了我们的提议与具有不同采样策略的V-RNN模型之间的比较：值得注意的是，只有基于地面真值轨迹的（不可行的）准则相对于DTO具有更高的准确性。05.3. 迈向“野外”评估：一个位于中间的跟踪器0正如第1节所述，在线场景无法依赖人工干预来纠正检测和重新识别错误。基于这一动机，我们主张在估计未来轨迹时使用较短的时间跨度（2个时间步长代替常见的8个时间步长），因为跟踪器仍然可以为如此短的片段提供可靠的预测。为了阐明这一点，我们在斯坦福无人机数据集上进行了实验：更具体地说，我们关注输入轨迹，并用DeepSORT的[47]输出替换了与地面真值的关联，DeepSORT是一种利用深度度量来建模外观的检测跟踪算法。对于每个场景，我们提取所有包含在观测历史中的检测，然后在这些检测上运行此跟踪器，并选择与地面真值最相似的轨迹作为我们的新观测序列。为了简化分析，我们将分析范围限制在至少成功跟踪8个时间步长的示例上（因此，我们排除了发生身份切换的情况）。在这种设置下，我们评估了教师模型（即，使用8个时间步长的轨迹输入的STT）和学生网络（即，使用2个时间步长的轨迹输入的DTO训练的STT）的性能。如表4所示，虽然DTO在理想情况下（即使用地面真值观测）并不具有优势，但切换到完全自动推理（即使用跟踪轨迹）则情况不同：在几乎所有SDD场景中，我们通过DTO训练的模型相对于教师模型的性能下降较小。其性能下降主要是由于在长序列上累积的错误导致的：如图3a所示，跟踪器的错误0轨迹数量0注意力系数值0平均位移误差0轨迹数量0跟踪观测的错误分布0编码时间步0注意力系数值0注意力分布0在过去的观测上0图3. a）地面真实轨迹和DeepSORT提供的估计轨迹之间的位移误差的直方图；b）解码器分配给每个编码器状态的注意力系数的分布。0（以ADE表示地面真实轨迹和重新跟踪输入轨迹之间的误差）在较长的轨迹上分布较高的值。相反，当将模型限制在仅几个观测中时，平均关联误差往往较低，从而对下游预测模型的影响较小。此外，表4对比了仅使用2个观测的DTO和两个基线模型：从头开始使用2个观测进行训练的STT和恒定速度模型（CVM）。如报告所示，在完全自动化的情况下，DTO的有效性不仅仅是由于使用了少量时间步，更有趣的是，还源于我们的知识蒸馏范式的利用。05.4. 为什么蒸馏观测有效0上述结果表明，仅通过最近的观测往往可以恢复有关未来位置的信息。Sch¨oller等人[36]也对此进行了研究，他们报告预测方法仅保留部分输入数据。此外，Becker等人[5]表明最新时间步的贡献为80.3％，而次新时间步的贡献仅为8.3％。23780.501.252.002.750.00.20.81.00.00.20.40.60.81.065590数据集训练观测=2 观测=3 观测=4 观测=5 观测=6 观测=7 观测=80ETHUCY0从头开始 0.56 / 1.12 0.51 / 1.08 0.48 / 1.01 0.47 / 0.90 0.46 / 0.96 0.45 / 0.95 0.43 / 0.880可变观测 0.64 / 1.33 0.63 / 1.31 0.61 / 1.28 0.62 / 1.28 0.62 / 1.29 0.63 / 1.31 0.64 / 1.31 过去生成 0.50 /1.06 0.47 / 1.01 0.46 / 0.98 0.46 / 0.96 0.45 / 0.95 0.45 / 0.91 - DTO 0.46 / 0.93 0.44 / 0.91 0.43 / 0.880.43 / 0.88 0.43 / 0.88 0.43 / 0.88 0.43 / 0.910Lyft0从头开始 0.31 / 0.56 0.30 / 0.60 0.28 / 0.58 0.27 / 0.57 0.26 / 0.60 0.26 / 0.58 0.24 / 0.530可变观测 0.43 / 0.83 0.41 / 0.76 0.41 / 0.72 0.36 / 0.67 0.36 / 0.67 0.43 / 0.73 0.57 / 0.87 过去生成 0.36 /0.67 0.35 / 0.72 0.36 / 0.81 0.36 / 0.73 0.32 / 0.70 0.28 / 0.64 - DTO 0.27 / 0.55 0.26 / 0.52 0.25 / 0.520.24 / 0.54 0.25 / 0.54 0.24 / 0.55 0.25 / 0.550表5.不同训练策略之间的比较（ADE/FDE）；所有方法在相同的时间步数上进行训练和测试，报告在标题中。最佳结果以粗体显示。蒸馏教师以斜体下划线表示。0为了验证这种行为是否也影响了我们的时空转换器，图3b报告了编码器-解码器自注意力中系数的分析，即表示每个编码器状态对未来位置解码的贡献的系数。与[36]类似，我们观察到，虽然较早的步骤会产生（尽管很小的）影响，但后续状态提供了更高的贡献。在这方面，我们推测DTO的鲁棒性在于模型如何处理早期信息：在训练时，初始时间步骤并没有被彻底丢弃（与在较少的步骤上从头开始训练时会发生的情况相反），而是学生学会了摒弃它们的有限信息内容。05.5. 关于“长度偏移”问题0我们还认为，利用更长的序列过度地将模型绑定到训练时考虑的数据量。为了证明我们的直觉，我们研究了在评估时改变输入时间步数时模型的行为：如图4所示，减少过去观测的数量会导致性能突然且巨大地下降，即使是小的变化，如删除一个时间步。这种行为-我们称之为“长度偏移问题”-是不同拆分（8-12、7-12等）和架构之间的共同特征。这个问题可能会减少这些模型在有限或部分注释可用时的适用性。因此，在接下来的内容中，我们探索了几种试图减轻这个问题的策略：其中，DTO是最有希望的范式。0解决长度转移问题。处理这个问题的朴素方法是直接使用较少的时间步长（即，推断时预期的观测数量）训练预测模型。然而，如第5.2节和表5所述，这种选择不允许模型提取有价值的运动模式。为此，01补充材料还报告了对V-RNN和SR-LSTM的评估0STT0#训练步骤=4#训练步骤=50#训练步骤=6#训练步骤=70#训练步骤=80#评估步骤0平位0误差（ADE）0图4.在评估过程中观测数量变化时的性能（ETH）。最佳性能总是在训练和测试条件匹配时出现。0我们探索了第二种策略，使用可变数量的观测（从2到8个时间步长）训练我们的STT的单个实例。如表5（可变观测）所示，这种策略没有带来好处：我们推测模型学习了一组平均的运动特征，从而得出对时间步长变化不敏感的预测；然而，它远未提取出对每个特定输入长度最优的特征集。第三种方法（过去生成）依赖于辅助网络来填充输入序列，生成一组生成的观测：即，当观测数量小于训练时使用的数量时，我们使用一个次要模型来预测输入轨迹的缺失部分，然后将其与可用位置连接并输入到主要预测模型中。这代表了一个进步，但仍然提供了不令人满意的结果：我们推测这种方法的主要局限性与辅助模块注入的噪声量有关，然后传播到生成未来位置的模型。最后，我们发现我们的蒸馏策略中固有的监督是特别有益的。虽然学生可以从少量观测中收集新的运动模式，但是GT. PRED.TCH. PRED.STUD. PRED.TCH. OBS.STUD. OBS.GT. PRED.TCH. PRED.STUD. PRED.TCH. OBS.STUD. OBS.GT. PRED.TCH. PRED.STUD. PRED.TCH. OBS.STUD. OBS.GT. PRED.TCH. PRED.STUD. PRED.TCH. OBS.STUD. OBS.8865600（a）deathCircle 00（b）bookstore 00（c）deathCircle 00（d）deathCircle 10图5.我们的教师和其2-obs蒸馏学生生成的预测轨迹的定性比较（在斯坦福无人机数据集上）。在（a）和（b）中，我们的学生生成更真实的样本，而在（c）和（d）中，由于更复杂的动力学，少量观测不足以预测接近地面真实轨迹的位置。0如果从头开始训练，它还会继承教师激活中的更广泛知识。这种策略可以显著提高性能，超过其他解决方案并达到教师的结果（8-12）。05.6.关于“领域转移”问题-知识传递0关于学生的泛化能力，我们在这里讨论它对领域转移的更高鲁棒性（即，在训练集和测试集之间的基础数据分布发生变化）。我们期望仅利用少量观测限制对特定数据集统计的过

下载后可阅读完整内容，剩余1页未读，立即下载