无遗憾学习：基于深度生成模型的离散-连续行为预测和学习

52 浏览量更新于2023-10-25 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

173基于无遗憾学习关佳琪1，2，叶远1，Kris M.Kitani1，and Nicholas Rhinehart1，31卡内基梅隆大学2伊利诺伊大学厄巴纳香槟分校3加州大学伯克利分校{jiaqig，yyuan2，kkitani}@ cs.cmu.edu，nrhinehart@berkeley.edu摘要过去的图像：点云：自动推理人类未来的行为是一个困难的问题，但有显着的实际应用，辅助系统。这种困难的部分原因是学习系统不能代表所有类型的学习者。一些行为，如运动，最好用连续表示来描述，而另一些行为，如拿起杯子，最好用离散表示来描述。此外，人类的行为通常是不固定的：人们可以改变他们的习惯和惯例。这表明这些系统必须能够不断学习和适应在这项工作中，我们开发了一个有效的深度生成模型来联合预测一个人在一个大规模的以自我为中心的数据集EPIC-KITCHENS上，我们观察到我们的方法生成了高质量和多样化的样本，同时表现出比相关生成模型更好的泛化能力。最后，我们提出了一个变体，可以从流数据中不断学习我们的模型，观察其实际有效性，并从理论上证明其学习效率。1. 介绍智能系统与人类安全交互的关键要求是能够预测合理的人类行为。此外，他们必须能够适应随着时间的推移行为的变化。然而，预测一个人这使得为人类行为选择统一的表示具有挑战性。有些行为最好建模为连续表示，例如，一个人其他行为则更简洁地离散表示，例如与对象交互。我们的目标是开发一个有效的预测模型，联合离散-连续主要在关嘉琪和尼古拉斯·莱因哈特在CMU时完成的工作。JiaqiGuanjiaqi@illinois.edu图1. 生成混合活动预测。我们的模型以过去的轨迹和图像为背景，生成可能的未来轨迹和动作。用ORB-SLAM方法恢复了点云数据直方图显示了前5个动作类的可能性。空间，它从自我中心的视频中获取丰富的感官信息作为输入，以预测一个人对于基于未来人类行为的预测模型的许多应用，重要的是模型能够表征其预测的不确定性。生成模型可以自然地表示不确定性，并且也非常适合于对人类行为的混合表示进行建模。因此，我们提出了一个生成模型，它可以代表离散和连续变量的联合分布与一些流行的生成模型（例如GAN [12]和变分自编码器[21]）不同，我们的方法可以计算精确的似然性，这使得精确评估模型对未来行为的预测成为可能它是被称为可逆生成模型的方法家族的一部分[5，13，20]。我们通过应用Gumbel-Softmax技巧[29]学习离散动作的生成模型，并将该模型置于由可逆生成轨迹模型[36]产生的连续样本我们展示了如何有效地联合学习这两个模型。在大规模自我中心数据集EPIC-KITCHENS [4]上的结果证明了我们的模型在关节轨迹方面的优势-今后可能采取的行水板凳时间轴门冰箱炉子174行为预测优于其他生成模型和判别模型。为了使我们的模型能够从流数据中进行最佳学习，我们采用了在线学习理论[43]。特别是，我们应用修改后的目标微调模型的参数的一个子集，使用无遗憾的在线学习算法。我们从理论上证明了我们的方法的有效性，并观察到其在线性能符合这些理论预期。我们的方法的示例预测如1所示。我们提出以下贡献：1. 生成混合表示：我们提出了一种生成的方法，以自我为中心的预测，联合模型的轨迹和动作分布。我们在EPIC-KITCHENS数据集上的实验表明，我们的方法优于判别基线和生成基线。2. 准确的学习和评估：我们的模型可以精确地计算概率密度函数（PDF），并且还可以优化基于模型样本的度量（例如，反向交叉熵），这使得人们的未来轨迹和行动的学习和推断3. 理论上合理的无悔在线微调：我们扩展了我们的模型，通过一个简单而有效的微调过程在线学习。我们证明了它在理论上是有效的，这使得模型能够从连续到达的数据中学习，并且平均后悔将随着时间的推移而接近于零。2. 相关工作我们提出了一个生成模型，共同预测未来的轨迹和行动下的第一人称视觉设置。我们首先讨论与数据域、任务和模型相关的工作。第一人称视角：随着可穿戴相机在我们的日常生活中变得越来越容易使用，越来越多的工作是使用它们来理解人类行为[7，26，42，27，32，51]。以第一人称编码的丰富视觉信息视频也可以用来预测受试者轨迹预测：第三人称轨迹预测最近受到了极大的研究关注。 [25]中的方法预测了宽-监控录像的接收器大量的工作也使用监控视频来预测未来的行人轨迹[49，28，2，22]。确定性弹道建模已用于车辆[17]和行人[1，37，50]轨迹预测。由于未来轨迹的不确定性有几种方法试图预测在不同地区的分布[24，9]。 [36]提出了一种生成式的建模车辆轨迹相对少量的工作研究了第一人称视频的轨迹预测[44]通过构建EgoRetinal地图来预测相机佩戴者的未来轨迹这些方法在批处理学习设置中采用连续表示，而我们的模型在批处理和在线学习设置中同时使用行动预测：基于分类的方法[16，23，41，40]在行动预测中很受欢迎。许多活动最好用类别来表示。[10]提出了一种编码器-解码器LSTM模型来预测未来的动作。其他工作也试图预测更广义的动作，如凝视[55]，用户-对象交互[8]以及手和对象的位置[6]。在[35]中，在线逆强化学习（IRL）被用来对一个人的目标和未来轨迹进行建模。IRL还被应用于预测机器人[33]、出租车[57]和步行者[22]的行为。一些工作研究了未来行为的非歧视性建模[45]设计了一个深度多模态回归器，允许多个未来预测。[6]使用变分自动编码器（VAE）来模拟未来可能动作的分布。虽然先前的活动预测方法只考虑行动，但我们的方法联合考虑行动和轨迹。生成模型：深度生成模型，例如[12，21]，是一种强大的无监督建模方法。为了能够有效地学习分类[29]提出了Gumbel-Softmax技巧来通过这些分布反向传播梯度。已经有工作使用生成模型来解决轨迹[24，9，36，52，48，54]和动作预测[6，45]中的不确定性。与以前的方法不同，我们的方法联合生成未来的轨迹和动作。在线学习：在线学习领域研究如何有效地从流数据中学习[43]，但这些方法很少用于计算机视觉问题。在[35]中，使用视觉数据执行在线逆强化学习。相比之下，我们的方法是基于模仿学习，没有奖励建模。在[39，38]中，交互式模仿学习被框定为在线学习问题。我们的方法，虽然是一种模仿学习的形式，但不是互动的。它观察专家行为（人类行为），并做出人类不与之交互的预测。3. 生成式混合活动预测3.1. 问题公式化我们的目标是模拟真实的联合分布p（x，a|一个人在3D中的未来轨迹x∈RT×3和来自自我中心视频的动作a∈{0，1}T×Ca×2，具有学习的联合分布q（x，a|φ），其中φ是上下文信息。175$t=$t % +at %·）t）~5图像位置（t+K+1轨迹模拟器23未来可能的发展轨迹图像...特征今后可能采取的行动取杯洗杯...1s空水洗涤匙...2s......CNN<=softmax（（logF+9）...动作模拟器19~：时间轴图例说明：线性层在线学习的线性层conv层||||||||n=1|--|满贯图2. 我们提出的模型。ORB-SLAM [30]用于从视频中提取位置。轨迹模拟器fπ从高斯分布中获取过去的位置和噪声序列，以生成未来的轨迹。动作模拟器hκ采用过去的图像和位置以及来自Gumbel分布的噪声序列来产生未来的动作。其中，T是预测范围，Ca是动作类的数量（每个类使用独热编码用2个值建模上下文信息φ包括过去的以地球为中心的视频帧V-P：0和位置x-P：0，其中P是观察范围。由于x和a使用不同的表示（连续与样品的多样性和质量。我们使用β来控制多样性和精度之间的权衡。利用因子分解q（x，a φ）=qπ（x φ）qκ（ax，φ），前向和反向交叉熵可以重写为H（p，q）= −Ex<$plog qπ（x|φ）−E（x，a）plog qκ（a|x，φ），`x`x离散），我们进一步分解联合分布，H（p，qπ）H（p，qκ）在X上分配A，即q（x，a φ）=q（x φ）q（ax，φ）.通过发散最小化H（q，p<$）=−Ex<$qπlogp<$（x|φ）−Ex<$qπ，a<$qκlogp<$（a|x，φ）。`x` x类似于模仿学习[11，19]。我们使用一步策略π来生成轨迹x，使用κ来生成ac。H（qπ，pπ）H（qκ，pκ）（二）并且来自qπ（x φ）和qκ（ax，φ）的样本可以是通过从π和κ重复采样T次获得。这些政策参数化每个生成模型。我们的训练数据是一组表示为（x，a，φ）nN的事件，这些事件是来自以下（未知）数据分布的样本：人的行为p（x，a|φ）。我们使用这些数据来训练策略π和κ，从而学习q（x，a|φ）。3.2. 互补交叉熵损失预测模型的一个期望特征是生成多样化和精确的预测。在[36]之后，我们构造了一个互补的交叉熵损失来训练我们的概率动作分布q（x，a|φ）：L=E（x，a）p−logq（x，a|φ）+βE（x，a）<$q−logp<$（x，a|Φ），这种分解解开了轨迹和动作的交叉熵，使我们能够分别学习策略π和κ。H（p，q）的优化要求我们计算q，而H （q，p≠ q）的优化要求我们从q中采样。与GANs [12]（无似然学习）和VAE [21]（优化证据下限）不同，我们提出了一种可逆生成模型，它使我们能够计算q（x，a φ）的似然性并从q（x，a φ）生成样本。模型细节将在第3.3、3.4和3.5节中说明。3.3. 轨迹交叉熵我们通过构造一个可微的可逆函数fπ（z;φ）来使用一个可逆的轨迹生成模型：`x` xH（p，q）H（q，p∈）（一）RT×3→RT×3。此函数映射噪声序列z=[z1，. - 是的- 是的，z T]从高斯分布N（0，I3×3）其中p是数据分布p的近似值，我们将在3.6节中详细讨论它。β是加权因子。前向交叉熵项H（p，q）促使分布q覆盖p的所有模式，从而增加样本分布。反向交叉项H（q，p）惩罚远离数据分布p的样本，以提高样本质量。两者的共同使用促进了并且将场景上下文φ映射到轨迹x =[x1，. - 是的- 是的，X T]。fπ通过θ参数化的每步策略π来实现。在每个时间步t，π接受每步上下文<$t，包含过去的位置x t−P：t−1，并输出均值µ t和可逆协方差矩阵σ t，并用噪声zt模拟当前位置x t：x t，µ t（<$t; θ）+ σ t（<$t; θ）z........................176t。由于σt是可逆的，π定义了zt和177n=1ππππN→联系我们←−G不∈{}∈{}f−1（x;φ）|detJff−1（x;φ）πx t，f π定义了x和z之间的双射。算法1离线生成混合活动预测qπ则由变量变化公式得出，多变量积分[34，5，13，20]：需要：训练数据集{（x，a，φ）n}N;批量B;q π（x|φ）= N.Σ。Σπ|−1,(3)轨迹模拟器fπ;动作模拟器hκ1：用参数θ随机初始化fπ和hκ其中Jfπ（f−1（x;φ））是fπ的雅可比矩阵，2：重复3：对于每个小批量示例（x，a，φ），fπ（x;φ）。因此，可以重写前向交叉熵i：i+B作为H（p，qπ）=−Exp 日志N. f−1（x;φ）. πΣ|detJff−1(x;φ)|.（四）4：用等式计算H（p，q π）（四）（六）5：采样zN;生成轨迹x=fπ（z;φ）6：用等式计算H（qπ，pπ）（五）重新参数化也大大简化了H（qπ，pπ）w的微分。r. t.polic yπ. 代替从qπ采样，我们可以从q π采样并将反向交叉熵重写为等式：（五）、z是产生不同样本的不确定性来源。H（qπ，pπ）=−Ez<$Nlogp<$（fπ（z;φ）|φ）。（五）3.4. 作用交叉熵对于动作预测，在每个步骤t，每个单个动作类c被表示为t，c0，12，其是指示该动作是否发生（[0，1]）或不发生（[1，0]）的独热向量。由于动作是离散变量，我们使用Gumbel-Softmax分布[18]来重新参数化动作。我们构造了一个模拟器hκ（g;φ）：RT×Ca×2T×Ca×27：采样gG;生成动作a=hκ（g;φ）8：用等式计算H（qκ，pκ）（七）9：通过优化等式更新θ（一）10：结束十一：直到θ收敛12：返回θ为θ算法2在线生成混合活动预测要求：轨迹模拟器fπ;动作模拟器hκ;预训练权重θκ1：初始化fπ，hκ，θκ2：固定除末端线性层θ0以外的3：对于每个新示例，4：[x，y，z]slam.track（）5：用等式计算H（p，q）（四）（六）{0，1}，其映射采样的6：采样zN;生成轨迹x=fπ（z;φ）Gumbel分布（0，1）到动作a。噪声序列g作为Gumbel-Softmax重新建模（Gumbel-Max的连续可微近似）的关键部分每步动作预测上下文χ t由过去图像V−P：0和过去位置xt−P：t−1组成。步骤策略κ输出动作概率ut和χt，并模拟当前动作at和噪声gt：exp（（log（ut，c，i（χt;θ））+gt，c，i）/τ）7：用等式计算H（q，p）（八）8：通过优化等式（1）微调θ0（9）SGD第九章：端3.5. 策略建模轨迹建模。对于轨迹策略π，我们使用具有门控递归单元[3]这是一个映射到μt和St的映射。我们用矩阵at，c，i，2，e指数。[31]为了确保σt的绝对确定性：j=1exp（（log（ut，c，j（χt;θ）+gt，c，j）/τ）σ t=expm S t+S T。网络架构如图所示在那里我1、2、c1、. . .，C a和t1、. . .，T，τ是Gumbel-Softmax分布的温度。根据Gumbel-Softmax分布的概率密度函数[18]，动作前向交叉熵可以重写为H（p，qκ）=在图2中我们在补充材料中提供了更多的建筑细节。行动建模。我们的动作策略κ将上下文χ t映射到动作概率ut，并且基于具有ResNet-50 [15]骨干的Tem- poralSegment Networks [ 47 ]的思想。我们观察到的过去的图像V−P：0被分成-E（x，a）p.ΣΣ2对数τut，c，i（χt）Σ−2Y2 .ut，c，iΣ（χt），K个片段，并从每个片段中随机选择一个图像t，ci=1τt，c，ii=1τ+1t，c，i（六）片段这些图像通过ResNet索引-以获得课堂分数。另一个完全连接的对于反向交叉熵，使用Gumbel-Softmax重新参数化，它可以重写为ΣH（qκ，pκ）=−Eg<$G logp<$（at，c，i|x，φ）。一一178（七）t，c，i训练批处理模型的整个过程如算法1所示。层构建在ResNet之上，以融合这些类分数以产生部分共识，这在我们的行动预测中是一个有用的特征。与此同时，过去的轨迹xt-P：t-1也包含了关于人们可能会执行什么样的动作的有用信息。因此，我们添加了一个MLP，它将分段共识和过去轨迹作为输入来生成动作概率ut。179||·|H（qπ，p<$）adj=−Ex <$p，x<$q√3.6. 先验分布近似由于边界在T中是次线性的，在没有p的概率密度函数（这里是未来行为的密度函数）的情况下计算H（qπ，p）我们提出了一种简单的方法来估计它使用的训练数据。对于轨迹H（qπ，p），我们把pπ构造为一个单峰正态分布序列，以真实轨迹xπ为均值，i. e. ，p∈（xφ）=N（xφ;σI）. 实际上，这等同于在预测轨迹和专家轨迹之间添加均方距离惩罚。对于动作H（qκ，p），我们首先假设如果一个动作发生在时间t，那么同一动作在更接近t的时间步发生的概率更高。基于这个假设，我们也可以将在t发生的每个动作看作时间维度上的单峰正态分布。如果动作跨越几个时间步，我们取不同时间步引起的分布的最大值。从而得到了近似作用先验分布p_∞（ax，φ）.注意，这个动作先验实际上并不依赖于轨迹x，这部分是由于难以定义条件先验分布。另一方面，我们的反向交叉熵可以被看作是轨迹和动作的正则化，独立版本可以实现这一点。3.7. 在线无怨无悔学习为了将所提出的框架应用于随着时间的推移学习策略的在线场景，我们希望确保学习过程能够保证收敛到最强模型的性能我们可以通过后悔分析来评价在线学习算法的相对收敛性为了利用无悔学习的已知证明，应该确保使用的模型和损失函数是凸的。为此，我们对网络进行了预训练，并固定了非线性层的参数我们稍微调整轨迹反向交叉熵，如等式。（8）并对等式（9）中的损失函数执行在线梯度下降。（9）通过微调最后一个线性层的参数遗憾是相对于模型族计算的，我们考虑的模型族是预先训练的表示之一详细的在线学习参数化在补充材料中进行了解释。1：t−1t：Tπlogp（x|φ），（8）随着T的增长，R T /T接近于零，所以这是一个无遗憾的al-gorithm.整个在线学习过程如算法2所示。补充资料中给出了无遗憾性质的详细证明，实验结果表明了无遗憾性质的经验性4. 实验我们在EPIC- KITCHEN [4]数据集上评估我们的模型和基线。在本节中，我们首先描述数据集和相关的数据处理步骤。然后，我们介绍了我们用来比较我们的模型的基线，以及评估轨迹预测和动作预测性能的指标。在实验中，我们进行了批量和在线实验，目的是验证以下假设：（1）由于轨迹-动作联合模型使动作以位置为条件，因此额外的位置信息应该有助于实现比单独训练的模型更好的动作预测性能。(2)损失函数中轨迹和作用的反向交叉熵项应有助于提高样本质量。（3）与CVAE等没有优化精确PDF的生成方法相比，我们的模型能够评估轨迹和动作分布的精确PDF，这将有助于我们的（4）生成式模型应具有比判别式模型更高质量的样本生成能力，因为它考虑了未来行为的多模态性质，并且可以在评估过程中生成多个合理的样本，而判别式模型不能。（5）我们希望从实证的角度来证明我们的在线学习方法是有效的，没有遗憾。4.1. 数据描述我们在EPIC-KITCHENS数据集上评估了我们的方法[4]。首先，我们使用ORB-SLAM [30]从以自我为中心的视频中提取人的3D位置。对于每个视频，当姿态图稳定并且没有执行全局束调整时，我们开始收集位置。我们还通过假设每个视频中的人L在线 =H（p，qπ）+H（qπ，pπ）adj+H（p，qπ）的情况。（九）关于ORB-SLAM然后，我们提取了具有连续7秒间隔的示例。那些不连续的例子（例如当跟踪丢失时）被删除。在每个一般来说，在线搜索算法的最优搜索条件RT是不确定的。7秒的例子，我们使用过去的2秒作为上下文，TT定义为：R T=t=1l t（ θ t;θ t）−minθtt=1lt（θt;θ），其中，t是输入，t是时间步长t处的损失。非常地我们可以证明我们的前向交叉熵损失是凸的微调线性层的参数。如果我们进一步约束参数的范数<$ θ <$2 ≤B且梯度我们的在线算法是有界的[43]：R T≤BL2T。预测未来5秒内的轨迹和行动种子我们对原始数据进行下采样，位置为5 fps，图像为2 fps，动作为1 fps。因此，我们用来训练模型的上下文包含10个过去的位置和4个过去的图像。我们过滤动作，以保证每个动作至少发生50次，并删除包含少于5个示例的视频最后，我们总共使用了4455个例子，180查准率+查全率K2来自135个视频动作类122个，动词39个，名词83个。由于测试集的注释不可用，我们将原始训练视频随机分割为训练、验证和测试，比例为0.7、0.1、0.2。同时，我们确保每个动作都发生在训练集和测试集中，并且不同集中的示例来自不同的视频。我们将动词和名词分开预测，而不是成对预测，这与[4]中的设定不同。这是因为首先，动词和名词的组合会创建太多的动作类，每个类的样本很少;其次，数据集中经常同时发生多个动作，这导致了我们的多标签分类公式。4.2. 基线和指标基线我们使用的基线包括两个生成模型和一个判别模型：直接交叉熵（DCE）：生成模型，其使用高斯分布序列来对轨迹分布进行建模，并且使用以轨迹为条件的伯努利分布序列来对动作分布进行建模。条件变分自动编码器（CVAE）：基于自回归变量VAE的生成模型。我们使用Gumbel-Softmax来建模动作分布。混合回归和多标签分类（MRMC）：通过最小化轨迹的均方误差和动作的二进制交叉熵训练的判别模型。对于所有基线模型，我们遵循与我们的模型相同的网络结构来处理过去的位置和图像内容。详细信息可在补充资料中找到。我们使用以下指标来全面评估我们的方法和其他基线：前向交叉熵：对于轨迹和动作预测，我们使用它们相应的前向交叉熵H（p，q π）和H（p，q κ）来评估策略对专家行为的模仿程度。minMSD和meanMSD：对于轨迹预测，我们还包括生成模型中使用的两个常见的基于样本的度量 -minMSD 和 mean- MSD [ 24 ， 46 ， 14 ， 36 ] 。minMSD计算从K个样本到地面实况x的最小距离：minkxk−x2。因此，minMSD评估质量最好的样品。在对照组中，平均MSD评估了精确度、召回率和F-1评分：对于动作预测，由于动作空间很大，并且我们需要在每个示例中预测5秒内的动作，因此精确的匹配准确度不是好的度量。相反，我们计算基于示例的精确度和召回率为[56]。一种特殊情况是，如果在某个时间步没有地面实况动作或预测动作发生，则分母将为零。如果发生这种情况，只有当tp=fp=fn= 0时，精度和召回率才为1，其中tp，fp，fn是真阳性，假阳性和假阴性的数量，否则精度和召回率为0。为了兼顾查准率和查全率，我们还计算了F-1得分，公式为F1=2×查准率×查全率.由于动作分布以预测轨迹为条件，我们首先对12个轨迹进行采样，并且对于每个轨迹，我们对动作进行采样（对于每个动作类，如果其logit大于0.5，则动作发生），并对跨轨迹的度量进行对于判别模型，我们直接报告多标签分类结果。4.3. 批量预测结果我们的完整模型是一个联合预测模型，它使动作以轨迹为条件，并使用等式中的互补损失函数（一）. 为了测试轨迹和动作分布的联合建模是否有助于提高预测性能，我们还分别训练了轨迹预测模型和动作预测模型。我们还评估了我们的方法的一个变体，只使用前向交叉熵的行动和trajec- tory。结果总结于表1中。首先，我们可以看到，我们的联合预测模型（g）在动作预测指标（交叉熵，精度，召回率和F1分数）方面优于单独训练的模型（e），因此我们对轨迹的因子分解假设（1）成立。比较（e）（g）和（f）（d），我们可以看到使用反向交叉熵后，轨迹样本和动作样本的质量都更好，这证明了它在损失函数中的使用，也证明了我们设计的先验数据分布的有效性。假设（2）成立。此外，我们的方法在大多数指标方面优于其他生成基线（b）（c），特别是前向交叉熵。这是因为我们的方法比DCE具有更高的建模能力，并且可以评估轨迹和动作分布的精确PDF，而不是像CVAE那样优化变分下限。我们的模型在平均MSD指标和DCE方面并没有优于MRMC所有K个样本的整体质量，通过1Kk=1 x在召回度量中，但我们注意到：1。MRMC模型这两个指标的组合使用评估了生成的轨迹的质量全面。我们为每个示例采样12个轨迹。对于判别模型，我们直接将回归结果报告为minMSD和meanMSD。无法进行采样，导致平均MSD较低比其他所有的生成模型都要多2. DCE模型实际上不能生成足够好的示例，这表现为低精度和低F1分数，即使它具有高召回率; 3. 所有基线使行动条件-······181方法不轨迹预测G行动前线铸造H（p，qπ）（↓）minMSD（↓）平均MSD（↓）H（p，qκ）（↓）精密度（↑）召回（↑）F1（↑）(a)MRMC-0.3920.392-40.6432.1235.88(b)DCE-26.930.539± 0.0101.870± 0.094-40.2211.04± 3.1139.31±2.1017.24± 2.49(c)CVAE≤-129.780.319± 0.0081.394± 0.085≤-135.2138.48± 0.0931.03± 0.0434.38± 0.06(d)我们的（南）-F-288.260.304± 0.0171.553± 0.077-192.4839.0629.9733.92(e)我们的（S）-275.810.286±0.0070.915± 0.088-192.3139.9729.8034.14(f)我们的（J）-F-298.920.291± 0.0171.446± 0.087-192.5342.89± 0.3332.50± 0.2936.98± 0.30(g)我们的（J）-298.470.293± 0.0040.971± 0.078-192.5744.10±0.1133.39± 0.0737.90±0.09表1. EPIC-KITCHENS数据集的批处理结果。对于基于样本的指标，报告平均值±标准差。混合回归多标签分类（区分模型）。DCE：直接交叉熵（生成模型）。CVAE：条件变分自动编码器（生成模型）。对于我们的模型，S表示轨迹策略和动作策略的单独训练。J表示联合训练。 F表示模型仅针对wardcrossentropy进行训练。（↓）/（↑）表示较低/较高分数更好的度量。图3. 预测结果可视化。两个实例的可视化。它显示了预测的轨迹如何影响AC-离子分布在每个示例中，左上方示出了观察到的图像，左下方示出了对应于两个预测样本轨迹的动作分布，并且右侧示出了场景的点云和预测轨迹（红/黑点：Ob-served/Unobserved地图点）。因此，将我们的（J）与基线进行比较是公平的，除了上述两种特殊情况外，基线显示出更好的性能。假设（3）成立。最后，我们的方法也比区分性基线MRMC表现得更好，因为它未能对未来行为的多模态性质进行建模。图4进一步说明了这一点。我们可以看到，当我们强制模型输出具有前K个动作（K来自 1 - 10）的概率。可视化示例显示了不确定性的环境。鉴于过去的信息，我们实际上不确定哪些动作（洗手，关闭水龙头，拿布或干手）会发生。我们的模型对这些可能的未来动作分配了相对较高的置信度，但判别模型只关注两个动作因此，假设（4）也得到支持。图3示出了两个示例的可视化结果。对于每个示例，我们显示了两个采样轨迹及其相应的动作分布。在所有这两个例子中，预测的轨迹影响动作分布，182实验方法不轨迹预测G行动前线铸造H（p，qπ）（↓）minMSD（↓）平均MSD（↓）H（p，qκ）（↓）精密度（↑）召回（↑）F1（↑）(i)培训→测试预在线-298.470.293± 0.0040.971± 0.078-192.5744.10± 0.1133.39±0.0737.90± 0.09在线-299.660.283±0.0040.963±0.063-192.5945.27±0.1032.90± 0.0738.11 ±0.10(ii)测试→训练在线前-204.230.280± 0.0050.560± 0.080-181.8020.70± 0.0320.28± 0.0220.49± 0.02在线-220.380.230±0.0040.497±0.091-184.8922.76±0.0522.05±0.0422.40 ±0.05表2. 在线学习成果。预在线表示在线学习之前流数据的结果。在线表示在线学习中流数据的结果。实验A→B意味着我们在数据集A上预训练模型，并在数据集B上进行在线学习。（↓）/（↑）表示较低/较高分数更好的度量。0.40.20.0过去图像GT标签：{洗，手}（t= 1 s）GT标签：{关闭，轻拍}（t=5s）洗涤液接发球布网上学习的相对改善将更为显著。我们还分析了我们的模型的遗憾。我们使用Eq训练在线模型和相应的后见之明模型。（九）、远期实验的平均后悔曲线如图所示。五、我们可以看到，平均后悔曲线收敛到零，随着更多的例子观察，这证明了我们的模型是无后悔。嗨-0246810#顶级操作0 50100类0 50 100类假设（5）也得到支持。的理论分析在补充质询中是没有遗憾的。图4. Top-K可视化。第一行是不确定未来行为的示例。左下图显示了我们的模型和判别模型的召回值，如果我们强制模型输出具有前K个概率的动作（K从1到10）。底行的另外两个图分别显示了我们的模型和判别模型我们的模型在处理不确定性方面表现出更好的性能。以有意义的方式。在第一个例子中，这个人是0.80.60.40.20100200300400500600700#示例0.20.10.0−0.10100200300400500600700#示例去倒酒。我们可以看到，这个人在第一个预测轨迹中的移动比在第二个预测轨迹中的移动少。因此，第一轨迹具有更高的倾倒概率，因为人们在倾倒东西时倾向于保持静止在第二个例子中，这个人要把餐具放进洗碗机。在第一预测轨迹中，人的位置沿着z轴变化很大，并且模型预测人更有可能将餐具放入洗碗机中。相比之下，在第二预测轨迹中，位置在地平面（xy平面）中变化很大，并且模型预测人更可能洗东西，因为它需要更多的水平移动。4.4. 在线预测结果我们进行了两个在线学习实验，以验证我们的模型从流数据学习的有效性我们在训练集上预训练模型，并在（i）中的测试集上执行在这两个实验中，我们只微调额外的线性层在线学习。在线学习前和在线学习结果见表2。可以看出，在两个实验中，在线学习后得到的模型优于原始模型，这表明我们的在线学习算法的有效性。此外，比较(ii)对于（i），我们还可以看到，随着观察到的数据越来越多图5. 平均后悔曲线。我们将在线学习模型与后见之明模型计算平均后悔。轨迹预测（左）和动作预测（右）的平均遗憾都显示出向零收敛，这支持了我们的在线学习方法在经验上是无遗憾的说法5. 结论我们提出了一种新的生成模型来表示混合连续和离散状态的第一人称活动预测。我们对以连续轨迹为条件的离散动作进行我们的模型可以根据观察到的过去图像和位置生成精确和多样化的未来轨迹和动作。在EPIC-KITCHENS数据集上的实验结果表明，该方法优于相关的生成模型和判别模型。我们的模型也可以很容易地适应无遗憾在线学习，这在复杂的现实世界场景中创造了更多的应用一个可能的未来工作是在离散归一化流模型的帮助下统一表示连续和离散变量，而不是因式分解联合分布以使动作以轨迹为条件。谢谢。这项工作部分由机器学习和健康博士奖学金中心和JST CREST（JPMJCR14E1）赞助。我们的歧视洗我们抽头手布召回平均遗憾平均遗憾183引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会责任：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议论文集，第961-971页2[2] LambertoBallan ， FrancescoCastaldo ， AlexandreAlahi，Francesco Palmieri，and Silvio Savarese.用于场景特定运动预测的知识转移。在欧洲计算机视觉上，第697施普林格，2016年。2[3] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。4[4] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al.扩展以自我为中心的愿景：epic-kitchens数据集。arXiv预印本arXiv：1804.02748，2018。一、五、六[5] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Ben-gio.使用 Real NVP 的密度估计。 arXiv 预印本 arXiv ：1605.08803，2016。1、4[6] Chenyou Fan，Jangwon Lee，and Michael S Ryoo.在未来帧中预测手和物体的位置. CoRR，abs/1705.07328，2017年。2[7] Alireza Fathi，Ali Farhadi，and James M Rehg.理解自我中心的活动。在计算机视觉（ICCV），2011年IEEE国际会议上，第407-414页。IEEE，2011年。2[8] Antonino Furnari，Bristiano Battiato，Kristen Grauman，and Giovanni Maria Farinella.从自我中心的视频中预测下一个活动对象 Journal of Visual Communication andImage Representation，49：401-411，2017。2[9] Enric Galceran ， Alexander G Cunningham ， Ryan MEustice和Edwin Olson。通过基于变化点的行为预测进行自动驾驶的多策略决策。机器人：科学与系统，第1卷，2015年。2[10] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.红色：用于动作预测的重新增强的编码器-解码器网络。arXiv预印本arXiv：1707.04818，2017。2[11] Seyed Kamyar Seyed Ghasemipour，Richard Zemel，andShixiang Gu.从发散最小化的角度看模仿学习方法。arXiv预印本arXiv：1911.02256，2019。3[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672一、二、三[13] Will Grathwohl， Ricky TQ Chen， Jesse Beterncourt，Ilya Sutskever，and David Duvenaud. FFJORD：可扩展可逆生成模型的自由形式连续动力学。arXiv预印本arXiv：1810.01367，2018。1、4[14] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性原则：社会上可接受的184与生成对抗网络的结合。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年。6[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[16] Minh Hoai和Fernando De la Torre最大容限早期事件检测器。 International Journal of Computer Vision ，107（2）：191-202，2014. 2[17] Ashesh Jain、Avi Singh、Hema S Koppula、Shane Soh和Ashutosh Saxena。通过传感融合架构预测驾驶员活动的循环神经网络。在机器人与自动化（ICRA），2016年IEEE国际会议上，第3118-3125页。IEEE，2016. 2[18] Eric Jang，Shixian

下载后可阅读完整内容，剩余1页未读，立即下载