没有合适的资源?快使用搜索试试~ 我知道了~
12734学习预测未来与动态上下文删除Xinyu Xu1,Yong-Lu Li1,2,Cewu Lu1*1上海交通大学2香港科技大学{xuxinyu2000,yonglu li,lucewu}@ sjtu.edu.cn摘要预测未来事件是智能系统和嵌入式AI的基本特征。然而,与传统的识别任务相比,未来的不确定性和推理能力的要求使得预期任务非常具有挑战性,远远无法解决。在这一领域中,以往的方法通常只关注模型的结构设计,或者很少关注如何用适当的学习策略训练预测模型。为此,在这项工作中,我们提出了一种新的训练方案,称为动态上下文删除(DCR),动态调度的可见性观察到的未来在学习过程中。它遵循类人课程学习过程,即,逐渐去除事件上下文以增加预期难度,直到满足最终预期目标。我们的学习方案是即 插 即 用 的 , 易 于 集 成 任 何 推 理 模 型 , 包 括Transformer和LSTM,具有有效性和效率的优势。在广泛的实验中,所提出的方法在四个广泛使用的基准测试中达到了最先进的水平。我们的代码和模型在https://github.com/AllenXuuu/DCR上公开发布。1. 介绍预测人类在不久的将来的行动是人类的一种基本能力,也是具有推理功能的智能系统的基本要求。它支持许多应用,如自动驾驶[1,40]和人机交互[29,42],其中行人和用户的未来预测至关重要。随着深度学习技术的快速发展,对人类动作视频的全面理解和分析在传统的识别领域,现代视频模型[6,13,15,34,44,48,49,53,54]利用时空建模来学习空间模式和时间逻辑,并实现显著的*卢策武是通讯作者,中国上海交通大学人工智能研究所、上海启智研究所清源研究院、MoE人工智能重点实验室成员。容易部分情境训练???难图1.重温经典数独游戏中的学习技巧,一个孩子从一个简单的数独游戏开始,更多的观察(提示),然后被教导一个更难的水平,不太可观察的数字。这揭示了人类如何在物理世界中学习推理的课程学习过程本研究以学习数独为启发,建立类似课程设计的动作预期模型。我们在训练中利用额外的辅助框架,但动态调度它们的可见性,以逐步增强模型的推理能力。在许多视频识别任务中取得了重要进展[8,21,26]。此外,人们对行动预期也越来越感兴趣[8,9,30,33,46]。同样,他们都希望系统能够区分视频中的现有动作。相应地,在动作预测中,系统所观察到的视频片段向前移动,而在动作识别系统中,系统具有视频的所有信息。由于视觉观察和目标动作语义之间的时间错位,动作预测是一个更具挑战性的任务比动作识别。由于某些原因,它很难像视频识别那样被简单地首先,深度神经网络(DNN)在预期任务中学习的空间配置偏向于对未来动作标签的监督,导致当前视觉观察的不准确表示[18]。其次,观察值与动作事件的开始时间存在间隙,这对模型的高级推理能力提出了挑战,特别是在长期密集动作预测设置中[27,43]。为了解决行动预期,以前的冰毒-完全上下文培训1 67 835 734 96 229 36 578 16 446 128 95 86 4373 419 65 861 87 249 3817635311273426 758734897981测试????12735ODS [10,18-20,22,43,57]提出了各种神经体系结构,专注于从过去的观察中学习时间逻辑,目的是将过去的逻辑应用于推理未来。虽然这些方法实现了改进,但它们仍然面临挑战基准的性能瓶颈[8,9,30,33,46]。我们认为,原因主要是他们没有从人类的学习方式中学习。在这项工作中,我们提出了一个简单而有效的行动预测的角度。我们希望模型在未来片段的辅助下学习时态逻辑,但保留仅在过去观察的情况下推理出未来的功能,这满足了预期问题的限制。为了实现我们的意图,我们提出了动态上下文记忆(DCR)学习方案,该方案整合了课程学习的动机[4],首先使用足够的上下文辅助进行训练,然后去除冗余上下文,以便更好地适应更困难的预期任务,遵循人类的渐进学习过程。图1给出了一个直观的例子。我们的训练方案是灵活的,可以很容易地推进不同的时间推理架构。在这里,我们主要选择Transformer[51]来实现我们的范例。首先,在全上下文模式下,我们提出了顺序感知的预训练来学习视频序列顺序,这是Transformer架构的通用方法。接下来,在部分上下文模式下,我们的目标是在动作发生期间重建帧,并动态调度辅助上下文的可见性。这种学习模式符合人类的学习方式[4]。除了Transformer [51]之外,我们还展示了我们的训练方案也可以改进基于LSTM [24]的神经架构。我们对四个广泛使用的动作预期基准进行了实验和分析:EPIC-KITCHENS- 100 [8],EPIC-KITCHENS-55 [9],EGTEA GAZE+[33],50-沙拉[46]。我们的培训策略是有效的,并在所有四个基准上达到了最先进的水平。此外,我们相信所提出的减法和自适应范式可以为其他复杂和具有挑战性的时间预测任务铺平道路。我们的贡献包括:(1)我们提出了一种新的学习方案DCR,它提高了实际时态建模架构的有效性和(2)提出了一种通用的顺序感知预训练方法,用于Transformer架构,以顺序作为监督,实现无监督预训练。(3)我们在四个广泛使用的行动预期基准上达到了最先进的水平2. 相关工作动作预测是通过观察视频片段在动作发生之前的时间τa来预测未来的动作。它需要在第三人称[14,19,29,30,46,52]和自我中心[8,9,17,18,20,27,33,35,43,57]情景。它具有广泛的应用,包括智能机器人[29,42]和可穿戴设备。它曾经有不同的任务制定,如密集的行动预期[43],但我们考虑在这项工作中预测下一个行动[9,18]。以前的方法提出了各种神经架构,包括LSTM变体[14,18,19,25,57]和attention变体[20,22,43]。在早期的工作中,Vondricket al. [52]提出了一种无监督的表征学习范式来连接预测任务的现在和未来特征。Li等[33]在以自我为中心的视频中联合地对动作预期与人类注视进行建模。后来,Furnariet al. [18]提出了一个经典的RULSTM体系结构与模块化的注意,取得了很好的结果。Sener等人[43]试图用不同的集合来预测过去的行动。其他一些作品利用额外的知识,如下一个活动对象[16]和手部运动[10]来预测动作。最近的一项工作AVT [20]利用因果Transformer以seq2seq方式对动作预期进行建模。视频序列建模已经在许多任务中得到利用。Srivastava等人[45]提出了无监督学习技术来学习视频序列中的广义表示。Zhou等[59]探索两个简单的任务成对排序和未来预测在自我中心的视频。Kong等人[28]对序列上下文关系进行建模,提高了对部分视频对象的识别性能。Misral等人[39]提出了一种新的视频序列的视角来验证学习中的顺序是否正确。在我们的工作中,我们利用自我注意力的排列不变性质,并利用顺序作为额外的信号来执行自我监督学习。Vision Transformer最近越来越受欢迎,在许多视觉任务中有超过经典卷积架构的趋势Transformer [51]家族最初在语言社区中兴起,然后渗透到视觉领域[12],包括视频相关任务[2,13,54]。它可以作为注意力块[54,56]插入到传统的视频模型中,并构建基于纯注意力的视频识别架构[2,13]。在视频动作预测领域,Transformer架构可以通过因果注意直接用于时间推理[20]。课程学习是由Bengio等人提出的。[4]的文件。它的动机是人类的学习过程,由易到难。它可以通过类别损失重量的时间表[31]、数据采样[32]或其他困难测量[58]来实现。这个简单的原则在许多领域都很有效,包括语言理解[4],迁移学习[55]等等[31,32,58]。对于语言推理任务,以前的工作[7]也验证了它在首先进行婴儿步短期推理时的有效性。在我们的工作中,辅助语境的丰富程度决定了任务的难易程度在课程学习中,我们遵循由易到难的原则,安排了语境的移除12736√√√√R≤≤联系我们·········R······√√√√××××××××动词分布名词分布行动分布������������−1���… …10987654321线性解码器推理模型线性编码器框架表示������−1���…10987654321������−11110987654321动态面具图2.概述我们的培训计划。我们打算使用过去的观察,以重建帧在动作发生。我们动机的核心是以课程学习的方式安排可见性,首先使用更多的辅助框架,但随着培训的进行而动态 The reconstructed action frames are sent to classifiers and make consensusto obtain final predictions. 我们的训练方案是灵活的,可以推进任何推理模型,包括基于注意力的Transformer和传统的LSTM。mark.另一个参数是τo,它表示观察剪辑通常,τo不受限制,并且任何选择-2.25-2-1.75-1.5-1.25-1个-0.75-0.5-0.250+0.25+0.5+0.75+1个所以,O是允许的。我们按照[18]以4 fps采样帧。我们提前使用额外的8帧来帮助我们的框架工作中的训练,但是它们严格地不在验证和测试中使用图3.动作预期任务的一般设置。蓝色、红色、黄色分别表示过去观察、预期、动作发生的不同持续时间。3. 方法我们在本节中介绍了我们工作的核心。第二章首先介绍了预测任务的具体制定。3.1.然后,我们的方法的概述在第2节中描述。3.2.我们的动机是通过动态上下文移除将辅助上下文辅助设置中的训练有素的模型适应于预期设置。因此,我们杠杆年龄的订单意识的预训练(节。3.3)学习Transformer [51]在全上下文模式下的节奏动力学。节中3.4.描述了重构驱动的课程设计,它调度了上下文的可见性,帮助模型逐步解决预期问题。最后,学习目标在第二节中描述。三点五3.1. 任务制定我们在本节中简要介绍我们的动作预期设置。如图3所示,在观察和行动部分之间有一个时间间隔。它被称为预期时间,表示为τa。我们遵循以前的工作[8,9,14,18,20,43,52,57],在每个工作台上固定τa3.2. 概述我们在图2中概述了我们的学习方案。假设我们为我们的模型采样K个帧,那么我们从K个预提取的帧表示开始,按逆时间顺序为x1,x2,.,xK每个帧xi被分配有二进制掩码β i0,1,确定其可见性。在训练的不同阶段动态地调度掩码(在第2节中介绍)。3.4),但我们严格设置β1,β2,,β8= 0的测试时间。我们将帧特征投影到一个潜在空间中,在这个潜在空间中,一个推理模型根据可见信息推理出被屏蔽的帧。然后,线性解码器将帧映射回原始维度。 我们的推理模型的目标是重建掩蔽帧,我们使用z1,z2,,z K来表示重建。它的公式为z1,z2,,z K=(x1,β1,x2,β2,,xK,βK)。最后4个帧z i(1i4)是动作发生中的帧,并且它们将被发送到分类器以给出预测。对于EPIC-KITCHENS系列[8,9],其也需要在其测试服务器上进行边缘化动词/名词类预测,我们在顶部使用动词/名词/动作三个分类器,但仅对其他数据集应用单个动作分类器在测试时间内,对这四个帧的预测进行平均√√××××√√√√√√√××××√×√×√√层规范Transformer关注位置编码LSTM观察(观察)预期时间(秒)行动…共识动词/名词/动作分类器12737≤≤∈≤≥.−高斯仿射(Gaussian Affinity)直接送入Transformer后的直线编码器。然后,我们计算Transformer输出令牌和位置编码之间的余弦相似度,这是由Softmax到概率空间。需要预定义的相似性标签来监督训练。最天真的选择是使用对角矩阵作为相似性,将其视为单独的分类问题。然而,时间序列是连续的,分配软标签会更为此,我们遵循[23]来定义具有高斯亲和力的相似性。时间i处的位置编码与时间j处的帧特征的相似性si,j被测量为:si,j= exp(ij)2-σ2、(1)图4.排列不变注意的顺序感知预训练。我们去除了输入端的位置编码,但强制模型自动理解视频序列的顺序它通过将帧与其对应的位置连接以满足预定义的相似性来训练。以达成共识[53]作为最终结果。值得注意的是,我们的训练方案是灵活的,可用于任何推理模型,包括Transformer [51],LSTM [24]等。在本文中,我们默认使用Transformer [51]进行大多数实验,但也给出了一些基于LSTMTransformer和LSTM的 一 个 小 区 别 是 处 理 掩 码 帧 。 掩 码 对 于 基 于Transformer的应用更实用[11],因此我们直接为输入分配零值。但对于递归LSTM结构,它3.3. 订单感知预培训对于基于Transformer的推理模型,我们提出了一种新的顺序感知的预训练来学习全上下文模式下的时间动态。在这个阶段,我们注意到Transformer是一个没有显式位置编码的置换不变架构[51]。因此,我们使用时态位置作为信号来监督训练,并期望模型自动识别输入序列的顺序,这意味着对上下文中这种基于排序的时间建模在以前的作品中证明是有效的[59]。我们提出了我们的自我监督预训练技术,称为订单感知预训练。所有的帧,包括过去的观察和扩展的8帧,都用于训练。换句话说,βi(1i K)始终等于1。如果没有位置编码的显式集成,它们是其中σ是高斯带宽,我们在实验中设置σ=5。然后利用相似度来指导预训练。我们最小化交叉熵损失与高斯亲和相似性作为软标签。顺序感知的预训练不仅学习上下文中的它该方法利用自注意的置换不变性,将序列置换作为自监督信号。我们相信它可以推进更广泛的基于transformer的序列建模任务,就像masked language model的成功一样。3.4. 重构驱动的课程设计我们的预期预测模型的目标是重建的基础上可见的上下文掩蔽的未来帧在这个阶段,我们在训练中使用部分上下文,并通过重建质量来调度上下文可见性。在这里,我们继承了课程学习的动机[4],因为系统在开始时被赋予了更多的辅助上下文,称为简单课程。我们将系统的易度表示为Te[0,1],其中e表示训练中的历元.特别地,我们有T1=T2=1.然后,随着训练的进行,我们降低了我们的系统的任务的容易程度,并逐步提出了困难的预期任务。在此阶段,我们始终将动作发生期间的帧屏蔽为βi=0(i4),在图中将其标记为黄色。2.它们不直接用于模型输入,而是作为重建的监督这是我们的实验也支持直接使用动作框架会损害分类器性能和推理模型。相反,过去的观察(图中的蓝色框)。2)在任何时候都是可见的,因为βi=1(i9)。中间的四个帧(图中的橙色帧)。(2)是设计不同结构的主要领域。它们帮助过去的观察重建预期的行动框架,……Transformer线性编码器…Σ12738CLS∈≤ ≤∗4CCLSCLS我 我我CLS我C我···被动态地移除,T e. 对于5≤i≤8,我们在p1, p2,, pC, where C is the number of categories, Then,the action prediction loss LA can be formulated in Eq.五、[0,1],作为ρ iU(0,1).只有当ρ i小于易度因子Te时,框架xi才是可见的。这也意味着这些帧具有可见的概率Te它其中,y是地面真值标签,wy是来自类别分布的类别损失权重,并且k是标签平滑的因子。当β i=1[Te> ρ i](5i8)时,其中1[ ]表示语句的真值,并返回二进制值。一般我们在Eq中得到β序列。第二章:LA=−(1−)wi=1log(p y)−log(pj)。(五)j=1βi=1i≥91[T e> ρ i]5≤i≤8。0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000(二)对于需要边缘化动词/名词预测的数据集,我们计算动词/名词预测损失类似于L V,L N。预测损失为L cls=L V+L N+L A。仅适用于具有操作的数据集根据经验,我们设计了一个特定于实例的本地课程-CLSCLSCLS一Lum调度方法在这项工作中。Though a global scheduleof Te like linear or exponential may also work well in somescenarios (Sec. 4.6),我们发现它为此,我们经验性地应用一个实例特定的容易sched-乌 莱 在 每 次 迭 代 中 , 为 视 频 剪 辑 生 成 掩 码 {β1 ,β2,···,βT}假设对于βk=1,k(k≥5)是最小的,那么x1,···,xk−1就是我们需要预测的。我们使用未来1秒的误差来衡量重建的质量。分类器在上面,我们有L cls= Lcls。重建损失是教我们的模型的原因了基于剩余上下文的掩码帧,就像掩码语言预测的作用一样[11]。我们期望我们的推理模型的输出表示接近原始框架。因此,我们简单地使用均方误差[20]在方程中。6、作为功能级监督。ΣLrec=i=1Q= ||x k−4− z k−4||二、S.T.k= argmin[ βk=1]。(三)考虑到两种损失的不同规模和作用,我们应用加权求和来获得总损失Ltotal:Ltotal=λclsLcls+λrecLrec,(7)一个内存库用于存储每种情况下的重建质量它是下一个时代界定易的标准我们在开始时有T1=T2=1,但简单的调度容易Te使用方程中Q4,具有额外边界γ min=0。95时,γmax=1。在这种情况下,Q的快速下降代表了这种情况下模型的良好学习状态,因此我们更快地降低了易用性该边界用于稳定易调度性,保证不同训练阶段训练样本的多样性Te= min{max{Qe−1,γ},γ}。(四)Ky(1−βi)||zi−xi||二、(六)12739式中,λ是不同损失项目的不同权重。4. 实验在本节中,我们对四个广泛使用的基准测试进行了全面的实验和分析,以验证我们的方法的有效性。4.1. 数据集和指标EPIC-KITCHENS-100(EK 100)[8]是目前支持行动预测任务的最大数据集。它有700个100小时的关于以自我为中心的烹饪交流的长视频-Te−13.5.学习目标Qe−2minMax生命力 EK100中的每个操作类都由一个动词和一个名词组成。动词97个,名词300个,动作成分4,053个。有89,977个行动隔离区-我们使用两个目标来监督培训过程。一个是关于下一个动作类Lcls的预测结果,而另一个是掩蔽帧Lrec的重建损失。预测损失用于监督预测动作片段中的4帧。我们采用交叉熵损失.此外,我们使用标签平滑[47]技术[5],并发现它在我们的任务中工作得很好。这主要归因于标签平滑在抑制过拟合和保持未来不确定性方面的优势。假设对于Zi,动作分类器给出预测其标签是从唯一的叙述中聚合的片段。数据集以75:10:15的比例分成训练集/验证集/测试集。训练集和验证集是公开发布的,但测试集只能在在线服务器上查询。用于评估的主要度量是recall@5,这是一个类感知度量,以避免动作分布的长尾偏差。此外,作者[8]还提供了一个尾部行动子集和一个不可见的参与者子集,以突出模型的泛化性能。EPIC-KITCHENS-55(EK 55)[9]是EK 100的早期版本。作为一个子集,它在55小时内包含432个视频12740使用xt=B为了对FEA进行编码,It,It−1,···,It−(k−1)表1. EK100 [8]确认集的单分支结果。标记有 *的主干表示端到端培训。表2.EK55 [9]验证集[18]上的单分支结果标记有 *的主干表示端到端训练。0100200300 400#参数图5.得分vs. 尺寸有39,596个动作片段,每个片段都分配了一个动词和名词类。共包括125个动词和352个名词颞肌模型B,需要10k个输入帧,我们我们遵循[9,18]的分裂。评估的指标是Top-1/5准确度。EGTEA GAZE+(EG+)[33]是另一个以自我为中心的数据集,用于动作和凝视的联合建模。我们只使用它的行动学习部分。它包含19个动词,51个名词和106个动作成分。在86个视频中有10,325个片段被标注了动作标签。我们报告了作者提供的前5名准确率和类平均召回率@5超过3个标准官方分裂[33]。50-Salads(50 S)[46]是一个广泛使用的关于沙拉准备的第三人称视频数据集。这是一个相对较小的数据集,因为它只有近0.9K的动作片段。不同的是,它的动作类不能边缘化为动词和名词。我们遵循[14,20,43]使用动作注释的17类粗略版本。label.我们报告了作者提供的5个标准官方分裂的前1准确度[46]。根据以前的工作[8,9,14,18,20,43,52,57],我们对所有数据集设置τa所有基线也共享此设置,以便进行公平比较。4.2. 基线我们比较了DCR与几种竞争方法,包括DMR [52],[9]中提出的ATSN,MCE [17],FHOI [35],RULSTM[18],ECONOBANKS [43],ImagineRNN [57],Ego-OMG [10],AVT [20]和更多。关于基线的更多细节,请参阅补充材料4.3. 实现细节骨干我们采用不同类型的功能(RGB的外观,光流和对象分布)从不同的骨干。前两个模态可以用(1) 帧级空间模型,如ViT [12]或TSN [53](2) 片段级时空模型,如TSM [34]或IG-65 M预训练的irCSN-152 [48]。尤其是水疗-其中It是时间t处的原始帧。 这避免了未来信息的参与 最后,对象分布的特征由帧中所有对象的类别概率 表 示 , 我 们 使 用 [18] 共 享 的 Faster-RCNN(FRCNN)[41]检测器。 虽然现有技术[20]使用可训练的骨干并且受益于目标帧的移动正则化,但是我们更多地考虑效率并且选择在所有实验中冻结骨干。观察. 对于EPIC-KITCHENS [8,9]系列和50 S [46],我们设置观测时间τo= 10 s,但对于EG+ [33],τo= 5 s。需要更长时间的观察主要是因为EPIC-KITCHENS [8,9]的数据规模更大,平均作用持续时间更长,为50 S[46]。主管网络。我们使用AdamW [37]优化的6层16头1024维Transformer编码器模型[51]作为默认推理架构,但也使用SGD [37]优化的1层1024维LSTM [24]在EK100[8]上进行实验。我们在所有实验中应用学习率调度,包括5 epoch预热和半余弦退火[36]有关基本学习率、批量大小、损失重量等的详细信息,请参阅补充材料。4.4. 苹果对苹果的比较我们报告单模型的性能以及他们的训练参数EPIC-KITCHENS系列在表。1.2公平比较基线参数从其公共检查点记录。除了输入空间的维数不同外,模型的参数都是近似的.首先,我们在Tab中报告EK100验证集的结果1.一、在最广泛使用的RGB-TSN主干(红色)上,我们的LSTM版本DCR比经典的RUL- STM稍微轻一些[18],而Transformer版本几乎是AVT的四分之一[20](因为网络宽度是一半)。但我们的Obj骨干动作分值TSNTSMViTirCSN 15216DCRAVT15DCR-LSTM14RULSTM13流RGB方法骨干动词名词行动#参数RULSTM [18]TSN27.529.013.319.7MAVT [20]TSN27.230.713.6303.9MAVT [20]irCSN-15225.528.112.8409.6MAVT [20]ViT*28.732.314.9383.8MDCR(LSTM)TSN27.928.014.514.1MDCR(LSTM)TSM28.428.515.220.2MDCRTSN31.031.114.678.2M方法骨干Top-1Top-5#参数RGBRULSTM [18]TSN13.130.818.5M[43]第四十三话TSN12.728.6112.9MAVT [20]TSN13.128.1302.6MAVT [20]ViT*12.530.1382.8MAVT [20]irCSN-15214.431.7603.2MDCRTSN13.630.878.2MDCRirCSN-15215.134.082.0MDCRTSM16.133.182.0M流RULSTM [18]TSN8.721.418.5M[43]第四十三话TSN8.419.8112.9MDCRTSN8.922.778.2MObjRULSTM [18]FRCNN10.029.813.2M[43]第四十三话FRCNN10.229.152.5MDCRFRCNN11.530.574.2MRULSTM [18]TSN19.1十 六点七7.219.7MAVT [20]TSN20.9十 六点九6.6303.9MDCR(LSTM)TSN21.6十 五点三7.814.1MDCRTSN25.9十 七点六8.478.2MRULSTM [18]FRCNN17.9二 十三 点三7.814.5M12741模型的性能始终更好,特别是对于trans-former版本,其在动词/动作上分别比AVT此外,更有效的TSM [34]骨干直接帮助DCR以更低的成本将端到端训练的AVT的性能提高1.2%。 我们在图中分散了RGB输入模型的性能和大小。5.显然,我们的方法在左上角,表明在有效性和效率方面的优势。此外,在流和对象模态上,我们的DCR也优于以前的工作。特别是对于流,我们在动词和动作上分别有5.0%和1.2%的性能提升。接下来,对于选项卡中EK55验证集的结果。 2,我们的DCR与RGB-TSN骨干也超过了所有的基线(红色)在一个公平的比较。令我们惊讶的是,以前的方法[20]在irCSN- 152骨干上应用12层深Transformer以实现最佳的单模型性能,但是方法整体确认不可见尾巴整体未观察到的试验尾巴RULTSM [18]14.014.111.111.29.77.9[43]第四十三话14.714.511.812.610.58.9[22]第二十二话16.613.815.513.410.111.9AVT [20]15.911.914.116.712.913.8DCR18.314.715.817.314.114.3表3. EPIC-KITCHENS-100上的结果集合[8]。方法确认Top-1Top-5测试所见(S1)顶部-1Top-5不可见测试(S2)Top-1Top-5ATSN [9]-16.36.028.22.39.4[19]第十九话-25.88.118.22.46.6[17]第十七话- 二十六点一10.825.35.615.7RULTSM [18]15.3 35.314.433.78.221.1FHOI [35]10.4 25.515.434.38.622.9ImagineRNN [57]- 三十五点六14.735.09.322.2[43]第四十三话15.1 35.616.736.110.023.4[第10话]19.2-16.034.511.823.8AVT [20]16.6 37.616.836.510.424.3DCR19.2 41.217.738.510.924.8表4. EPIC-KITCHENS-55上的结果集合[9]。我们的轻型模型轻松超越它,前5名(蓝色)。较强的TSM骨架进一步将前1名动作评分提高了1.7%[20]。此外,我们的方法也取得了有竞争力的结果流和obj模态。当然,苹果对苹果的比较验证了DCR在训练有效的预期模型在较低的费用的一致性。这显然为进一步的研究铺平了道路方法Top-5C.M. 召回@5方法Top-14.5. 与最新技术表5.在EG+上的结果[33]。表6.第50话[46]史诗厨房。我们后期融合不同的模型,以增强这两个基准测试的结果。尽管复杂的工作可能会使用模态注意力[18]或应用额外的Transformer来聚合多模态令牌[22],但我们最后的融合结果仍然显示出Tab的优越性。3,4.在验证集上,我们遵循AVT [20]使用rgb+obj融合,它优于基线。例如,我们在整个EK100上获得了1.7%的平均收益,在EK55上获得了3.6%的前5名行动得分。在线排行榜上的比赛我们使用train+val数据训练的模型进行集成。我们的方法在大多数分支上的性能优于以前的作品,除了在EK55 S2测试集上的前1分这主要是因为竞争基线Ego-OMG [10]添加了手部分割和活动对象的精细标记,以学习中间知识表示,这有助于在看不见的环境中进行预防我们认为领先板上的结果这并不重要,以验证我们的效率。有关我们的模特儿组合及重量的详情,请参阅补充资料。EGTEA GAZE+.我们使用TSN [53]在RGB和光流模态上的功能,以支持[18]的实验。最终结果是Tab中两个分支的晚期融合。五、令人惊讶的是,DCR在所有基线上的前5名准确性和recall@5re的性能分别提高了1.5%和建立一个新的国家的最先进的。50-沙拉我们的训练计划不仅限于以自我为中心的动作预期,而且还提高了第三人称视频的预期结果在这个第三视图视频基准测试中,我们使用相同的ViT骨干[20],并在Tab中的前1个准确度得分上实现了3.1%的性能增益。六、4.6. 消融研究我们进行了消融研究,以验证我们的方法对表中Transformer [51]7,但将基于LSTM我们报告EK100 [8]和EG+ [33]与RGB输入。(1)首先,我们通过删除预期任务中使用的所有内容来比较分类基线。每个分支的性能都有较大的下降,表明基本分类技术不适合直接预测。(2)其次,我们考虑没有顺序感知预训练的模型。他们的表现(3)第三,我们考虑不同的容易时间表。如果我们总是在Te=1的情况下进行训练,那么训练和测试任务会有很大的差距,模型如果我们总是在Te=0时不使用未来上下文进行训练,那么模型就会陷入局部最优,表现不佳。我们考虑T e的不同的全局时间表,如从1线性减少到0或指数乘以γ=0。95后每一个时代这些方法也带来了进步,DMR [52]55.738.1ATSN [9]40.531.6[17]第十七话56.343.8TCN [3]58.547.1[19]第十九话60.254.6[第38话]62.752.2电子邮件[25]63.855.1RULSTM [18]66.458.6DCR67.961.1DMR [52]6.2RNN [14]30.1美国有线电视新闻网[14]29.8[43]第四十三话40.7AVT [20]48.0DCR51.1127421817161514131210.750.50.25图7. 框架重建的定性案例。蓝点是表7.消融研究。RGB图6.通过降低τ a实现更丰富背景的效果。光流可见的过去。十字是预测的未来表示,更接近实际的未来(黄色和红色的点)。[50]见图。7.第一次会议。蓝色的是在预期任务中观察到的,而黄色和红色的是未来。标记为交叉的重构帧更接近未来帧的聚类。5. 讨论局限性。我们提出了一个直观和经验的方法在视频动作预测,例如。当地的安逸图8.订单意识预培训的效果我们抽取了1,000个赛格-来自EK100验证的元素根据它们的时间位置设置和着色来自预训练模型的顺序感知我们的模型可以清楚地将时间动态嵌入其学习的流形中。训练模型,但在经验上比我们的本地时间表命题更差。(4)最后,我们验证了损失分量的影响。我们的模型在没有Lrec的情况下性能下降最大,甚至比分类更差。这是因为在没有特征级监督的情况下,不同的上下文使分类复杂化。此外,如果没有标签平滑,我们观察到训练中的损失迅速下降,并且由于过拟合而导致性能下降。4.7. 定性结果我们给出了定性的结果,以更好地表征我们的方法的reasoning能力。首先,我们展示了模型在订单感知预训练阶段学习到的内容。我们从EK 100验证集中抽取了1,000个片段在图8中,我们使用t-SNE [50]根据它们的时间位置将它们嵌入到2D空间和颜色帧中。这第二,辅助语境的作用如图所示。6.我们降低了预测时间τa并测试了模型性能。由于我们的课程学习方法,我们的模型在简单的任务中保持了更强的预测能力。 比较到[18],我们的模型在更多的上下文上有更大的提升。LSTM版本DCR对最新上下文更敏感,甚至优于Transformer。最后,我们展示了框架重建的定性案例。所有帧和模型重建都通过调度在未来的工作中需要更细粒度的分析来验证课程学习方法。潜在的负面社会影响。我们在人类注释的数据集上训练预测模型,这可能会从人类定义的标签中引入由于未来的不确定性和潜在偏差,现有的预测模型很难对未来行为做出稳健的预测。但是一个可能的解决方案是在更大规模的数据上使用无监督学习技术。在我们的方法的使用,视频动作预测技术是一般无害的,除了一些恶意使用的不良事件预测。因此,我们鼓励正确使用造福人类的技术。6. 结论在本文中,我们提出了一种新的策略DCR如何训练预测模型。它遵循人类的直觉在广泛的实验中,我们建立了新的国家的最先进的四个广泛使用的基准。我们认为视频动作预测是人工智能的一个重要问题,它支持许多未来的应用。我们在这个领域迈出了重要的一步此外,我们的方法不仅限于预测问题,而且有可能促进许多其他时间预测任务。我们希望我们的动态上下文删除的简单动机可以启发更多的未来的工作。确认感谢国家自然科学基金项目(编号:72192821、72192820)、上海市科技重大专项(2021 SHZDZX0102)、上海启智研究所、上海市科技创新中心(2018-RGZN-02046)的EK100 [8]EG+[9]TSNTSMTSNDCR16.114.664.5分类13.712.758.5W.O. 预训练15.514.362.1Te= 16.54.540.1Te= 015.213.862.9线性Te15.013.964.0指数Te15.614.264.2W.O. L记录13.512.656.0W.O. 标签平滑14.813.362.312743引用[1] Walter Morales Alvarez , Francisco Miguel Moreno ,Oscar Sipele , Nikita Smirnov , and Cristina Olaverri-Monreal.自动驾驶:真实世界场景中行人意图估计的框架。2020年IEEE智能车辆研讨会(IV),第39-44页。IEEE,2020年。[2] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,MarioL uc i c′,andCorde l iaSchmid. Vivit:一个视频视觉Transformer,2021.[3] 白少杰,J.齐科.科尔特,弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日,第1803.01271页。[4] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。第26届机器学习国际年会论文
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功