没有合适的资源?快使用搜索试试~ 我知道了~
2181学习在野外对齐顺序动作Weizhe Liu1*Bugra Tekin2 Huseyin Coskun3 Vibhav Vineet2 Pascal Fua4 Marc Pollefeys2,51TencentAILab2Microsoft3TechnischeUniv ersitaüt Muünchen4EPFL5ETHZurich摘要用于自监督顺序动作对齐的最先进方法依赖于在时间上跨视频找到对应的深度网络它们要么学习跨序列的帧到帧映射,这不利用时间信息,要么假设每个视频对之间的单调对齐,这忽略了动作顺序的变化。因此,这些方法不能够处理涉及背景帧或包含非单调序列的视频的常见现实世界场景。(一)(c)第(1)款(b)第(1)款行动在本文中,我们提出了一种方法来调整序列动作在野外,涉及不同的时间变化。为此,我们提出了一种方法,以强制执行temporal先验的最佳传输矩阵,它利用时间的一致性,同时允许在行动的顺序变化。我们的模型考虑了单调和非单调序列,并处理不应该对齐的我们证明了我们的方法在四个不同的基准数据集上的 自 监 督 顺 序 动 作 表 示 学 习 中 代 码 可 在https://github.com/weizheliu/VAVA 上 公 开获取。1. 介绍理解视频序列中的人类活动对于诸如人机交互、视频分析、机器人学习和监控的应用是重要的。近年来,大量的研究都集中在监督,粗尺度的动作理解。大部分工作集中在预测明确的类剪辑对应于一个监督的方式[8,11,33,52,53,55]有限的动作类别集。虽然给出了人类行为的分类理解,但这些技术并不提供对人类行为的细粒度分析。此外,对每帧标签的依赖需要大量的人工努力,而这些人工努力不能扩展到许多不同类型的主题、环境和场景。*这项工作是在微软混合现实AI实验室实习期间完成的。图1. 时间变化[15]。(a)背景框架,de-用灰色块表示的那些与主要活动无关。(b)编号为4和5的帧是冗余帧,其仅存在于一个序列中而不存在于另一个(c)第一序列中具有动作1的帧出现在动作2之前和之后,并且形成非单调帧的序列。我们的方法明确地处理所有这些时间变化,适合在广泛的背景下对齐iOS. 对于这种监督方法,也不总是清楚需要什么样的详尽标签集来细粒度地理解视频。因此,最近的论文[16,28]提倡对视频表示进行自监督学习,而不需要逐帧动作标签。它们依赖于这样一个事实:人类的活动常常包括许多按可预测的顺序连续进行的步骤喝水时,一个人可能会拿一个杯子,喝了,然后把杯子放下。要更换轮胎,首先要将车辆抬离地面,拆下车轮,换上备用轮胎。假设设置了顺序,可以通过帧的时间对齐从相同活动的多个视频中学习视觉表示。这通常是通过单调对齐帧来完成的[25],它假设动作总是以相同的顺序发生。然而,在大多数现实世界的序列中,情况并非如此,并且确实发生了诸如图1所描绘的那些的时间偏差。可归纳如下:• 背景框架:与主要活动无关,因此不应对齐的框架。例如,你可能会在换轮胎时接到一个电话。在这种情况下,123412312341234512134123452182• 冗余帧:只存在于一个序列中而不存在于另一个序列中的帧。例如,一个人可能在换轮胎前戴上手套,而另一个人则没有。在这种情况下,• 非单调框架:以非单调顺序出现的框架。例如,在更换轮胎时,您将车辆抬离地面并试图卸下轮胎,但却意识到您抬得不够高。然后你回到上一个动作,也就是抬起,然后继续剩下的动作。我们的方法旨在解决所有这些情况下,并减少了严格的假设,早期的工作时间序列的行动。为此,我们建议一种通过新的对齐框架来学习视频之间的时间对应关系的方法。我们的模型考虑了真实世界序列中表现出的时间变化,其具有依赖于最佳传输损失的可微深度网络公式。虽然最优传输能够基于从各个帧计算的特征的逐帧匹配来对齐非单调序列,但它忽略了视频的时间平滑性和为了弥补这一点,我们引入时间先验的运输矩阵的opti- mal运输算法作为输入。这说明了序列的时间结构,并以灵活的方式在对齐期间强制执行时间一致性。这与先前的工作不同,先前的工作要么忽略序列内的时间先验[16],要么强制视频对之间的单调对齐[28],如图所示。二、特别是,我们通过对最佳传输矩阵的对角线进行建模,采用自适应高斯混合模型(GMM)来执行时间先验。我们的时间先验有效地有利于一个序列到另一个序列的附近时间位置中的元素的传输,并且因此在比对期间尊重序列的整体时间结构和顺序。与此同时,我们的最佳运输为基础的配方旨在找到理想的帧明智的匹配和处理非单调帧。为了明确地处理背景和冗余帧,我们进一步提出了一种方法,该方法在最优传输矩阵中引入了额外的虚拟帧,以便将不匹配的帧明确地分配给它。此外,由于在视频对齐上强制时间先验通常会收敛到平凡的解决方案[25],因此我们引入了一种新的视频间对比度损失来规范学习过程。特别是,我们的对比度损失优化了分离的视频表示,即,在由最优传输给出的相似性方面接近的视频被映射到嵌入空间中的空间上邻近的点,反之亦然。我们的贡献可以总结如下:首先,我们提出了一种自监督学习方法,(a) 没有时间先验的(b) 单调对齐(c) Vava图2. 对齐优先级的类型。 两个人跑步的例子。第一个序列示出了一个人从专业的蹲伏位置开始,而第二个序列示出了另一个人从正常的站立位置开始(a)没有时间先验的对齐基于纯外观相似性,因此第一序列的开始(b)单调对齐强制执行纯单调顺序,因此即使两个动作看起来完全不同,它们也 可 能 被 错 误 地 对 齐 。 ( c ) 相 比 之 下 , 我 们 的 方 法VAVA,强制时间先验来处理非单调帧,并优雅地处理不匹配的帧(例如,第一序列中的蹲伏位置),导致序列之间的精确比对。连续的行动在野外,其特点是一组不同的时间变化。其次,我们在最优传输上执行自适应时间先验,这可以有效地处理非单调帧,同时尊重序列的局部时间结构。第三,我们扩展了最佳trans-port制定一个额外的虚拟帧,主动处理冗余和背景帧,不应该匹配。最后,为了防止我们的模型收敛到平凡的解决方案,我们提出了一个新的对比损失项,正则化的学习最优传输矩阵。节中4,我们定量地表明,这些贡献使我们能够可靠地学习鲁棒的时间对应关系,并在现实世界中对齐顺序动作我们的自我监督方法,我们称之为变化感知视频对齐(VAVA),使用时间对齐作为借口来学习视觉表示,这些视觉表示在下游任务中是有效的,例如动作阶段分类和跟踪动作的进展,并且显着优于状态。2183最先进的方法在四个不同的基准数据集。2. 相关工作自我监督视频表示学习。视频中的时空信息提供了丰富的监督信号,以学习强时空表示[14,18,45]。这与基于单图像的方法形成对比[9,17,19,23,29,31,32,34,35,39,42,59,61],其仅依赖于空间信号。Misra等人。 [40]介绍了通过估计重排视频帧的顺序来学习这种视觉表示的想法。受到这种方法成功的启发,最近的几篇论文专注于使用时间信息设计一种新的借口任务,例如预测未来帧[13,49,54]或其嵌入[21,27];估计帧的顺序[10,20,36,40,57]或视频的方向[56]。另一条研究路线侧重于使用时间相干性[6,24,26,41,62,63]作为监督信号。然而,这些方法通常一次对单个视频进行优化,因此与对一对视频进行联合优化的方法相比,它们利用的信息较少[16,28]。此外,通过最大化来自同一视频的两个随机裁剪和增强剪辑的相似性来学习这种视觉表示[4,18,38,43,45]。这需要包含完全相同的单个动作的训练视频。然而,在现实世界的场景中,复杂的人类活动通常涉及多个动作甚至背景帧。这些方法的另一个限制是,它们旨在学习粗略的剪辑式视觉表示,因此它们不适合于帧式下游任务,如细粒度动作识别。与这些方法相比,我们提出了一种自监督学习策略,可以从涉及SE的无约束视频中学习帧表示。顺序动作。如果视频是同步的,则视频对齐是相当简单的这可以通过使用现有的方法来完成,例如CCA [2,3]和DTW[7]。计算机视觉的最新趋势[47]利用深度网络,并提出 通 过 从 具 有 相 同 人 类 活 动 的 视 频 在 这 方 面 ,Sermanet等人。 [47]提出通过对齐同步的多视图视频来学习交叉序列视觉表示,这些视频从不同的视角记录完全相同的人类动作由于同步的多视图视频并不总是可用的,因此这种方法不能推广到无约束的设置。Dwibedi等人 [16]通过在具有周期一致性损失的非同步视频中找到帧对应来解决这个问题,然而,该方法仅寻找序列中的局部匹配,并且没有明确说明视频的全局时间结构也许与我们的方法最相似的作品是[25,28],它将视频对与严格单调时序正如我们在引言中所解释的,这种假设过于强烈,在现实世界中很少自然发生。与这些方法相比,我们的方法不需要同步的视频,并且学习从野外设置中对齐视频序列,野外设置包括时间变化,例如背景帧、冗余帧和非单调帧。如图所示。4,我们的方法始终优于上述方法,如果存在时间变化,则裕度甚至更大。最佳传输。最优运输度量空间上两个概率分布之间给定与每个实体相关联的特征向量和它们之间的距离矩阵,它提供了一种方法来建立特征之间的对应关系,使距离之和最小化。此外,它还提供了最优性,可分性和完整性的保证。这些理想的属性已被用于许多不同的任务,例如场景流估计[37,44],对象检测[22],域自适应[58],分类[48]和匹配空间域中特征的点匹配[46]然而,没有一个像我们这样关注序列比对。一个潜在的原因是,香草最优传输公式不考虑时间先验,因此在时域中对齐不太可靠,如图2(a)所示。一个例外是[50],它只使用最佳传输来测量骨架序列之间的距离,而不像我们一样学习视觉表示此外,它只强制执行单调的时间先验,而不考虑时间变化的情况,因此比我们专门针对这种情况的方法灵活性差3. 方法在本节中,我们首先通过对齐视频序列对中的帧来形式化自监督表示学习的问题(第二节)。第3.1节)。之后,我们提出了我们的方法,将时间先验纳入最佳传输,以利用时间信息和处理非单调帧(第二节)。3.2)。然后,我们提出了一种有效的方法来处理背景和冗余帧(第二节)。3.3)。最后,我们提供了损 失函数 和模 型细节 的总结 (第2 节) 。第 3.4段)。3.1. 最佳运输路线给定两个序列 的 视频 帧 S =[s1,s2,.,sN]且V=[v1,v2,...,vM],我们将它们各自的嵌入取为X=[x1,x2,.,xN]且Y=[y1,y2,.,yM]。X和Y是用编码器网络计算的,如图所示3 .第三章。如果帧si和vj表示相同的细粒度动作,则它们各自的嵌入xi和yj之间的距离应该很小,否则,距离应该是2184$×∥ −∥··√- -NNSXVYM编码器(一)(b)第(1)款(c)第(1)款5432143121(d)其他事项视频嵌入图3. 编码器网络和视频嵌入。大.给定这样的嵌入,最优传输(OT)可以用于通过首先计算N M距离矩阵D来比对两个这样的序列,D的分量是嵌入向量之间的欧几里得距离,即d(xi,yj)=xiyj。嵌入之间的最优分配dO(X,Y)可以通过求解以下优化问题来找到图4. 分配变化。(a)两个视频严格遵循相同的时间顺序,分配矩阵沿着对角线具有峰值。(b)来自一个视频的活动比另一个视频早一点开始(c)一个视频的动作比另一个慢,因此分配矩阵具有靠近对角线而不是严格平行于对角线的峰值。(d)动作在一个序列中遵循单调顺序,但在另一个序列中不遵循单调顺序。排序关系,因此不利用我们知道存在于视频序列中的时间一致性。在大多数情况下,给定同一活动的多个视频,一个序列的时间位置应该仅dO(X,Y):=minT∈U(α,β)1与另一个序列的附近时间位置中的元素对齐。在一个极端的情况下,两人...这里<,>是Frobenius点积,α=(α1,.,α N)和β=(β1,...,β M)是总和为1的非负权重,表示各个帧的相对重要性。 由于我们没有理由使一帧的权重大于其他帧,因此我们取α i= 1/N,β j= 1/M,对所有i和j。所有可行的转移矩阵的集合用U表示。U中的有效传输矩阵满足行和列的和等于α和β[12],特别是:U(α,β):={T ∈ RN×M|T 1M= α,T 1N=β}(2)当量1可以用线性规划来求解,然而,这是计算上昂贵的过程,并且不适合于训练目的。为了解决这个问题,Cuturi [12]提出用附加熵项正则化OT问题,并使用Sinkhorn算法求解。如果序列完全对齐,则传输矩阵T应该是对角的。在实践中,这是一个过于强大的限制。如图4所描绘的,活动可以在一个序列中比另一个序列更早地开始;它可以更快;视频序列中的一个中的动作可以是单调的,而其他序列不是。为了捕获序列之间的时间变化,同时能够最佳地对齐两个视频,我们建议在最佳传输问题上强制执行时间先验。为此,我们提出了一种新的传输矩阵的先验分布与自适应高斯混合模型(GMM),包括两个时间先验。第一个先验,我们称之为一致性先验,有利于一个序列到另一个序列附近时间位置的元素的传输,因此尊重整个时间结构和序列之间动作顺序的一致性。与此在此之前,分配矩阵很可能具有峰值值。O(X,Y):不min∈U(α,β)−H(D)(3)沿对角线方向的值应逐渐减小,其中h是使问题正规化的熵项,是一个小的标量系数。在这里,传输矩阵的条目,即。Ti的系数ti,j可以被理解为与S中的帧i与V中的帧j对齐的概率成比例。距离di,j的大值将对应于ti,j的小值,这意味着这两个帧是不相似的,因此具有较低的机会如图5(a)所示。 我们可以用 一种二维分布,其中沿任何垂直于对角线的线的分布是以对角线为中心的高斯分布。我们使用高斯分布对分配矩阵上的一致性先验进行2的对齐。这种公式化的好处是,我们可以通过建模T来执行时间先验,以遵循一个prede-1Pc(i,j)=eσ2 πl(i,j)2σ2,(4)精细的时间分布。3.2. 强化时间先验其中lc(i,j)是从位置(i,j)到对角线的距离4412345123451234123451123412345321232185c虽然最优传输测量了对齐两个序列的最小成本,但它完全忽略了时间或l(i,j)=|i/N−j/M|1/N2+ 1/M2 .(五)2186真实帧虚拟帧∈∈∈√√。12345(a)(b)(c)(d)图5。时间先验的玩具例子。浅色表示高对齐概率。(a)峰值之前的一致性沿对角线显示的值。(b)地面实况概率其中存在许多非单调框架。(c)最优性先验来自于运输矩阵,峰值出现在嵌入空间中最相似对的位置上。(d)(b)和(c)的高斯混合,与(a)或(c)相比,其更准确地这种先验,虽然建模跨序列的一致性,不允许处理无约束的非单调序列。例如,在两个序列中以完全相反的顺序执行动作的极端情况下,一致性先验将无法捕获时间变化。类似地,对于其中存在许多非单调帧的两个序列,如图5(b)所示,该概率分布不会理想地对比对进行建模。为了能够明确地处理非单调序列,我们提出了另一种先验,我们称之为最优先验。回想一下,我们在等式中计算的传输矩阵T。3表示两个视频序列之间的粗略对齐,并根据序列之间的时间变化我们利用这个传输矩阵来模拟另一个时间先验。特别地,如图5(c)所示,我们对先验进行建模,使得沿着垂直于对角线的任何线的分布是高斯分布,以基于传输矩阵的最可能对齐的交点为我们对分配矩阵上的最优性先验建模,l2(i,j)图6. 虚拟帧。虚拟帧使模型能够处理不应对齐的不匹配帧。冗余帧(显示为4和5)和背景帧(显示为灰色)被明确指定给它。其中,k[0,1]是我们设置为1的加权参数。0,并且随着时间逐渐减小,以考虑到学习的传输矩阵在训练的最开始时不太可靠并且在稍后阶段变得更鲁棒的事实。通过在最优传输上强制时间先验,我们的模型能够自适应地处理非单调帧和时间变化。3.3. 处理背景帧和冗余帧一致性和最优性时间先验使我们的模型能够处理视频序列之间的非单调帧。然而,他们不显式地处理背景和冗余帧,介绍了第二节。1.一、 为了能够在我们的模型中考虑这样的帧,我们在传输矩阵中引入了额外的虚拟帧,使得不匹配的帧被明确地分配给它,如图2所示。六、为此,我们增加了传输矩阵TRN ×M,为每个序列增加一个额外的条目,以获得T<$ R(N+1)×(M+1)。在等式中引入的所有可行的运输矩阵的集合2成为U(α<$,β<$):={T<$∈R(N+1)×(M+1)|T1M+1=α,T1N +1=β}1Po(i,j)=eσ2 πO2σ2、(6)其中α和β是用一个额外元素扩展的权重向量,以考虑虚拟帧。如果有机会其中lo(i,j)是从位置(i,j)到给出最佳对准的帧位置(i,jo)和(io,j)的平均距离,由传输矩阵给出如果与所有真实帧的对齐度小于某个阈值,则我们改为将该帧与虚拟帧对齐。注意,许多帧可以与虚拟帧对齐,并且虚拟帧不跟随节奏。lo( i,j)=|+的|j/ M − j o/M|j/M−jo/M|2 1/N2+ 1/M2(七)我们在SEC中定义的Ral先验。3.2.简而言之,一致性先验Pc代表着将军3.4. 训练损失在这种情况下,序列对遵循相同的粗排序,而最优性先验Po对序列之间的潜在如图5(d)所示,地面真值分布由这两个先验的组合更准确地表示,我们使用高斯混合模型公式化,如下所示:P(i,j)=<$Pc(i,j)+(1−<$)Po(i,j),(8)VAVA损失。我们的模型占时间变化表现出在现实世界中的序列与可微的配方,依赖于一个最佳的运输损失。我们通过利用时间先验来正则化损失函数,如第2节所述。3.2.对于等式中描述的一致性先验,4,传输矩阵T的大值应该沿着对角线,其余的值对于其他区域应该很小。这样的运输结构43321532211−2187ΣΣDΣ ΣΣtijΣCiN+1O12+1矩阵可以用N+1M+1其中,1是指示函数,如果满足条件,则为1,否则为0W(i,j)=(i-j)2+1,是I(T)=.(九)在这里,我们为虚拟帧添加了一行和一列,如第 二节所述。 3.3,Ic(T)在等式在文献[1,50]中,将9称为逆差矩,并且将具有沿对角线区域的较大值。对于等式中描述的最优性先验,6,其中,大值出现在由传输矩阵给出的最可能的对准位置中,可以用N+1M +1在时间上分离远离帧和接近帧,并且λ3是边缘参数。这种损失鼓励接近的帧在嵌入空间中靠近,同时惩罚时间上远离的帧。在我们的方法中,除了使用视频内对比度损失项之外,我们还引入了最佳传输引导的视频间对比度损失来规范训练过程。特别是,我们建议对比视频对基于最优运输的相似性。讨论的I(T)=I(T)tiji=1(十)节中3.2,我们的运输矩阵提供了一个估计,在训练阶段中两个序列之间的对齐。d=(i−io)2+(j−jo)2我们利用这些信息来实施视频间的oN+1M+1传输损耗:我们的整体时间先验,结合了一致性先验和最优性先验,然后可以表示为C(X,Y)=D<$ X,Y(i,j)+1A(i,j)D<$ X,Y(i,j)在传输矩阵i=1j=1A(i,j)(十五)I(T)=Ic(T)+(1−)Io(T),(11)与我们在Eq中定义的相同8. 对于平滑对齐,我们进一步通过最小化两个矩阵N+1M+1其中,A(i,j)表示帧i和j,它们在我们的传输矩阵上为每行或每列产生最大的ti,j值,而A(i,j)表示帧i和j ,它们最 不可能对齐,具有最小的ti ,j值。这一损失如果期望帧通过我们的最优传输公式对齐,则鼓励帧具有相似的潜在嵌入,如果不是,则强制它们具有不同的潜在嵌入。我们的总正则化项定义为:K L(T||P)=i=1tijj=1logtijpij 、(十二)L cr= C(X)+C(Y)+C(X,Y).(十六)其中,P是如等式中所定义的。8,除了它是用虚拟帧增强的因此,我们的变差感知视频对准(VAVA)损失将通过在最佳传输公式内组合时间先验和KL发散来定义(等式2)。3):Lva va=dO(X,Y)−λ1I(T)+λ2KL(T||(13)其中dO(X,Y)是Sinkhorn距离[12],如等式中所定义。3,具有用于虚拟帧的额外行和列;λ1和λ2是用于对两个损失项进行加权的超参数。对比正则化。在视频对齐上强制执行时间先验通常会收敛到平凡的解决方案[28,50]。先前的工作[28]采用视频内对比损失项来正则化训练过程。给定视频嵌入的视频内对比度损失X定义为:N+1M+1最终损失。我们的最终损失是通过结合VAVA损失来获得的,VAVA损失在最佳传输上强制执行时间先验(等式10)。13),以及对比正则化项(等式13)。16)优化序列内和序列间帧的解纠缠表示。L all=L vava+ γL cr。(十七)这里,γ是衡量正则化项影响的超参数。4. 评价数据集。我们在四个不同的挑战性数据集上评估了我们的方法,即COIN [51],IKEA ASM [5],Pouring [47]和Penn Action [60]。COIN和IKEA ASM数据集表现出很大的时间变化,包括背景帧、冗余帧和非单调帧,如第12节所述。1.一、因此,我们使用它们来证明我们的方法在调整C(X)=i=11|i−j|> δW(i,j)max(0,λ3−D<$ X(i,j))j=1在不受约束的环境中的连续动作。Pouring和PennAction数据集不包含任何此类节奏-(M+1在框架中的距离index和DX(i,j)=||xi−xj||,是i=1 j=1- -一种(j)2+1嵌入空间中的距离δ是窗口大小,j=1O2188+1|i − j| ≤ δW(i,j)DX(i,j),(14)ral变化,即动作顺序是严格单调的,并且视频中没有背景帧我们使用这些2189×××两个数据集将我们的结果与TCN [47]和LAV [28]进行基准测试在IKEA ASM数据集上,[28]删除了模型训练和评估的背景帧。由于我们的目标是对齐不受约束的序列,因此我们将背景帧视为一个额外的类别。此外,在另一个评估设置中,我们删除了背景帧,以便能够与以前的工作进行比较[28]。实施详情。在[16,28]之后,我们使用ResNet-50 [30]作为编码器网络。将输入视频的大小调整为224 224。嵌入是从Conv4c层的输出中提取的,大小为1414一千零四我们从ImageNet预训练的模型初始化我们的网络,如[16,28]所示。我们将正则化项γ的权重设置在等式中。17为0。五、我们提供了更多的细节和消融研究的参数,我们在我们的支持。垫..评估指标。在[16,28]之后,我们使用三个不同的指标进行评估。我们首先在不使用任何标签的情况下在训练集上训练我们的编码器网络,然后使用冻结嵌入来评估我们的方法的性能第一个指标是相位分类精度,这是每帧分类精度细粒度动作识别。第二个是阶段进展(进度)[16],它衡量嵌入捕获过程或动作的进度该度量假设动作是严格一致的,因此仅适用于单调数据集,即Pouring和Penn Action。最后一个是Kendall由于此度量假设动作的顺序严格单调,因此它仅适用于Pouring和Penn Action数据集。对于所有测量,较高的分数意味着更好的模型。4.1. 与最新技术水平的我们评估的准确性,我们学到的表示在行动阶段的分类任务与支持向量机class-sifier训练分数0。1,0。5和1. 0的地面真相标签。我们比较了Pouring、PennAction和IKEA ASM数据集[16,28]中报告的准确度数据。以前的方法不报告无约束COIN数据集的结果。因此,我们在此数据集上重现这些基线的结果,以便能够对我们的结果进行基准测试。为此,我们遵循[16,28]的实现细节,并验证我们在Pour上再现实现的准确性-数据集模型标签分数0.1 0.51.0进展τ硬币监督学习随机特征Imagenet特征37.1140.73 四 十九 点一八29.5030.29 三 十点三八31.3234.74 三 十七 点四三------SAL [40]TCN [47][第16话]LAV [28]VAVA(我们的)34.6939.23 四 十点三二34.8739.73 四 十点五一35.8739.56 四 十点六六36.7938.85 三 十九 点八一43.7746.18 四 十七 点二十六分----------宜家ASM没有背景监督学习随机特征Imagenet特征21.7630.26 三 十三 点八一17.8917.89 十 七点八九18.0519.27 十 九块五------SAL [40]TCN [47][第16话]LAV [28]VAVA(我们的)21.6821.72 二 十二 点十四分25.1725.70 二 十六 点八24.7425.22 二 十六 点四六29.7829.85 三 十点四十三31.6633.79 三 十二 点九一----------宜家ASM背景监督学习随机特征Imagenet特征20.7425.61 三 十一 点九二17.0317.41 十 七点六一17.2718.02 十 八点六四----------------SAL [40]TCN [47][第16话]LAV [28]VAVA(我们的)22.9423.43 二 十五 点四十六分22.5125.47 二 十五 点八八22.7025.04 二 十五 点六三23.1925.47 二 十五 点五四29.1229.95 二 十九 点十分浇注监督学习随机特征Imagenet特征75.4386.14 九 十一 点五五42.7345.94 四 十六 点零八分43.8546.0651.13------SAL [40]TCN [47][第16话]LAV [28]VAVA(我们的)85.6887.84 八 十八 点零二分89.1990.39 九 十点三十五89.2391.43 九 十一 点八二91.6192.82 九 十二 点八十四91.6591.79 九 十二 点四十五0.74510.80570.80300.80540.83610.73310.86690.85160.85610.8755宾州行动监督学习随机特征Imagenet特征67.1082.7886.0544.1846.19 四 十六 点八一44.9650.91 五 十二 点八六------SAL [40]TCN [47][第16话]GTA [25]LAV [28]VAVA(我们的)74.8778.26 七 十九 点九六81.9983.6784.0481.2683.35 八 十四 点四五-83.5683.95 八 十四 点二五83.8984.23 八 十四 点四十八0.59430.67620.6726-0.66130.70910.63360.73280.73530.78290.80470.80532190表1. 基准评估。和IKEA ASM数据集,这些数据集具有许多真实世界应用所表现出的时间变化。特别地,在COIN数据集上,与最先进的方法相比的改进约为7%(相对改进为20%),这证明了我们的方法在野生环境中跨未标记视频对齐顺序动作的有效性。类似地,VAVA在IKEA ASM 数 据 集 上 实 现 了 5% 的 改 进 ( 相 对 增 加25%),这表明我们的方法在对齐具有时间变化的视频方面的优势对于Pouring和Penn Action数据集,不涉及时间变化,我们的方法在相位进展,Kendall τ和大多数相位分类精度方面仍然优于以前的工作ing、Penn Action和IKEA ASM数据集。我们将我们的变异感知视频对齐方法表示为VAVA,并在表1中报告了COIN,IKEA ASM,Pouring和Penn Action数据集的结果。我们的模型明显优于早期的COIN工作行动的进程及其时间结构。还请注意,Pouring数据集包含遵循严格单调时间顺序的视频,因此依赖于单调性假设的方法[28]更有可能过拟合此数据集。2191查询视频1视频2图7. 帧检索。VAVA可以精确地推理细粒度的动作和背景帧。当我们捕捉打开笔记本电脑盖的细粒度动作时,[28]检索笔记本电脑盖已经打开的图像(顶部)。与[28](底部)相比,我们帧内视频帧间视频KL一致性先验最优性先验虚拟帧阈值标签分数0.1 0.51.0✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓20.3823.0923.2719.4622.5822.9422.8024.6724.9624.7527.3527.0327.8128.0328.5921.7222.4723.6026.4927.2527.6324.2127.6427.2928.0328.6528.3729.1229.9529.10表2. 消融术我们在IKEA ASM [5]上消除了每个提议的术语。所有提议的术语都能持续改进性能。4.2. 消融研究在表2中,我们提供了一项消融研究,以证明VAVA的每种设计选择对动作相分类准确性的影响。视频内和视频间表示我们在等式中引入的对比损失项的效果。14、Eq15、规范培训程序。KL表示KL散度正则化项的效果。而一致性先验表示时间先验,在等式中引入。最优先验表示在等式4中引入的时间先验,其在对准期间强制跨视频的时间一致性。6,有利于跨视频的帧的最佳虚拟帧显示了我们在最佳传输公式中合并的额外虚拟帧我们进一步将我们的虚拟帧策略与Thresh旧方法进行比较,其中基于调整的阈值去除具有低匹配分数的比对。如表2所示,我们所有的设计选择都能不断提高算法的准确性。OptimalityPrior处理序列顺序中的变化,而ConsiderationPrior允许尊重视频的粗层次虽然它们都单独提高了性能,但结合两者的高斯混合模型进一步提高了准确性,这表明了每个先验的互补性我们进一步证明,虚拟帧策略显着提高性能相比,一个模型,不包括它和模型,使用更简单的图8. 示 例 对 齐 。 我 们从COIN 数 据集 的 Attend NBA SkillsChallenge任务中对齐两个视频。对于视频1中的每个帧,我们将其与其他序列中的最佳匹配正确对齐意味着动作帧与具有相同动作的另一帧对齐。冗余帧与虚拟帧对齐,背景帧与另一背景帧或虚拟帧对齐。正如可以通过大量的正确匹配所看到的,我们的模型可以可靠地比对具有时间变化的两个序列。基于阈值的方法(阈值)来处理背景帧。我们还评估了视频内和视频间对比度损失项的影响,并证明了它们通过规则化自监督学习过程而导致卓越的性能。此外,KL发散损失,鼓励平滑对齐进一步提高性能。在图7中,我们呈现了帧检索的定性结果,其中我们将最相似的帧与给定的查询帧进行匹配。如本例所示,VAVA能够可靠地对齐常规动作帧和背景帧。为了证明我们的方法能够在无约束环境中对齐序列动作,我们可视化了COIN数据集上代表性示例的分配矩阵,该示例具有涉及背景、冗余和非单调帧的不同时间变化。如图8所示,我们的模型能够以高精度比对这样的序列,并带来对时间变化的鲁棒性,这使得它适合于在野外比对顺序动作。5. 结论在本文中,我们提出了一个自监督学习框架,使用视频对齐作为代理任务。所提出的VAVA方法能够将序列动作与基于最佳运输的序列比对公式在野生环境中进行比对。我们还建议在最优传输上强制执行自适应时间先验,这有效地处理了时间变化。我们的实验表明,VAVA在Pouring,Penn Ac- tion,IKEA ASM和COIN数据集上的性能优于最先进的算法。我们未来的工作将探索视频对齐在基于AR的任务指导和程序学习中的应用。致谢这项工作由微软资助,部分由瑞士国家科学基金会资助。11223335442256422233246522534VavaLAV1第一次上篮运球第一次传球第二次传球6运球上篮背景帧虚拟帧正确对准错误对准234查询VavaLAV2192引用[1] 弗里茨·阿尔布雷格森从灰度共生矩阵计算的统计纹理度量俄勒冈大学信息学系图像处理实验室,2008。6[2] 西奥多·威尔伯·安德森。多元统计分析导论。威利纽约1958年3[3] Galen Andrew,Raman Arora,Jeff Bilmes,and KarenLivescu.深度典型相关分析。在2015年国际机器学习会议上。3[4] Nadine Behrmann,Mohsen Fayyaz,Juergen Gall,andMehdi Noroozi.基于对比视频表示学习的长短视图特征分解。在2021年国际计算机视觉会议上。3[5] Yizhak Ben-Shabat , Xin Yu , Fatemeh Sadat Saleh ,Dylan Campbell,Cristian Rodriguez-Opazo,HongdongLi,and Stephen Gould.宜家ASM数据集:通过动作、物体和姿势了解人们组装家具。在arXiv预印本,2020年。六、八[6] 约瑟芬·本吉奥和詹姆斯·伯格斯特拉。用于预训练复杂细胞状网络的缓慢,非相关神经信息处理系统的进展,2009年。3[7] Donald J. Berndt和James Clifford。使用动态时间扭曲来发现时间序列中的模式。1994年,KDD工作室。3[8] Joao Carreira和Andrew Zisserman。什么是行动识别?新模型和动力学数据集。计算机视觉与模式识别会议,2017年。1[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在2020年国际学习代表会议上。3[10] Jinwoo Choi,Gaurav Sharma,Samuel Schulter,and Jia-BinHuang.ShuffleandAttend : VideoDomainAdaptation. 2020年欧洲计算机视觉会议。3[11] Huseyin Coskun、Zeeshan Zia、Bugra Tekin、FedericaBogo 、 Nassir Navab 、 Federico Tombari 和 HarpreetSawhney。特定领域先验和Meta学习用于低拍摄第一人称动作识别。IEEE Transactions on Pattern Analysis andMachine Intelligence,2021。1[12] 马可·库图里Sinkhorn距离:最佳运输的光速计算。神经信息处理系统的进展,2013年。四、六[13] 阿里·迪巴,维韦克·夏尔马,吕克·范古尔,和雷纳·斯蒂费尔-哈根. Dynamonet:动态动作和运动网络。在2019年国际计算机视觉会议上。3[14] 阿里·迪巴Vivek SharmaReza Safdari,达柳什·洛特菲M. Saquib Sarfraz,Rainer Stiefelders,and Luc Van Gool.Vi2tech:Video and Image for Visual Contrastive Learningof Representation。2021年国际计算机视觉会议。3[15] Pelin Dogan , Boyang Li , Leonid Sigal , and MarkusGross.一种神经元多序列比对技术(Neu-MATCH). 计算机视觉与模式识别会议,2018年。1[16] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.时间周期-一致性学习在计算机视觉和模式识别会议上,2019年。一、二、三、七[17] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.在朋友们的帮助下:视觉表征的近邻对比学习。在2021年计算机视觉国际会议上。3[18] Christoph Feichtenhofer,Haoqi Fan,Bo Xiong,RossGir- shick,and Kaiming He.非监督时空
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功