自监督学习视频对应关系的方法——联合时空图中的路径搜索

120 浏览量更新于2023-10-13 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9960视频对应学习香港中文大学{zxzhao，ymjin，pheng} @ cse.cuhk.edu.hk摘要本文提出了一种自监督的方法，学习，ING可靠的视觉对应从未标记的视频。我们将对应关系公式化为在联合时空图中寻找路径，其中节点是从帧采样的网格片，并且通过两种类型的边缘链接：（i）从空间中的帧内邻居确定聚合强度的邻居关系，以及（ii）指示跨时间的帧间路径的转移概率的相似性利用视频中的周期一致性，我们的对比学习目标从它们的相邻视图和时间视图中与以前的工作相比，我们的方法积极探索中心实例的邻居关系，以学习中心邻居对之间的潜在关联（例如，“hand – arm”)在没有微调的情况下，我们学习的表示在各种视觉任务上表现出最先进的自监督方法，包括视频对象传播，部分传播和姿势关键点跟踪。我们的自监督方法也超过了一些完全监督的算法设计的特定任务。1. 介绍学习时间对应性-学习“什么去了哪里”的问题本质上，它对应于查询-目标匹配问题，其依赖于将查询帧t中的物理点（或块）与目标帧t+k中的物理点（或块）匹配的亲和度。一个实际问题是从大规模视频中收集密集注释，这需要花费大量的人力。它激发了许多自监督方法[45，50，24，22，21，47，15]，通过利用时间上的周期一致性作为自由监督信号来从未标记的视频中学习动态对象。图1.如何在视频中找到狗尾巴等小物体的对应关系我们认为，查询目标匹配的愿望都较长的意见（时间动态）和更广泛的意见（邻居关系），以区分类似的实例。我们将这两个线索捕捉到一个图表中，以学习对应关系。最近的方法通过主要从两个视角构建长程视图来(i) 通过单步关联学习像素级对应[24，47]，或（ii）通过多步关联学习块级对应[15]。单步关联可以被看作是像素级的亲和度。在时间步t和t+k处的两个块，旨在变换像素颜色。这种变换需要确定性对应以在t+k处定位目标块，这通过训练额外的无监督块跟踪器来实现[50]。但是，假设的前提是，Cor-具有相同颜色的响应像素可能被破坏，例如，不可避免的照明变化和未来帧中的变形，从而阻碍模型使用更长的时间线索。最近，Jabri等人[15]在t和t+k之间的每一个时间步，以马尔可夫链的形式建立多步关联在每个步骤中，块级亲和度链接两个相邻帧的所有块，保留视频中所有可能的对应关系因此，学习过程受益于具有所有中间视图的不幸的是，找到9961×涉及图像块仅捕获它们的非常窄的视图的相似实例之间的艰难匹配因此，我们确定了另一个关键因素，更好的查询目标匹配-看到更广泛的-这是忽略了现有的方法。让我们仔细看看图1所示的示例。人类如何跨帧跟踪右狗尾巴，并避免被类似实例中的左狗尾巴混淆(i)看到更长的时间：尾巴的形状如何随着时间的推移而变化确实是一个关键的线索，它可以用于多步关联[15]。(ii) 观察范围更广：通过考虑狗尾巴周围的邻近信息，例如狗的身体特征，以及狗与人的相互作用，更容易从更广泛的角度区分狗尾巴。然而，这不能通过直接扩大贴片尺寸来实现，因为将错过详细的在本文中，我们建议通过基于图形的框架来学习更广泛和更长的对应关系。我们将视频表示为联合空间-时间图，其中节点是网格片，边缘是两种类型的关系，即，邻居关系和相似关系。因此，大图可以被分解成两个子图。(i) 邻居关系图：我们首先为每个节点构建一个小图，该图链接到位于滑动邻域中的帧内节点。初始化的拓扑先验，边缘学习引导相邻节点表示的聚合到中心节点。因此，更新的节点表示捕获邻域的更广泛的视图。(ii)相似性图：然后，在更新的节点表示下，我们用成对相似性连接帧间节点。所有这些边形成用于远程剪辑的多步关联。给定联合图，长程对应的预测可以被计算为沿着图的路径（基于相似性的边缘的组合）。为了诱导超视，我们采用回文序列[15]进行训练，这为步行者提供了一个目标，即，回到起点。与先前的工作[15]相比，我们的路径级约束提供了来自时间视图和相邻视图的对比学习信号，从而导致相似实例之间的更可靠的匹配此外，我们通过根据每个节点的像素差异明智地丢弃“共同命运”[51]节点，在大型图上执行随机但细心的行走，鼓励模型关注更多信息的节点对。下面，我们总结一下这项工作的主要贡献。• 首先，我们设计了一个联合视频图模型neigh-bor关系在空间和相似关系在时间上的视觉对应学习。• 其次，我们将对比学习公式化为在图上的随机但专注的行走，以从时间和实例的相邻视图• 第三，我们的方法在各种视觉任务上优于最先进的自监督方法，例如，对象、零件传播和姿态跟踪。它还超越了一些特定于任务的完全监督算法。2. 相关作品自我监督表示学习。从未标记的图像或视频中学习视觉表示已在许多借口任务中被广泛探索，包括未来预测[39，27]，帧排序[23，30]，运动估计[23，30]，运动估计[23，30]，运动估计[23，30]和运动估计[23，30]。估计[1，42]和音频分析[34，19]。这些方法学习良好的特征表示，可以通过进一步微调一小组标记样本来很好地推广到多个任务。它们的核心思想是利用图像或视频中的固有信息作为超分辨率信号。例如，可以通过增加相同的实例来构建对应的对[52，3]。然而，手动增强静止图像可能并不总是正确的对应。对比学习[33，6，11，10]中的最新作品通过选择在空间[11，6，2]或时间[10，33，37]上接近的对来探索相似性学习的监督相比之下，我们通过空间上的邻居关系和时间上的相似关系来隐式地确定哪些对更接近自我监督函授学习。最近的方法集中于以自我监督的方式从未标记的视频中学习对应关系。时间周期[50]的关键思想是训练一个确定性补丁跟踪器，通过在视频中向前和向后跟踪来找到查询补丁的对应关系。同样，UVC [24]和ContrastCorr [47]采用补丁跟踪器来获得对象级对应关系。但他们也探索细粒度的对应关系，通过学习一个像素明智的亲和力与着色。不同的是，Wanget al. [47]将视频内变换[24]与视频间变换组合以形成对比对。此外，CorrFlow [22]和MAST [21]使用比其他人分辨率更高的特征图（2），并产生令人印象深刻的结果。最近，Jabri等人[15]将对应关系公式化为对比随机游走，允许在外观上可能具有显著差异尽管这些方法取得了成功，但在执行查询目标匹配时，其中许多方法仍然与压倒性的噪声或负样本作我们的方法通过将相邻视图引入到用于对比学习的匹配对来解决这个问题，这使我们能够在中心表示及其邻居之间学习隐式关联。视频图表。将视频表示为图形通常可以捕获视频中的空间-时间关系[41，49，49]。9962----图2.我们的联合时空图的示意图对应学习。具体地，我们有两个子图，其将网格贴片（节点）与不同的关系相关联。（i）邻居关系图q^，E：它将中心节点连接到其邻居q^，其中边E用拓扑先验初始化，通过该拓扑先验，可以以可学习的方式将相邻嵌入聚合到中心(ii) 相似性图q，A：其将帧间节点q与成对相似性亲和力A（在更新的表示空间中）链接以形成长距离序列上的多步关联此外，我们采用节点丢弃技术和转移序列作为回文来将图升级为{q¯，B}，其中我们执行基于对比学习的随机注意力搜索以找到对应。36、15]。视频图的关键是将图像块形成节点，并用边连接起来。一个popu- 最大的方向是通过连接在空间上重叠或在时间上接近的对象来对对象-对象交互进行建模。它们已被广泛应用于视频分类[49]，检测[36]或视觉关系推理[41]，通过与条件随机场（CRF）[20]或图卷积网络（GCN）[18]相结合。最近，一些工作开始通过连接具有相似外观或语义相关的帧间节点来对相同对象的状态如何随时间变化进行建模[15，49]。利用相似性关系，表示学习的任务可以通过在图中传播节点身份来诱导。为了更好地学习节点之间交叉注意的实例区分，我们进一步通过对帧内节点的邻居关系进行建模，这使我们能够学习中心节点与其邻居之间在空间和时间上的潜在关联。3. 方法我们建议将视频表示为用于学习时间对应的联合时空图。如图2所示，节点是在网格中采样的帧片，边包含两种类型的连接：帧内节点之间的邻居关系和帧间节点之间的视觉相似性。基于这两个关系，可以将大图分解为两个子图，包括相邻关系图和相似图，分别用于捕获较宽和较长接下来，我们对图进行推理，以找到用于对比学习的潜在我们的学习过程可以被解释为一个随机的，但细心的走在图上自动放弃一些在本节中连续描述两个子图的构造细节和学习过程。3.1. 邻居关系图给定视频序列I，我们表示对应于在来自帧It的网格中采样的N个重叠块的节点的集合qt。一般而言，qt中的每个节点将使用编码器被映射到12归一化的d维嵌入，其中d是信道号。嵌入有时捕获对象的非常局部的视图，尽管对于学习微小结构是必要的，但它很容易导致查询-目标匹配的模糊性。直观地，相邻节点为中心节点提供对象或与其他对象的交互的更宽视图，这有利于找到其时间对应。出于这一动机，我们建立了一个邻居关系图，通过相关的信息，从邻居的一般拓扑结构的指导下，加强边E仅建立在节点i和其邻居之间，而不是所有其他节点[28]。通过softmax函数将连接到节点i的所有边缘值的和归一化为1。如果节点i和j在空间上更接近或在语义上更相关，9963n×不T−1不--不不电话+1A= YA。（三）j=0从其相邻节点中读取：f（qi）=softmax（Eij）·softmax（qj），（1）其中，qj是qt中的第j个节点，并且f（qi）是更新的t t图3.通过边初始化在邻居关系图中编码拓扑信息三种结构（即，水平、垂直、正方形）将中心节点不同地与更宽的表示相关联。我们采用归一化的注意矩阵作为初始值的边缘编码的拓扑先验。则Eij应该更高。我们将邻居关系图记为Gr={q，E}，其中q是n个邻居的集合。滑动的邻居。我们通过将友好邻域[13，17]视为小网格（例如，产生9个邻居的3 × 3网格），并对中心节点的邻居不需要更大的邻域，因为更远的节点更有可能引起噪声（见图6（a）中的性能下降对于qt中的不同节点，我们以它们为中心，以滑动窗口的方式确定相应的邻域。- 节点Q1的嵌入，其提供加权相邻语义，同时保留原始特征模式。与GCN的通道级特征聚合不同[49，18]，我们的图注意力执行节点级特征模拟，将每个节点嵌入作为一个整体。我们在3.3节中展示了这种机制有利于对比学习。更重要的是，E可以通过反向传播来学习，通过反向传播，可以在训练期间对更一般的邻居关系进行建模。3.2. 相似度图表在考虑帧内节点关系后，我们通过基于相似性的亲和力将相邻帧中的视觉对应节点连接起来。成对相似性函数的一个一般选项是两个特征嵌入之间的点产生：F（（q1），（q2））=（q1）（q2）.根据最近的相似性学习方法[15，24，47]，我们对具有温度τ的相似性函数采用逐行softmax函数，以获得由Gr更新的帧间节点嵌入之间的非负亲和度矩阵：这导致了在N个节点之间的共享边E∈RN×nexp（F（f（qi），f（qu））/τ）At+1（i，u）=tt+1.（二）Qt，即， E1j= E2j=… 其中j ∈ {1，2，… n}。编码拓扑先验。为邻居关系建模-tΣNexp（F（f（qi），f（ql））/τ）首先，我们通过显式编码拓扑来初始化E逻辑信息在邻域中（参见图3），基于空间接近度，关于中心节点，我们通常具有三种类型的拓扑，包括垂直、水平和正方形结构。它们中的每一个都可以将中心元素与相邻视图组合成特征空间例如，“身体中心”可以使用水平、垂直或正方形拓扑用我们确实有其他情况下，对象-对象的相互作用是由邻居捕捉，这也提供了一个关键的线索，在建模邻居关系。为此，我们根据不同拓扑中节点出现的次数生成归一化注意矩阵，并使用该矩阵来初始化边E。因此，拓扑先验可以是编码，以指导下面的学习E.注意图表。由拓扑信息推进，该图捕获邻近节点的关系重要性然后，我们探索了一种图注意力机制，通过聚合mes来增强中心节点i等式（2）中的亲和度对所有可能性放置权重。在t和t+1处节点之间的边缘更小，更大的可能性表明成对的小片更相似。给定这样的连接，我们已经可以在视频中的两个相邻帧之间构建简单的相似性图。然而，两帧内的短时动态提供了非常有限的对象视图。因此，我们将视频中的所有帧间节点连接起来，长度为T，并将图路径公式化为边的马尔可夫链，遵循[15]中的思想：t+T t+i+1tt+ii=0时这里，我们可以将相似性图表示为Gs=q，A，其中q表示视频中的所有帧间节点，并且A是等式（3）中描述的边缘链。3.3. 联合时空图上的注意行走我们的目标是在没有人类注释的情况下学习联合时空图中的时间对应关系。类似于探索时间上的周期一致性的现有技术[50，l=19964--∈ΣΣ−Σ15]，我们采用It，.，It+T，…It用于训练，其中查询节点的目标应该是其原始位置。根据[15]的思想，我们将周期一致性损失构建为：L周期（G|G={q，B}）= LCE（B，I），⑷其中G是具有边B=的联合回文图At+T，并且I是根据-tt+T指向第一帧节点的位置，例如，第i个节点的基础真值是i。节点丢失。与事物-可数对象（如人和动物）相比，在图中学习对应的一个问题是匹配事物-类似纹理或材料的大区域，如天空和土地（图4）。素材中的“共同命运”[51]节点与相邻帧的相关片段中的所有其他节点具有很强的亲和力，这使得在训练期间很难并且有点不可能走回原始位置。为了解决这个问题，我们提出了一个节点的像素差异的基础上，节点辍学策略，给定的“共同命运”的节点总是包含非常相似的上下文。具体来说，我们首先使用编码器检索每个节点的像素嵌入pRd×hw，其中hw是下采样的空间大小。接下来，我们通过点产生来计算像素嵌入之间的自相似性：S =pp。我们将节点的像素差异定义为：hw hw图4.节点丢弃，以避免本文提出了一种基于像素差异δ的阈值化方法。一个边缘作为特征空间中的潜在多对多对齐，涉及除了中心-中心对之外的用于对比学习的额外例如，中心-邻居对-时间步t处的节点和时间步t+1处的其对应邻居之一，或者甚至是邻居-邻居对.以手-臂对为例，由于它们在大多数情况下作为邻居物理连接，因此当学习“手”的对应关系时，我们的模型也可以将其嵌入更接近“臂”的嵌入。回想一下，我们通过对象（6）学习等式（1）中的E。学习的E鼓励模型找到更可靠的中心-中心或中心-邻居对用于对比学习，这生成更好的节点表示，作为E对一般邻居关系建模的回报。我们δ=11S（hw）（hw）iji=0j=0、（五）我相信这是我们的模型学习实例的更多区分性表示的主要原因。其中，我们将自相似性转换到相反侧，使得δ的值越高表示像素之间的差异越大然后，我们设置阈值δ以丢弃像素差异低于它的那些一致性节点。所提出的策略通过专门处理“共同命运”节点而优于[15]中我们的最终培训目标是：不4. 实验我们在各种视觉对应任务中广泛评估我们学习的表征：视频对象传播、人体部分传播和姿态关键点跟踪。我们首先与用于视觉对应学习的最先进的自监督算法进行比较，包括TimeCycle [50]，CorrFlow [22]，MAST[21]，L周期（G¯|G¯={q¯，Bk}）= LCEk=1（Bk，I），（6）[24][25][26][27][28][29][2然后，我们将我们的模型与来自表示学习方法的预训练特征进行比较，包括MoCo[11]，其中q¯是节点丢弃后剩余的节点，并且的自监督对比学习方法Bk=At+kA t. 我们优化图年龄; VINCE [10]，MoCo对视频的扩展;图像-tt+k其中剪辑长度k从1到T变化在这方面，我们被允许在图上执行随机但仔细的行走，迫使模型通过模糊匹配的对冲来区分信息节点对。额外积极对的对比学习。我们可以将我们的模型视为一个对比学习问题链，该问题由“一跳”循环一致性约束指导基本上，强边缘产生一对一的对齐，即，一对积极的。然而，在经由等式（1）聚合相邻信息之后，我们可以解释：geNet [12]，一种强监督方法，其中模型在ImageNet上进行预训练。所有上述方法都使用ResNet- 18 [12]作为主干。此外，我们还比较了一些完全监督算法设计的特定任务。最后，我们提供了深入的消融研究。4.1. 执行编码器。为了公平比较，我们还采用ResNet- 18 [12]作为编码器，将最后两个残差块（res 3和res 4）的步幅减少到1。我们添加一个线性亲-9965×××不× ××不JF图5.在DAVIS 2017数据集上与其他自监督方法进行定性比较（a）目标框架。（b）目标帧的地面实况(c)UVC的结果[24]。(d)对比校正结果[47]。(e)视频漫游的结果[15]。(f)我们的结果。表1.DAVIS 2017数据集上的视频对象传播结果我们展示了最先进的自监督方法和一些监督方法的结果Train Data表示用于预训练的数据集，包括：I = ImageNet [12]，K = Kinetics400 [5]，C = CoCo [25]，D = DAVIS 2017 [35]，P = PASCAL-VOC [8]，Y= YouTube-VOS [53]，O = OxUvA [43]，V =VLOG [9]，T = TrackingNet [31]。分辨率指示用于对应匹配的特征图是否具有更高（2X）分辨率。方法监督骨干训练数据分辨率JFmJmJrFmFrMOCo [11]ResNet-18I60.8 58.6 68.7 63.1 72.7紫外线[24]ResNet-18K电话：+86-21- 8888888传真：+86-21 - 888888881✓ResNet-50在平均池化之后，对节点进行一次投影，以生成128维节点嵌入。每个节点的逐像素嵌入由相同的投影创建，而没有节点丢弃的平均池化。训练我们使用来自Ki-netics 400 [5]数据集的未标记视频和Adam优化器来训练。我们在等式2中将温度τ设置为0.05。[15]每一个256 256帧中，我们在7× 7网格中采样64 × 64块导致每帧49个节点在没有额外说明的情况下，我们的滑动邻域是一个3 3网格，包括9个相邻节点，训练序列的长度为10。为了看到足够的样本，我们首先使用110 −4的学习率在没有节点丢失的情况下训练模型5个epoch。接下来，我们设置δ = 0。2用于节点丢弃并训练模型学习率为1 10−5的15个周期。所有实验均在4个NVIDIA Titan Xp GPU上进行。推理。所有的评估任务都可以被认为是视频标签传播，其是预测目标帧中的每个像素的标签，只给出第一帧中的标签（即，源）。为了公平比较，我们对所有任务使用与[15]相同的标签传播策略和测试协议。简而言之，标签Lt被传播为Lt=KsLs，其中L_s是源标签，K_s是源帧和目标帧之间的前k个转变（对于所有任务，k为了提供时间上下文，最后m个帧也用于传播（对于DAVIS、VIP和JH-MDB任务，m为了避免来自空间中遥远的像素的噪声，查询像素受到半径为r的局部注意力掩码的限制（对于JHMDB，r为5，对于所有其他任务，r为12我们使用res3的输出作为特征表示来计算标签传播的亲和力，并且τ被设置为0.05以与训练一致。4.2. DAVIS 2017上的视频对象传播我们在半监督视频对象分割的一个流行的基准上评估我们的模型，即DAVIS 2017 [35]，它提供了第一帧中多个对象的语义掩码。为了与以前的作品[15，47，24，50]进行公平比较，我们在分辨率为480p的图像上测试了该模型。我们报告了Jaccard指数（IoU）和轮廓对齐的平均值（m）和再调用（r），详见表1。图5和图7（a）示出了传播的对象遮罩。具体来说，我们的方法比MoCo [11]和VINCE [10]有所改进，表明×[第10话]K1×60.457.966.262.871.5CorrFlow [22]O50.348.453.252.256.0MAST [21]MAST [21]ResNet-18OY2×63.765.561.263.373.273.266.367.678.377.7时间周期[50]V48.746.450.050.048.0[47]第四十七话不63.060.570.665.573.0视频漫步[15]K67.664.876.170.282.1我们的ImageNet [12]SiamMask [48]ResNet-18✓ResNet-18KII/C/Y1×68.762.956.465.860.654.377.769.962.871.665.258.584.373.867.5OSVOS [4]✓VGG-16I/D 60.3 56.6 63.8 63.9 73.8OnAVOS[44]✓ResNet-38I/C/P/D 65.4 61.6 67.4 69.1 75.4OSVOS-S [29]✓VGG-16I/P/D 68.0 64.7 74.2 71.3 80.79966epoch 0epoch 10固定1.0时间0时间10随机××××××表2.分别在VIP和JHMDB数据集上的部分分割和姿势跟踪结果我们比较了我们的模型与自监督和强监督的方法。Sup表示它是否是一种简化的方法。方法辅助姿势零件PCK@0.1PCK@0.2MiouVideoWalk [15] 59.3 84.9 38.6我们的61.4 85.3 40.270ImageNet[12] ✓ 53.8 74.6 31.9ATEN[54] ATEN--37.9薄切片网[38] ✓ 68.7 92.1-68因此，最好选择对比66的相邻节点数（）的方式(a) 邻域大小边缘值的影响70686664在视频中学习，而不是在视频中学习0 0.1 0.2 0.3 0.451015 20像素差异（）路径长度（2 ）的方式角形框架。我们的方法也对来自未标记视频的自监督方法表现良好，甚至不依赖于CorrFlow和MAST [22，21]中使用的更高分辨率的特征图或其他模块，例如UVC和ContrastCorr [24，47]中设计的补丁定位器我们的方法在所有评估指标上都比最先进的方法VideoWalk[15]实现了一致的改进。令人惊讶的是，我们的方法可以优于许多监督方法[48，4，44，29]，具有用于视频对象分割的特定架构。此外，我们表明，通过在训练过程中建模的邻居关系，我们的模型表现出优越的识别能力的实例级分离。如图5所示，UVC [24]和ContrastCorr [47]都无法通过学习像素级对应来区分相似实例。尽管在训练过程中看到了更多的硬负样本，[15]中的步行者仍然会对颜色相似的物体感到困惑。相比之下，我们的模型可以分辨相似实例之间的小部分差异，例如，狗尾巴或车窗，通过诱导邻居的观点进行对比学习。4.3. VIP上的人体部分传播我们在视频实例解析（VIP）基准[54]上评估了我们的方法在部分分割任务上的效果，其中涉及传播20个人体部分（例如，手臂和腿），需要比DAVIS更精确的匹配。我们使用与Jabri等人相同的设置。[15]，并将视频帧的大小调整为560 560。对于语义部分传播任务，我们通过平均IoU度量来评估性能。如表2所示，我们的模型优于现有的自监督方法，例如与Vide-oWalk [15]和ContrastiveCorr [47]相比，分别增加1.6%和2.8% mIoU我们还超越了完全监督的方法 ATEN[54]，该方法专门针对使用训练标签的数据集设计。图7（b）示出了语义部分传播结果的样本。有趣的是，我们的模型正确地传播每个(b) 节点脱落的影响（c）路径长度的影响图6.我们的方法在DAVIS 2017基准上的消融研究。(a)邻域大小和边值的影响。(b)节点丢弃的影响。(c)训练路径长度的影响。部分遮罩到相似的实例（第一个例子中的舞者）上，而不管他们何时离相机近或远。4.4. JHMDB上的姿势关键点跟踪我们考虑JHMDB基准[16]上的姿态跟踪任务，其涉及15个关键点。按照[24，15]的评估协议，我们在320320px图像上测试模型。我们采用正确关键点的可能性[38]（PCK）作为评估指标，该指标衡量了在不同阈值下接近地面实况的关键点的百分比。我们在表2中示出了相对于其他人的定量评价，并且在图7（c）中示出了定性结果。我们的模型在这个具有挑战性的任务上实现了对现有自监督方法的一致改进，该任务需要精确的细粒度匹配。值得注意的是，我们的模型在PCK@0.2 中的表现甚至比使用分类标签训练的ImageNet [12]基线好10.7%。4.5. DAVIS 2017的分析消融研究邻里大小通过构造维数为3的邻居关系图，我们研究了如何将更多的邻居节点关联起来以获得更广的视图一，十三，3三、五5-导致n=3、3、9、25个节点，re-分别为。在图6（a）中，我们发现9个相邻节点可以在DAVIS上达到最佳性能进一步增加邻域大小（n=25）可能会引起来自更远节点的噪声线索，导致比不考虑邻域关系的基线更差的结果。有趣的是，与水平连接节点的交互比垂直节点更有利于学习区分性表示（参见3（h）vs.3（v））。68666403（五）3（h）925边缘值时间周期[50]57.378.128.9紫外线[24][47]第四十七话58.661.179.680.834.137.4epoch 0顶部epoch 10易学0.09967∈∼图7.我们模型的传播结果。(a)DAVIS 2017 [35]数据集上的视频对象传播。(b)VIP [54]数据集上的人体部分传播。(c)在JHMDB[16]数据集上进行姿势关键点跟踪。第一个框架以黄色轮廓突出显示，并提供其标签。在没有微调的情况下，我们的模型在三个视觉任务上实现了有希望的长距离标签传播。边E的变体。我们还探索了图6（a）中邻居关系图中边E的三种变体：（i）固定：具有拓扑信息的固定边缘;（ii）随机：具有随机初始化的可学习边缘;（iii）拓扑学：具有拓扑初始化的可学习边。最后，对拓扑结构进行编码是建立节点近邻关系的基础在训练时间进一步学习边缘E产生更好的结果。我们的成功归因于在学习过程中获得的更一般的邻居关系。节点丢失。我们通过以0.1的步长用δ[0，0.4]的范围值训练我们的模型来评估节点丢弃的影响。更高的δ意味着更多的节点将基于它们的像素差异而被丢弃。在图6（b）中，我们发现适度的节点丢失（即，0的情况。10. 3）提高DAVIS上的性能，其中δ=0。2、达到效果。它表明，该技术可以处理路径长度。在图6（c）中，我们探索了训练期间路径长度的影响。使用长度为2、4、6、10、我们获得长度为4、8、12、20的路径用于训练。我们看到，较长的序列可以改善DAVIS上的结果。这个观察结果与以前的工作类似[15]，因为模型可以看到用于对比学习的实例的更长视图。成分分析我们在表3中分析了我们模型的关键组件。由于令人困惑的负样本，相似性图Gs单独产生不令人满意的结果。通过在Gr中建模邻居关系，在J F m中性能大大提高了2.2%&。进一步使用节点表3.在DAVIS基准上对模型进行了组件分析GsGr节点脱落J&Fm✓65.6✓ ✓ 67.8（+2.2%）✓ ✓ ✓ 68.7（+3.1%）联合图上的丢失使性能达到峰值。5. 结论在这项工作中，我们提出了一种新的自我监督的ap-proach学习对应从未标记的视频。我们的主要思想是探索结构和动态的对象从相邻的和时间的意见。为了实现这一点，我们学习在连接具有邻居关系和相似关系的节点的联合时空图上行走。三个视频传播任务证明了我们的学习表示的优越性。在没有微调的情况下，我们的方法优于最先进的自监督方法，以及一些为特定任务设计的强大的全在未来，我们计划处理那些- 其对应关系很难基于视觉相似性找到-通过利用来自大规模未标记视频的运动模式[40]或确认这项工作得到了香港研究资助局的支持。香港中文大学14201620。9968引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页[2] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示arXiv预印本arXiv：1906.00910，2019。[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督国际机器学习会议，第517-526页。PMLR，2017年。[4] 塞尔吉·凯利斯、凯维斯·科基齐·马尼尼斯、乔迪·庞特·图塞特、劳拉·里尔·塔伊·克雷默斯和吕克·V·安·古尔。单镜头视频对象分割。在IEEE计算机视觉和模式识别会议论文集，第221-230页[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页[8] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98[9] David F Fouhey，Wei-cheng Kuo，Alexei A Efros，andJi- tendra Malik.从生活方式到日常互动。在IEEE计算机视觉和模式识别会议论文集，第4991-5000页[10] Daniel Gordon ， Kiana Ehsani ， Dieter Fox ， and AliFarhadi.观看世界：从未标记的视频中进行表示学习arXiv预印本arXiv：2003.07990，2020。[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络。在IEEE/CVF计算机视觉国际会议论文集，第3464-3473页[14] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在Pro-IEEE计算机视觉和模式识别会议的会议论文集，第2462-2470页，2017年。[15] Allan Jabri、Andrew Owens和Alexei A.埃夫罗斯作为对比随机游走的时空对应。在神经信息处理系统的优势，2020年。[16] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid，and Michael J Black.对行动识别的理解。在IEEE计算机视觉国际会议论文集，第3192-3199页[17] 金东宽和爱丽丝吴。如何找到你的友好邻居：自我监督的图形注意力设计。2021年，在国际学术会议上发表。[18] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[19] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型第32届神经信息处理系统国际会议集，第7774-7785页，2018年[20] John Lafferty ， Andrew McCallum ， and Fernando CNPereira.条件随机字段：用于分割和标记序列数据的概率模型。2001年[21] Zihang Lai，Erika Lu，and Weidi Xie. Mast：记忆增强的自我监督跟踪器。在IEEE/CVF计算机视觉和模式识别会议论文集，第6479-6488页[22] 赖梓航和谢伟迪视频通信流的自监督学习arXiv预印本arXiv：1905.00875，2019。[23] 李欣颖，黄嘉斌，Maneesh Singh，杨铭轩。通过排序序列的无监督表示学习。在IEEE计算机视觉国际会议论文集，第667-676页[24] Xueting Li ， Sifei Liu ， Shalini De Mello ， XiaolongWang，Jan Kautz，and Ming-Hsuan Yang.时间对应的联合任务神经信息处理系统进展，第318-328页，2019年[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[26] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：场景间的密集对应及其应用。IEEE Transactions on PatternAnalysis and Machine Intelligence，33（5）：978[27] William Lotter，Gabriel Kreiman，and David Cox.用于视频预测和无监督学习的深度 arXiv 预印本 arXiv ：1605.08104，2016。[28] Jiaqi Ma ， Bo Chang ， Xuefei Zhang ， and QiaochuMei.Copu- lagnn ： Towards integrating representationalandcorrelativerolesofgraphsingraphneuralnetworks.arXiv预印本arXiv：2010.02089，2020。[29] K-K Maninis，Sergi Caelles，Yuhua Chen，Jordi Pont-Tuset，LauraLeal-Taixe´，DanielCremers，andLucVanGool.视频9969没有时间信息的对象分割。 IEEE Transactions onPattern Analysis and Machine Intelligence，41（6 ）：1515[30] Ishan Misra ， C Lawrence Zitnick ， and Martial Hebert.Shuf- fle和学习：使用时序验证的无

下载后可阅读完整内容，剩余1页未读，立即下载