没有合适的资源?快使用搜索试试~ 我知道了~
16508基于多尺度对比随机游动的像素轨迹学习张兴边1,3阿兰贾布里2阿列克谢A。Efros2 Andrew Owens1密歇根大学1加州大学伯克利分校2约翰霍普金斯大学3摘要一系列视频建模任务,从光流到多目标跟踪,都面临着相同的基本挑战:建立时空对应关系。然而,主导每个空间的方法不同。我们采取了一个步骤,以-ward弥合这一差距,最近的对比随机游走制定更密集,像素级的时空图。其主要贡献是通过由粗到细地计算两个框架之间的转移矩阵,将混沌引入搜索问题,在时间上扩展时形成多尺度对比随机游动这为光流、关键点跟踪和视频对象分割的自监督学习建立了统一的技术实验表明,对于这些任务中的每一个,统一模型实现了与特定于该任务的强自监督方法竞争的性能。11. 介绍时间对应是一系列视频理解任务的基础,从光流到对象跟踪。核心的挑战是通过在空间和时间中搜索来估计某个实体在世界上持续存在时的运动。由于历史原因,不同任务的实用性有很大不同:光流的目标是密集的对应关系,但只在相邻的帧对之间,而跟踪关心较长范围的对应关系,但空间稀疏。我们认为,时间可能是正确的尝试和统一这些不同的时间对应。自我监督学习中的一项新兴工作已经表明,在未标记的图像和视频上预训练的通用表示可以在一系列跟踪任务中产生强大的性能[20,26,35,75,77]。关键思想是,如果跟踪可以被公式化为时空图上的标签传播[86],那么所需要的就是很好地测量节点之间的相似性。事实上,最近的对比随机游走(CRW)公式[26]显示了如何学习这种相似性度量,以进行时间相关性分析。1 项 目 页 面 位 于 https : //jasonbian97 。 GitHub.IO/Flowwalk回应问题,提出了一个统一的解决方案。然而,将这种视角扩展到像素级时空图存在挑战。由于计算帧之间的相似性是节点数量的二次方,因此估计密集运动是非常昂贵的。此外,在模糊的情况下(如遮挡),没有办法明确地估计运动.同时,无监督光流社区采用了高效的密集匹配方法[83],使用多尺度表示[9,45,61,84]来减少大搜索空间,并平滑先验来处理模糊和遮挡。但是,与自我监督跟踪方法相比,它们依赖于手工制作的距离函数,例如普查变换[32,47]。此外,由于它们专注于产生运动的点估计,因此它们在长期动态下可能不太鲁棒。在这项工作中,我们通过将对比随机游走公式[26]扩展到更密集的像素级时空图,朝着弥合跟踪和光流本文的主要贡献是在搜索问题中引入了高精度,即多尺度对比随机游动.通过以由粗到细的方式整合局部注意力,该模型可以有效地考虑像素级轨迹上的分布。通过光流和视频标签传播基准的实验,我们表明:• 这为自监督光流、姿态跟踪和视频对象分割提供了统一的技术。• 对于光流,尽管使用了新的损失函数(没有手工制作的特征),但该模型与许多最近的无监督光流方法具有竞争力。• 在跟踪方面,该模型在姿态跟踪方面优于现有的自监督方法,在视频对象分割方面具有竞争力。• 周期一致性提供了一个互补的学习信号光一致性。• 多帧训练提高了两帧性能。2. 相关工作时空表示学习最近的工作已经提出了用于跟踪视频中的对象的方法,16509粗罚款图1. 多尺度对比随机游动。我们学习表示密集,细粒度匹配使用多尺度对比随机游走。在每个尺度上,我们创建一个时空图,其中每个像素都是一个节点,并且在时空中接近的节点是连接的。转移概率基于学习表示中的相似性。我们训练网络以最大化获得周期一致随机游走的概率。在这里,我们展示了一个像素使用其在前一个较粗比例下的位置初始化Walker自我监督表征学习Vondrick等人[71]将跟踪作为一个着色问题,通过训练一个网络来匹配灰度图像中具有相同颜色的像素匹配像素具有相同颜色的假设可能在长时间范围内失效,并且该方法限于灰度输入。该方法被扩展以通过两阶段匹配获得更高精度的匹配[35,38]。与我们的方法相反,预测是粗糙的,斑块级的关联。另一种工作是通过最大化循环一致性来学习表示。这些方法跟踪补丁向前,然后向后,在时间和测试他们是否结束了他们是根。Wang等人[74]提出了一种基于硬注意力和空间变换器的方法[27]。Jabri等人[26]将周期一致性作为随机游走问题,允许模型从多帧视频中获得密集监督。Tang等人[67]提出了一个扩展,允许完全卷积训练。这些方法在稀疏补丁上进行训练,并学习粗粒度的对应关系。相反,我们学习像素到像素的对应关系。其他工作鼓励相邻帧中相同位置的补丁在嵌入空间中接近[17,79]。基于优化的光流Lucas和Kanade [2,45]使用高斯-牛顿优化来最小化亮度恒定性目标。在他们的开创性工作中,Horn和Schunck [21]将亮度恒定性与空间平滑标准相结合,并使用变分方法估计流量。后来的研究使用鲁棒惩罚改进了流量估计[4,6,40,61,62],粗到细估计,mation [8],离散优化[13,55,58],特征匹配[5,53,78],双边滤波[1]和分割[87]。相比之下,我们的模型使用神经网络估计流量无监督光流早期的工作[49]使用玻尔兹曼机来学习图像之间的转换。最近,Yuet al.[83]训练神经网络以最小化与基于优化的方法非常相似的损失。后来的工作通过添加边缘感知平滑[76],手工制作的功能[48],遮挡处理[28,76],学习上采样[46]以及深度和相机姿势[82,85]扩展了这种方法。另一种方法通过匹配增强图像对来学习流[41,42,44]。最近,Jonschkowski等人[32]调查了以前的文献,并进行了详尽的搜索,以找到方法和超参数的最佳组合与这些工作相比,我们的目标是学习自监督表示进行匹配,而不是手工制作的功能。此外,我们的目标是在运动轨迹上产生适合标签传输的分布,而不仅仅是运动估计。在最近的工作中,Stoneet al. [60]将非监督流方法适应于RAFT架构[68],并提出了新的增强、自蒸馏和多帧遮挡修复方法。相比之下,我们使用PWC-net [65],因为它是先前工作中考虑的标准架构,并且因为它可以通过仔细训练获得强大的性能[64]。周期一致性。循环一致性长期以来一直用于检测遮挡[3,23,36,66,80],并用于对无监督流中遮挡像素的损失进行贴现[25,28,32,t k16510∈- -Q−A-是的i,i+1∈∈76]。Zou等人[88]使用循环一致性损失作为联合估计深度、姿态和流量的系统的一部分。最近,Huanget al.[22]将循环一致性与极线匹配相结合,但他们的方法对相机姿势的监督较弱,并假设自运动。相比之下,我们的是完全无监督的,并且能够单独处理周期一致性和平滑损失。如果没有额外的约束,它们的循环一致性公式具有平凡的解(例如,全零流量)。其他最近的工作[69]通过确保图像和它的扭曲变体与第二图像一致地匹配来学习匹配图像,Li等人。[37]使用具有固定过渡矩阵的随机游走来平滑点云上的场景流。循环一致性的随机游走公式也被用于半监督学习[18],使用标签来测试一致性。多帧匹配。许多方法使用第三帧来获得更多的局部证据以进行匹配。经典方法假设近似恒定的速度[30,63,70,72]或加速度[33,72],并测量光致稠度3.1.1分类:Contrastive Random Walks我们建立在Jabri等人的对比随机游走(CRW)公式的基础上。[26]第10段。给定一个k帧的输入视频,我们从每个帧中提取n个补丁,并使用学习的编码器φ为每个补丁分配一个嵌入。这些片形成连接时间上相邻帧中的所有片的图的顶点。一个随机的步行者从帧1,2,.,k,然后从k1,k2,.,1.一、转换概率由学习到的表示的相似性确定:As,t= softmax(Xs XtT/τ),(1)对于一对帧s和t,其中XiRn×d是d维嵌入向量的矩阵,τ是一个小常数,并且沿着每一行执行softmax我们训练模型以最大化周期一致性的可能性,即,walker返回到它开始的节点的事件:L=−1tr(log(A<$A<$)),(2)在整个框架上。 最近,Janaiet al. [28]第二十八话CRWnt,t+kt+k,t提出了一种无监督的多帧流方法,其中log是元素级的,A<$t,t+k是trans-k。具有低加速度假设和显式遮挡处理的光度损失。与这些方法相比我们使用后续帧作为训练信号。也有各种各样的方法,长期从帧t到t+k的位置概率:t+k1I=t3.1.2作为随机游走A<$t,t+k为时间范围,通常使用稀疏(或半密集)关键点[56,57]。其他工作链一起光流[7,66,73],通常在去除低纹理区域后。相比之下,我们的方法还学习监督光流。早期的工作学习光流与概率模型,如图形模型[15]。其他工作学习平滑度和亮度恒定性[62]或鲁棒惩罚[4,39]的参数。最近的Fischer等人[12,24]提出了具有内置相关层的架构。Sun等人[65]介绍了一种内置粗到细匹配的网络最近的工作[68]迭代地更新具有多尺度特征的流,以代替粗到细的匹配。3. 方法我们首先展示了如何使用多尺度对比随机游走来学习密集时空对应,从而产生一个通过简单的非参数匹配获得高质量运动估计的模型。然后,我们描述了如何将学习的表示与回归相结合,以处理遮挡和模糊,以改善光流。3.1. 多尺度对比随机游动我们回顾了单尺度对比随机游走,然后将其推广到多尺度估计。在训练之后,转移矩阵包含一对补丁在时空对应中的概率。我们可以通过取空间位置变化的期望值来估计帧s和t之间的补丁的光流fs,tRn×2gavg(As,t)=EAs,t[fs,t]=As,t D−D,(3)其中DRn×2是包含以下项的(常数)矩阵:像素坐标,并且As,t D是步行者与广泛使用的测量预测运动与起始点的偏差的前向-后向循环一致性公式[22,88]相比,全零流量)。这是因为在仅从图像区域的视觉内容定义的嵌入空间中测量循环一致性。3.1.3多尺度随机游动如到目前为止所提出的,这种公式扩展到高分辨率是昂贵的,因为计算转换矩阵是节点数量的二次。我们克服了这一点,通过引入层次结构的搜索问题。我们不比较所有的配对,而只关注局部的邻居。通过以粗到细的方式集成跨尺度的局部搜索,该模型可以有效地考虑像素级轨迹上的分布。16511init. 0流Al−1Xl−1不fls和ts和t经纱Al,tX~l不SFLs和+1个+Al+1经纱X~l不+1个s和XtSSS不Ss和tLs和t223C 普卢德不不 s和tΣ||(l)(l)·粗罚款Xl−1LsXl+1故当k ∈ [2. 4]长度周期。3.1.4光滑随机游动由于自然运动往往是平滑的[54],我们遵循光流[61]的工作,并将平滑度作为随机游动的额外必要条件。我们使用Jonschkowski等人的边缘感知损失。[32],其惩罚相似颜色像素附近的流中的空间变化:Xs输入fs,t输出输入Lsmooth=Epd∈{x,y}exp(− λcId(p))|fs,t(p)d2|(八)图2. 由粗到精的匹配。我们的模型在空间尺度上执行对比随机游走:它计算一个转移矩阵(等式2)。5),使用它来获得流量(方程5)。6),并且通过使用上采样的估计流来递归到下一级,以对准用于匹配的更精细尺度(等式6)。4).扭曲使用流对栅格进行采样从粗到细的局部关注。计算转移矩阵非常类似于光流中的成本体积估计[6,14,61]。这启发我们借鉴经典的空间金字塔,通常用于光学领域的多尺度搜索。流,通过迭代地计算稠密的过渡矩阵,从粗到细的空间尺度l∈ [1. L]。对于帧s和t,我们计算特征金字塔Xl∈RhW×d,其中h(l)和w(l)是比例尺为l的特征图的宽度和高度。 为了有效地匹配每个级别,我们使用来自前一级别fl的粗略流将目标帧Xl的特征扭曲到Xl的坐标帧中;然后,我们计算扭曲特征上的局部转移概率以考虑剩余运动。因此,我们以一种由粗到细的方式估计转移矩阵和流(图2)。2)递归计算层次其中I d(p)= 1Ic是在方向d上的所有颜色通道I c上平均的空间导数。参数λc控制相似颜色像素的影响我们将这种损失应用于模型的每个尺度3.2. 处理闭塞虽然对大多数图像内容有效,但非参数匹配没有用于估计被遮挡的像素的运动的机制,因为它需要下一帧中的 我们提出了一个变化,该模型将多尺度对比随机游走与直接预测每个像素处的流量值的回归模块相我们的回归器的架构紧密遵循PWC-net的细化模块[65]。我们学习了一个函数greg(),它从多尺度对比随机游走成本-体积和卷积特征中回归每个像素处的流量这些特征是从用于计算嵌入的相同共享骨干中获得的。我们在附录中提供了一个图表。Xl=warp(Xl,fl )(4)回归损失。我们使用损失来训练回归量,A1=masedsoftmax(X1XxlT/τ)(5)非常类似于对比随机游走目标。s和tst在这种损失下,已经很好地匹配的像素f1+ 1=上采样(gavg(A1)+fl),(6)s和ts和ts和t非参数模型(例如,未被遮挡的像素)将是未被遮挡的。其中,warp(X,f)使用双线性采样利用流融合对特征X进行采样,并且f1=0。为了便于标记,我们使用masked softmax编写局部转换约束,它将超出局部空间窗口的值设置为零。在实践中,我们使用优化的相关滤波内核来计算Eq。5,并且将转移矩阵Al表示为稀疏矩阵。损失在计算所有相邻帧对之间的转移矩阵之后,我们对所有水平上的对比随机游走损失进行求和:L可能改变它们的流值,而匹配不佳的像素(例如,被遮挡的像素)将使用平滑先验来获得它们的流值。我们使用与非参数模型相同的平滑损失,平滑8),并惩罚模型偏离非参数流量估计(方程8)。(3)第三章。我们还使用我们学习的嵌入作为学习的光度损失的特征,即,如果模型将具有不同嵌入向量的两个像素对应起来,则会导致损失。这会造成额外的损失:Lfeat=<$Xs−warp(Xt,fs , t)<$$>+λa<$fs ,t−gavg(As,t)<$,(9)X16512s和tmsCRWnlt,t+kt+k,tl=1L=−11tr(log(A<$lA<$l )),(7)其中,A′l的定义与Eq. 2,nl是层l中的节点数。在我们的实验中,我们使用L=5尺度因此,我们在训练期间不将梯度从回归量传播到嵌入X。如Eq。7、我们将损失应用于每个尺度和总和。其中fs,t是预测流量,λa是常数。为了防止回归损失影响学习的EM-16513LS−s和tt,s×t,s∈增强和掩蔽。我们遵循[32]并通过增强和扣除失败像素的损失来改进回归器对遮挡的处理一致性检查[42]。为了处理移动到屏幕外的像素,我们计算流,然后随机裁剪输入图像并再次计算,惩罚流之间的偏差。这导致新的损失,绑定。我们还去除了像素在光度损失中的贡献(等式10)。9)如果它们在从t到s的时间上向后的流量估计中没有对应关系。两者都是完全一样的[32]。这些损失仅适用于回归量,因此不会直接影响非参数匹配。3.3. 培训Objective. 纯非参数模型(第3.1节)可以通过简单地最小化多尺度对比随机游走损失和平滑惩罚来训练:L非=L msCRW + L平滑。(十)添加回归变量会导致以下损失:Lreg=LmsCRW+Lsmooth+Lfeat+Lbound。 (11)我们包括加权因子,以控制每项损失的相对重要性(在补充文件中指定)。架构为了提供与无监督光流方法的直接比较,我们使用PWC网络架构[65]作为我们的网络骨干,在减少滤波器数量后[32]。该网络使用卷积网络的特征层次结构来提供每个尺度的特征。我们使用来自该网络的成本体积特征作为随机游走的嵌入,Xl,在执行l2归一化之后。我们还使用它的回归器架构。我们用柔软的材料提供建筑细节。子循环。我们遵循[26]并在我们的对比随机游走中包括子循环:当在k帧视频上训练模型时,我们包括长度为k,k1的游走的损失,... 2. 这些损失可以有效地估计,完整路径多帧训练。当训练k >2帧时,我们使用课程学习来加速和稳定训练。我们训练模型以2,3,...连续k个帧周期优化. 为了实现对比随机游走,我们利用我们的粗到细公式的稀疏性,并将转移矩阵Al表示为稀疏的避免走捷径。当通过利用位置信息使用完全卷积网络进行训练时,对比随机游走可以潜在地获得捷径解决方案[26]。虽然最近的研究表明,通过增强[67]解决,我们发现在我们的网络中使用反射填充时避免了琐碎的捷径(对于所有卷积层,除了回归器中)。这可能是因为我们同时优化多个损失,并使用有限的搜索窗口,使得琐碎的解决方案更难找到。4. 结果我们的模型产生两个输出:光流场和像素轨迹(在转换矩阵中捕获)。我们评估这些预测标签传输和运动估计任务。 我们将它们与时空对应学习方法和无监督光流方法进行比较。4.1. 数据集为了与其他方法进行简单的比较,我们在标准光流数据集上进行训练。我们注意到,无监督光流文献使用的训练协议是不标准的。因此,我们遵循[32]的评估设置。我们在来自Flying Chairs数据集的未标记视频上预训练模型[11]。然后我们在KITTI- 2015[16]多视图扩展和Sintel[10]上进行训练。为了评估我们的模型我们还评估了我们的模型在标准的标签传输任务。JHMDB基准[31]在很长一段时间内将15个身体部位转移到未来的框架中DAVIS基准[52]传输对象掩码。4.2. 标签传播我们评估了我们学习的模型目标是将初始视频帧中提供的标签映射(可能描述关键点或对象片段)传播到视频的其余部分。我们跟随贾布里等人。[26]并使用我们的模型的概率运动轨迹来指导标签传播。我们自回归地推断每个目标帧t的标签对于每个先前的源帧s,我们有一个预测的标签映射LsRn×c,其中n是像素的数量,c是类别的数量。如在[26]中,我们计算Kl,矩阵这大大缩短了培训时间,并重新降低了内存需求,尤其是在最精细的尺度上。在一个GTX 2080 Ti上训练完整模型大约需要3天时间。我 们 使 用 PyTorch [50] 训 练 我 们 的 网 络 , 使 用Adam [34]优化器和循环学习率计划[59],基本学习率为10-4,最大学习率为5 10-4。我们提供培训hyperparamers的补充材料。通过保持A l的每个r w中 的前 k 个logit , 对源 帧的 注 意力 进行加权。 我们使用Kt,s作为每个标签的注意矩阵,即,L t= K t,s L s. 使用几个源帧作为上下文允许克服遮挡。我们使用在未标记的Sintel和YouTube-VOS数据集上训练的模型的变体,并在倒数第二个级别使用过渡矩阵和流场。16514JFt,sJHMDB姿态DAVIS段图3. 沿着运动轨迹移动片段和姿势。我们展示了JHMDB姿态(左)和DAVIS上的对象遮罩(右)的定性结果。对于DAVIS场景,我们展示了掩码传播(顶部)和软传播标签分布(底部)的示例表1. 分别使用JHMDB和DAVIS基准测试进行分段和姿势传播。t:链式流基线。姿势(PCK)分段方法拱@0.05@0.1@0.2J& FmUVC [38]ResNet18- 58.6 79.659.5[26]第一届中国国际汽车工业展览会VFS [79] ResNet50- 60.9 80.7 68.8UFlow [32]† PWC-Net24.151.372.142.0[68]第68话筏30.255.676.046.1我们的-SintelPWC-Net38.063.1八十一点四57.1我们的-VOS PWC-Net38.262.680.957.9金字塔,即第四层。由于转换矩阵描述了残余运动,因此我们在查询之前扭曲(即,使用f4)每个标签映射。最后,由于级别4中的特征只有16个通道,因此在计算注意力之前,我们将级别3和级别4中的特征堆叠以获得超列[19评价我们将我们的模型与最近的视频表示学习工作进行了比较,包括单尺度CRW [26],UVC [38]和最先进的VFS [79](Tab.1)。我们还报告了两个链接光流的基线:无监督UFlow [32]和监督RAFT [68]。对于姿态传播,我们在JH-MDB [31]上评估我们的模型并报告PCK度量,该度量测量了与地面真实值的各种距离内的关键点我们的方法在这个基准上优于现有的自监督方法,特别是在严格PCK@0。05,这是典型的不报告。请注意,我们的方法使用了一个非常小的网络。虽然我们的模型在细粒度匹配方面有所改进,但它仍然难以处理遮挡(与其他方法一样),这往往涉及大运动和运动模糊(见图3左图)。对于对象传播,我们在DAVIS [52]基准上评估了我们的模型,并报告了分别表征段重叠和边界精度的平均值和度量[51尽管我们专注于扩展到细粒度匹配,但该模型在DAVIS上实现了竞争性性能,优于周期一致性方法TimeCycle [75]。在传播的标签分布的注意力可视化中,我们看到过渡分布对瞬时遮挡是鲁棒的(图3中底),但仍然会受到漂移的影响(图3中底)。3右下角-tom)。有趣的是,我们的模型显著优于两种光流方法,这表明我们的模型提供的4.3. 光流我们评估我们的模型4.3.1非参数运动估计我们的模型能够仅通过非参数匹配来估计运动,如在图4中定性地看到的。 尽管模型简单,它基于与现有的流方法非常不同的原理,它在匹配非遮挡像素上获得了很强的性能(表1)。2)。它优于许多无监督的光流模型,如SelFlow [44](Tab.4)KITTInoc度量(非闭塞终点误差)。我们看到,模型的完全基于回归的变化获得了更好的结果,特别是在所有度量上。为了帮助理解我们的多尺度公式的重要性,我们与Jabri等人进行了比较。[26]在流量基准上,使用他们公开发布的模型(表1)。2)。这个模型类似于我们的非参数模型,但随机游走发生在一个单一的尺度上,没有光滑性先验。我们使用密集特征来评估模型,就像他们的方法一样。我们发现我们的模型明显优于它。为了控制训练差异,我们还尝试从多尺度训练中删除尺度(Tab。6),发现这大大降低了性能。4.3.2多帧周期我们问,当我们改变用于训练随机游走的帧数k时,表示的质量如何变化。我们在2帧光流上测试所有模型如表6所示,该模型使用3帧和4帧周期在所有指标上获得更好的性能4.3.3光度特征学习与其他有效的无监督光流方法相比,我们的模型不使用手工制作的功能。我们评估了我们学习的功能的质量时,作为一个光度损失,相比其他常见的设计(表。(五)。首先,我们将我们的模型与我们的t= 33t= 31t= 50t= 44概率掩模16515LLLGround TruthNonparametric(Ours)Regression(Ours) CensusCensus + Regression(Ours)图4. 光流定性结果。我们使用我们的非参数模型和基于回归的模型,在训练过程中看不到的图像上显示结果。突出显示的区域显示了基于回归的模型之间的显著差异。光流矢量由颜色编码。在光度损失内使用原始像素(而不是手工制作的特征)的模型,具有强大的Charbon- nier惩罚[61]。这个基线模型与UFlow的Charbonnier变体非常相似[32],但为了控制其他差异,我们使用自己的网络。这相当于简单地用Charbonnier损失(禁用对比随机游走)替换feat我们发现,由此产生的模型表现得明显更差。接下来,我们考虑使用最先进的手工制作的功能,普查变换[47],从而产生类似于UFlow的普查我们发现我们的特征在非遮挡像素上获得了有竞争力的性能,但是在所有度量上都比普查特征有显著的优势。这是可以理解的,因为对比随机游走没有学习被遮挡像素的特征的有趣的是,我们发现将这两个特征结合在一起可以提高性能,并且当使用多帧行走时,差距进一步改善,从而获得整体最佳结果。此外,组合特征在具有快速曝光和色调变化的图像对上显示出更强的鲁棒性。我们评估了在色调和亮度抖动图像对上训练的模型,发现具有我们学习的特征的模型4b)。详情请参阅补充资料最后,我们使用我们学习的特征作为ARFlow [41](一种最近的无监督流模型)的光度损失的一部分。我们将 featloss添加到他们的模型中,并重新训练它(同时通过对比随机游走联合学习特征)。由此产生的模型提高了所有指标的性能,在Sintel上有更大的增益(Tab. 4).表2. 非参数运动估计我们的单尺度、非参数和基于回归的方法。方法KITTI-15列车noc所有ER%(occ)Jabri等人 [26]12.6319.41美元我们的-非参数2.18 9.42 27.98我们的-带回归2.09 3.86 12.45表3.模型配置。所有型号均为2帧。回归-只找到一个捷径解决方案,预测零流量。KITTI-15列车配置noc所有ER%最大2.09 3.86 12.45非参数2.18 9.42 27.98feat2.20 5.02 17.53中没有功能一致性仅回归量14.21 21.45 41.34Lfeat中无回归因子约束5.5410.44 26.43无L界限2.14 4.88 16.54无L光滑10.98 17.43 34.854.3.4运动估计消融为了帮助理解模型的哪些特性有助于其性能,我们对KITTI-15进行了消融研究(表3)。我们询问了不同的损失对性能的影响。我们消除了平滑度损失(等式8),自我监督的损失(第8节)。3.2),并删除方程中的回归量的约束。设λa=0。我们看到平滑度损失显著改善了结果。同样,我们丢弃了Eq.的特征一致性项。9,这降低了结果的质量,但在所有度量上优于非参数模型。网络视频培训。我们发现,当仅在YouTube-VOS上训练时,我们的模型可以很好地推广到基准数据集[81](Tab. (七).为了比较,我们还在YouTube-VOS上训练了ARFlow [41]我们的模型在KITTI上获得了更好的性能,而ARFlow每-KITTISintel-Final16516联系我们联系我们联系我们联系我们联系我们KITTI-15战斗机清洁的终列车测试方法EPE EPE EPE EPE all noc ER %ER % FlowNetC [12](3.78)6. 85(5. 28)8. 51-澳门金沙城中心[24](1.45)4.16(2.01)5.74(2.30)-(8.61)11.48PWC-Net [65](1.70)3.86(2.21)5.13(2.16)-(9.80)9.60筏[68](0.76)1.94(1.22)3.18(0.63) -(1.50)5.10MFOccFlow [29]3.89 7.23 5.52 8.81 [6.59][3.22]-22.94EPIF低[85] 3.94 7.00 5.08 8.51 5.56 2.56 - 16.95DDFlow [43] 2.92 6.18 3.98 7.40 [5.72][2.73]-14.29[44]自流[2.88][6.56] 3.87 6.57 [4.84][2.40]-14.19UFlow [32] 2.50 5.21 3.39 6.50 2.71 1.88 9.05 11.13SMURF-PWC [60] 2.63 - 3.66 - 2.73 - 9.33-蓝精灵-筏[60] 1.71 3.15 2.58 4.18 2.00 1.41 6.42 6.83[2.85]--[11.80][2.71][4.70][3.61][5.76][2.81][2.17][11.25][11.67]我们的(2周期){2.84}5.68{ 3.82}6.72{ 3.86}{ 2.09}{ 12.45}13.10(a) 光流基准(b)对抖动的表4. (a)我们的模型是在相应数据集的训练/测试分割上训练的。我们转载了[32]中的数字,并采用了他们的惯例,即完整的Sintel电影)和在测试时使用3个帧的方法标记为“0”。(b)我们评估对亮度和色调抖动的鲁棒性表5. 光度特征。我们评估我们的功能时,他们被用来定义一个光度损失的有效性。KITTI-15列车我们的功绩。+人口普查我们的功绩。(3帧)+普查表6. 对比随机游走消融。我们评估了不同的模型参数,包括周期长度和多尺度随机游走中的尺度数(从粗到细)。自我监督的功能,以增加其光度损失。我们发现我们的模型优于许多最近的无监督光流方法,包括(3帧)MFOccFlow[29]和EPIFlow。特别是,我们显著优于最近的SelFlow方法[44],尽管它在测试时需要3帧作为输入,使用普查变换功能。相比之下,我们的模型不使用手工制作的图像特征。性能最高的方法是最近高度优化的SMURF模型[60],该模型 使 用 RAFT [68] 架 构 而 不 是 PWC-net , 并 扩 展 了UFlow [32]。该模型使用了各种额外的训练信号,例如广泛的数据增强、具有多阶段训练的遮挡修复、自蒸馏和手工制作的特征。KITTI-15列车noc所有ER%2 2.093.86十二点四十五分3 2.053.46十二点二十八分42.043.39十二点十四分KITTI-15列车noc所有ER%十四点四十五8.98二十四点五十二分三点三十六4.55十四点三十五分五2.093.86十二点四十五分5. 讨论我们提出了一种利用多尺度对比随机游动学习稠密运动估计的方法。我们认为我们的工作是统一自我监督跟踪和光流的潜在步骤。此外,模型表7. 网络视频培训。 我们在YouTube上训练-VOS [81]并在光流基准上进行评估KITTI-15列车清洁最终noc所有ER%我们的(两轮)3.37 4.652.32 5.73 14.69ARFlow [41]3.22 4.51 2.65 6.01 16.47在辛特尔5.1.1与最新光流法的为了帮助理解我们的模型我们包括使用不同帧数进行随机游走的模型,以及使用我们的ARFlow [41可以从互联网视频中学习,这表明这种分层跟踪器的新兴表示可以大规模地学习感兴趣的部分-整体结构。限制和影响。运动分析有许多应用,例如在健康监测、监视和安全方面。 这项技术也有潜力,如果武器化,将被用于有害目的。发布的模型仅限于训练中使用的数据集。鸣谢。我们感谢David Fouhey和Jeff Fessler提供的有用反馈。AO感谢Rick Szeliski向他介绍了多帧光流。这项研究得到了丰田研究所、思科系统和伯克利深度驱动的部分支持。我们监督无监督周期len.#水平损失NOC所有ER%沙博尼耶2.285.6919.30普查2.053.1411.04我们的功绩。2.09 3.8612.45我们的功绩。+沙博尼耶2.21 4.51 14.2516517引用[1] 罗伯特·安德森、大卫·盖洛普、乔纳森·T·巴伦、珍妮·康特卡宁、诺亚·S·N·V·Y、卡洛斯·赫尔·N·南德斯、萨米尔·A·G·R·瓦尔和史蒂文·M·塞茨。Jump:虚拟现实视 频 。 ACM Transactions on Graphics ( TOG ) , 35(6):1-13,2016. 2[2] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年:统一的框架。《国际计算机视觉杂志》,第221-255页2[3] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。IJCV,2011年。2[4] Michael J Black和Paul Anandan。多运动的鲁棒估计:参数和分段光滑流场。计算机视觉与图像理解,63(1):75二、三[5] Thomas Brox,Christoph Bregler,and Jitendra Malik.大位移光流。CVPR,2009。2[6] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。见ECCV,2004年。二、四[7] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的对象分割。在欧洲计算机视觉会议上,第282-295页。施普林格,2010年。3[8] 这是布鲁恩,约阿希姆·维克特和克里斯托夫·舍诺。Lucas/kanade与Horn/Schunck:结合局部和全局光流方法。国际计算机视觉杂志,61(3):211-231,2005。2[9] Peter J.作者声明:Edward H.阿德尔森拉普拉斯金字塔作为一个紧凑的图像代码。IEEE Trans. Commun. ,31:532- 540,1983. 1[10] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A. Fitzgienic等人(编辑),编辑,欧洲计算机视觉会议(ECCV),第IV部分,LNCS 7577,第611Springer-Verlag,2012年10月。5[11] A.DosovitskiyP.Fischer , E.Ilg , P.Hausser ,C.Hazzirbassoul,诉 Golkov , P.v.d. Smagt , D.Cremers 和 T. 布 洛 克 斯Flownet:使用卷积网络学习光流。IEEEInternationalConference on Computer Vision(ICCV),2015年。5[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在2015年IEEE计算机视觉国际会议的开幕式上。三、八[13] PF Felzenszwalb和DR Huttenlocher。早期视力的有效信念2004年IEEE计算机协会计算机视觉和模式识别会议论文集,2004年。CVPR 2004。,第1卷,第I-I页。IEEE,2004年。216518[14] Philipp Fischer , Alexey Dosovitskiy , Eddy Ilg ,PhilipH¨ usser , CanerHazırbaså , VladimirGolkov ,PatrickVander Smagt , Daniel Cremers , and ThomasBrox.Flownet:使用卷积网络学习光流。arXiv,2015.4[15] William T Freeman , Egon C Pasztor , and Owen TCarmichael.学习低层次视觉。国际计算机视觉杂志,40(1):25-47,2000. 3[16] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun. Vision meets robotics:The kitti dataset.International Journal of Robotics Research ( IJRR ),2013。5[17] Daniel Gordon , Kiana Ehsani , Dieter Fox , and AliFarhadi. 观看世界经过:从未标记的视频中进行表示学习2[18] 菲利普·豪塞尔、亚历山大·莫德文采夫和丹尼尔·克雷默。联想学习神经网络的多功能半监督训练方法。在IEEE计算机视觉和模式识别会议集,第89-98页,2017年。3[19] Bhara thHariharan , PabloArbela' ez , RossGirshick ,andJi-tendra Malik.同时检测和分割。以Eur.确认补偿目视第297-312页,2014年。6[20] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功