深度光流网络自适应的元学习算法的应用与优势

19 浏览量更新于2023-10-15 收藏 1021KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2145用于深度光流网络自适应的元学习Chaerin Min1，Taehyun Kim1，2，Jongwoo Lim1，21韩国首尔汉阳大学计算机科学系2韩国首尔汉阳大学人工智能系{chaerinmin，taehyunkim，jlim} @ hanyang.ac.kr(a)（b）全球海洋环境状况评估[15]图1.通过元学习的测试时域自适应有助于利用只能从测试输入中获得的运动和上下文类型第二张图像显示了预训练网络的结果，我们的方法可以大大增强该网络。摘要在本文中，我们提出了一种基于实例的光流域自适应元学习算法。具有深度学习的典型光流算法遭受弱的跨域性能，因为它们的训练在很大程度上依赖于特定领域中的合成数据集这使得不同场景的光流性能在实际中无法实现相似的性能。同时，光流估计的测试时间域自适应方法还有待研究。我们提出的方法，与一些训练数据，学习适应更敏感的传入输入，把在目标域。在推理过程中，我们的方法很容易利用的信息，只有在测试时间访问。由于我们的算法适用于每一个输入图像，我们将传统的无监督损失的光流估计。此外，通过观察到单个域中的光流通常包含许多相似的运动，我们证明了我们的方法只需要少量的训练数据就可以实现高性能这可以节省标签工作。通过在KITTI和MPI-Sintel数据集上的实验，我们的算法明显优于未经自适应的结果，并且在相同数据量下与典型的微调相比表现出更好的性能。此外，定性地说，我们所提出的方法证明了更准确的结果与原始网络中的高误差的图像1. 介绍最近在元学习领域引入了许多技术[10]，这些技术考虑学习学习。在各种元学习方法中，[6]在快速适应相互不同的任务方面取得了令人印象深刻的结果。光流定义了一对图像之间的表观2D运动场。换句话说，它指示视频中相邻帧之间的像素对应关系。光流估计是具有挑战性的，由于快速移动的对象和典型的可见性问题，如遮挡。高精度的光流能够成功地预测视频中的像素对应关系，因此，它具有很高的潜在价值，可以用于运动估计，对象跟踪，视频超分辨率和运动分割等广泛的应用。不幸的是，除了主要的合成训练数据集之外，缺乏关于光流估计是否可以对真实测试数据集表现出高泛化能力的研究这是因为在真实场景中获取光流地面实况具有挑战性选项卡. 1表明，即使对于合成数据集，当测试域与训练域不同时，性能也会显着降低。可以提出的关切是，现有研究的性能可能不完全适用于该领域使用的真实数据。有人可能会说，对测试域进行微调可以解决这个问题。然而，请注意，正是由于缺乏光流地面实况，研究人员才无法为大多数真实环境训练通用网络2146培训方法椅Sintel（train）KITTI-15（train）表1.现有方法的跨域性能这些网络在FlyingChairs[5]数据集上训练，表示为C，或FlyingChairs和FlyingThings[21]（C+T）。这些平均终点误差来自已发表的论文。结果表明，他们往往挣扎于数据集之间的固有差异。条款。由此可见，在测试域中假设大量的标记数据是不够的。仅对数据集的一小部分进行微调不太可能对其余不可见数据产生良好另一方面，在整个测试数据集上进行无监督训练也不能保证良好的性能，并且可能非常慢。因此，我们需要设计一种新的方法，因为由于上述原因，通过深度学习进行光流估计的典型微调不太可能成功。在这一点上，我们将元学习引入这个问题。我们建议在测试域中使用有限数量的标记数据和严格限制数量的梯度下降迭代来实现测试时自适应。下面总结了我们的技术贡献。• 我们的方法利用了一个新的域中的indi- vidual测试输入的独特特性。为此，我们在适应阶段采用了无监督损失。此外，现有的光流方法不执行除分布域之外的其他子据我们所知，我们是第一个通过采用元学习成功解决这个缺点的方法。• 在真实场景中标记地面真实光流是一项艰巨的任务。由于我们的方法有助于网络对目标域中的输入变得更加敏感，因此我们的方法可以很容易地推广到目标域，并且在测试时不需要GT。• 实验表明，我们的模型成功地处理GT稀缺的挑战性条件。我们的方法明显优于预训练的网络，并表现出更高的性能比天真的微调。2. 相关作品2.1. 监督光流网络传统上，光流估计依赖于变分方法[3，9，32]。最近的许多研究利用深度神经网络来提高性能，因为它们擅长利用场景的空间信息并推断遮挡区域的光流。FlowNet [5]首先成功地将深度学习应用于光流估计，并添加了像素之间的相关信息。PWC-Net [27]使用粗到细技术有效地预测了大流量和小流量。RAFT设计了一个能够迭代细化的神经网络，提高了模型的准确性。2.2. 无监督光流损失无监督学习允许神经网络即使使用未标记的数据也能学习。对于光流，无监督学习通常可以使用称为光度一致性的数据项和诸如平滑度的先验知识来执行[26]。最近，为了改进平滑度调节，已经提出了边缘感知损失[31]或双向普查损失[22]。此外，OAFlow [31]和DDFlow [20]通过使用光度和平滑度损失应用遮挡估计来增强性能。2.3. 用于光流估计的域自适应根据定义，领域自适应的目的是将高性能模型应用于目标领域.例如，在图像处理的另一个领域，医学成像，一些研究提出通过域自适应来最大化测试时间的性能，例如[29]。在光流场方面，[12]和[11]提出了学生-教师模型数据（val）清洁最终AEPEF1-所有（%）PWC-Net[27]2.302.553.9310.3533.7VCN[33]2.213.688.3625.1MaskFlowNet[35]2.253.61-23.1C+T[13]第十三话2.023.5410.0830.0[第28话]1.432.715.0417.4[第15话]0.791.302.744.6916.6[14]第十四话1.312.674.7216.3PWC-Net[27]2.003.334.5913.2041.79CDDflow[20]2.974.834.8517.26-Uflow[16]2.553.434.1711.2730.312147GT��∗0��∗GT��∗0��∗图2. MPI Sintel[4]最终通过的定性结果。FlyingChairs[5]+FlyingThings[21]和FlyingChairs作为前两个w和后两个w的预训练域。θ0、θft、θml、θft和θml表示预训练、微调、Meta分别是经过训练的，经过微调的，和提议的用于医学图像分析，[30]尝试通过使用粗到细策略进行sim2world传输。[7]使用元学习模仿[28]的光流预测器。与[7]相比，我们的方法不需要任何额外的参数或对模型结构的更改。这意味着我们的方法可以灵活地应用于任何其他最先进的网络。2.4. 元学习元学习是学习那些被认为不需要学习的东西。它越来越受到人们的关注，因为它有效地适应了新的领域。在元学习方法中，最近基于优化的方法启发了我们，如[1]，[6]和[19]。我们假设[6]是与我们的方法最相关的方法。MAML[6]被公认为能够以有限的步骤适应各种领域。它通过对跨领域共享的先验知识进行编码来实现这一点与适应不同领域的[6]相比，我们专注于提高对各自输入的适应能力据我们所知，我们是第一个认真分析光流估计的测试时间域自适应，并将元学习范式纳入问题。简而言之，我们提出的方法是一种算法转换，它为GT不足的域中的单个输入提供了主要好处。在这项工作中，我们提出了真正的光流无无无无无无无估计作为一个典型的例子。3. 该方法使用两个连续的视频帧（It，It+1），我们可以用常规的流估计网络计算光流VtVt=fθ（It，It+1），（1）其中f表示具有参数θ的常规流估计网络，并且流场Vt的每个元素是表示像素位置处的运动位移的二维矢量。然而，传统的流估计网络在处理域失配时的输入帧时存在困难，因此需要额外的微调负担。例如，我们可以将在FlyingChairs数据集[13]上预先训练的网络微调到KITTI数据集[23]，以计算KITTI数据集中更准确的流量。与这些典型的微调方法不同，我们提出了一种新的自适应技术，它允许测试时适应给定的特定输入。在本节中，我们首先定义问题设置。然后，我们为我们的动机提供了理由，并建立了一个无监督的光流损失的背景最后，详细介绍了该方法的算法和创新之处2148tt不∇1LL¨¨τ3.1. 流网络的测试时间自适应通过来自特定数据集的运动分布训练的常规流估计网络在处理具有不同运动分布的输入帧时具有为了缓解这个问题，需要使预训练网络的参数适应新的测试域。特别是，我们的目标是通过利用内部运动统计，在测试阶段使流网络适应给定的然而，由于地面实况运动信息在测试阶段不可用，我们采用传统的无监督损失，这使我们能够以无监督的方式训练网络进行测试时的自适应。我们的无监督损失函数Lun由数据项Ldata和正则化项Lreg组成，它产生，Lun（θ）=Ldata（V[θ]）+λ·L reg（V [θ]），（2）其中λ是用于调整正则化的用户参数。具体而言，我们的数据项测量与[25，8，16]类似的数据保真度，并且公式由下式给出：单个域通常包含许多类似运动（例如，KITTI数据集中的前向运动），并且我们以非监督的方式在测试时将网络参数适配于输入。我们将我们的快速自适应算法嵌入到MAML算法[6]中，MAML算法是其简单性和灵活性的代表之一通过我们的元学习方法，我们为网络提供了在特定领域学习新类型运动和上下文的训练，因此自适应变得比仅仅依赖（2）中的无监督损失更容易。此外，我们实现这一点，而不需要大量的数据从目标域。然后，在元推理阶段，我们将元训练网络后处理为测试输入，而不使用地面实况数据集。3.2.1新域名与MAML [6]类似，我们的元训练阶段由算法1中提供的两个更新步骤组成。在内部更新步骤中，我们使用（2）中的无监督损失来调整网络参数，并使用L数据=α·（1−SSIM（I（p），I电话+1（p+V）t（p）（三）通过外部更新步骤来减少标记元集。要特别-+（1−α）·It（p）−It+1（p+Vt（p）），其中p表示像素坐标。第一和第二cific，在提出的元学习场景中，我们的任务是两个连续的视频帧（It，It+1）和相应的地面实况光流Vt。在每个外部术语根据SSIM [34]分数计算数据集保真度更新步骤，我们随机抽样GT来自统一的Nτ和亮度恒定性，α控制这两项之间的平衡。此外，我们采用边缘感知正则化[31]来保持运动边界，同时在均匀区域上强制平滑我们的正则化项如下：分布，并且我们以无监督的方式为每个任务调整网络参数。最后，我们通过最小化元目标来元优化流参数，如下所示：NτL（θ）=1f（It，It+1）−Vt，（5）Lreg=exp（−tσ ）·Vt，（4）MetaNθii=1gt1其中，表示用于计算逐像素导数的线性算子，并且σ控制边缘感知的强度。3.2. 用于测试时间适应的通过最小化（2）中的无监督损失函数，我们可以在来自新域的每个测试输入上单独更新预训练的流模型。此外，我们还引入了一种更快速的自适应技术，当新域上有少量带注释的地面实况流时，该技术可以进一步提高网络性能，加快自适应速度。具体来说，我们将元学习方法与我们的问题相结合，以实现快速适应。通常，传统的元学习算法需要大量的训练数据集，以使网络能够在训练阶段敏感地响应不同的任务变化，并且我们需要很少的地面实况数据集用于测试阶段的测试时间适应。相比之下，我们只使用少量的注释数据集对流网络进行元训练，因为光流在其中θi表示适配于spe的网络参数使用无监督损失的cific任务。值得注意的是，我们可以使用任何传统的优化器（例如，SGD，ADAM），以最小化两个损失函数，un和Meta。我们重复这个过程，直到收敛和建议的元火车al-出租m允许元训练参数θm在特定领域（如KITTI）的类似任务中通用化数据集。3.2.2测试图像在算法2.首先，我们使用元训练的θml作为这个阶段的起点。然后，我们执行与算法1中的内部更新步骤相同的过程，并通过最小化无监督损失来调整参数，因为地面实况数据集在测试时不可用。在N次适配结束时，我们可以使用以下公式来呈现给定测试输入帧It和It+1的最终流结果Vt：调整流量参数θmlθ。我们测量的准确性2149我L我←←GT←←←n×nNτi=1我ΣGT测试预训练预先训练的微调我们的0n n表2.KITTI 2015和Sintel最终数据集的定量结果我们将测试域随机分为元集和测试集三次平均表现。标准差用括号括起来。星号表示该模型适用于St，每个输入τ t上的无监督un。请注意，我们只需要三个梯度下降步骤就可以实现θ ml，这三个步骤由内循环的三个步骤组成。另一方面，我们为θft 选择最佳性能。如果θftk的epe从第一步开始不断增加，我们选择第三步，以便与我们的方法进行比较。我们进行了实验，记为θ0，θft，θft各自。通过这样做，我们详尽地验证了我们的方法算法一：元训练算法要求：U（T）：任务上的均匀分布θ：预训练流网络参数Nτ：任务N：自适应数，α，β：更新步骤输出量：元训练流参数θml当i←1到Nτdo时，直到收敛do对任务进行采样（It，It+1，Vt）U（T）θi θVt fθ（It，It+1）j0而j N<做Lun（θi）=Ldata（Vt[θi]）+λ·Lreg（Vt[θi]）θi=θi−α<$θiLun（θi）j<$j+ 1结束结束LMeta（θ）=1Nτ<$fθ（It，It+1）−Vt<$1θ←−θ −β <$θLMeta（θ）端返回：θml←θ光流结果以端点误差（EPE）表示，并且我们在实验中提供了各种测试输入上的EPE值。3.3. 与以往艺术的先前的技术[1，6，19]以监督的方式或以无监督的方式呈现他们的元学习方法。算法二：元推理算法输入：It，It+1：tw o相邻的第t个输入帧N：自适应数量，α：更新步骤θml：元训练流网络参数N：自适应数，α：更新步长输出：自适应流结果Vtθml←θmlVtfθml（It，It+1）j0而j N<做Lun（θml）=L数据（Vt[θml]）+λ·Lreg（Vt[θml]）θml<$=θml<$−α<$θml<$Lun（θml<$）j<$j+ 1端Return：Vt←fθml（It，It+1）方式相反，我们提出的算法是元学习的混合变体。在算法1中，我们以监督的方式对网络进行元训练。然后，在算法2中，我们在测试时间内执行具有无监督损失的快速自适应总之，我们的方法是一种混合方法，允许在测试阶段快速适应。4. 实验4.1. 实施细节我们使用pytorch [24]和learn-to-learn [2]库来实现我们的自适应算法。学习率设定为1。25 10−4用于微调，遵循基线模型的学习率[15]。对于β和1，我们将学习率设置为5 × 10−6。0×10−5对于我们的α，域数据θ0θ∗θftθftθmlθmln nKITTI2015C10.25（0.09）9.58（0.18）3.59（0.46）4.31（0.47）5.74（1.23）3.32（0.19）C+T4.65（0.03）5.17（0.07）2.73（0.54）3.40（0.70）2.81（0.65）2.69（0.68）辛特尔决赛C4.11（0.02）3.93（0.02）3.84（0.02）3.77（0.03）3.58（0.30）3.47（0.28）2150nn(a) θ0：预先训练(b) θ0：改编自预先训练的(c) θft：微调(d) θmlθ：拟定(e) 输入的源图像(f) 地面实况图3.一对夫妇的定性例子的评价对现实世界的数据集，KITTI-15其他适应性调整作为类似的方法[5，14，28]采用了更少的学习率。我们使用标准的Adam [17]优化器来最小化算法1和2中提出的损失。我们设置自适应梯度下降步骤，即，N3.对于流量估计，我们采用GMA [15]作为我们的基线模型，其中GMA中convGRU单元的迭代次数为12。为了评估，我们测量的EPE方面的流网络的性能4.2. 用于比较的我们使用[5，14，28]中的常规基准数据集，并选择FlyingChairs[5]和FlyingThings[21]进行预测试。训练这两个数据集的缩写分别是C和T。我们使用官方提供的GMA [15]的预训练网络作为我们的基线，并在两个独立的数据集KITTI-15和MPI-Sintel上评估了我们让K和S表示这些数据集，如以前的作品[5，28，14]。具体而言，KITTI-15训练分割是从道路上的真实图像创建的，由200帧组成。另一方面，Sintel列车分割是由合成场景制成的，它总共包括23个场景和1041帧。值得注意的是，我们采用了Sintel数据集上的最后一遍作为代表。这是因为最终通道由完全渲染的2151nnnnnnnnnnnn包括大气效果、运动模糊和摄像机景深模糊的图像因此，最终通过更有可能满足我们使用更具挑战性的图像进行测试的目的以前的作品[5，14，28]在C和T上训练后，通常会在S和K上检查他们的模型。然后，他们分别在整个S和K车组上微调他们的模型。下一个程序是在相同的整个S或K列车集上评估每个微调模型。这显然不是一个公平的评估-这就是为什么这些结果通常放在括号内-所以我们避免报告这样的结果。相反，[5，14，28]还提供了KITTI和MPI-Sintel基准测试集的结果。4.3. 定量和定性流量结果我们进一步突出了我们的泛化能力，通过重复随机采样的元集，因为KITTI训练集，例如，包括不超过200个图像对。在选项卡中。2.给出了元训练S和元推理S的三次随机分裂的平均值。我们在测试时间的方式，改善估计结果的新的可能性例如，在Tab。1，我们的基线GMA[15]报告了在C+T上预训练时KITTI-15上的4.69 AEPE。然而，我们的方法在Tab. 3以4.68开始，实际上是4.69，作为θ0，并将其减少到3.11，仅用来自200个KITTI-2015目标数据的五个训练输入。此外，额外的测试时间学习只需要3个梯度下降步骤。4.4. 消融研究：微调比较为了进一步验证该方法如果我们假设元集是可用的，人们可能会质疑元学习是否是必要的，而不是微调。这个问题促使我们提出的结果，传统的微调Sm。表中每行的微调性能分别为3.59、2.73、3.84、2.812. 此外，我们执行算法。 2在θ0之上和θft关于iv el y。我们将它们记为θ0和θft，我们的θmlπ 的对应物。F或θ0和θft，终点m tn n注意，Sm和St是两个不相交的集合。在选项卡中。2，我们让θ0，θft，θml表示预先训练的，针对n微调的在KITTI和部分de-其他案子的尖叫这种有限的改善是n n然后，我们使用 * 表示自适应或元推理。KITTI和Sintel 数据集上的预训练 AEPE分别为10.2，4.65 ，4.11，2.75，而我们的AEPE最后的元推理结果分别为3.32、2.69、3.47、2.74，表明了该算法的优越性在最后的快速自适应过程中，在C上预训练和在KITTI上测试的情况下，误差从5.74下降到3.32。类似的趋势出现在其余行中。该每阶增益仅通过三个梯度下降步骤来实现。对于定性结果，图中的底部两行2有效地说明了我们的方法在该特定帧中，左侧和右侧在下一帧中被解除遮挡和遮挡。θml表示元训练参数n迭代在这种具有挑战性的情况下，我们的方法我们分析，这是因为参数θml已经被训练成在具有相同的参数θ ml的几个自适应过程之后最小化EPE。当量二、这使我们的θml能够轻松地适应θmlθ。Al-由于一般的微调是简单的训练，过程，并且该训练不考虑子系统适应。因此，无监督学习非常容易受到Dnew性能从10.3英寸提高到9.6英寸，第一行由初始高误差产生。高错误允许更大的错误丢弃空间然而，对于θml微调，几乎在任何情况下都可以从θml我们认为这种性能是将参数集转移到适合于测试时间自适应方案的位置因此，在我们的方法中，为每个传入的输入建立一个专门的网络变得更加可能。4.5. 分析：标记数据在这项研究中，我们分析了限制目标域中训练数据数量的可能性。这种探索的小Sm还没有大量的其他光流研究。然而，我们凭经验n n虽然微调参数θft在性能上与θ m1作为中间状态相似，但在θft 中几乎看不到改进。在朴素微调之后的自适应仍然很差地处理帧边界区域。请注意，据我们所知，我们是第一个使用来自目标域的少量训练数据分析光流测试时学习的人由于大多数光流估计论文使用Sintel和KITTI进行评估，因此我们对这些数据集进行了不常见的分析。因此，虽然直接比较国家的最先进的方法几乎是不可行的，我们开辟了一个证明了从一个新领域的较小部分中利用知识是可以实现的。在选项卡中。3、在最多50%的测试域应该被标记用于训练的情况下，微调在损失函数的超平面上找到相似点，达到我们的方法的结果。然而，由于获得精确的光流GT很难自动化。另一方面，当只有有限数量的元训练数据可用时，我们的θml训练器由于我们的方法在Tab中产生更大的增益。22152θθn0大小比预先训练，微调我们的我们的收获ftSmSm0θ0∗ftftn nmlmln n在θn5百分之二点五4.68（0.04）5.14（0.05）3.79（0.23）3.93（0.28）3.12（0.15）3.11（0.12）+0.65（0.29）10百分之五4.69（0.07）5.18（0.04）3.05（0.28）3.05（0.33）2.86（0.19）2.83（0.18）+0.22（0.11）20百分之十4.65（0.03）5.17（0.07）2.73（0.54）3.40（0.70）2.81（0.65）2.69（0.68）+0.04（0.03）100百分之五十4.59（0.05）4.95（0.05）1.41（0.11）1.42（0.11）1.45（0.11）1.45（0.11）-0.04（0.06）表3.分析了标记数据量对分类结果的影响。Sm从目标结构域分裂。结果是在KITTI- 2015上计算的，而θ0是在C+T上预训练的。在元集比率较低的情况下，我们的方法显着改善了朴素的微调。所有结果均以像素为单位。��∗0��∗��∗GT图4. KITTI-2015的定性结果。请注意，只有2.5%的目标域数据用于测试时自适应，无论是否使用元学习。这两种方法都比基线参数有显著的改进（即， θ0），但是我们的元推理结果对于移动的汽车和最右侧区域的帧外遮挡来说是一个更好的结果。此外，θml受益于适应性而其他人显然没有同样的无监督损失。当从C语言的预训练开始时，我们可以说是为Tab带来了更大的收益。3在这种情况下包括微调的标准训练通常需要大量的训练数据，否则容易受到过度拟合的影响。此外，增益5. 结论我们提出了一种测试域自适应方法，使神经网络具有不同场景的网络系数的单独集合。然后，我们提供了最优流问题作为一个主要的例子。目前的光流估计方法在训练域和测试域之间存在显著的性能差距。因此，它们很难被推广到看不见的真实场景。我们的方法制定了一个修改后的元学习框架，使一个预先训练的网络可以学习适应一个新的领域。这是通过利用不同运动分布中的内部运动统计来实现的。对于可靠性，我们展示了几个比较分析与天真的方法，如微调和测试时无监督学习。所提出的方法具有显着在广泛使用的数据集上的大多数性能的改进。该方法简单有效，不依赖于基本光流网络。确认这项工作得到了韩国国家研究基金会（NRF）的部分支持，该基金会由韩国政府（MSIT）资助（NRF-2021 R1 A2 C2010245）这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（ IITP ）赠款的部分支持（No.2022-0-00156，关于持续元学习的基础研究，用于提高休闲视频及其3D元世界转换的质量这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）赠款的部分支持（编号2020 -0-01373 ，人工智能研究生院项目（汉阳大学））θθθ2153引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。arXiv预印本arXiv：1810.09502，2018。[2] Se'bastienMRArnold，PraateekMahajan，DebajyotiDatta，IanBunner，andKonstantinosSaitasZarkias.learn2learn：一个用于元学习研究的库。八月2020年。[3] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。在欧洲计算机视觉会议（ECCV）中，第25Springer，2004.[4] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。在欧洲计算机视觉会议（ECCV）的会议记录中，第611Springer，2012.[5] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE国际计算机视觉会议（ICCV）的论文集，第2758-2766页[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议（ICML），第1126-1135页。PMLR，2017年。[7] 高志毅，侯永红，刘燕，李翔宇。基于元学习的光流估计网络。电子成像杂志，30（3）：033029，2021。[8] Ariel Gordon ， Hanhan Li ， Rico Jonschkowski ， andAnelia Angelova.来自野外视频的深度：来自未知相机的无监督单目深度学习。在IEEE计算机视觉国际会议（ICCV）的Proceedings中，第8977-8986页[9] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence，17（1-3）：185[10] Mike Huisman，Jan N Van Rijn和Aske Plaat。深度元学习概述。人工智能评论，54（6）：4483[11] Sontje Ihler，Felix Kuhnke，Max-Heinrich Laves，andTobias Ortmaier.自监督域适应，用于患者特定的实时组织跟踪。在医学图像计算和计算机辅助干预国际会议上，第54-64页。Springer，2020年。[12] Sontje Ihler，Max-Heinrich Laves，and Tobias Ortmaier.基于师生知识转移的快速光流的患者特定领域适应arXiv预印本arXiv：2007.04928，2020。[13] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议（CVPR）的Proceedings中，第2462-2470页[14] Jisoo Jeong ，Jamie Menjay Lin ，Daughh Porikli， andNojun Kwak. 光流估计的一致性在IEEE计算机视觉和模式识别会议（CVPR）论文集，第3181-3191页[15] Shihao Jiang ， Dylan Campbell ， Yao Lu ， HongdongLi，and Richard Hartley.学习使用全局运动聚合来估计隐藏运动。在IEEE国际计算机视觉会议（ICCV）会议录中，第9772-9781页，2021年[16] Rico Jonschkowski，Austin Stone，Jonathan T Barron，Ariel Gordon，Kurt Konolige，and Anelia Angelova.无监督光流中的在欧洲计算机视觉会议（ECCV）的会议中，第557572. Springer，2020年。[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] Daniel Kondermann ， Rahul Nair ， Katrin Honauer ，Karsten Krispin ， Jonas Andrulis ， Alexander Brock ，BurkhardGusse- feld ， Mohsen Rahimimoghaddam ，Sabine Hofmann，Claus Brenner，et al. HCI基准测试套件：城市自动驾驶的不确定性立体和流动地面实况。在IEEE计算机视觉和模式识别会议（CVPR）中，第19[19] Zhengguo Li，Fengwei Zhou，Fei Chen，and Hang Li.Meta- sgd：学习快速学习，进行少量学习。arXiv预印本arXiv：1707.09835，2017。[20] Pengpeng Liu，Irwin King，Michael R Lyu，and Jia Xu.Ddflow：学习光流与未标记的数据蒸馏。在人工智能促进协会，第33卷，第8770-8777页[21] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第4040-4048页[22] Simon Meister，Junhwa Hur，and Stefan Roth. Unflow：对具有双向集中损失的光流进行无监督学习。在人工智能促进协会（AAAI），第32卷，2018年。[23] Moritz Menze，Christian Heipke，and Andreas Geiger.车辆与场景流的联合三维估计。 ISPRS Annals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，2：427，2015.[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[25] Anurag Ranjan，Varun Jampani，Lukas Balles，KihwanKim，Deqing Sun，Jonas Wulff，and Michael J Black.竞争性协作：深度、相机运动、光流和运动分割的联合无监督学习。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，第12240-12249页，2019年[26] Zhe Ren，Junchi Yan，Bingbing Ni，Bin Liu，XiaokangYang，and Hongyuan Zha.用于光流估计的无监督深度学习。人工智能促进协会（AAAI），2017年。2154[27] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第8934-8943页[28] Zachary Teed和Jia Deng。筏：光流的循环全对场变换。在欧洲计算机视觉会议（ECCV）的会议记录中，第402-419页。Springer，2020年。[29] Thomas Varsavsky，Mauricio Orbes-Arteaga，Carole HSu- dre ， Mark S Graham ，Parashkev Nachev ， and MJorge Car- doso.测试时无监督域自适应。医学图像计算和计算机辅助干预国际会议，第428-436页。Springer，2020年。[30] 王亨利，范锐，蔡培德，刘明，王陆佳。Undaf：一个通用的无监督域自适应框架，用于视差或光流估计。2022年国际机器人与自动化会议（ICRA），第01-07页。IEEE，2022年。[31] 王阳、杨毅、杨振恒、赵亮、王鹏、徐伟。光流的遮挡感知无监督学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第4884-4893页[32] Andreas Wedel，Daniel Cremers，Thomas Pock和HorstBischof。高精度光流的结构和运动自适应正则化。在IEEE国际计算机视觉会议（ICCV）的会议记录中，第1663-1668页。IEEE，2009年。[33] 杨庚山和Deva Ramanan。光流的体积神经信息处理系统的进展，32，2019。[34] 尹志超和石建平。Geonet：对密集深度、光流和相机姿态进行无监督学习。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第1983-1992页[35] Shengyu Zhao ， Yilun Sheng ， Yue Dong ， Eric IChang，Yan Xu，et al. Maskflownet：具有可学习遮挡掩模的非对称特征匹配。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6278-6287页

下载后可阅读完整内容，剩余1页未读，立即下载