没有合适的资源?快使用搜索试试~ 我知道了~
学习适应立体声在动态环境中的应用
1学习适应立体声Alessio Tonioni2.1、Oscar Rahnama2.4、ThomasJoy 2.2、Luigi Di Stefano1.1、ThalaiyasingamAjanthan2.3和Philip H. S. Torr21博洛尼亚大学2牛津大学3澳大利亚国立大学4FiveAI摘要立体深度估计的现实世界应用需要对环境中的动态变化鲁棒的模型。尽管基于深度学习的立体方法是成功的,但它们往往无法推广到环境中看不见的变化,使它们不太适合自动驾驶等实际应用。在这项工作中,我们引入了一个“学习适应”框架,使深度立体方法能够以无监督的方式不断适应新的目标域。具体而言,我们的方法将适应过程纳入学习目标,以获得更适合无监督在线适应的基本参数集。为了进一步提高自适应的质量,我们学习了一个置信度,有效地掩盖了在无监督自适应过程中引入的错误。我们在合成和真实世界的立体数据集上评估了我们的方法,我们的实验证明,学习适应确实有利于在不同领域的在线适应1. 介绍立体对应估计是用于预测场景深度的标准方法之一。最先进的算法将立体声视为监督学习问题,并采用深度卷积神经网络(CNN)直接预测视差值[15]。然而,深度立体方法无法推广到新领域[21,29],这在立体视觉最有用的应用中提出了一个严重的问题。想象一下,一辆自动驾驶汽车沿着曲折的弯道行驶,无尽的蜿蜒曲折,穿过科莫湖周围频繁的隧道。由于几乎没有或无效的障碍物可以从剪切悬崖中提供安全性,因此自动驾驶汽车必须无故障地运行。此外,当通过频繁的隧道时,在牛津大学期间完成的工作。[2]两位作者的贡献相等。照明条件急剧变化,习得的立体声系统可能无法以预期的方式执行,从而可能导致致命的后果。在目标环境上微调学习模型可能有助于实现良好的性能。然而,即使使用昂贵的设备和人力,获取立体声的真实密集地面实况数据也是极具挑战性的[17]。此外,考虑到上述示例,不能期望收集所有可能的季节、一天中的时间、天气条件等的地面实况数据。为了解决这个问题,我们建议研究使用合成数据来离线学习模型,当部署时,可以以无监督的方式快速适应任何看不见的目标域,从而消除对昂贵的数据收集的需要。我们制定了这个学习适应问题使用元学习方案的持续适应。具体来说,我们依赖于模型不可知的元学习框架[5],因为它的理论基础[6],易用性及其在各个领域的成功应用[5,3,1]。我们的目标是使用合成数据离线学习模型,该模型可以在测试时以无监督的方式这意味着我们的模型始终处于训练模式,其参数会自动在线调整到当前环境,而无需监督。这种在线自适应场景在文献[30,34]中已经考虑过。然而,在这项工作中,我们明确地学习适应,这使我们能够实现卓越的性能。我们的元学习方法直接将在线适应步骤纳入学习目标,从而使我们能够获得更适合无监督在线适应的基本权重集。然而,由于自适应是以无监督的方式执行的(例如,基于重投影损失[7,10]),其固有地有噪声,对整个算法造成不利影响。为了弥补这一不足,我们学习了一个关于无监督损失的置信度度量,并使用置信度加权损失来更新网络参数。这有效地掩盖了96619662(a) 左输入帧(b)左帧均衡(c)KITTI调谐(d)我们的图1.我们证明了在[16]中具有挑战性的视频序列上连续自适应的有效性。(a)左输入帧,(b)用于可视化目的的直方图均衡帧,(c)由来自KITTI的注释真实数据训练的Dispnet-Corr 1D [15]产生的视差图,(d)由Dispnet-Corr 1D [15]使用我们的学习适应框架在合成数据上训练并在此视频序列上连续适应产生的视差图。我们的方法的预测不会受到与(c)(以白色突出显示)相同的伪影的影响,从而说明了连续无监督自适应的优势。- 自适应步骤中的噪声,防止有害的参数更新。在我们的例子中,置信度是使用一个小型CNN预测的,该CNN被纳入元学习框架,允许网络在没有额外监督的情况下进行端到端训练。在 我 们 的 实 验 中 , 我 们 使 用 合 成 立 体 数 据 集( Synthia [25] ) , 真 实 世 界 数 据 集 ( KITTI- raw[31]),并使用Carla模拟器生成包含不同天气和照明条件的多个序列的新合成数据集[4]。我们在两对数据集域之间评估我们的算法:1)卡拉到辛西娅;和2)卡拉或辛西娅到KITTI生。在所有实验中,我们的学习适应方法始终优于以前的无监督适应方法[30],验证了我们的假设,即学习适应为立体声提供2. 问题设置和准备工作在本节中,我们首先正式介绍在线适应并讨论其优点。然后,我们简要回顾了Meta学习算法,我们将转置到我们的连续适应的情况.2.1. 立体声在线改编让我们表示立体视频序列的两个数据集:Ds(有监督),具有可用的地面实况,以及Du(无监督),没有地面实况。我们想使用Ds离线学习网络参数,并使用Du作为目标(或测试)域。然而,与标准相比,评估设置并遵循[30,34]的评估协议,允许模型以无监督的方式适应目标域。我们遵循[30]中提出的在线适应范例,即,对于所获取的每个新帧,我们执行单个梯度下降步骤以保持快速优化并允许更好地处理快速变化的测试环境。形式上,让基础模型的参数在D是θ。给定看不见的目标视频序列V ∈ Du,使用预定义的无监督损失函数(Lu)上的梯度下降,针对序列中的每个连续立体对迭代地执行自适应。在迭代t,在线自适应可以写成:θt<$θt−1−α<$θLu(θt−1,it),(1)其中,θ0= θ,α>0是学习速率,it表示序列V的第t帧的立体声对。注意,网络参数以顺序方式针对整个视频连续更新。对于从基础模型θ开始的每个视频序列重复该过程。激励的例子。为了表明基于深度CNN的立体声网络对域转移高度敏感,并且在线适应确实是必要的,我们给出了一个激励性的例子,如下所示。我们选择一个视频序列,[16]作为一个测试域,其中的环境类似于KITTI,但具有极端的天气条件(例如,夜、雪等)。我们比较了两种训练方案的Dispnet-Corr 1D网络[15]的预测差异第一个是在KITTI训练集上进行微调[9,17],第二个是使用我们的学习适应框架在合成数据上进行训练,并对目标域进行无监督在线结果示于图1中。这里,很明显,对真实图像的微调不足以在所有环境中获得可靠的性能可以看出,(c)比仅在合成数据上训练并通过我们的公式(d)以无监督的方式在线适应目标域的网络表现更差。2.2. 模型不可知的Meta学习模型不可知Meta Learning(MAML)[5]是一种流行的元学习算法,设计用于少量学习问题。目标是学习一个基本模型,当用作初始模型时,它可以快速适应新任务96630ττΣ不不t−1t−1t−1Σ.Σtt+1θττ算法1在序列Vτ的训练时间处的自适应要求:θ,Vτ=[iτ,. . . ,iτ]算法2学习适应立体声要求:训练集Ds和超参数α,β,k,b1N一曰:参数初始化2:对于t ← 1,. . . ,n − 1 do3:θτ← θτ−α <$θτLuθτ,itτ4:Ls.监督评价1:初始化θ第二章: 不做就做3:DbDs抽样一批序列4:对于所有Vτ∈ Db,5:θτ←θ τ初始化模型权重这是通过形成一个嵌套的优化问题来实现的,在内部循环中,我们以标准的方式为每个任务执行SGD在外循环中,使用所有任务的丢失来优化基本模型参数,从而实现快速自适应。设T为训练集中的任务集,对于τ∈ T,特定于任务的训练集和验证集分别为Dtrain和Dval。假设在内部循环中有一个梯度步长,则整个MAML目标可以是写为:min<$L(θ−α<$θL(θ,Dtrain),Dval),(2)τ∈T初始化累加器7:[is,. . . ,is+k] Vτ采样k帧8:对 于t ← s,. . . ,s + k − 1 do9:θτ←θτ−α<$θτLu(θτ,it)<$适应10:Lτ←Lτ+Ls(θτ,it+1)评价十一:θ←θ−β<$θ<$Vτ∈DbLτ优化- 根据等式2,以无监督的方式连续地适应于序列Vτ。1 .一、在训练时,我们在训练序列上模拟相同的适应过程,并评估在后续帧上的每个自适应步骤之后模型的性能为了测量性能,我们依赖于监督损失函数Ls(例如,L1或L2回归)。其中α>0是用于自适应的学习率。作为如前所述,通过两阶段梯度下降算法来优化该元目标函数。具体而言,在每次优化迭代中,内循环从公共基础模型θ开始分别为每个任务执行梯度下降更新(自适应步骤)。然后,外循环在公共基础模型上执行更新,其中梯度是计算的对于单个序列V τ的这个过程在Alg中给出。1.一、在训练期间,我们对视频序列Ds的监督训练集(例如,一组渲染的合成视频序列)。我们的问题的最终目标是最大限度地提高测量性能,所有帧和所有序列都在D中。这可以写成紧凑的形式:使用在内部循环中更新的参数我们请感兴趣的读者可以阅读原文以了解更多细节[5]。n−1minLs(θτ,iτ)、(3)θVτ ∈Dst=1t t+13. 学习适应立体声其中θτ通过更新顺序获得,我们首先设计了一个立体声适应的元学习算法,将无监督连续自适应训练范式。然后,我们引入了一种新的机制来重新加权由无监督损失函数估计的像素误差,使自适应更有效。3.1. 立体声自适应的Meta学习我们的假设是,对于任何深度立体网络,在对目标域进行在线自适应之前,学习一组基本参数(θ)是有益的,这些参数可以快速有效地适应看不见的环境。我们观察到,我们的目标是学习适应看不见的视频序列是类似的精神MAML。在这里,我们执行密集视差回归的单一任务,但学习如何适应不同的环境和条件。我们通过立体视频模拟环境-序列Vτ=[iτ,. . . ,iτ]1。在测试时,参数为在Alg跟踪。1.一、注意,该公式扩展了Eq. 2(MAML)的连续和无监督的适应情况。与Eq相反。2、我们使用两种不同的损失函数:1)使模型适应视频序列的非监督损失(Lu);以及2)用于优化所述组的监督损失(Ls),参数θ我们进行这种区分是为了模拟测试时间行为。具体地说,LU(即,某种形式的非监督损失函数)将在测试时使用,而Ls可以使用训练集的所有可用注释,优化.我们的直觉是,通过使用两个不同的损失函数,θ可以被优化,使得它更适合于在没有监督的情况下进行调整(即,由Lu表示),而性能是相对于地面实况(即,s)。注意,优化Eq. 3个完整的视频序列对于长视频序列来说是不可行的,这是因为视频要求随N线性增长。为了缓解这种情况,我们1N1为了简单起见,我们假设所有视频序列具有相同的长度,9664但这不是必需的。9665+++图2.使用一批b序列并从每个序列中采样k帧来表示网络参数θ的元学习的一次迭代我们用六边形表示损失计算步骤,用彩色箭头表示梯度下降步骤。蓝色和橙色箭头分别表示适应步骤和元学习步骤。 从一组初始参数θ开始,网络使用损失函数L u独立地适应每个序列。使用损失函数Ls在每个序列的下一帧上评估适应的模型。最后,通过梯度下降更新初始参数θ,以最小化所有评估模型获得的损失函数之和。通过优化一批k个随机采样的连续帧的序列来近似它我们的元学习算法在Alg中有详细说明。 二、在对一批序列(第3行)和来自每个序列的k个随机帧(第7行)进行采样之后,我们对当前帧(第9行)执行无监督自适应对于k帧重复该过程。最后,我们优化基础模型参数θ,以最小化所有序列和所有帧上计算的监督损失之和(第11行)。这里,α和β分别是用于在线自适应和Meta训练的两个 图图2中,我们用一批b序列和每个b序列的k帧来说明网络参数θ的一次优化迭代。通过优化Eq. 我们能够学习适合于自适应的基本参数配置θ。然而,使用不完美的无监督损失函数(Lu)进行自适应会在优化过程中引入错误,这可能对整个算法产生不利影响缓解在这个问题上,我们引入了一种机制来学习识别无监督损失估计中的噪声(或错误),然后可以有效地掩盖这些噪声。3.2. 置信加权自适应用于密集视差估计的无监督损失函数通常计算某种形式的逐像素误差图并最小化平均误差。不幸的是,这个过程并不完美,并且通常会在优化过程中引入错误。与使用监督损失函数相比,这可能导致次优性能。例如,[7]中提出的左右重投影损失众所周知会在遮挡区域和反射表面产生错误这些错误不是由于视差估计模型的不良预测,而是由于左帧和右帧之间的差异。理想情况下,我们希望有一个置信函数网络加权网络重投影损失图3.使用基于无监督重投影的损失函数Lu(明亮的颜色表示更高的值)对单个立体帧进行加权自适应的示意图。 该系统采用立体对(it)并计算视差图以及重新投影损失(εt)。然后根据W t对该损失进行加权,有效地掩盖了错误。以检测该损失的错误估计,从而可以有效地掩盖它们。然而,训练这样的置信函数可能是困难的,因为没有容易的过程来获得用于该任务的地面实况注释。我们建议避免显式监督训练,而是通过将这个新目标纳入我们的元学习公式来自动学习检测损失估计中的噪声。特别是,我们建议学习一个小的CNN,它将Lu估计的像素误差图作为输入,并产生一个张量W作为输出,它与输入具有相同的形状,其元素在0和1之间。该输出可以被解释为损失估计的可靠性上的每像素置信度,其中1对应于高可靠性。我们现在可以通过将损失值乘以相应的置信度来掩盖潜在的错误9666˜˜˜不ΣΣ˜诚信价值观结果是损失函数的更清晰的测量,减少了由于不正确的损失值而导致的有害权重更新。在标签中存在噪声或类别不平衡的情况下掩蔽或加权单个示例的贡献的想法之前已经在[11,24]中研究过监督分类。在我们的例子中,我们将类似的想法转置为像素损失,估计用于密集回归任务,并直接预测密集置信度图。令W=F(η,ε)是由η参数化的重新加权网络产生的掩模,并且ε=Lu(θ,i)是在预测上计算的估计的逐像素误差图带参数θ的视差模型在立体帧上的应用I.我们通过将W中的每个元素除以W中的元素数来规范化W中的元素。现在,通过修改Eq. 1,最终加权自适应公式可以写为:以及用于视差估计模型(θ)的一组基本权重,其允许快速自适应。4. 相关工作机器学习立体声。Mayer等人 [15],提出了第一个端到端立体声架构,尽管没有达到最先进的精度,但在立体声文献中引发了向基于CNN的模型的巨大转变。最近的提案[13,20,14,2,12]通过部署3D卷积[13],两阶段细化[20]和金字塔细化[2],在具有挑战性的KITTI基准上迅速达到了最佳性能。所有这些作品都有相同的训练方案。具体来说,该网络首先在大型和完美注释的合成FlyingThings3D数据集[15]上进行预训练,然后在较小的KITTI训练集上进行微调。θt←θt−1-αθ=θWtLu(θ<$t−1,it)<$,(四)无监督适应立体声。Tonioni等人[29]强调立体声的机器学习模型是如何依赖于数据的,如果暴露在与Wt=F(η,Lu(θt−1,it)).其中θ0=θ和θ 1表示矩阵之间的元素乘积。注意,θ的维度与θ的维度相同,然而,我们将其不同地表示为突出θ取决于基础模型(θ)以及重新加权网络(η)的事实。图在图3中,我们示出了根据单个立体声输入帧i t计算的我们提出的加权自适应的示意性表示。在右下角,我们给出了由无监督重投影损失Lu产生的误差图的可视化,而右上角显示了可能的置信度掩模Wt。 在这个例子中,重量-ING网络正在掩蔽由于遮挡引起的错误(例如,在汽车的左侧)以及由于反射(例如,道路上的积水由于监督对于W是不可用的,我们通过并入等式来间接训练η。4在Eq.中描述的元学习对象内部。3 .第三章。我们完整系统的最终目标是:n−1minLs(θτ,iτ).(五)在训练期间观察到的那些,将遭受性能的严重损失。为了克服这个问题,他们引入了一种无监督的方法,通过部署传统的立体算法和置信度措施来使网络适应新的领域Pang等人[21]通过迭代优化以多分辨率获得的预测来实现相同的目标,而许多最近的作品[35,10,33,22]根据预测的视差扭曲不同的视图并最小化重新投影误差。最近,适应性问题也通过在线学习的角度来解决,重点是推理速度[30]。在一个相关的话题,Zhonget al.[34]提出使用视频序列从随机初始化在线训练深度网络。此外,他们在模型中使用LSTM来利用预测过程中的时间信息与[30,34]类似,当部署在看不见的环境中时,我们不断训练我们的网络,但我们还建议学习一组良好的初始权重和损失函数的置信函数,这将改善自适应过程。Meta学习。元学习是机器学习中一个长期存在的问题[19,28,26],它试图利用θ,ηt tVτ ∈Dst=1数据中的结构来学习更有效的学习规则或算法。元学习的最新发展这里,θτ是根据序列Vτ上的加权无监督损失函数更新的模型的参数。因此,它取决于η和θ,根据等式4.第一章整个网络可以端到端地训练,来自用于计算L的深度注释的透视。θ和η都被调整以在几个优化步骤之后最大化网络性能,如通过Ls测量的。通过优化单个目标函数,我们能够学习加权网络的参数(η)算法集中在少数镜头分类的任务上[32,27,23],除了少数例外,如[5,18]将其模型扩展到简单函数回归和强化学习。在[5]中,作者提出将模型的学习规则约束为随机梯度下降,并更新网络的初始权重配置,使其更适合学习新任务。这个简单的公式最近已经扩展到使用元学习来解决强化学习中的在线适应,9667适应不断变化的代理人[3]或非静态和竞争性环境[1]。我们的工作建立在[5]的基础上,通过修改它来使用结构化回归,无监督损失函数和更新过程中的时间一致性。5. 实验本节介绍了我们提出的自适应方法的质量评估。首先,我们在SEC中设置了我们的评估设置。第5.1条其次,在SEC。5.2,我们提供了两对域的定性和定量结果:1)合成到真实(即,在KITTI的合成数据上进行训练并在真实数据上进行测试);和2)合成到合成(即,在一个合成数据集上训练并在不同的合成域上测试)。最后,在第5.3 我们报告定性结果,说明我们的信心加权损失。我们提供了实现我们的框架所需的代码,以方便在这一领域的进一步研究2。5.1. 实验装置数据集。在我们的实验评估中,我们模拟了现实的测试条件,其中没有来自目标区域的数据可用。因此,我们使用从两个完全不相交的数据集采样的训练和测试对于真实数据集,我们使用KITTI原始数据集[8](表示为KITTI)的71个不同序列,用于解释[31]提供的具有稀疏深度注释的1043K对于合成数据集,我们使用FlyingTh-ings 3D数据集[15](简称F3 D)从随机初始化中执行网络的初始训练。然后,我们使用Synthia [25]作为包含类似于KITTI的sce- narios的合成数据集。该数据集由50个不同季节呈现的不同视频序列组成,天气条件下,共1045K的图像。对于这个数据集,我们将图像缩放到一半分辨率,与KITTI的差距相同。最后,使用Carla模拟器[4],我们渲染了一个由25个不同视频序列组成的新数据集(称为Carla),每个视频序列都有1000帧长,每个帧都有准确的地面真实数据。每个视频序列在15种不同的天气条件下呈现,以增加数据集的总共产生375K帧。在渲染过程中,我们设置虚拟相机以匹配真实KITTI数据集的几何形状(即,相同的基线、视场和相似的图像分辨率)。网络架构。对于实验,我们选择了Dispnet-Corr 1D [15]架构(简称Dispnet)。对于所有评估测试,我们在F3D上预训练网络以获得一组权重,这些权重将用作所有其他测试的初始化。我们实现了在第二节中介绍的置信函数。 3.2小2https://github.com/CVLAB-Unibo/Learning2AdaptForStereo网站三层完全卷积CNN,具有批量归一化。该网络将缩放到四分之一分辨率的重投影误差作为输入,并以相同的分辨率产生输出。然后使用双线性上采样将预测缩放到全分辨率补充材料中报告了有关网络架构和用于预训练它们的超参数的更多细节评价方案。 经过初步线下训练,我们执行在线适应和评估立体帧序列上的模型。为了测试每个序列的独立自适应,我们在每个测试序列的开始将视差网络重置为其训练的权重配置。然后,对于每一帧,首先,我们测量当前模型的性能,然后根据等式通过单个步骤的反向传播和权重更新对其进行调整。1,然后移动到下一帧。我们不测量用于自适应的帧的性能。指标. 我们根据平均端点误差(EPE)和视差误差大于3(D1-all)的像素百分比来衡量性能。首先,我们为每个帧独立地测量两个度量,以将性能绘制为用于自适应处理的帧的数量的函数。其次,我们对每个序列进行平均,最后对所有数据集进行平均。离线训练在F3D上进行初始预训练后,我们使用我们的学习自适应框架Alg在训练集上对网络进行微调。2,我们对每个样本使用k= 3个连续帧,并设置学习率α = 0。00001且β= 0。0001在线改编。我们使用左右重新投影的无监督损失[10]进行自适应。优化是使用梯度下降与动量,其中动量值设置为0。9,学习率设置为0。00015.2. 结果我们在成对的数据集之间评估我们的学习方法,一个用于训练,一个用于评估。我们考虑两种情况:1)合成的到真实的和2)合成的到合成的。我们比较了我们的学习适应框架(L2A)的结果,以及使用 有监督的L1回归损失(SL)。在测试时执行无监督在线自适应的方法是通过将+Ad添加到训练方法中,并通过+WAd进行置信加权自适应。值得注意的是,SL+Ad对应于[30]中提出9668方法训练集D1-所有(%)EPE公司简介 联系我们(a)(b)SL+Ad [30]-7.811.44-1.62-0.18(c) SLCarla7.461.48--(d)SL+Ad [30]Carla5.261.20-2.20-0.28(e) SLSynthia8.551.51-(f)SL+Ad [30]Synthia 5.33 1.19-3.22-0.32(g)L2ACarla8.411.51-(h)L2A+WAdCarla4.491.12-3.92-0.39(i)(j)L2A+WAdSynthia4.651.14-3.57-0.36(k)SL(理想)KITTI 4.26 1.12--表1.从F3D初始化后,根据不同方法训练的Dispnet网络在KITTI上的性能。可以清楚地看到,在线适应(+Ad/+WAd)与 被 忽 略 时 相 比 提 供 了 显 著 的 改 进 。 当 使 用 我 们 的L2A+WAd框架进行训练时,可以获得最佳结果。线(k)指示当对来自目标域的样本子集进行微调时,Dispnet可以执行得多好的上限。最后两列表示使用自适应的性能改进,并且如表中所示,我们的L2A+WAd方法使用自适应获得了性能的最大增加。5.2.1合成到真实最有趣的场景是在合成域上进行训练之后,在现实生活中进行测试。具体来说,我们在Synthia或Carla上进行训练,然后在KITTI数据集上进行评估。Dispnet体系结构的结果在Tab. 1.一、行(a)到(f)报告了当以标准方式(使用监督L1损失函数)获得网络权重时的性能正如预期的那样,网络在不同的域上测试时表现不佳,而不是在线训练(a,c,e)。对这种设置使用自适应提供了显著的改进-线(b、d、f)-进一步激发了适应新域的需要两行(h)和(j)报告了通过使用L2A+WAd框架. 我们提出的框架明显优于两个训练数据集的基线方法。比较线(h)和(d)清楚地表明,我们的训练过程能够学习更适合连续适应的模型。甚至对于使用Synthia的结果(第(j)和(f)行),也有相同的结论。在最后两列中,我们可以观察到每种方法的自适应提供的相对改进在这些结果中,很明显,我们的L2A+WAd框架在执行自适应时提供了最大的准确性增加。最后,在行(k)中,我们提供了在理想情况下获得的Dispnet的性能,其中来自目标域的样本可用(即,KITTI2012和KITTI2015训练集),并用于用监督的L1回归损失微调基础模型。尽管能够接触到这些样本百分之十一百分之十百分之九百分之八占7%占6%百分之五百分之四百分之三百分之二0 50 100150200250300350400450 500适应步骤图4.平均D1-所有误差相对于由根据监督学习(SL)或我们的学习适应框架(L2 A)训练的Dispnet网络在KITTI数据库上执行的适应步骤的数量方法Ad. 无监督广告监督表2.对来自Synthia的序列进行评价时的训练方法比较。可以看出,表现最好的训练方法是L2A+WAd。我们还提供了当我们使用L1监督适应损失的结果。最佳结果以粗体显示。会破坏我们方法的目的,这里列出的结果最终用作可达到性能的上限。如图所示,我们的L2A+WAd框架获得了有竞争力的结果。随时间变化的适应性能:为了进一步强调回归训练模型和适应训练模型之间的行为差异,我们将Dispnet在KITTI上实现的平均D1-all误差绘制为图4中适应步骤数量的函数。纵轴表示KITTI中所有序列中第k比较有和没有在线自适应的方法,很明显,在这两种情况下,自适应大大提高了性能。SL+Ad(绿线)和L2A+WAd(红线)之间的比较显示了我们的方法适应给定视频序列的速度。L2A的差结果可以很容易地解释,因为我们的公式从未显式优化回归的基础模型。相反,它优化网络以快速学习适应,因此基础模型结果可能是次优的,只要通过几个适应步骤就可以提高性能SLL2aSL+Ad.L2A+WAd.我们D1-所有训练集D1-所有(%)EPED1-所有(%)EPE(一)[30]第三十话- 二十六点五六3.9615.602.24(b)第(1)款[30]第三十话卡拉25.073.6213.891.9796695.2.2合成到合成在这里,我们执行了一个更受控的合成到合成评估,由于密集和准确的地面真实标签的可用性,我们可以更明确地测量性能差异。以下一系列测试的目的是量化学习适应框架的两个关键方面的性能,即通过元学习学习适应和学习加权噪声损失估计。为了进一步证明我们的学习适应公式的通用性,我们还提供了当网络被训练为在线执行时的结果使用监督L1损失的自适应(即,LuLs)。对于这些测试,我们再次使用在Carla上训练的Dispnet,但在完整的Synthia数据集的所有序列上进行测试。具体来说,为了证明我们可以使用不同的损失函数进行自适应,我们对无监督自适应和监督自适应进行了训练,并评估了以下训练场景的性能:(a)使用初始模型训练,卡拉(a) 左RGB帧(b) 预测差异(c) 重投影误差(ε)(d) 置信度掩模(W)(e) WεKITTIF3 D;(b)使用监督的L1损失进行Carla训练;(c)使用无置信度加权损失的学习适应框架;(d)使用有信心加权损失的学习适应框架。我们在Tab中报告结果。 其中可以看出,使用我们的学习到学习公式(c)明确训练Dispnet以适应,允许网络利用在线适应并大大提高无监督和监督适应设置中的性能。最后,还可以看出,对无监督损失值进行加权对于该测试设置,结果清楚地表明我们的配方如何能够学习更倾向于适应新环境的重量配置。5.3. 置信加权损失函数在图5中,我们显示了置信度掩码和加权误差的可视化,这些置信度掩码和加权误差由我们在第2节中描述的置信度引导的自适应损失优化。3.2.由于无法获得相应的地面实况数据,因此无法进行定量评价,并且获得这些数据并不简单。预测的置信度图有效地掩盖了图像中的遮挡区域,同时在图像的其余部分中保留有用的误差信号(低置信度区域被编码为暗像素)。遮挡区域上的误差,在左列中的交通标志的左边或在右列中的汽车的左边,被有效地掩盖,产生将改进自适应性能的更干净的误差估计。我们希望强调的是,信任网络是在没有任何直接监督的情况下训练的,并且只在Carla上训练,尽管如此,它似乎能够很好地推广到KITTI。我们相信这种能力3在在线自适应中,我们使用每个立体声对的预测dispar- ity和地面实况注释之间的L1图5.可视化的误差优化,以实现无监督适应与重投影为基础的损失函数,并使用我们的加权函数。较亮的颜色表示较高的值。泛化主要是由于避免了直接使用RGB输入,这些输入在数据集之间不可避免地会发生剧烈变化相反,置信网络依赖于估计的重新投影误差,这在不同的环境中更加一致。6. 讨论我们已经介绍了一个学习适应立体声框架,并演示了如何通过显式训练网络以适应适应来提高深度立体声网络的性能。此外,我们能够自动学习一个隐式的信心措施,肯定,噪声无监督误差估计,直接在我们的学习适应框架。具体来说,我们展示了Dispnet [15]网络在不同的合成域上进行训练时适应真实和合成域在这种情况下,我们在应用我们的学习适应公式时获得了更高的效率将来,我们计划在更复杂的网络架构上测试这个框架(例如,[13,34])并将其扩展为使用不同的无监督损失函数用于在线自适应(例如,在[33]中描述的改进的重投影损失)。7. 确认这项工作得到了ERC资助ERC- 2012-AdG 321162-HELIOS , EPSRC 资 助 Seebibyte EP/M013774/1 ,EPSRC/MURI资助EP/N 019474/1和东芝研究的支持。我们还要感谢皇家工程学院和FiveAI。9670引用[1] Maruan Al-Shedivat、Trapit Bansal、Yura Burda、IlyaSutskever、Igor Mordatch和Pieter Abbeel。在非平稳和竞争环境中通过元学习进行持续适应。在2018年国际学习代表。1、6[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议(CVPR),2018。5[3] 放大图片作者:Krista Clavera,Anusha Nagabandi,Simin Liu , Ronald S. Fearing , Pieter Abbeel ,SergeyLevine,and Chelsea Finn.通过元强化学习学习适应动态的现实世界环境。在2019年国际学习代表大会上。1、6[4] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉:一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集,第1-16页,2017年。二、六[5] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Doina Precup和Yee Whye Teh 编 辑 的 Proceedings of the 34 thInternationalConferenceonMachineLearning ,Proceedings of Machine Learning Research 第70 卷 ,第1126澳大利亚,2017年8月6日至11日。PMLR。一二三五六[6] 切尔西·芬恩和谢尔盖·莱文。元学习和普遍性:深度表示和梯度下降可以近似任何学习算法。ICLR,2018年。1[7] Ravi Garg ,Vijay Kumar BG ,Gustavo Carneiro ,andIan Reid.用于单视图深度估计的无监督CNN:几何学拯救了我们。在欧洲计算机视觉会议上,第740-756页。施普林格,2016年。1、4[8] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集 。 InternationalJournalofRoboticsResearch(IJRR),2013。6[9] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别(CVPR),2012年IEEE会议上,第3354IEEE,2012。2[10] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。 在CVPR,第2卷,第7页,2017年。 一、五、六[11] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei.Mentornet:在损坏的标签上正则化非常深的神经网络。在2018年国际机器学习会议(ICML)上。5[12] Zecqun Jie,Pengfei Wang,Yongen Ling,Bo Zhao,Yunchao Wei,Jiashi Feng,and Wei Liu.用于立体匹配的 左 右 比 较 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2018。5[13] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEEInternationalConferenceonComputerVision(ICCV),2017年10月。五、八9671[14] Zhengfa Liang,Yiliu Feng,Yulan Guo Hengzhu LiuWei Chen,and Linbo Qiao Li Zhou Jianfeng Zhang.通过特征恒定性学习视差估计。在IEEE计算机视觉和模式识别会议,2018年。5[15] Nikolaus Mayer,Eddy Ilg,Philip Hausser,PhilippFischer,Daniel Cremers,Alexey Dosovitskiy,andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在IEEE计算机视觉和模式识别会议(CVPR)中,2016年6 一、二、五、六、八[16] St e phanMeiste r,BerndJahne,andDanielKondermann. 用于生成真实世界基准数据集的室外立体摄像机系统。光学工程,51(2):021107,2012. 2[17] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。计算机视觉与模式识别会议(CVPR),2015年。一、二[18] Nikhil Mishra,Mostafa Rohaninejad,Xi Chen,andPieter Abbeel.一个简单的神经专注元学习者。在国际学习代表会议(ICLR),2018年。5[19] Devang K Naik和RJ Mammone。通过学习来学习的元神经网络 神经网络,1992年。IJCNN.,国际联合会议,第1卷,第437-442页。IEEE,1992年。5[20] 庞家豪,孙文秀,Jimmy SJ. Ren,Chengxi Yang,and Qiong Yan.Cascade residual learning:A two-stageconvolutional neural network for stereo matching.2017年10月在IEEE计算机视觉国际会议(ICCV)上发表。5[21] Jiahao Pang,Wenxiu Sun,Chengxi Yang,JimmyRen,Ruichao Xiao,Jin Zeng,and Liang Lin.缩放和学习:将深度立体匹配推广到新领域。IEEE计算机视觉和模式识别会议,2018年。一、五[22] 马特奥·波吉,法比奥·托西,和斯特凡诺·马托西亚。学习单目深度估计与无监督的三目假设。2018年第六届3D视觉国际会议(3DV)。5[23] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。2017年国际学习表征会议(ICLR)。5[24] Mengye Ren,Wenyuan Zeng,BinYang,and R
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功