没有合适的资源?快使用搜索试试~ 我知道了~
竞争协作:深度、相机运动、光流与运动分割的无监督学习
12240竞争合作:深度、相机运动、光流和运动分割的联合无监督学习VarunJampani2Lukas Balles1KihwanKim 2DeqingSun 2JonasWulff 1,3Michael J. 黑11马克斯·普朗克智能系统研究所2NVIDIA3麻省理工学院{aranjan,lballes,jwulff,black}@ tuebingen. mpg. de{vjampani,kihwank,deqings}@nvidia.com摘要我们解决了低层次视觉中几个相互关联的问题的无监督学习:单视图深度预测,摄像机运动估计,光流,以及将视频分割成静态场景和移动区域。我们的关键见解是,这四个基本的视觉问题是通过几何约束耦合。因此,学会一起解决它们可以简化问题,因为解决方案可以相互加强。我们超越以前的工作,更明确地利用几何和段ING的场景成静态和移动区域。为此,我们引入了竞争协作,这是一个框架,可以促进多个专门神经网络的协调训练,以解决复杂问题。竞争协作的工作原理与期望最大化非常相似,但神经网络既充当竞争者来解释与静态或移动区域相对应的像素,又通过将像素分配为静态或独立移动的主持人来充当协作者。我们的新方法集成了所有这些问题在一个共同的框架,并同时原因分割成运动对象和静态背景,相机运动,深度的静态场景结构,和运动对象的光流。我们的模型在没有任何监督的情况下进行训练 .1. 介绍深度学习方法已经在使用大量数据进行监督的计算机视觉问题上取得了最先进的结果[9,18,21]。然而,对于许多视觉问题,需要密集的,连续值的输出,它是ei-该项目以前由对抗协作:深度,相机运动,光流和运动分割的联合无监督学习图1:深度、相机运动、光流和运动分割的无监督学习。左,从上到下:样本图像,表示运动分割的软掩模,估计的深度图。右,从上到下:静态场景光流,运动区域中的分割光流和组合光流。因此,收集地面实况数据是不切实际的或昂贵的[6]。我们在本文中考虑四个这样的问题:单视图深度预测、相机运动估计、光流和运动分割。以前的工作已经使用真实[5]和合成数据[4]来处理这些问题然而,合成数据和真实数据之间总是存在现实差距,真实数据是有限的或不准确的。例如,使用LIDAR [6]获得的深度地面实况是稀疏的。此外,没有提供地面实况光流的传感器,因此具有真实图像的所有现有数据集都是有限的或近似的[1,6,13]。运动分割地面实况目前需要手动标记图像中的所有像素[26]。问题. 最近的工作试图使用无监督学习来解决训练数据有限的问题[14,24]。在没有地面实况的情况下学习从像素到流、深度和相机运动的映射是具有挑战性的,因为这些问题中的每一个都是高度模糊的。为了解决这个问题,需要额外的约束,静态场景,相机运动和光流之间的几何比如深度的无监督学习12241在[38,22]中,相机运动已经被耦合。他们使用可解释性掩码来排除静态场景假设无法解释的证据。Yin等人。[37]将其扩展到估计光流,并使用前后一致性来推理无法解释的像素。这些方法在深度[38]和光流[37]基准上表现不佳。一个关键原因是,这里应用的约束不能区分或分割独立移动的对象更一般地说,并非未标记训练集中的所有数据都符合模型假设,其中一些数据可能会破坏网络训练。例如,深度和相机运动的训练数据不应包含独立移动的对象。类似地,对于光流,数据不应包含遮挡,遮挡会破坏常用的光度损失。主意. 一个典型的真实世界场景由静态区域(在物理世界中不移动)和移动对象组成[36]。给定深度和摄像机运动,我们可以对视频序列中的静态场景进行推理。与此相反,光流则是关于场景所有部分的推理运动分割将场景分为静态和运动区域。我们的主要观点是,这些问题是由场景的几何和运动耦合的;因此,联合解决它们是协同的。我们表明,通过从未标记的数据中联合学习,我们的耦合网络可以划分数据集并仅使用相关数据,从而产生比没有这种协同作用的学习更准确的结果Approach. 为了解决联合无监督学习的问题,我们引入了竞争协作(CC),这是一个通用的框架,网络在其中学习协作和竞争,从而实现特定的目标。在我们的特定场景中,竞争协作是一个三人游戏,由两个玩家争夺由第三个玩家(仲裁者)管理的资源如图2所示,我们在我们的框架中引入了两个参与者,静态场景重建器R=(D,C),它使用深度D和相机运动C来推断静态场景像素;以及移动区域重建器F,它推断独立移动区域中的像素这两个播放器通过推理图像序列中的静态场景和运动区域像素来竞争训练数据竞争是由运动分割网络,M,分割静态场景和运动区域,并分发训练数据的球员。但是,主持人也需要培训,以确保公平竞争。因此,玩家R和F合作训练调节器M,使得其在训练周期的交替阶段中正确地分类静态和移动区域。 这种一般框架 在精神上类 似于期望最 大化(EM),但用于神经网络训练。捐款. 我们的贡献概括如下:1)我们引入竞争性协作,一个无监督的学习框架,网络作为竞争者和合作者,以达到特定的目标。2)我们证明了联合训练网络与该框架对它们的性能具有协同效应。3)据我们所知,我们的方法是第一个使用深度,相机运动和光流等低级信息来解决分割任务而无需任何监督。4)在单视点深度预测和摄像机运动估计方面,我们取得了无监督方法中最先进的我们实现了最先进的性能光流之间的无监督的方法,原因的几何场景,并介绍了第一个基线完全无监督的运动分割。我们甚至优于使用更大网络[37]和多个细化步骤(如网络级联[24])的竞争方法5)我们分析了我们的方法的收敛性,并给出了一个直观的一般化使用混合域学习MNIST [19]和SVHN [25]数字。我们所有的模型和代码都可以在https://github.com/anuragranj/cc上找到。2. 相关工作我们的方法是一个三人游戏,包括两个竞争对手和一个主持人,其中主持人的角色的批评和两个竞争对手合作,以培训主持人。协作的思想也可以被视为神经期望最大化[8],其中一个模型被训练来将数据分发给其他模型。对于无监督学习,这些思想主要用于对数据分布进行建模[8],尚未应用于回归或分类问题的无监督训练。最近在单图像深度预测[5]、相机运动估计的监督训练方面有重要的工作[16]和光流估计[4]。然而,为连续值回归任务标记大型数据集并不简单,并且这些方法通常依赖于合成数据[4,23,28]。无监督方法试图通过最小化光度损失来独立求解光流[14,24,35这是高度欠约束的,因此该方法表现不佳。最近的工作[22,32,33,37,38]通过在无监督学习框架中将两个或多个问题耦合在一起来估计这些问题Zhou等人。[38]介绍了来自多个未标记帧的自我运动和深度的联合无监督学习。为了计算移动的物体,他们学习一个可解释性掩码。然而,这些掩模也捕获模型故障,例如深度不连续处的遮挡,因此对于运动分割没有Mahjourian等人[22]使用更明确的几何损失来联合学习刚性场景的深度和相机运动。Yin等人[37]将细化网络添加到[38]以估计剩余光流。剩余流的估计被设计为考虑移动区域,但是没有光流网络与移动区域的耦合。12242D∈·--DD {D∈}----图2:网络R=(D,C)通过使用深度D和相机运动C估计静态区域上的光流来推断场景。光流网络F估计整个图像上的流。运动分割网络M从F中屏蔽静态场景像素,以在整个图像上产生复合光流。使用合成流的损失E被应用于相邻帧以联合地训练所有这些模型。深度和摄像机运动网络。剩余光流使用级联细化网络获得,从而防止其他网络使用流信息来改进自身。因此,最近的工作在深度和相机运动[22,37,38]或光流[24]上显示出良好的性能,但不是两者都有。Zou等人[39]利用深度和光流之间的一致性来提高性能。我们添加的关键缺失部分是输出m=M(i),m[0,1]n,并且n是竞争者的输出范围。竞争的参与者分别最小化他们的损失函数LR,LF,使得每个参与者为自己而不是为群体进行优化。为了解决这个问题,我们的培训周期包括两个阶段。在第一阶段,我们通过固定主持人网络M和最小化Σ Σ共同学习将场景分割成静态和独立移动的区域。这允许网络在应用和通用的E1=我m·LR(R(Di))+(1−m) ·LF(F(Di)),(1)Ω流到他们不去的地方。我们的工作介绍了一个框架,运动分割,流,深度和相机运动模型可以耦合和解决联合推理的完整的几何结构和运动的场景。竞争协作可以推广到模型具有交叉目标的问题,在这些问题中,模型可以竞争和协作。例如,可以使用我们的框架来完成对多模态分布的建模,从而每个竞争者都可以学习该分布其中用于表示整个过程中的元素级乘积文中然而,主持人M也需要接受培训。这发生在训练周期的第二阶段。竞争者R、F形成共识并训练调节器M,使得其在训练周期的下一阶段中正确地分发数据。在协作阶段,我们通过最小化,ΣΣ在一个模式。事实上,期望最大化(EM)在计算机视觉中的应用始于光流问题E2=E1+我LM(Di,R,F)(2)Ω并被用于将场景分割成3. 竞争性协作在我们的上下文中,竞争性协作被表述为一个三人游戏,由两个玩家竞争一个资源,该资源由一个调节器调节,如图3所示。考虑未标记的训练数据集=i:iN,其可以被划分成两个部分,关节套 两个参与者R,F竞争以获得该数据作为资源,并且每个参与者尝试分区以最小化其损失。 分区由主持人其中LM是表示竞争者R、F之间的共识的损失。竞争协作可以应用于训练多个任务特定网络的更一般的问题。在附录A.1中,我们使用MNIST和SVHN数字上的混合域学习示例来展示我们的方法的通用化,并分析其收敛特性。在联合学习深度、相机运动、光流和运动分割的上下文中,第一参与者R=(D,C)由深度和相机运动网络组成,其推理场景中的静态区域。第二个参与者F是光流网络,其对移动区域进行推理。为了训练参赛者,12243--∈1−图3:竞争协作的训练周期:主持人M驾驶两个竞争者R、F(第一阶段,左)。之后,竞争者合作培训moder- ator,以确保下一次迭代中的公平竞争(第二阶段,右)。运动分割网络M在静态像素上选择网络(D,C),并在属于运动区域的像素上选择F竞争确保(D,C)仅与静态部分有关,并防止移动像素破坏其训练。类似地,它防止任何静态像素出现在F的训练损失中,从而提高其在运动区域中的性能在训练周期的第二阶段,参赛者(D,C)和F其中,m-,m+[0,1]n表示在空间像素域中区域为静态的概率,n。最后,网络F_∞估计光流。F一次处理2幅图像,并且在分别估计u-、u+、后向和前向光流1时共享其权重u−=F(I,I−),u+= F <$(I,I+).(六)损失我们学习的参数的网络{Dθ,Cφ,Fθ,Mχ},通过联合最小化能量,E=λR ER+λF EF+λM EM+λC EC+λS ES,(7)其中{λR,λF,λM,λC,λS}分别是能量项的权值术语ER和EF是目标通过两个竞争者分别重建静态和运动区域来最小化。对数据的竞争是由EM驱动的。较大的权重λM将朝向静态场景重建器驱动更多的像素。项EC驱动协作,并且ES是平滑正则化子。静态场景项ER使静态场景像素上的光度损失最小化,现在合作推理静态场景和移动区域通过形成共识,这是用来作为训练主持人,M的损失。在本节的其余部分中,我们制定了深度、摄像机ER=ΣΣs∈{+,−}<$.Σρ I,wc( Is,es,d)·ms(8)运动、光流和运动分割。记法。 我们用{D θ,C φ,F θ,M χ}表示网络,其中,ρ是空间像素域,ρ是鲁棒误差函数。T1n,并且Wc根据深度d和相机运动e将参考帧朝向目标帧扭曲。同样,EF最小化移动区域分别估计深度、摄像机运动、光流和运动分割。下标{θ,φ,θ,χ}是网络参数。我们将省略EF=ΣΣs∈{+,−}<$.ΣρI,wf(Is,us)·(1−ms)(9)为简洁起见,在几个地方添加了下标考虑一个im-具有目标帧I和时间上相邻的参考帧I-、I+的年龄序列I-、I、I+。一般来说,我们可以其中wfw使用fl owu来处理参考图像。我们去附录A.2和A.3中的wc、wf公式。我们计算鲁棒误差ρ(x,y)为具有许多相邻帧。在我们的实现中,我们对于Cφ和MX使用5帧序列,但是为了简单起见,Σρ(x,y)=λ<$(x-y)2+λ<$2+(1-λ)Σ(2µx µy+c1)(2µxy+c2)(十)ρ ρ(μ2+μ2+c1)(σx+σy+c2)三个框架来描述我们的方法。我们估计x的深度y目标帧为d= D θ(I)。(三)我们估计每个参考帧I-、I+w.r.t. 目标帧I为其中λ ρ是固定常数,λ = 0。01. 第二任期也称为结构相似性损失(SSIM)[34],已在以前的工作中使用[22,37],µx,σx是像素邻域的局部均值和方差e−,e+ =Cφ(I−、I、I+)的情况。(四)c1= 0。012和c2= 0。032.损失EM使交叉熵H最小,同样,我们估计目标图像掩模和由λM分为静态场景和动态区域。静态场景的光流仅由相机运动和深度定义这通常是指场景的结构的EM=ΣΣs∈{+,−}<$H(1,m s)。(十一)移动区域具有独立的运动w.r. t。现场对应于每对目标和参考图像的分割掩模由下式给出:m− , m+=Mχ ( I− , I , I+ ) ,(512244)较大的λM优先考虑静态场景重建器R,使场景偏向静态。1注意,这与两帧估计的上下文中的前向和后向光流不同12245联系我们2 22令ν(e,d)表示由相机运动e和深度d引起的光流,如附录A.2所述。一致性损失EC驱动协作,并通过在由ν(e,d)给出的静态场景的流与来自Fθ的光流估计之间取得一致性来约束掩模以分割移动对象。它由下式给出使用Eq. (8)和重构器F_n使用Eq. (九)、通过掩码网络Mx使用等式(1)来实现调节。(十一)、此外,R、F之间的协作使用Eq.(12)训练网络Mx。如果场景完全静止,只有摄像机EC= ΣΣs∈{+,−}<$.ΣH IρR< ρF||v(es,d)−us||< λc,ms(十二)移动时,遮罩迫使(Dθ,Cφ)重建整个场景。然而,(Dθ,Cφ)在场景的独立运动区域中是错误的,这些区域用Fθ重建。调节器Mx被训练成分割在那里我0、1是一个指标函数,如果下标中的条件为真。第一个指标函数通过比较ρR=ρ(I ,wc (Is ,es ,d ))和ρF=ρ (I ,wf(Is ,us)),支持将掩模分配给在像素上实现较低光度误差的竞争者。在第二指示函数中,如果静态场景流ν(e,d)接近光流u,则阈值λc迫使I= 1,指示静态场景。符号表示逻辑指示器功能之间的OR。 共识损失如果R的光度误差低于F,或者如果R的诱导流与F的诱导流相似,则鼓励将像素标记为静态。最后,平滑项ES充当深度、分割和流的正则化器Σ通过从(Dθ,Cφ)和Fθ中取得共识来正确地推断场景中的静态和移动部分,如等式2所示。(十二)、因此,我们的训练周期有两个阶段。在第一阶段,调节器Mχ驱动两个模型(Dθ,Cφ)和Fφ之间的竞争,使用方程:(8,9)。在第二阶段,竞争者(Dθ,Cφ)和Fθ共同合作,使用等式M χ训练调节器Mχ。(11、12)。4. 实验网络架构。对于深度网络,我们使用DispNetS [38]和DispResNet进行实验,其中我们用残差块[10]替换卷积块网-ES=||+的||λ e u−||+的||λe u +||λ e∇u+||Ω+||λ em−||2个以上||λ em+||第二条,第十三条工作Dθ将单个RGB图像作为输入和输出深入对于流网络F,我们使用FlowNetC [4]和PWC-Net[31]进行实验。PWC-Net使用Janai et.其中,λe=e−I(按元素),是沿空间方向的一阶导数[29]。项λe确保:平滑度由图像的边缘引导。推理。深度d和相机运动e直接从网络输出推断。运动分割m_x由掩模网络M_x的输出以及静态流和光流估计之间从Fx它由下式给出[12]。网络F计算一对帧之间的光流。网络C φ、M χ将5帧序列(I--、I-、I、I+、I++)作为输入。掩码网络Mx具有编码器-解码器架构。编码器由堆叠的残余卷积层组成。德-结果:训练的网络参数,(θ,φ,θ,χ)定义λ=(λR,λF,λM,λC);随机初始化(θ,φ,θ,χ);m=Im·m−>0。500万美元||v(e+,d)−u+||<λc.(十四)通过联合训练(Dθ,Cφ)来更新(θ,φ),λ=(1. 0,0。0,0。0,0。0);第一项取掩码概率的交集-使用前向和后向参考帧由Mx来表示第二项采用由R=(Dθ,Cφ)和Fφ估计的流之间的一致性来推理掩码。通过取两项的并集来获得最终掩码。最后,(I,I+)之间的全光流u为:来自静态场景的光流的合成,独立移动区域,u=Im>0. 5·v(e+,d)+Im≤0. 5·u+。(十五)方程中的损失公式(7)被公式化以最小化相邻帧的再现误差。两个竞争者,静态场景重建器R=(Dθ,Cφ)和移动区域重建器Fφ最小化该损失。重建器R通过使用λ =(0. 0,1。0,0。0,0。0);通过用λ =(1. 0,0。5,0。0,0。0);回路竞争步骤通过联合训练(Dθ,Cφ,其中λ =(1.0,0。5,0。05,0);通过联合训练(Dθ,Cφ,Fθ,Mχ)更新θ其中λ =(0. 0,1。0,0。005,0);协作步骤通过联合训练(Dθ,Cφ,Fθ,Mχ)更新χ其中λ =(1. 0,0。5,0。005,0。3);EndLoop算法1:网络训练算法+12246×图4:目视检查结果。从上到下:样本图像,估计深度,软共识面具,运动分割光流和组合光流。编码器已经堆叠卷积层以产生参考帧的掩码(m--,m-,m+,m++)摄像机运动网络Cφ由堆叠卷积组成,然后是特征图的自适应平均池化,以获得摄像机运动(e--,e-,e+,e++)。网络Dθ、Fθ、Mχ在6个不同的空间尺度上输出结果使用最精细尺度的预测最高比例与图像的分辨率相同,每个较低比例将分辨率降低2倍我们在附录A.4中展示了网络架构的详细信息。网络培训。我们使用原始KITTI序列[6]进行训练,使用Eigen等人的'。的分裂[5]是一致的相关作品[5,20,22,37,38,39]。我们训练网络,批量大小为4,学习率为10−4us,[17]第十七话 图像缩放到256832培训。数据通过随机缩放、裁剪和水平翻转进行扩充我们使用算法1进行训练。最初,我们训练(Dθ,Cφ),其中仅在静态像素上具有光学损失ER和平滑损失ES,而其他损失项被设置为零。类似地,我们在所有像素上独立地训练F*现阶段的模型(Dθ,Cφ),Fθ在我们的实验中被称为“基本”模型。然后,我们使用联合损失来学习Mx。我们使用λR= 1。0,λ F= 0。5,因为静态场景重建器R在其损失中使用4个参考帧,而光流网络F使用2个帧。因此,这些权重归一化每个相邻帧的损失。我们使用联合损失迭代地训练(D θ,C φ),F θ,M χ,同时保持其他网络权重固定。共识权重λ C= 0。3仅在训练掩码网络时使用其他常数固定,λ S= 0。005,以及等式中的阈值。 (14),λ c= 0. 001。 常数λ ρ= 0。003调节SSIM损耗,并根据经验选择 我们在每一步迭代训练竞争者(D θ,C φ),F θ和调节者M x大约100,000次迭代,直到验证误差饱和。单目深度和相机运动估计。 我们获得了关于单视图深度预测和相机运动估计的现有技术结果,如表1和表3所示。在Eigen等人的工具上评价深度[5]分割原始KITTI数据集[6],并在KITTI Odometry数据集[6]上评估相机运动。这些评价框架与以前的工作一致[5,20,22,37]。所有深度图都以80米为上限如表1所示,通过仅在KITTI [6]上训练我们的方法,我们获得了与[37,39]等竞争方法相似或更好的性能,这些方法使用更大的Resnet-50架构[10]并在更大的Cityscapes数据集[3]上训练。在我们的训练中使用Cityscapes进一步提高了我们在深度估计基准上的性能(表1中的cs+k)。关于深度估计的消融研究见表二、在基本模式下,我们的网络架构,深度和相机运动估计的DispNet与[38]最相似,这反映在我们基本模型的性能中。我们通过添加SSIM损失得到一些性能改进[34]。然而,我们观察到,使用竞争性协作(CC)框架与联合损失的结果在这两个任务中的更大的性能增益。通过使用更好的网络架构DispResNet,获得了进一步的改进。当我们使用更好的网络进行流时,深度估计得到了更大的改进,这表明在CC框架中,改进一个任务可以提高另一个任务的性能(表2中的第4行与第5行)。相机运动估计也显示出类似的性能趋势,如表3所示。使用基本模型,我们实现了与基线相似的性能[38],其随着SSIM损耗的增加而改善。使用CC框架可以进一步提高性能。总之,我们表明,使用CC的联合训练提高了单视图深度预测和相机运动估计的性能。 我们在图4中显示了定性结果。 在附录中,我们使用Make3D数据集[30](A.6)和更多定性结果(A.5)进行了额外评估。12247方法数据误差准确性, δAbsRelSqRelRMSRMSlog<1.一、25<1.一、252<1.一、253Eigen等人[5]粗糙K0.2141.6056.5630.2920.6730.8840.957Eigen等人[5]罚款K0.2031.5486.3070.2820.7020.8900.958Liu等人[20个]K0.2021.6146.5230.2750.6780.8950.965Zhou等人[38个]CS+K0.1981.8366.5650.2750.7180.9010.960Mahjourian等人[22日] CS+K0.1591.2315.9120.2430.7840.9230.970[37]第三十七话CS+K0.1531.3285.7370.2320.8020.9340.972DF-Net [39]CS+K0.1461.1825.2150.2130.8180.9430.978CC(我们的)CS+K0.1391.0325.1990.2130.8270.9430.977Zhou等人 * [38个]K0.1831.5956.7090.2700.7340.9020.959Mahjourian等人[22日]K0.1631.2406.2200.2500.7620.9160.968[37]第三十七话K0.1641.3036.0900.2470.7650.9190.968[37]第三十七话K0.1551.2965.8570.2330.7930.9310.973戈达尔等[七]《中国日报》K0.1541.2185.6990.2310.7980.9320.973DF-Net [39]K0.1501.1245.5070.2230.8060.9330.973CC(我们的)K0.1401.0705.3260.2170.8260.9410.975表1:深度估计的结果。监督方法显示在第一行中。数据指的是训练集:Cityscapes(cs)和KITTI(k)。Zhou elal.*显示了他们的github页面的改进结果。方法数据净D净F误差准确性, δAbsRelSqRelRMSRMSlog<1.一、25<1.一、252<1.一、253基本KDispNet-0.1841.4766.3250.2590.7320.9100.967基本+ssimKDispNet-0.1681.3966.1760.2440.7670.9220.971CC + ssimKDispNetFlowNetC0.1481.1495.4640.2260.8150.9350.973CC + ssimKDispResNetFlowNetC0.1441.2845.7160.2260.8220.9380.973CC + ssimKDispResNetPWC网络0.1401.0705.3260.2170.8260.9410.975CC + ssimCS+KDispResNetPWC网络0.1391.0325.1990.2130.8270.9430.977表2:深度估计的消融研究使用竞争协作和更好的架构进行联合培训可以改善结果。当深度通过使用更好的流网络而提高时,可以看到CC的好处(第4行与第5行)。方法序列09序列10ORB-SLAM(满)0.014±0.008 0.012 ± 0.011ORB-SLAM(短)0.064±0.141 0.064 ± 0.130平均里程0.032±0.026 0.028 ± 0.023Zhou等人[38]0.016±0.009 0.013 ± 0.009Mahjourian等人[22]0.013±0.010 0.012 ± 0.011土工网[37]0.012±0.0070.012 ±0.009DF-Net [39]0.017±0.007 0.015 ± 0.009基本(我们的)0.022±0.010 0.018 ± 0.011基本+ssim(我们的)0.017±0.009 0.015 ± 0.009CC + ssim(我们的)0.012±0.007 0.012 ±0.008表3:相机姿态估计的结果。光流估计我们比较性能我们的方法与使用KITTI2015训练集[6]的竞争方法相一致,以与以前的工作[24,37]保持一致。我们获得了如表4所示的联合方法的最新性能。无监督微调12248(CC-uft),通过设置λ M= 0。02给出了比CC更多的改进,因为掩码现在选择R和F之间的最佳流,而不会过度约束选择R。相比之下,UnFlow-CSS [24]使用3个级联网络来细化每个阶段的光流。Geonet [37]和DF-Net [39]与我们的架构更相似,但使用更大的ResNet-50架构。Back2Future [12]在离群值误差方面比我们的方法表现更好,但由于使用了额外的数据,在平均终点误差方面表现在表5中,我们观察到独立地训练静态场景重建器R或移动区域重建器F导致更差的性能。这是因为R无法推理场景中动态移动的对象类似地,F在推理场景的静态部分时不如R好,特别是在遮挡区域中。将它们一起使用,并且如等式(1)中所示合成来自两者的光流。(15)导致性能的大幅改善此外,采用更好的网络结构进一步提高了CC框架下的性能我们在图4和附录A.5中显示了定性结果。12249列车试验表4:光流结果。我们还比较了仅在合成数据上训练的监督方法(顶部2行);专门用于光流的非监督方法(中间3行)和解决多个任务的联合方法(底部4行)。* 指的是我们框架中使用的Pytorch实现,它的准确性略低平均EPE方法净D净FSPMP总RDispNet-7.5132.7513.54F-FlowNetC15.326.2014.68CCDispNetFlowNetC6.356.167.76CCDispResNetPWC网络5.675.046.21表5:关于流量估计的消融研究。SP、MP指的是静态场景和运动区域像素。EPE是在KITTI 2015训练集上计算的。R、F在没有CC的情况下独立训练运动分割我们使用KITTI 2015训练集[6]评估估计的运动分割,该训练集提供移动汽车的地面真实分割。由于我们的方法在估计分割时不区分不同的语义类别,因此我们仅对汽车像素进行分割具体来说,我们只考虑汽车像素 ,并计算移动和静 态汽车像素的交集(IoU)分数在表6中,我们显示了使用我们的技术获得的分割掩码在不同的条件下。 我们指的是。面具,表6:运动分割结果。KITTI 2015训练数据集图像上的Intersection Over Union(IoU)分数,通过汽车像素计算。5. 结论与讨论通常,学习以从单个图像推断深度需要用地面实况深度扫描来训练图像,并且学习以计算光流依赖于合成数据,其可能不会推广到真实图像序列。 对于静态场景,由移动的摄像机观察,这两个问题与摄像机运动有关;深度和相机运动完全决定了2D光流。如果场景是静态的并且只有摄影机移动,则在几帧因此,通过结合深度,相机和流量估计,我们可以通过在训练期间使用来自多个帧的信息来学习单个图像深度。这对于无监督训练尤其重要,因为深度和光流都是高度不适定的。将来自多个任务和多个框架的证据结合起来有助于协同地约束问题。然而,仅这一点还不够,因为真实场景包含多个不符合静态场景几何体的移动对象。因此,我们还学会了在没有监督的情况下将场景分割成静态和移动区域。在独立移动的区域中,通用流网络学习估计光流。为了促进这一过程,我们引入竞争性竞争网络,其中网络既竞争又合作。我们证明,这一结果在所有子问题的无监督方法此外,主持人学会了在没有任何直接监督的情况下将场景分割成静态和未来的工作。我们可以添加少量的监督训练,我们希望通过这些训练显著提高基准测试的性能,参见。[24]第10段。例如,我们可以使用与运动分割网络Im−m+ >0。5来自KITTI的稀疏深度和流量以及来自面具Net城市景观选择性地提供地面实况,共识我||v(e,d)−u+||<λc ∗ 就像“阿姆斯”。 最终网络. 更丰富的细分网络,语义切分应改善非刚性切分,运动分割模板 在互联网上,上述两个估计的关系被称为“联合”(等式10)。第14段)。IoU结果表明,与“MaskNet”和“Consensus”掩码相比,“Joint”掩码的IoU得到了显著改善定性结果见图4和附录A.5。第 对于汽车应用,深度图公式-因此,应该将这种方法扩展到世界坐标系,这将支持在长图像序列上整合深度信息最后,如[36]所示,使用层和几何体的关键思想适用于一般场景,而不是汽车场景,我们应该能够训练这种方法来处理一般场景和相机运动。感谢Frederik Kunstner验证证明,Clément PinardGeorgios Pavlakos 负 责 论 文 修 订 , Joel Janai 负 责 光 流 可 视 化 ,Clément Gorard负责Make3d评估代码。MJB是亚马逊的兼职员工;在亚马逊拥有经济利益,Meshcapde GmbH;并获得了英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金。MJB该项目得到了NVIDIA的资助。整体静态车行驶中的汽车MaskNet41.6430.5652.71共识51.5247.3055.74联合56.9455.7758.11+方法EPEFLFL[第11话]10.0630.37%-[27]第二十七话20.5644.78%-[24]第二十四话8.80百分之二十八点九四29.46%[24]第二十四话8.1023.27%-[12]第十二话6.59-22.94%[12]第十二话7.0424.21%-GEONET [37]10.81--DF-Net [39]8.9826.01%25.70%CC(我们的)6.2126.41%-12250引用[1] S. Baker、D. Scharstein,J.刘易斯,S。罗斯,M。J.Black和R. 塞利斯基光流数据库和评价方法International Journalof Computer Vision,92(1):11[2] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影欧洲计算机视觉会议,第611-625页,2012年。16[3] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒Cityscapes数据集用于语义城市场景理解。IEEE计算机视觉与模式识别会议(CVPR),2016年。6[4] A. 多索维茨基山口Fischer、E.Ilg,P.豪塞尔角哈齐尔巴斯Golkov,P. van der Smagt ,D. Cremers 和T. 布洛克斯Flownet:使用卷积网络学习光流在2015年IEEE计算机视觉国际会议论文集,第2758-2766页一、二、五、十四[5] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展,第2366-2374页,2014年。一、二、六、七[6] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI视觉基准套件。在计算机视觉和模式识别(CVPR)会议上,2012年。一、六、七、八[7] C.戈达尔湖,澳-地Mac Aodha和G.布罗斯托深入研究自我 监 督 的 单 目 深 度 估 计 。 arXiv 预 印 本 arXiv :1806.01260,2018。七、十六[8] K. Greff,S. van Steenkiste和J.施密特胡博神经期望最大化。神经信息处理系统的进展,第6694-6704页,2017年2[9] K.他,G.吉基奥萨里山口多拉尔河和娘娘腔。面具r-cnn。在计算机视觉(ICCV),2017年IEEE国际会议上,第2980-2988页。IEEE,2017年。1[10] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770五、六、十四[11] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议,第2卷,2017年。8[12] J. Janai,F.Güney,A.Ranjan,M.Black和A.盖革具有遮挡的多帧光流的非监督学习在欧洲计算机视觉会议(ECCV)的会议记录中,第690-706页,2018年。五七八十四[13] J. Janai,F. Güney,J. Wulff,M. Black和A.盖革慢流:利用高速摄像机获得准确多样的光流参考数据。在2017年IEEE计算机视觉和模式识别会议(CVPR)上,Piscataway,NJ,USA,2017年7月。美国电气与电子工程师协会。1[14] J. Y. Jason,A. W. Harley和K. G.德尔帕尼斯回到基础:通过亮度恒定性和运动平滑性的光流的无监督学习。欧洲计算机视觉会议,第3-10页。施普林格,2016年。一、二12251[15] A. Jepson和M. J.布莱克。光流计算的混合模型。在IEEE计算机视觉和模式识别,第760IEEE,1993年。3[16] A. Kendall,M. Grimes和R.西波拉Posenet:用于实时6-dof相机重新定位的卷积网络。在Proceedings of theIEEE international conference on computer vision,pages2938-2946,2015中。2[17] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097-1105页,2012年。1[19] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应 用 于 文 档 识 别 。 Proceedings of the IEEE , 86(11):2278-2324,1998. 二、十一[20] F. Liu,C. Shen,G.林和我里德使用深度卷积神经场从单 目 图 像 学 习 深 度 。 IEEE transactions on patternanalysis and machine intelligence , 38 ( 10 ) : 2024-2039,2016。六、七[21] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议集,第3431-3440页,2015年。1[22] R. Mahjourian,M. Wicke和A.安杰洛娃基于3d几何约束的单目视频深度和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功