没有合适的资源?快使用搜索试试~ 我知道了~
1LSM:面向低层视觉的子空间最小化汤承洲1陆远2 谭平11西蒙菲莎大学2微软图1:学习子空间最小化使用统一的网络结构和参数解决各种低级视觉任务摘要我们从一个新的角度研究了低层次视觉任务我们用一个可学习的子空间约束来替换正则化项这种学习子空间最小化(LSM)框架统一了许多低级视觉任务的网络结构和参数,这允许我们同时训练具有完全共享参数的多个任务的单个网络,甚至将训练的网络推广到看不见的任务,只要其数据项可以公式化。我们展示了我们的LSM框架上的四个低级别的任务,包括交互式图像分割,视频分割,立体匹配,光流,并验证网络上的各种数据集。实验结果表明,所提出的LSM生成的最先进的结果具有更小的模型大小,更快的训练收敛和实时推理。1. 介绍许多低层次的视觉任务(例如图像分割[50,75,23],视频分割[48,73,41],立体匹配-ing [63,5,59]和光流[28,8,69])通常被公式化为能量最小化问题:minD(x)+R(x),(1)X其中x是期望的解(例如,用于立体匹配的视差场),并且两个项D(x)和R(x)分别是数据项和正则化项。数据项D(x)通常遵循第一原理设计得很好例如,在立体和光流中的颜色一致性假设然而,正则化项R(x)通常是启发式的。通常,它在像素级正则化x,并鼓励相似的像素具有相似的解值。正则化项是必要的,因为低级视觉任务通常是不适定的[60],并且独立的数据项通常是不够的,例如。光流中的孔径问题然而,香草L2光滑正则化[72]可能导致对象边界处的过度平滑结果。理想地,正则化项应该平滑噪声,x并保留锐边。因此,已经开发了许多边缘保持正则化项,例如全变差(TV)正则化[66,10],各向异性扩散[57],专注于设计像素之间更好的相似性测量的双边滤波器[54],以及学习特征嵌入空间中的距离[65,68,44]也被用于相同的目的。但如何设计一种理想的相似性度量,以实现高效、准确的能量最小化,仍然是一个尚未解决的问题我们从不同的角度研究这个能量最小化问题而不是专注于像素级的相似性- ity,我们利用图像级的上下文信息。具体来说,我们保留数据项D(x),但用子空间约束替换启发式正则化项R(x)minD ( x ) , s.t. x∈ V=span{v1 , · · ·vK} ,(2)X其中V是K维子空间,并且{v1,···vK}是对应的基向量。 我们的动机与正则化项R(x)不同:我们使用图像级上下文信息来正则化问题,求和所需的解决方案X由几个层组成[15,79,80],例如,光流的运动层,并且每个基向量vk将对应于这些层中的一个62356236呃。因此,我们可以将解x表示为这些基向量的线性组合,并求解组合系数,从而实现紧凑的最小化,不仅有效,而且能够进行端到端训练,并且优于传统的正则化项R(x)。为此,我们提出了学习子空间最小化(LSM)框架,逐步发展V和解决方程。(2)在特征金字塔上由粗到细。在每个金字塔级别,我们采用卷积神经网络(CNN)从图像特征和数据项D(x)相对于中间解x的导数更新V。由于V的生成接收任务特定的数据项作为输入,因此它将任务特定的从子空间生成的特点和统一的网络结构和参数的各种任务。因此,我们的LSM框架可以实现具有完全共享的网络结构和参数的联合多任务学习,甚至可以实现零触发任务泛化,其中经过训练的网络可以即插即用,无需任何参数修改,只要制定相应的数据项D(x)。在实验中,我们在一个统一的范例中实现了四个低层次的视觉任务,包括交互式图像分割,视频分割,立体匹配和光流。我们的LSM框架已经取得了更好的或可比的结果与国家的最先进的方法。我们的网络结构和参数可以统一成一个紧凑的模型,这产生了更高的效率,在训练和推理。我们还通过将一个任务排除在外进行测试并在其他任务上进行训练来演示零射击任务泛化。所有这些好处都来自于我们的方法,该方法集成了领域知识(即,最小化从第一原理导出的数据项)与卷积神经网络(即,学习以生成子空间约束)。2. 相关作品变分法中的正则化许多计算机视觉问题可以用公式表示为方程。(一). 我们只审查连续设置(即变分方法),因为它与我们的工作更相关,并请读者参考[36]以了解有关离散设置的评论。这些工作的重点之一是设计合适的目标函数,特别是正则化项。Rudin和Osher[66]首先提出了用于图像去噪的TV正则化,其也已被证明对于图像超分辨率[3]、交互式图像分割[75]、立体匹配[63]、光流[89,81]、多视图立体[40]等是成功的。Perona和Malik [57]率先将偏微分方程(PDE)用于各向异性扩散,这相当于使用边缘感知正则化最小化能量函数[12,54]。非局部正则化[58]也被提出用于图像超分辨率[62],图像修复[2],光流[38]等,其通过连接较长范围的像素而执行得更好,但是通常计算昂贵。我们的LSM框架还最小化了一个目标函数。但我们只保留数据项,因为它通常来自任务的第一原则,并将启发式正则化项替换为学习的子空间约束,该子空间约束在整个图像上下文级别捕获所需解决方案的结构,并使端到端训练能够提高数据的性能。受CNN在高级任务中的成功启发[39,67,26],许多基于CNN的方法已被提出用于低级视觉任务。Dong等人[18]率先使用CNN对图像补丁进行上采样Zbontar和LeCun [90]和Luo等人。[47]使用CNN特征来测量图像块的相似性以进行立体匹配,Xu等人。[84]和Bailer et al.[4]还使用了基于CNN的光流相似性。所有这些方法都在补丁级别使用CNN,这在计算上是昂贵的,并且需要后处理来合成最终结果 。 所 以 最 近 的 作 品 使 用 整 个 图 像 作 为 输 入 。Dosovitskiy等人[19]使用光流的编码器-解码器结构,然后扩展到立体匹配[49],并在Ilg等人中进一步发展。[33,32]和其他作品[70,11,87]。最近的一些作品[85,42,34]通过将图像和用户注释图馈送到CNN来实现交互式图像分割同时,基于CNN的方法[29,30,77,56]也实现了视频分割的领先性能。我们的LSM框架也使用CNN,但目的不同。我们不是直接预测解决方案,而是使用CNN将解决方案约束到子空间上,以促进数据项的最小化。数据项是从每个任务的第一原理中导出的,并且从网络参数中简化了任务特定的公式。因此,我们的框架统一了不同任务的网络结构和参数,甚至可以实现零拍摄任务泛化,这对于完全基于CNN的方法来说是困难的 虽然最近的一些工作[6,71]也学会了通过CNN生成子空间,但它们是专门为3D重建而设计的,这是特别的,无法推广到更广泛的低级视觉任务。3. 学习子空间最小化3.1. 概述如示于图2(a),我们首先从一个集合中为每个图像I构建一个特征金字塔F,其中集合中图像的数量取决于任务,例如,交互式分割定义在单个图像上,立体匹配和光流定义在两个图像上,并且视频分割-分割处理三个或更多个图像。金字塔F的输出是具有步幅{ 32,16,8,4 }和通道{ 512,256,128,64 }的四个级别{F1,F2,F3,F4}中的6237X2xX2(a) 从粗到精的特征金字塔。(b)学习子空间最小化的单次迭代。图2:我们的学习子空间最小化框架概述。分别采用与FPN [43]类似的策略构建,但使用DRN-22 [88]作为骨干网络。在每个金字塔级别,我们在CNN特征上定义任务的数据项D(x)(第二节)。3.4),并求解Eq.(二)、 D(x)在中间解x处使用二阶泰勒展开式来近似,并产生以下二次最小化问题:• 首先,图像上下文很重要。独立的数据项通常不足以用于低水平视觉任务,如第二节所述。1、因为这些任务通常是病态的--[60,72]。因此,有必要考虑图像上下文信息以生成子空间V,其强制每个基向量vk除了对象边界处的不连续性之外在空间上是平滑的。min∆x1000万美元2Dx+d(3)• 第二,最小化背景很重要。迭代地最小化目标函数(数据项)。在其中D是包含(近似)二阶导数是数据项的二阶导数,d是包含一阶导数的向量,并且是期望的增量解。D的结构是任务相关的:对于一维任务它是对角矩阵,对于多维任务它是块对角矩阵为了保持Eq. (2),我们将增量解λx表示为一组基本基向量的线性组合,即 x= c1v1+c2v2···+cKvK,然后求解组合系数c=[c1,c2···cK]式中:在每次迭代中,中间解x位于目标函数景观上的不同位置,并且目标函数的局部曲率决定了用于最小化的期望增量解x的方向和幅度因此,还需要将最小化上下文并入子空间生成中,子空间生成学习缩小估计解与地面真值之间的遵循这两个原则,我们学习生成子空间V,如图所示。第三章:• 首先,我们从minC1c(V2C+(d)V)c,(四)原始c-通道特征图F通过1×1卷积,其中,m=c/8,并且在对应处为{64,32,16,8}其中V是稠密矩阵,并且其列对应于来自V的K个基向量。如图2(b),我们从图像和最小化上下文信息生成该V(Sec. 3.2),用子空间约束(Sec.3.3),并在将中间解更新为x←x+x后移动到下一个金字塔级别。该公式易于有效实施,因为稠密矩阵V与(块)对角矩阵D相乘可以通过列积完成,得到金字塔等级。该步骤降低了后续过程的计算复杂度,并平衡了图像上下文和最小化上下文之间的影响。• 其次,我们计算了一个2m通道的最小化上下文.具体地,我们将c通道特征图分成m个组。在每个组 中 , 我 们 用 相 关 的 特 征 图 来 评 估 数 据 项 D(x),com。将一阶导数和二阶导数一个紧凑的K乘K线性系统,它可以用2阶直接求解器,如Cholesky分解[21],而不是迭代求解器,如共轭梯度下降[51]。因此,Eq。(4)是可微的,支持端到端训练,而无需展开或隐式梯度[17]。3.2. 子空间生成在介绍生成V的网络之前,我们首先提出子空间生成的两个原则:衍生物CIDD,其近似于目标景观邻域。我们将这些导数连接起来形成一个2m通道的最小化上下文特征.• 接下来,我们用其均值和方差对中间解x进行归一化,并将归一化后的x、图像上下文和最小化上下文连接起来。以形成用于子空间生成的(3m+ 1)通道输入特征中聚合上下文信息X6238V cV图像上下文4X2m最小化上下文2m多尺度特征剩余区块V图3:从图像和最小化上下文特征生成子空间所有特征图的空间大小与来自特征金字塔级别的F相同积分图像用于多尺度特征的有效构造多尺度,我们平均池的上下文特征在4个不同的内核大小没有步幅,这保持了空间大小的特征地图。具体来说,我们首先计算上下文特征的积分图像[76,25],然后对每个像素坐标处的相邻特征进行平均,这会提高效率。• 最后,利用1×1卷积将特征映射分别投影到2m通道的每个尺度上,并将它们连接起来,得到8m通道的多尺度特征。因此,我们可以通过四个残差从多尺度特征生成K维子空间V为了解决这个问题,我们建议将x投影到当前子空间V上,并重新公式化Eq。(4)如下:• 表示P=V(V<$V)−1V<$是将任意向量投影到子空间V上的投影矩阵,我们可以计算其在V上的投影为x′=Px,并且从x到x′的残差向量为r=(P-I)x.• 从理论上讲,我们可以重新评估D和d关于x′和解决方程。(4),但需要额外的计算。因此,我们将增量解重新参数化为r+V c,并将等式(4)进入:ual块[26],然后是1×1卷积,以及K在相应的金字塔级别上是{2,4,8,16}minC1(r+Vc)2D(r+V c)+d(r+V c),(5)3.3. 子空间最小化(a) x←x+V c(b) x←x+r+V c我们可以计算c为c=−(VDV)−1V(d+Dr)(6)而不重新计算D和d,并将x更新为x+r+如图所示的V c。第4(b)段。3.4. 应用我们现在展示了拟议的LSM框架如何统一各种低级视觉任务。我们实现了四个任务来进行演示,并且只介绍每个任务的数据项对于所有任务,我们将x初始化为零向量。根据图4:一个二维例子,其中(a):子空间约束被违反,即。2D 向量x+Vc 不在1D 子空间V上,以及(b):保持子空间约束I.E. x+r+V c在V上,通过考虑残差r在x和它在V上的投影之间。根据数据项表述的不同,将这些任务分为两类。在第一类中,我们介绍两个二进制图像标记任务:交互式分割和视频分割,这两项文书的提法相同:Σ2 2在生成子空间V之后,我们可以求解Eq。(4)直接作为c= −(V<$DV)−1V<$d,因为V<$DV根据定义是正定的,并将当前中间解更新为x←x+V c。然而,它将违反子空间约束,如图所示4(a),因为子空间V是逐步生成的,即当前解x属于来自最后一次迭代的子空间,但不是保证在新生成的V上,x+V c也是。到Dx2002年 Dx2归一化F积分图像集成特征图 {K(a):x+V c(b):x+r+V c1X1CONV……1X1 CONV1X1 CONV1X1 CONV3X3 CONV1X1 CONV1X1 CONV6239D(x)= αp<$τ(xp)−1 <$2+βp <$τ(xp)+1 <$2, (7)p其中p=[x,y]是一个pi x el坐标,τ(·)是一个松弛和 约 束 二 元 标 签 的 激 活 函 数 , 约 束 τ ( xp ) 在(−1,+1)之间,而αp和βp是τ(xp)=+1或− 1的概率。• 对于交互式分割,τ(xp)指示像素p是否在前景对象上(+1)或6240p2背景场景(-1),相应的概率αp和βp被估计为来自前景涂鸦点的非参数概率[82],背景涂鸦点分别。• 对于视频分割,τ(xp)指示像素p是否属于先前标记的前景对象(+1)或不属于(-1),并且αp和βp是从p估计的对应平均概率分别与先前标记帧中的前景和背景相邻者相关在第二类中,我们在两个图像上引入两个密集对应估计任务:立体匹配和光流,两者都可以公式化为:用于测试的VGG交互式分割数据集[23],并且从训练集中排除重叠的99个图像。对于视频分割,我们使用DAVIS-2017数据集[61]进行训练,并使用DAVIS-2016[55]进行测试。对于立体匹配,我们使用FlyingThings3D [49]的训练/测试分离[53],对于光流,我们使用FlyingThings 3D进行训练,使用Sintel [9]进行测试。4.2.与最新技术我们的框架可以应用到一个低层次的视觉任务,只要它的一阶和二阶微分数据项可以制定。因此,我们首先测试我们的网络的多任务能力注意整个网络结构D(x)=Σ<$FS(p+x)−FT(p)<$2,(8)p并且所有参数对于所有任务都是共享的,而先前的作品[13,16,37]只共享骨干网,并使用不同的解码器/头来处理不同的任务。其中p= [x,y]是目标(模板)图像T中的像素坐标,并且Xp是将源图像S中的p扭曲到p+Xp的扭曲向量。类似于图像通道的亮度恒定性假设[28],等式(8)假设扭曲的特征通道F也将是一致的。• 对于立体匹配,S和T是观看同一场景的两个图像。因此,xp= [u,0]仅包含水平位移,并将p扭曲为[x+u,y],目标图像T.• 对于光流,S和T是两个相邻的视频帧。因此,xp= [u,v]是在S中将p翘曲到[x+u,y+v]的2D运动向量。由于光流与立体匹配(一维,即,xp是标量)和两个图像标记任务,我们应用Cramer与其他人的光流。请参阅附录以了解更多实施细节。4. 实验4.1. 实现细节训练损失损失设计超出了本文的范围,因此我们使用所有任务的现有损失。 对于交互式分割和视频分割,我们使用Ahmed等人的交集(IoU)损失。[1]的文件。 对于立体匹配和光流,我们使用DispNet [49]和FlowNet [19]中的端点误差(EPE)损失。 由于我们的解决方案是从粗到细估计的,我们将地面实况下采样到多个尺度,并对所有尺度上的损失进行求和,如[70]所示。超参数我们使用AdamW优化器[46],默认设置为β1= 0。9,β2= 0。999 学习速率初始化为3×10−4,并在训练过程中使用余弦衰减[45]降低,无需热重启。 这套所有实验的超参数都是固定的。数据集对于交互式分割,我们使用PASCAL VOC语义边界数据集[24]进行训练,我们使用带有四个TITAN-Xp GPU的工作站联合训练我们的模型为了实现简单,我们在每个GPU上部署一个任务,并在CPU上更新网络参数。交互式分割的批量大小为12,视频分割为6,立体匹配和光流为4。训练运行143.2K迭代。为了与其他最先进的单任务方法进行公平的比较,我们还单独训练每个任务,并将相应的结果表示为交互式图像分割对于交互式分割,我们将我们的LSM框架与Gulshan等人的ESC和GSC等几种传统方法进行了比较。[23]和随机游走[22],以及最近基于CNN的方法深度对象选择(DIOS)[85],潜在多样性(LD)[42]和反向传播细化(BRS)[34]。我们从涂鸦中随机抽取一些点作为基于CNN的方法的输入,因为它们只支持点击。我们通过使IoU大于0.85所需的图来评估所有方法如图5(a),我们的方法在最近的基于CNN的方法和传统方法中都取得了更好的结果。我们还定性地比较了LD当用户只有一次交互我们还对涂鸦进行子采样,并成功地将注释发送到LD进行公平的比较。图5(b)表明我们的结果优于潜在多样性[42]。这是因为现有的基于CNN的方法仅支持空间距离图作为输入,其不如涂鸦精确。虽然我们的LSM支持涂鸦的特征分布估计和方程。(七)、对于视频分割,我们将我们的LSM框架与几种传统的基于最小化的方法进行了比较,包括BVS [48],OFL[73]和DAC [41],以及最近的基于CNN的方法,这些方法不需要进行微调以进行公平比较,包括MaskRNN[29],VideoMatch [30]和FEELVOS [77]。图6(a)显示我们的LSM比传统方法表现得更好,6241121086420(a) 使IoU>0.85所需的平均图ing SGM [20],SPS [86]和MC-CNN [78],其仅使用CNN特征用于MRF中的数据项评估,以及一些完全基于CNN的方法,包括DispNet [49],CRL [53],PSMNet[11]和GANet [91]。与其他基于CNN的方法相比,我们的LSM对于联合训练是相当的,对于单任务训练更好,如图所示。第7(a)段。如图如图7(b)所示,我们能够以相同的精度估计左右视差和左右视差,因为我们没有假设等式7(b)中视差的方向或范围。(八)、尽管已经提出了实现范围灵活性的方法,但由于成本-体积的原因,完全基于CNN的方法仍然只处理单个方向对。5像素4像素3px(b) 当用户仅交互一次时,我们的结果优于LD [42图5:VGG交互式分割基准的交互式图像分割结果。与基于CNN的方法相比我们还显示了一个定性的比较FEELVOS 的 具 有 挑 战 性 的 舞 蹈 旋 转 序 列 。 如 图 6(b),我们的LSM比FEELVOS [ 77 ]产生更多的假阳性区域,因为舞者和观众的皮肤和衣服颜色相似,但我们的LSM能够一致地跟踪舞者,而FEELVOS在旋转期间丢失了舞者的躯干。2px1px(a) 差异的平均终点误差10.90.8常规方法基于CNN的方法(LSM)(b) 我们的LSM支持从左到右和从右到左的立体匹配,而大多数完全基于CNN的方法只支持从左到右。图7:FlyingThings 3D上的立体匹配结果。0.7光流对于光流,我们比较我们的LSM0.60.5(a) 视频分割的平均IoU。(b) 我们的结果与FEELVOS [77]定性相当图6:DAVIS 2016上的视频分割结果具有传统方法的框架,包括LDOF [7],EpicFlow [64]和PCA层[83],其也采用基础表示,但基础是静态的,并且专门使用PCA [35]学习光流,以及基于CNN的方法,包括LiteFlowNet [31],PWC-Net [70]和FlowNet 2-CSS [33],这是三个FlowNet的堆栈如图8(a),我们的结果与没有精化子网的Lite-FlowNet [31]和PWC-Net [70]相当。FlowNet2通过堆叠网络更准确,这是效率较低,更难以训练,并增加了模型戏剧性的大小。与FlowNet2相比,我们的方法在模型大小上小12倍,推理速度快4倍,训练时间少32倍我们的LSM比LDOF [7]和PCA层[83]更好,但比EpicFlow[64]更不准确然而,传统的方法通常是基于变量,立体匹配对于立体匹配,我们将我们的LSM框架与几种传统方法进行比较,包括:传统的方法,需要5-20秒的时间来运行,而我们的LSM只需要25毫秒。常规方法11.36RWGSCESCCNN方法DIOSLDBRS我们的(LSM)关节7.247.15.13.22.93.12.9BVS DCA OFLMaskRNNFEELVOSVideoMatch关节单0.8040.81 0.8110.790.8120.71零点六七0.68常规方法基于CNN的方法(LSM)4.5SGMSPS3.98 MC-CNN3.71DispNet CRL联合:L2RR2LPSMNetGANet单路:L2RR2L1.841.32一点二八一点二十六1.561.55一点二三一点二四62425px4px3px2px1px(a) 平均终点误差并在立体匹配上进行了测试,5.29 PWC-Net的EPE如图所示。9.第九条。请注意,我们的LSM始终优于传统方法[20,86,78],而PWC-Net比SGM [20]更差(b) 我们的光流与PWC-Net相当。图8:在Flythings3D上训练并在Sintel上测试的Flow4.3. 零炮任务泛化我们的LSM框架甚至将学习到的网络推广到看不见的任务。它不同于零触发任务转移[52],其中网络参数是从现有任务中插值的,并且插值系数在训练期间由相关矩阵定义。相比之下,我们固定学习的参数,并且在任务之间不需要任何额外的信息。为了证明这种能力,我们用与联合多任务训练相同的设置在三个任务上训练网络,并留下一个进行测试。图9:我们的零拍广义LSM模型在立体匹配方面比PWC-Net表现更好。立体匹配测试的第一个任务是立体匹配。由于现有的基于CNN的方法都不支持该测试,因此我们通过在立体图像对上使用PWC-Net [70]估计光流来近似它,并且仅考虑水平方向上的EPE。我们的LSM模型在其他三个任务图10:我们的零次广义LSM模型在光流方面的表现优于LDOF。光流对于光流,基于CNN的方法都不支持这种零拍摄测试,并且我们在其他三个任务上学习的LSM模型的平均EPE为4.6,优于LDOF [7]。然而,LDOF需要计算昂贵的密集HOG [14]特征匹配作为外部输入,而我们的LSM仅通过最小化等式中的特征度量(八)、图10显示了我们的零激发光流保持了对象感知的不连续性,这表明从其他三个任务中学习的子空间生成器是通用的,而LDOF生成过度平滑的结果,因为它使用了L2平滑正则化项。图11:对于视频分割,我们的零拍摄广义LSM模型比OFL [73]对遮挡更鲁棒。视频分割第三个测试任务是视频分割。对于我们在其他任务上学习并在视频分割上测试的LSM模型,平均IoU为0.682,这与OFL等传统方法相当[73]。然而,如图11,我们的方法对部分遮挡更鲁棒,而OFL在被树木部分遮挡时失去了对公共汽车的跟踪。由于页数限制,有关交互式图像分割的零次泛化测试,请参阅补充资料常规方法CNN方法我们的(LSM)4.64LDOFPCA层EpicFlowFlowNet 2 LiteFlowNet联合单PWC-Net3.222.552.642.272.482.452.0262431.822.9光流4.85四点九七4.4. 消融研究LSM(FULL)(a)CNN作为隐式求解器(b)W/O最小化上下文(c)W/O子空间投影投影算法的性能比原全流水线算法差,这表明通过投影算法来保持子空间约束不仅在理论上是必要的,而且在实际应用中也是必要的IoU1交互式分割视频分割0.894为了更好的性能。这是因为,随着亚空间亲-如果是一个向量,则预测的子空间V被学习为一致的。0.90.80.70.60.5EPE5px4px3px2px1px0px0.8290.7720.831立体匹配四点八九3.561.50.790.732 0.6810.7433.58to the ground地面truth真相solution解决.相比之下,不带投影的学习违反了子空间约束,使最小化的约束减少,训练更加困难。4.5.生成子空间图12:消融研究(a)求解方程(3)使用CNN作为隐式求解器,(b)生成没有最小化上下文的子空间V,以及(c)没有子空间投影的最小化,即,直接使用Eq。(四)、CNN作为隐式求解器第一个问题是显式最小化是否必要,即我们可以使用CNN作为隐式求解器并直接从图像和最小化上下文特征预测解决方案吗?为了回答这个问题,我们保持相同的网络结构,除了子空间生成器的最后一个卷积层,即。子空间发生器的输出被减少到一个通道,并直接用作解x。然后,子空间生成器成为隐式最小化求解器,并且修改后的网络使用相同的训练协议进行训练如图在没有最小化的情况下,交互式分割和视频分割得到较低的IoU,而立体匹配和光流得到较高的EPE,这表明对于我们的LSM框架,显式最小化比通过CNN学习最小化没有 小化 上下文 的 二 问题是是否有必要纳入最小化约束,文本到子空间生成中,即我们可以像Code-SLAM [6]和BA-Net [71]那样仅从图像特征预测为了回答这个问题,我们预测没有最小化上下文的子空间,并保持相同的网络结构,除了多尺度上下文特征后的前几个卷积修改后的网络也用相同的训练协议进行训练。4.1.如图12,所有四个任务在没有最小化上下文的情况下执行显著更差,这表明最小化上下文对于子空间生成是必要的。由于不同的任务需要不同的子空间,即使在同一幅图像上,也很难从图像上下文中学习到统一的子空间生成器。最后,我们评估的有效性,提出的子空间投影节。三点三I.E.最小化等式(4)代替方程(五)、我们还训练修改后的网络进行公平的比较。如图12、没有子空间的网络图13:光流和交互式分割的生成子空间的可视化。如在第二节介绍1,使用子空间约束的直观性是低级别任务的解决方案通常由几层组成。为了验证生成的子空间是否满足这种直觉,我们将一些基础向量可视化为光流和交互式分割任务的热图。正如我们所看到的,基向量与光流的运动层和分割的前景/背景层一致,这也表明我们的子空间生成网络捕捉到了每个任务的内在特征。5. 结论我们提出了学习子空间最小化(LSM)框架,以解决低层次的视觉问题,可以制定为一个数据项和正则化项的能量最小化。我们学习卷积神经网络来生成一个内容感知的子空间约束,以取代正则化项,这通常是启发式的,并阻碍了性能。与此同时,我们利用数据项并将其最小化以解决低级别任务,因为数据项通常来自任务的第一原则,并捕获问题的基本性质。这种方法很好地结合了领域知识(即最小化从第一原理导出的数据项)和CNN的表达能力(即,学习预测内容感知子空间约束)。我们的LSM框架支持联合多任务学习,具有完全共享的参数,并且还可以生成最先进的结果,具有更小的网络和更快的计算速度。它甚至可以实现零触发任务泛化,其中经过训练的网络可以泛化到看不见的任务。这种能力表明我们的LSM框架可以应用于广泛的计算机视觉任务。6244引用[1] F. Ahmed,D. Tarlow和D.巴特拉基于候选约束crfs的期望交并优化。在IEEE国际计算机视觉会议(ICCV),第1850-1858页,2015年12月。5[2] 巴勃罗·阿里亚斯,维森特·卡塞勒,吉列尔莫·萨皮罗.非局部图像修复的变分框架。在Daniel Cremers、YuriBoykov 、 Andrew Blake 和 Frank R.Schmidt , editors ,Energy Minimization Methods in Computer Vision andPattern Recognition(EMMCVPR),pages 3452[3] S. D. 巴巴詹河Molina和A.K. 卡萨格洛斯全变分超分辨变分法。2008年第15届IEEE图像处理国际会议,第641-644页,2008年。2[4] C.贝勒湾Taetz和D.斯特里克流场:用于高精度大位移光流 估 计 的 密 集 对 应 场 。 IEEE Transactions on PatternAnalysis and Machine Intelligence ( TPAMI ) , 41(8):1879-1892,2019。2[5] R. Ben-Ari和N.索臣具有尖锐不连续性和遮挡处理的变分立体视觉。国际计算机视觉会议(ICCV),第1-7页,2007年1[6] M. Bloesch,J.恰尔诺夫斯基河克拉克,S。Leutenegger和A.J·戴维森Codeslam -学习一个紧凑的,可优化的密集视觉冲击表示。在IEEE计算机视觉和模式识别国际会议(CVPR)中,第2560-2568页,2018年。二、八[7] T.布洛克斯和J·马利克大位移光流:变分运动估计中的描述器匹配。IEEE Transactions on Pattern Analysis andMachine Intelligence(TPAMI),33(3):500-513,2011。六、七[8] Thomas Brox , Andrés Bruhn , Nils Papenberg , andJoachim Weickert. 基于翘曲理论的高精度光流估计。在Tomás Pajdla和Ji Jerrí Matas编辑的计算机视觉- ECCV2004,第25-36页海德堡,2004年。施普林格柏林海德堡。1[9] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影 在欧洲会议中 计算机视觉(ECCV),第611-625页,2012年。5[10] Vicent Caselles,Antonin Chambolle,Daniel Cremers,Matteo Novaga,and Thomas Pock.图像分析的全变分介绍稀疏恢复的理论基础和数值方法,De Gruyter,RadonSeries Comp.应用数学,9:263-340,2010. 1[11] 张嘉仁和陈永生。金字塔立体声匹配网络。在IEEE计算机视觉和模式识别会议(CVPR),第5410-5418页,2018年。二、六[12] P. 沙博尼耶湖Blanc-Feraud,G.Aubert和M.巴洛计算成像中的确定性边缘保持正则化。IEEE Transactions onImage Processing(TIP),6(2):298-311,1997。2[13] R. Cipolla,Y.Gal和A.肯德尔使用不确定性来权衡场景几何和语义损失的多任务学习IEEE计算机视觉和模式识别会议,第7482-7491页,2018年6月。5[14] N. Dalal和B. Triggs用于人体检测的定向梯度直方图IEEE计算机视觉与模式识别会议(CVPR),2005年6月。7[15] T. Darrell和A.彭特兰多层运动表示的鲁棒估计。IEEE视觉运动研讨会论文集,第173-178页,1991年。1[16] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习 。 IEEEInternational Conference on Computer Vision(ICCV),2017年10月。5[17] 贾斯汀·多姆克基于优化建模的通用方法2012年,在AISTATS。3[18] C.东角,澳-地C. Loy,K.他,还有X。唐使用深度卷积网 络 的 图 像 超 分 辨 率 IEEE Transactions on PatternAnalysis and Machine Intelligence ( TPAMI ) , 38(2):295-307,2016。2[19] A.多索维茨基山口Fischer、E. Ilg,P. Häusser,C. 哈兹尔巴什,诉 Golkov , P.v.d. Smagt , D.Cremers 和 T. 布 洛 克 斯Flownet:使用卷积网络学习光流。IEEEInternationalConference on Computer Vision(ICCV),2015年。二、五[20] Amnon Drory,Carsten Haubold,Shai Avidan,and FredA.汉普雷希特半全局匹配:消息传递方面的原则性派生在Xiaoyi Jiang,Joachim Horneg ger和Reinhard Koch,编辑,Pattern Recognition(PR),第43-53页六、七[21] 吉恩·H Golub和Charles F.范·洛恩矩阵计算(第三版).约翰霍普金斯大学出版社,1996年。3[22] L.格雷迪图像分割的随机游走。IEEE Transactions onPattern Analysis and Machine Intelligence(TPAMI),28(11):1768-1783,2006. 5[23] 诉古尔山角Rother,A.Criminisi、黑腹拟步行虫A.Blake和A.齐塞-曼。用于交互式图像分割的测地星凸性。在IEEE计算机视觉和模式识别会议(CVPR),2010年。一、五[24] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓 IEEEInternational Conference on Computer Vision(ICCV),2011年。5[25] 何开明和孙健。引导图像滤波。在欧洲计算机视觉会议6245(ECCV)上,2010年。46246[26] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。二、四[27] 尼古拉斯·J·海厄姆。数值算法的精度和稳定性。工业与应用数学学会,第二版,2002年。5[28] Berthold K.P.作者声明:Brian G. Schunck确定光流。人工智能(AI),17(1):185一、五[29] 胡元婷,黄家斌,亚历山大·施温。Maskrnn:实例级视频对象分割。神经信息处理系统(NIPS)的进展。2017.二、五[30] 胡元婷,黄家斌,亚历山大G.施温Videomatch:基于匹配的视频对象分割。在Vittorio Ferrari,Martial Hebert,Cristian Sminchisescu和Yair Weiss,编辑,欧洲计算机视觉会议,第56-73页二、五[31] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-flownet:一个轻量级的卷积神经网络用于光流估计。在IEEE计算机视觉和模式识别会议(CVPR),第89816[32] E. Ilg,T.Saikia、M.Keuper和T.布洛克斯遮挡、运动和深度边界,以及用于视差、光流或场景流估计的通用网络。在欧洲计算机视觉会议(ECCV),2018。2[33] Eddy Ilg 、 Nikolaus Mayer 、 Tonmoy Saikia 、 MargretKeu- per、Alexey Dosovitskiy和Thomas Brox。流动网络2.0:利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议(CVPR),2017年。二、六[34] 张元东
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功