没有合适的资源?快使用搜索试试~ 我知道了~
过滤热图过滤热图1AnchorNet:一种弱监督网络学习用于语义匹配的几何敏感特征David Novotny1,2 Diane Larlus2 Andrea Vedaldi11视觉几何组部牛津大学工程科学系{david,vedaldi}@ robots.ox.ac.uk2计算机视觉集团施乐欧洲diane. xrce.xerox.com摘要尽管近年来深度学习取得了重大进展,但最先进的语义匹配方法仍然依赖于SIFT或HoG等传统特征我们认为,强不变性是最近深度架构在分类任务上取得成功的关键,这使得它们不适合密集对应任务,除非使用大量的监督。在这项工作中,我们提出了一个称为AnchorNet的深度网络,它可以产生非常适合语义匹配的图像它依赖于一组过滤器,其响应在不同的对象实例中是几何上仅使用弱图像级标签进行训练,最终表示成功捕获了有关对象结构的信息我们展示了积极的结果,在跨实例匹配任务,其中不同的实例相同的对象类别进行匹配,以及在一个新的跨类别的语义匹配任务对齐对的实例,每个从不同的对象类。1. 介绍匹配,即在图像之间建立对应关系的问题是图像理解的支柱之一。众所周知,给定相同对象或场景的图像之间的匹配,可以估计3D几何形状(来自运动的立体和结构)和运动(视觉里程计、光流和跟踪)。但匹配也可以应用于更抽象的理解层次例如,对齐相同类型的不同对象实例[32,21]允许发现对象之间的类比,引入诸如对象类别之类的抽象。虽然存在用于低级别匹配的可靠技术,但是不同对象实例的高级别匹配仍然是一个难题。输入输出图1:我们提出了AnchorNet,这是一种新型的深度架构,它可以产生一种图像表示,显着改善了最先进的语义匹配方法。其成功的关键是一组具有稀疏响应的过滤器,该响应在一个类别或两个类似类别的不同实例中在几何上是一致的。虽然这些滤波器是以弱监督的方式学习的(即,仅使用图像级标签),它们倾向于可靠地锚定在有意义的对象部分上。深入研究的课题。这一领域的大部分工作都集中在寻找强大的几何正则化器,如分层对应[35]或可变形空间金字塔[32],以补偿仍然脆弱的视觉描述器。令人惊讶的是,即使是强大的卷积神经网络(CNN)描述符也被发现缺乏跨实例匹配[37,21,63],实际上与旧的手工制作的功能(如SIFT [38]和HoG [11])相比甚至更差。目前还不清楚为什么CNN表示在许多具有挑战性的视觉任务中表现良好,包括物体检测[16]和分割[36],图像字幕[57],5277语义匹配源图像目标图像跨类别语义匹配源图像目标图像产生的翘曲产生的翘曲5278KK(a)(b)(c)第(1)款图2:AnchorNet发现的锚过滤器的响应示例(a)、(b)分别示出了鸟类和狗类的类特定过滤器F Ci,而(c)描绘了跨不同类别的类不可知过滤器F S(每行一个过滤器)。和视觉问答[1],还没有发现工作以及跨实例匹配。我们的假设是,这是由于CNN是在大型数据集上训练的,例如Imagenet ILSVRC [12]纯粹是为了图像分类任务。通过以预测全局图像标签为唯一目的进行学习,CNN对局部细节和几何结构变得不敏感,因此匹配效果很差。这种影响可以通过对大量数据进行微调来逆转,这些数据使用边界框[16]或关键点[9]注释进行强烈监督。虽然这允许使用CNN作为优秀的对象和关键点检测器,但它违背了使用CNN特征作为通用描述符以无监督方式发现对应关系的目的,因为匹配需要。在本文中,我们通过引入一个新的深度架构来解决这个问题,该架构可以学习适用于跨实例匹配的表示(图1),同时使用与传统预训练完全相同的监督-仅使用图像级标签进行匹配相当于弱监督,因为标签不提供关于对象或场景的几何形状的任何信息。我们的关键见解是,一组不同的和稀疏的过滤器响应提供了一个强大的表示建立匹配。在图像上响应稀疏的卷积特征倾向于自动锚定到独特的图像结构,例如语义对象部分。进一步加强滤波器组响应的多样性导致良好的覆盖率。这产生了对所有对象片段的唯一描述,这是使得能够可靠地估计密集语义对应的基本属性。我们通过从信息丰富的残差超列(第3.1节)中提取一组具有正交响应的独特多样的滤波器(第3.2节;图2)来结合这一思想在这个框架中,我们称之为An-chorNet,几何一致性不是明确强加的,而是自发出现的。我们还展示了如何压缩银行的类特定的过滤器到一个类不可知的银行(第3.3节),以及为所有类。大量实验表明,所提出的表示可以无缝地利用最先进的语义匹配方法,如可变形空间金字塔[32]或建议流[21],以提高其性能(第4.1节)。这是第一次,我们还证明了可以在不同类别的对象之间建立高级别的对应关系,包括在我们的网络训练过程中看不到的新对象(第4.2节)。2. 相关工作找到密集的对应关系。经典的匹配方法估计非常准确的像素之间的对应关系,在同一场景的两个图像,在存在温和的视点变化[25,39,44]。早期的方法使用不同的手工制作的功能,如SIFT [38],HoG [11],SURF [4]或DAISY [52]。该任务具有许多应用,包括立体匹配[44],光流[25,59],或宽基线匹配[39,61]。最近的工作已经将流的概念推广到仅在语义上相关的图像对[34,46,32,50,21]。 这需要处理外观的更高程度的可变性。语义对齐任务也有许多应用,如图像完成[3],增强[20]或分割[34]和视频深度估计[30]。SIFT流算法[35,34]开创了不同场景之间密集对应的想法,并提出了多分辨率图像金字塔和分层优化算法以提高效率。这种方法通过可变形空间金字塔(DSP)算法[32]得到扩展,该算法引入了具有分层连接的金字塔图的多尺度正则化。一般化的可变形空间金字塔[28]通过以显著的计算成本实施额外的空间约束来改进DSPPatch Match方法[2]及其扩展[3]针对通用匹配,包括跨实例匹配. [5]的方法为每个像素构建一个样本LDA分类器,以获得提高场景流性能的密集对应。亲5279CNOFFLOW [21]利用了对象提议的最新发展,并使用局部和几何一致性约束来建立密集的语义对应。最后,WarpNet [29]通过利用细粒度数据集内的关系来学习对应关系。一些方法[26,27,45,31,41,62]提出了寻找对应关系作为多对图像的联合对齐的问题,定义了集体对齐的任务。这些方法假设图像集共享类别标签和一致的视点。该领域的最新方法是FlowWeb [62],它构建了一个完全连接的图,其中图像作为节点,成对流场作为边。然而,这种方法与图像集合的大小的比例很差,并且在新样本之间建立成对比对并不简单。深层特征的对应关系。Long等人[37]研究了在大型分类数据集上预先训练的CNN特征的应用,以寻找对象实例之间的对应关系。他们发现,对于弱监督的关键点转移问题,CNN特征的表现与手工制作的替代品(如SIFT)相当,并且在关键点监督可用时表现优于它们。这项工作为新的深度架构铺平了道路,这些架构被训练用于寻找相同对象或场景实例之间的密集对应关系[13,58,51]。最近,Choyet al. [9]提出了一种在跨实例对齐方面表现良好的深度架构,但需要以许多关键点匹配的形式进行强有力的监督。在没有关键点注释的情况下训练深度特征的问题仍然没有答案,因为最先进的语义匹配方法[32,21]仍然分别依赖于手工设计的SIFT和HoG。3. 方法CNN 中 深 度 卷 积 层 的 输 出 是 一 个 张 量x∈RH×W×D,高度为H,宽度为W,具有D个特征通道。因此,在每个空间位置(u,v)处,获得D维特征向量duv=(xuv1,. . .,xuvD)。如[ 10 ]所述,这种CNN特征向量类似于手工制作的密集描述符,如HoG和Dense-SIFT,在应用中通常可以用作后者的即插即用替代品。然而,如在例如,[37]并在实验中显示,这种替代对于跨实例匹配算法(如DSP [32]和Proposal Flow [21])并不有效。由于CNN可以通过对用关键点标签强烈注释的数据进行微调来变成优秀的关键点检测器[9,53],因此这种失败的原因必须是大多数CNN在图像分类任务上进行预训练的方式。请注意,为每个类别收集关键点注释不会缩放,并且会破坏跨实例匹配的目的,即发现这种对应关系。tomatically.作为解决方案,我们提出了一种新的架构,在使用与分类任务的标准预训练相同的图像级监督的同时,学习具有更好几何感知的特征。我们的方法是由一个简单的观察。假设学习鼓励一个特性非常局部地响应(理想情况下是一个点)。卷积滤波器只能通过响应每个图像中唯一出现的视觉结构来我们称后者为锚定原则。适合于语义匹配的几何感知表示我们可以通过学习一组响应互补图像位置的滤波器来我们称之为多样性原则。请注意,多样性间接地鼓励锚定,因为如果功能响应图像的不同部分,它们也必须局部响应。有了这些见解,我们接下来提出了一个名为AnchorNet的架构,它遵循两个原则。然后,我们表明,这些都足以显着提高几何意识的结果功能。我们的网络图如图3所示。3.1. 剩余超列我们将我们的AnchorNet架构建立在[24]的强大剩余架构上。我们选择ResNet50模型作为速度和准确性之间的良好折衷。为了提高表示的几何敏感性,我们遵循[22]并提取超列(HC)。图像中的位置(u,v)处的HCduv通过连接该位置处的卷积特征响应来创建。网络的不同层次。回想一下,在大多数CNN架构中,更深的特征降低了分辨率; HC通过在级联之前将响应上采样到公共大小来对此进行补偿。我们表示结果网络d=Φ(I),其中I是输入图像。更详细地说,我们双线性上采样和连接将 res2c , res4c 和 res5c 层 的 整 流 输 出 [24] 转 换 为56×56×D超列张量。在拼接之前,在每一层提取的描述符通过PCA压缩到256维(PCA被实现为1×1滤波器组),并进行归一化以平衡它们的能量。这导致D=768维HC向量。3.2. 学习对象类型的锚定功能剩余HC是高容量的描述符,既反映了高层语义,也反映了低层图像细节。虽然这表明它们应该包含足够的信息来建立匹配,但它们的直接使用导致次优结果。因此,我们训练一组3×3卷积滤波器F1,.,FK,其将HC响应压缩到合适的锚滤波器的紧凑集合中匹配。 为此,我们学习满足两个条件的过滤器52805281我N鸟和狗类的数据见图2(a)和(b)。很明显,过滤器火灾一致的对象部分,尽管大的类内变化,展示了我们的配方的力量和它的适用性匹配。3.3. 类不可知表示我们的网络将一组类(域)特定的过滤器转换成域不变表示,该域不变表示可以适应任何类,甚至是在训练期间看不到的类网络培训。 AnchorNet使用随机梯度下降(SGD)进行优化,通过最小化建议损失LDiscr、Laux、LA、LB和LR,Discr Div Div在上一节中,我们已经定义了类别特定锚定过滤器。在本节中,我们将它们扩展为通用于任何类别。这允许对每个图像使用相同的表示,而不考虑其标签,以匹配不同类别的实例(例如,狗vs猫),甚至处理新的类别。首先,滤波器组F Ci,.,对于每个对象,学习F Ci批量大小为16,学习率为10- 2,动量为0.0005。网络的参数使用在ILSVRC 12上预训练的ResNet50模型进行初始化我们使用两阶段优化来加快训练过程.首先,针对每个对象类Ck,在4×104训练图像上独立地训练类特定滤波器FCk,其余网络参数已修复。然后,我们将1KC类1,. . .,CN使用上述方法。每个对象通过仅考虑该对象类的图像Ci来学习和一个普通的B类背景。由于滤波器不被学习来区分对象,并且由于多样性损失仅在每个组内应用,因此不同的滤波器组可以产生相关性。图2通过显示为“dog”和“bird”类学习的过滤器捕获类似的概念(如眼睛或鼻子)来说明这一点我们利用了不同的通过引入一组新的1 × 1滤波器FS,...,F S自动编码器和重建损失,以微调12×103图像上的所有网络参数。补充材料中提供了更多细节。4. 实验我们将我们的方法与现有的语义匹配技术进行了彻底的比较(第4.1节)。然后,我们评估我们的特征在不同类别的图像之间建立匹配的程度(第4.2节),最好我们的知识中的1L,以前从未被证明过。它投射了过滤器的类特定响应,FC1,. . . ,F CN到L通用响应映射适用于请注意,对于所有报告的结果,训练仅使用1KILSVRC 12[12]图像和标签,其中类别为电缆到任何类别的对象。为了端到端地学习投影FS,我们在我们的架构中添加了一个去噪自动编码器(DAE)[56DAE使重构损失LR(FS,Γε)最LR(FS,ΓC)=D(ΓC,(FS)FSc(ΓC))(5)其中D(a,b)=a/a−b/b2是2归一化张量a和b之间的2距离,(FS)是卷积变换算子[5 5]。 这里,r=根据[12]中的PASCAL-ILSVRC类映射进行合并(例如,sofa是“studio couch”和“day bed”的组合)。 以这种方式,231个ILSVRC类被用作分布在20个PASCALVOC类上的阳性示例;剩余的769个类用于形成负(背景)图像的集合B。即使我们报告了N=20个PASCALVOC [14]类之一的结果,也没有使用PASCAL VOC训练数据4.1. 密集成对语义匹配Γ−µ(Γ)表示类特定热图的堆栈,栈(栈C1,. . .,ψ1C )∈RW×H×(KN),以re为中心,K我们遵循标准实践[62,21],使用移动他们的平均值μ(Γ),在训练期间在线估计。我们已经观察到,中心化后的N2正规化大大提高了LR的收敛性能。函数c(z)通过将张量z的25%的特征通道随机设置为零来注入噪声。解相关损失eq.(3)也应用于压缩滤波器FS,以鼓励它们的多样性。请注意,当与模型的其余部分进行端到端优化时,重建损失L R会促进映射所以,如果在任何地方都是0,那么,编码器具有平凡的最优值)。然而,这是防止由解相关损失LA,LB。 因此,LR作为带有手动注释的语义关键点的数据集或重新gions并评估语义匹配方法结合不同类型的特征将注释从一幅图像转移到另一幅图像的效果如何。我们在三个数据集上进行实验,遵循其评估协议。比较方法。最成功的跨实例匹配方法包括DSP [32]和Proposal Flow[21](PF).在其原始公式中,这些方法在DSP的DenseSIFT [38]特征和PF的HoG [23]的白化版本中表现最好。在以下实验中,我们用我们的表示替换这些描述符,如下所示。Div Div正则化器执行部分共享。学者的例子类别不可知过滤器在图1A中第2段(c)分段。去噪自编码器在[7,17]之前已用于域自适应。同样的,最后一部分对于DSP,学习的滤波器组产生密集的特征向量被双线性上采样到原始图像大小,进行归一化,并作为Dense SIFT的即插即用替代品对于PF,我们模拟FF5282平均气动力自行车鸟船瓶总线车猫椅子牛狗马 姆比凯 人 植物 羊沙发表 火车 电视表1:PASCAL部件上成对语义部件匹配的加权IoU建议的方法用粗体表示。源图像目标图像源掩码目标掩膜我们的提案流程[21][32]第三十二话目标图像源掩码目标掩膜我们的提案流程[21]DSP[32]图4:DSP+ANet(我们的)、Proposal Flow + HoG和DSP + SIFT的PASCAL部件上的分割掩码传输使用HOG:每个对象建议用作为每个图像提取一次的滤波器激活集合的汇集区域。通过读取来执行池化关闭该区域内的滤波器激活,并使用双线性插值将其调整为8×8然后将该张量矢量化并归一化,以形成建议区域的最终描述符。 我们使用PF的变体,每幅图片有1000个选择性搜索框[54]。匹配过程的其余部分与原始PF算法相同我们比较了类不可知论者(ANet)和类-我们的锚过滤器的特定(ANet类)变体。的类不可知变体使用256维特征由自动编码器过滤器FS产生,而ANet类使用对应于给定PASCAL VOC对象类别Ci 的类特定过滤器FCi的输出。因此,ANet类假设对象类标签的知识,而ANet是普遍适用的,作为基线描述符,我们考虑通过连接ResNet 50的PCA投影层形成的SIFT、HoG和HC描述符(res 2c、res 4c和res 5c-第3.1节)。我们还报告了预测每个像素零位移的NoFlow基线。当我们专注于成对匹配时,另一种是将许多图像对齐在一起,称为共对齐。在包括[26,45,31]的各种共对准方法中,FlowWeb [62]是目前最先 进 的 方 法 。 由 于 其 优 越 的 性 能 , 我 们 只 报 告FlowWeb的结果;然而,虽然FlowWeb工作得很好,但重要的是要注意,它也比成对匹配昂贵得多,不能很好地扩展,并且不能适应新的图像对。分割掩模转移的评估。 我们严格遵循[62]的协议,比较了传输语义部分分割掩码任务的各种方法由DSP或PF给定描述符确定的密集语义匹配匹配质量被评估为不同语义部分的预测掩模和地面真实掩模之间的平均加权交集(IoU)。结果见表1,定性结果见图4。我们提出以下意见。首先,ResNet50功能的性能最多略优于SIFT或HoG,而ANet和ANet类功能都提高了DSP(+6% IoU)和PF(+1%)成对阿里 治理方法DSDSP + ANet级0.450.310.490.320.530.750.510.470.230.530.370.200.330.410.220.460.450.770.450.480.74DSP + ANet0.450.290.470.290.520.730.500.460.250.530.370.210.340.390.200.440.450.770.450.510.74DSP + HC0.41零点二十九0.450.240.510.730.480.440.200.520.320.160.280.350.190.390.370.740.440.480.67DSP + SIFT [32]0.39零点二五0.460.210.480.630.500.450.190.480.300.140.260.350.130.400.370.660.370.480.62提案流程+ANet类0.430.260.430.280.540.710.500.450.240.540.320.210.280.350.210.450.400.740.460.500.70提案流+ANet0.420.260.410.260.530.700.490.450.250.540.310.190.280.310.170.430.390.740.440.520.69提案流程+HC0.420.260.420.260.540.700.500.450.230.530.320.180.270.320.180.430.380.740.450.510.64[21]第二十一话0.41零点二五0.450.230.540.700.490.440.190.530.300.160.250.350.160.410.350.740.440.500.63基线:无血流0.39零点二七0.400.220.500.730.460.420.200.510.300.150.250.320.180.380.340.740.440.470.645283是说航空自行车 船瓶巴士车椅mbike沙发桌列车电视集体校准方法[62]第62话零点二十九0.410.050.340.500.140.210.160.040.150.33表2:PCK(α= 0. 05)用于PASCAL Parts数据集的12个刚性类上的语义关键点传输。IoU)。其次,类特定的特征ANet-class与类不可知的特征ANet相同,证明了我们的域泛化方法将类特定的过滤器压缩到类不可知的过滤器中的能力。第三,我们的特点,结合DSP,表现出最好的平均性能在所有比较的方法。值得注意的是,ANet和ANet-class都优于所有共比对方法,包括FlowWeb [62],在该数据集上获得了最先进的结果。这是一个有趣的发现,因为共对准方法利用小的视点和外观变化来改进成对对准。关键点匹配的评估。我们还评估匹配语义关键点的性能。对应用于PCR的特征匹配ANet类AnetHOG [21]NAM:基线0.410.360.29LOM:提案流程0.460.430.43表3:PF数据集上的区域匹配匹配算法DSP提案流程无流量特征AnetHCSIFTAnetHC生猪-PCK(α= 0.05)0.110.080.060.130.090.060.04PCK(α= 0.1)0.240.180.120.320.250.180.12表5:AnimalParts数据集上的语义匹配。对于每种方法,我们报告了所有可能的12x12域对的平均PCK。在图5中可以找到单个跨类别结果的概述注释由[60]提供,用于12个刚性PASCAL VOC类别。与上一节类似,我们使用[ 62 ]中的数据集,并且严格遵循其评估方案,我们使用PCK评估匹配精度,将未对准公差参数α设置为0。05.表2包含该实验的结果。我们的恐惧-这些方法大幅改善了原始DSP结果(+6%PCK),在成对比对方法中获得了该数据集上最先进的结果配对配对-提出HC SIFT /HOG0.50.40.30.20.10.0动物领域1:灵长类2:食肉动物3:aquaticbird4:猴子5:猫科动物6:狗第七章: 爬行动物8:哺乳动物第九章: 涉水鸟10:蜥蜴11:雀形目12:鹦鹉事实上,与FlowWeb在协同比对中获得的结果相比,ING变得具有竞争力,尽管后者使用更多的信息。提案流在这项任务上通常较弱,并且没有得到更好的功能的帮助。区域匹配评估。作为第三个基准数据集,我们使用PF数据集和相应的协议,如[21]中详细描述的。该数据集包含4个对象类型的10个图像集,任务是在图像集内的注释语义区域之间建立我们使用[21]中指定的定义报告区域匹配精度。表3包含使用[21]提供的代码和数据获得的结果。我们结合[21]中提出的两种匹配方法来评估我们的深度特征:最佳执行局部偏移匹配(LOM)和朴素外观匹配(NAM)。将ANet与[21]中的最佳性能特征进行了比较,即。HoG [23].我们观察到图5:Animal上的每个域的语义匹配零件数据集。单元格的颜色与匹配成比例-在给定的动物类对上的性能。列表示源域,行表示目标.使用ANet类特征与两种匹配方法(LOM、NAM)的组合带来了显著的性能改进。特别要注意的是,ANet类足够强大,可以使不使用任何复杂几何推理的NAM基线与使用几何推理但手工制作特征的LOM+HoG竞争(LOM+ ANet类甚至更好)。4.2. 跨类别的泛化上一节试验了对齐同一类别的不同对象实例的任务。在这里,我们从这个场景出发,考虑交叉-Pairwise对准方法DSP + ANet级0.240.230.280.060.380.440.390.140.190.160.110.130.41DSP + ANet0.230.220.250.060.350.420.340.140.170.170.130.140.40DSP + HC0.200.200.230.050.390.360.250.100.150.120.100.120.28DSP + SIFT [32]0.180.170.300.050.190.330.340.090.170.120.090.120.18提案流程+ANet类0.170.170.210.050.250.260.270.100.140.120.070.100.24提案流+ANet0.160.160.190.050.220.260.250.100.120.110.050.120.23提案流程+HC0.160.170.210.050.230.270.240.090.130.120.050.110.20[21]第二十一话0.170.200.260.050.200.310.290.100.170.130.050.130.21基线:无血流0.170.180.170.050.390.310.170.090.120.110.070.110.24DSP提案流程52845285引用[1] S. Antol,A. Agrawal,J. Lu,M.米切尔,D。巴特拉角L. zitnick和D.帕里克Vqa:可视化问答。在ICCV,2015年。2[2] C. Barnes,E. Shechtman ,A. Finkelstein 和D. B.黄金人。补丁匹配:一种用于结构化图像编辑的随机对应算法。2009. 2[3] C. Barnes,E. Shechtman,D. B. Goldman和A.芬克尔-斯坦。广义PatchMatch对应算法。在Proc.ECCV,2010中。2[4] H. 贝,A.埃斯,T.Tuytelaars和L.范古尔加速健壮功能(冲浪)。CVIU,110(3):346-359,2008. 2[5] H. Bristow,J. Valmadre,and S.露西密集的语义对应,每个像素都是一个分类器。 在proc ICCV,2015年。2[6] T. T. Cai和L.王.带噪稀疏信号恢复的正交匹配追踪。IEEE IT,57:4680-4688,2011。4[7] M. Chen,Z.Xu,K.Weinberger和F.煞边缘化去噪自动编码器域适应。 在proc ICML,2012年。5[8] X. 陈 河 , 巴 西 - 地 Mottaghi , X. Liu , S. 菲 德 勒 河Urtasun,以及A.尤尔。检测您可以:使用整体模型和身体部位检测和表示对象。 在proc CVPR,2014年。8[9] C. B. Choy,J. Gwak,S. Savarese和M. Chandraker统一通信网。在Proc. NIPS. 2016. 二、三[10] M. Cimpoi,S.Maji和A.维达尔迪用于纹理识别和分割的深度卷积在procCVPR,2015年。3[11] N. Dalal和B. Triggs用于人体检测的定向梯度直方图载于Proc. CVPR,2005年。一、二[12] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。 在Proc.CVPR,2009中。二、五[13] A. Doso vitski yP.Fischer,E.Ilg,P.Hausser,C.哈齐尔巴斯诉 Golkov , P.v.d. Smagt , D.Cremers 和 T. 布 洛 克 斯Flownet:使用卷积网络学习光流。在procICCV,2015年。3[14] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类(voc)的挑战。2010. 5[15] A. Gane,T. Hazan和T. S.贾科拉学习最大后验扰动模型。InProc. AISTATS,2014. 4[16] R.娘娘腔。快速R-CNN。在Proc. ICCV,2015中。一、二[17] X. Glorot,A. Bordes和Y.本吉奥。用于大规模情感分类的域适应:一种深度学习方法。InProc. ICML,2011. 5[18] A. Guzman-Rivera,D. Batra和P.科利。多项选择学习:学习产生多个结构化输出。InProc. NIPS,2012. 4[19] A. Guzman-Rivera,P. Kohli,D. Batra和R. A.鲁滕巴在多 输 出 结 构 化 预 测 中 有 效 地 执 行 多 样 性 InProc.AISTATS,2014. 4[20] Y. HaCohen,E.Shechtman,D.B. Goldman和D.利斯钦斯基。非刚性稠密对应及其在图像增强中的应用。2011.2[21] B. Ham,M.乔角,澳-地Schmid和J.庞塞提案流程。在Proc. CVPR,2016. 一二三五六七八[22] B. 哈里哈兰山口A. 阿尔贝拉兹河。B. Girshick和J. 马利 克 用 于 对 象 分 割 和 细 粒 度 本 地 化 的 超 列 。 在Proc.CVPR,2015中。3[23] B. Hariharan,J. Malik和D. Ramanan 用于聚类和分类的判别去相关。在procECCV,2012年。五、七[24] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。Proc. CVPR,2016. 三、四[25] B. K. Horn和B. G. Schunck确定光流:回顾展。第内特尔,59(1-2):81-87,1993. 2[26] G. B. Huang,V. Jain,and E. G.学习米勒。复杂图像的无监督联合配准。载于《国际刑事法院判例汇编》,2007年。三、六[27] G. B. Huang,M. A. Mattar,H. Lee和E. G.学习-米勒。从零开始学习对齐。InProc. NIPS,2012.3[28] J. Hur,H.林角,澳-地Park和S. C.安广义可变形空间金字塔:保几何稠密对应估计。在Proc.CVPR,2015中。2[29] A. Kanazawa,D. W. Jacobs和M. Chandraker WarpNet:用于单视图重建的弱监督匹配在Proc. CVPR,2016中。3[30] K.卡尔施角Liu和S. B.康使用非参数采样从视频中提取深度 在proc ECCV,2012年。2[31] I. Kemelmacher-Shlizerman和S. M.塞茨收集流。在Proc.CVPR,2012。三、六[32] 金角,澳-地Liu,F. Sha和K.格劳曼可变形的空间金字塔匹配快速密集的对应关系。在procCVPR,2013年。一二三五六七八[33] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。InProc. NIPS,2012. 4[34] C. Liu,J. Yuen,and A.托拉尔巴SIFT流:场景之间的密集通信及其应用。PAMI,33(5):978-994,2011.2[35] C. Liu,J. Yuen,A. Torralba,J. Sivic和W. T.弗里曼。筛流:不同场景之间的密集对应。在Proc.ECCV,2008年。一、二[36] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在Proc.CVPR,2015中。1[37] J. Long,N. Zhang和T.达雷尔。convnets学习对应吗?在Proc.NIPS,2014中。第1、3条[38] D.洛从尺度不变的关键点中提取独特的图像特征。IJCV,2004年。一、二、五[39] J. Matas,O. Chum,M. Urban和T.帕杰拉鲁棒宽基线立体声从最大稳定极值区域。BMVC,2002年。2[40] G. A.米勒Wordnet:英语词汇数据库。通讯员。ACM,38:39-41,1995. 85286[41] H.莫巴希角Liu和W. T.弗里曼。一种低维图像集表示的组合模型。在Proc. CVPR,2014。3[42] V. Nair和G. E.辛顿校正线性单元改进了受限玻尔兹曼机。InProc. ICML,2010. 4[43] D. Novotny,D. Larlus,和A.维达尔迪我已经看够了:跨类别转移部件。InProc. BMVC,2016. 8[44] M. Okutomi和T. 卡纳德多基线立体声。PAMI,15(4):353-363,1993. 2[45] Y. Peng,中国黑杨A. Ganesh,J. Wright,W. Xu和Y.MA. Rasl:通过稀疏和低秩分解对线性相关图像进行鲁棒对齐在Proc.CVPR,2010中。三、六[46] W. Qiu,X. Wang,X. Bai、A. Yuille和Z.涂。尺度空间筛选流。在Proc.WACV,2014中。2[47]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV,115(3):211-252,2015. 4[48] M. Schiegg,F.Diego和F.A. 汉普雷希特 学习不同的模型:库仑结构支持向量机。在Proc. ECCV,2016中。4[49] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015. 4[50] M. Tau和T.哈斯纳场景和尺度之间的密集对应PAMI,38(5):875-888,2016. 2[51] J. Thewlis,S.Zheng,山核桃P.Torr和A.维达尔迪完全可训练的深度匹配。InProc. BMVC,2016. 3[52] E. Tola,V. Lepetit,and P.呸DAISY:一种适用于宽基线立体声的高效稠密描述子。PAMI,32(5):815-830,2010. 2[53] S. Tulsiani和J.马利克视点和关键点。 在procCVPR,2015年。3[54] J. R. Uijlings,K. E. van de Sande,T. Gevers和A. W.史默德斯对象识别的选择性搜索。IJCV,104:154-171,2013。6[55] A. Vedaldi和K.伦克Matconvnet 在proc ACM Int.Conf. 多媒体,2015年。5[56] P. Vincent,H. Larochelle,Y. Bengio和P A.曼扎戈尔用去噪自动编码器提取和合成鲁棒特征载于ICML,2008年。5[57] O. Vinyals,A. Toshev,S. Bengio和D.二汉Show andtell:A neural image caption generator. 在proc CVPR,2015年。1[58] J. Z.Bontar和Y. 乐存。训练立体匹配卷积神经网络来比较图像块。17(1):2287-2318,2016. 3[59] P. Weinzaepfel ,J. Revaud ,Z. Harchaoui和 C.施密 特DeepFlow:深度匹配的大位移光流。InProc. ICCV,2013. 2[60] Y.湘河,巴西-地Mottaghi和S. Savarese超越Pascal:野外三维物体检测基准。IEEE Winter计算机视觉应用会议,2014年。7[61] H.杨文Y. Lin,and J. Lu. Daisy过滤器流量:一个通用的离散密集对应的方法。在Proc. CVPR,2014。2[62] T. Zhou , Y. Jae Lee , S. X. Yu 和 A. A. 埃 夫 罗 斯Flowweb:通过编织一致的像素对应来联合图像集对齐。在Proc.CVPR,2015中。三五六七八[63] T. Zhou,P. Kr aühenbühl,M. Aubr y,Q. Huang和A.A. 埃夫罗斯通过3d引导的循环一致性学习密集对应。在Proc. CVPR,2016中。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功