没有合适的资源?快使用搜索试试~ 我知道了~
6200规模自适应神经密集功能:基于层次上下文聚合的学习海梅·斯宾塞,理查德·鲍登,西蒙·哈德菲尔德萨里大学视觉、语音和信号处理中心{jaime.spencer,r.bowden,s.hadfield}@ surrey.ac.uk摘要计算机和智能体如何看待世界在他们周围?特征提取和表示构成了回答这个问题的基本构建块之一。传统上,这是通过精心设计的手工制作技术完成的,如HOG,SIFT或ORB。然而,没有一种“一刀切”的近年来,深度学习的日益普及为许多计算机视觉问题带来了无数的端到端解决方案。这些方法虽然很复杂,但往往缺乏可扩展性,并且相反,我们提出了SAND特征,这是一种专用的深度学习解决方案,能够提供分层上下文信息的特征提取。这是通过采用稀疏的相对标签,指示图像位置之间的相似性/相异性的关系这些标签的本质导致了几乎无限的不相似示例集可供选择。我们演示了如何在训练过程中选择负例来修改特征空间并改变其为了证明这种方法的通用性,我们将所提出的功能应用于许多任务,每个任务需要不同的属性。这包括视差估计、语义分割、自定位和SLAM。在所有情况下,我们展示了如何将SAND特征结合起来,从而获得更好或与基线相当的结果,同时几乎不需要额外的培训。代码可以在以下位置找到:https://github.com/jspenmar/SAND_features1. 介绍特征提取和表示是大多数计算机视觉研究的基本组成部分。我们提出学习的功能表示能够支持- ING广泛的计算机视觉任务。设计这样一个系统证明是具有挑战性的,因为它需要这些功能是唯一的,并能够概括在像素级的外观等领域(a) 来源(b)全球(c)地方(d)分级图1:使用不同的上下文层次结构训练SAND特征以针对特定属性的可视化。同时定位和映射(SLAM)或视觉测距法(VO)倾向于以显式方式使用特征提取[2,17,20,46],其中手工制作的稀疏特征从成对的图像中提取并相互匹配这需要全球一致和独特的特征,这些特征可以从广泛的基线中识别。另一方面,光流[32]或对象跟踪[3]的方法可能更倾向于局部唯一或平滑的特征空间,因为它们往往需要在窄基线上进行迭代过程。最后,通常与深度学习相关的方法假设特征提取被隐式地包含在学习管道中。用于语义分割[6]、差异估计[44]或相机姿态回归[29]的端到端方法专注于学习特定于每个任务的隐式与这些方法相反,我们将特征提取视为通过采用图像对之间的稀疏标记对应为了从这个训练数据中学习,我们将对比度损失的概念[16]扩展到像素级非对齐数据。这导致来自图像之间的地面真实对应的固定的正匹配集合,但是留下几乎无限范围的潜在负样本。我们展示了如何通过仔细瞄准特定的负面,6201可以修改学习的特征表示以适应多个域,如图1所示。此外,这些功能可以相互结合使用,以覆盖更广泛的场 景 。 我 们 将 此 框 架 称 为 尺 度 自 适 应 神 经 密 集(SAND)特征。在本文的其余部分中,我们展示了几种类型的计算机视觉任务中学习到的特征的一般性,包括立体视差估计,语义分割,自定位和SLAM。视差估计和语义分割首先组合立体特征表示以创建覆盖所有可能视差水平的4D成本体积。由此产生的成本量在3D堆叠沙漏网络[5]中进行处理,使用中间监督和最终上采样和回归阶段。自定位使用流行的PoseNet [19],用我们的密集3D特征表示替换原始输入图像。最后,通过替换SLAM中的ORB/BRIEF特征,在稀疏特征匹配场景中使用这些特征[33]。我们的贡献可归纳如下:1. 我们提出了一种从稀疏图像对应中学习通用特征的方法2. 建立在3. 我们探讨了所提出的框架在几个应用中的用途,即立体视差,语义分割,自定位和SLAM。这导致在相应的基线中具有更好或相当的结果,减少了训练数据,并且很少或没有特征微调。2. 相关工作与手工设计的特征匹配的传统方法通常依赖于稀疏关键点检测和提取。例如,SIFT [24]和ORB [35]在许多研究领域仍然是一个流行和有效的选择。ORB-SLAM [27,28]及其VO [12,48]变体或视觉对象跟踪方 法 ( 包 括 Sakai 等 人 ) 就 是 这 种 情 况 。 [36] ,Danelljanet al. [25,8]或 Wuet al. [43]。在这些情 况下,只需要全局判别特征,因为关键点检测器可以消除局部模糊性。作为密集特征学习的中间步骤,一些方法旨在学习关键点检测和特征表示。大多数方法采用手工制作的特征检测器作为收集数据的基线,例如[1,21]。替代方法包括Saltiet al. [37],他们将关键点检测视为二元分类任务,Georgakis等人。[15],他们提出了一个联合端到端检测和提取网络。另一方面,专用特征学习的大多数方法倾向于专注于解决密集对应估计,而不是使用稀疏关键点。这一领域的早期工作没有执行显式特征提取,而是学习任务特定的潜在空间。端到端VO方法[42,22]、相机姿态回归[19,4]或立体视差估计[47]就是这种情况。同时,语义和实例分割方法,如Long等人提出的方法。[23],Nohet al. [31]或Wanget al. [41]产生包含每个像素这些都需要密集的绝对标签描述每个像素的特定属性。尽管注释工具[9]取得了进步,但手动检查和细化仍然构成了重大负担。描述像素之间的相似性或不相似性的关系的相对标签更容易获得并且可以大量获得。Chopra等人[7],Sunet al. [40] Kanget al. [18]将这些应用于人脸重新识别,这需要学习一个可以概括大量未见过数据的判别特征空间。因此,这些方法利用了关系学习损失,如对比[16]或三重损失[39]。Yuet al的进一步工作。[45]和Geet al. [13]讨论了三重选择偏差引起的问题,并提供了克服这些问题的方法。正如最初提出的那样,这些损失并没有解决密集图像表示,而是比较整体图像描述符。Schmidt等人[38]提出了一种Fathy等人[10]为中间层表示引入额外的匹配损失。最近,上下文损失[26]已被提出作为非对齐特征表示的相似性度量在本文中,我们概括了“像素”对比损失的概念3. SAND特征提取这项工作的目的是为图像中的每个像素提供一个高维特征描述符,能够在多个尺度上描述上下文。我们实现这一点,通过采用一个像素明智的对比度损失的连体网络架构。连体网络的每个分支由一系列卷积残差块组成,后面是空间池化金字塔(SPP)模块,如图2所示。卷积块和基本残差块用作初始特征学习。为了增加感受野,最后两个残差块分别采用具有2和4倍扩张的atrous卷积SPP模块由四个并行分支组成,每个分支的平均池规模分别为8、16、32和64。每个分支产生具有分辨率的32D输出62022(a) 来源(b)(0,∞)图2:为密集特征提取训练的SAND体系结构。初始卷积是残差块,随后是4分支SPP模块和多级解码器。(H/4,W/4)。为了产生最终的密集特征图,在结合跳过连接的若干阶段中对所得到的块进行上采样,并将其减少到所需的维数n。给定输入图像I,其密集的n维特征表示可以通过以下方式F(p)= Φ(I(p))|(w)、(1)其中p表示2D点,Φ表示SAND分支,由一组权重w参数化。I存储RGB颜色值,而F存储n维特征描述符,Φ:N3→Rn.3.1. 逐像素对比度损失为了训练这个特征嵌入网络,我们在[38]中提出的想法,并提出了像素对比损失。使用这种损失来训练具有两个相同SAND分支的siamese网络,给定一对输入点,对比损失定义为:(c)(0,25)(d)(0,∞)-(0,25)图3:(α,β)阈值对每个像素观察到的尺度信息的影响。较大的α和β值有利于全局特征,而较低的β值则会增加局部区分度。创建标签掩码Y,指示像素的每个可能组合是否是正例、负例或应被忽略。与传统的连体网络不同,每个输入图像都有许多匹配项,这些匹配项在空间上并不对齐。作为(2)的推广,我们得到Σ ΣL(Y,F1,F2)=1(Y(p1,p2),p1,p2).(五)p 1p23.2. 有针对性的负面挖掘标签映射Y提供在训练期间使用的相似和相异对的列表。相似对的列表受到输入图像之间的地面实况对应的然而,这些点中的每一个都有(H×W)-1潜在的不相似的对c=2以供选择。只有在-如果我们考虑到所有潜在的不同对,训练批次。为了转换3D地面实况数据,我们可以针对负匹配定义与(4)的等价物,其中π−1(c)~π−1(p)。(六)22112 2l(y,p1,p2)=如果y=1,则为1(d)21{max(0,m-d)}2 ,如果y=020否则(二)显而易见的是,由于计算成本和平衡,使用所有可用的组合是不可行的。在简单的情况下,可以简单地选择一个固定的数字,其中d是特征嵌入的欧几里得距离|| , y 是 指 示 该 对 是 否 匹 配 的 标 签 , 并 且 m 是 边 距 。||,yisthelabelindicatingifthepair is a match and m is themargin. 直觉,积极对(匹配点)在潜在空间中应该是接近的,而负对(非匹配点)应该至少由边距分隔开指示相似性或不相似性的标签可以通过多个源获得。在最简单的情况下,对应关系直接由视差或光流图给出。如果数据作为深度图或点云中的同质3D世界点q被给出,则这些可以被投影到图像对上。可以通过以下方式获得一组对应的像素:p=π(qstec)=KPqstec,(3)(c1 ,c2 )=(p1 ,p2 )其中π1 (qstec) →π2(qstec),其中π是由对应相机的本征函数K和全局姿态P参数化的投影函数。每一个点的随机负对的错误率真理对应通过选择大量的阴性样本,我们可以更好地利用可用数据的可变性同样明显的是,所得到的高度不平衡的标签分布要求损失平衡,其中归因于负样本的损失根据所选择的对的总数被反向在实践中,均匀随机抽样用于提供全球一致的特征。然而,这些特性对于许多应用来说并不理想相反,通过智能地针对负样本的选择,我们可以控制学习特征的属性。通常,负面挖掘包括选择硬例子,即。在网络中产生假阳性的例子虽然这个概念仍然可以应用在所提出的方法中,但我们专注于空间挖掘策略,如图3所示。建议的挖掘策略可以定义为Conv双线性转换步幅2Avg. 池3264x64高x宽x3高x宽xn3232n32x3264320128 3216x16128 1288x862032c<$′2<$c<$2其中α<||c2−c2||<β。(7)换句话说,负样本分别从具有(α,β)的下限和上限的半径内的区域抽取。因此,该区域表示其中特征被要求是唯一的区域,即,特征的规模例如,窄基线立体声需要局部区分特征。只要精细的细节在特征嵌入中引起可测量的变化,远处的区域是不同的就不重要。为了鼓励这一点,只有在指定的半径,即样本。小的β阈值,应用作负对。另一方面,全局描述符可以通过忽略附近的样本并且仅从远距离图像区域选择负来获得I.E.大的α和β= ∞。3.3. 分层上下文聚合还可以通过“分割”输出特征图并为每个部分提供不同的负采样策略来同时受益于多个负挖掘策略的属性对于NS个挖掘策略,NC表示每个挖掘策略的通道数。战略,n/NS。作为对(2)的修改,我们将最终像素级损失定义为中国最符合房地产需求。此外,更复杂的任务或需要多种类型特征的任务可以从适当的缩放层次结构中受益。出于本文的目的,我们将评估三个主要类别:全局特征、局部特征以及两者的分层组合。3.4. 功能培训评估训练为了获得训练所提出的SAND特征所需的对对应关系,我们使用了流行的Kitti数据集[14]。尽管对三个可用的Kitti挑战(里程计,语义学和立体声)和剑桥地标数据集进行了评估,但特征网络Φ仅在里程计序列00中相对较小的700对子部分上进行了预训练。这些对中的每一个具有通过将3D数据投影到图像上获得的10-15千个正对应,每个具有使用所提出的挖掘方法生成的10个负样本。 这包括以下阈值:(0,∞)表示G-描述子,(0,25)表示L-局部描述子以及两者的分层组合(GL)。每种方法都针对3维、10维和32维特征空间进行训练目标边际为0.5的变体。可视化。首先,在图4中可以找到对学习到的特性的定性评估。这种可视化1小时2i=1d2(i)如果y= 1使用3D描述符,因为它们的值可以简单地投影到RGB颜色立方体上。例外情况l(y,p,p1.pNS)=1个N/S第二(8)条是GL,它使用简化为3D的6D描述符122{max(0,mi-d(i))}如果y= 0i=10否则其中pi表示来自策略i的负样本,通过PCA。很明显,被选中的挖掘过程影响学习的特征空间。当考虑小图像块时,G描述子被发现是平滑和一致的,而它们是不一致的。d2(i)=(i+1)NC.Fz=iNC1(p1,z)−F第二章2(p2,z).(九)关于遥远的特征的犯罪。与此相反L在整个图像中显示重复的特征,但在其局部邻域中显示鲜明的对比和边缘。这是一个强大的通用工具,使我们能够进一步适应许多任务。根据手头的问题,我们可以选择相应的特征尺度这与每种采矿方法的预期响应一致。最后,GL显示了前面两种方法的属性组合。图像全球当地G+L图4:学习的3D描述符可视化从上到下:源图像,G挖掘,25像素局部挖掘和分层方法。L描述符显示了更多定义的边缘和局部变化,而GL提供了两者的组合。6204ρ(x,y,δ,z)=.F1(x,y,z) ,若z≤n、(10)F2(x+δ,y,z)否则表1:针对不同维度的特征度量,其 中 n 对 应 于 特 征 图 的 维 数 。 这 导 致 ρ(H×W×D×2n),其中D表示视差水平。因此,成本量提供了从4维索引到单个值的映射p:N4→R。值得注意的是,这种差异复制了成本卷-ESTA表示传统密集特征匹配成本量的应用不可知扩展[11]。以下层能够产生传统的逐像素特征距离图,但也可以执行多尺度信息聚合并处理视点变化。由此产生的成本量被馈送到3D堆叠的沙漏网-采矿方法与ORB基线。G和Local pro-vide在其各自的区域中的最佳描述符,而GL和GIL最大化负距离并提供平衡的匹配性能。距离分布。 通过表1中的正距离和负距离的分布提供了一系列客观度量。 这包括一个相似性度量的验证示例μ+(越低越好)和一个相异性度量的否定示例μ−(越高越好)。此外,曲线下面积(AUC)测量值表示随机选择的阴性样本将具有比相应阳性地面实况匹配更大的距离的概率。这些研究针对局部(25像素半径)和全局阴性选择策略进行此外,32D功能测试与中间(75像素半径)和完全结合GIL的方法。从这些结果可以看出,全局方法G在正对应表示方面表现最好,因为它在所有描述符大小上最小化μ+并最大化另一方面,L描述符在局部邻域内提供最佳匹配性能同时,I描述符提供了G和L之间的折衷。类似地,组合的方法提供了一个中间基础,其中所有负样本之间的距离所有提出的变体都显著优于所示的ORB特征基线。最后,值得注意的是,这些属性在学习特征空间的不同维度上都得到了保留,这揭示了所提出的挖掘策略的一致性4. 特征匹配成本受[5]的启发,在对立体图像执行初始特征提取之后,通过跨所有可能的视差水平连接左特征和右特征,将这些特征组合在成本体积ρ中,如由下式定义的:工作由三个模块组成。为了重复使用先前沙漏所学习的信息,在相应大小的层之间并入跳过连接。作为最后的修改,来自早期特征提取层的附加跳过连接在最终上采样和回归阶段之前被并入。为了说明这个系统的通用性,我们在两个非常不同的任务中使用立体视差估计代表了这种方法的传统应用。同时,语义分割传统上使用单个输入图像。为了使网络适应此目的,仅修改最后一层以产生具有所需数量的分割类的输出5. 结果除了前面提到的差异和语义分割之外,我们还在另外两个领域证明了所提出的SAND特征的适用性:自我定位和SLAM。这些领域中的每一个都代表了具有不同期望属性集的不同计算机视觉问题。举例来说,立体视差表示窄基线匹配任务,且因此可有利于局部描述符以便产生尖锐响应边界。同时,语义分割利用端到端学习表示中的隐式特征由于问题的本质,特征聚合和多尺度应该可以提高性能。在光谱的另一边,自定位强调宽基线和重访,其中场景的全局外观有助于确定可能的位置。在这种情况下,至关重要的是具有全局鲁棒的特征,这些特征对视点和外观的变化是不变的。然而,所选择的具体方法利用了整体图像表示。最后,SLAM具有与自定位类似的要求,其中全局一致性和视点不变性对于环路闭合和漂移最小化至关重要怎么-D采矿µ+全局性能本地性能AUCµ−AUCµ−32ORBNA85.83NA84.06NAG0.09598.620.95184.700.3003L0.14796.050.62891.920.564GL(6D)0.18197.861.16190.670.709G0.09599.430.73086.990.28610L0.15798.040.57993.570.510GL0.18798.601.06291.870.678G0.09399.730.74687.060.266我0.12099.610.67591.940.40632L0.15698.880.59294.340.505GL0.18399.280.99693.340.642Gil0.21498.881.21791.970.7846205表2:Kitti Stereo训练/评估分割的视差误差通过较少的训练,所提出的方法实现了与基线相当然而,它代表了一种完全不同的应用风格。在这种情况下,通过稀疏直接匹配而不是端到端学习方法来检测重访。此外,该任务对它的特征要求特别高,需要宽基线不变性(映射)和窄基线(VO)。因此,它是组合特征描述符的理想用例。5.1. 视差估计基于第4节中描述的架构,我们将我们的方法与[5]中的实现进行比较。我们将原始模型与Kitti Stereo2015数据集进行了600次训练。我们的模型修复了前200个epoch的预训练特征,并在250个epoch中以较低的学习率对其进行微调。来自公共Stereo数据集的原始训练/评估分割的最终误差度量见表2(越低越好)。(a) 地面实况(b) 基线(c) 32D-G-FT(d) 32D-GL-FT图5:valida的语义分割可视化-设置图像。SAND特征的结合提高了分割区域的整体细节水平和一致性(a) 基线(b)10D-G(c)10D-L(d)10D-GL(e)32D-G(f)32D-L(g)32D-GL图6:两个评估图像的视差可视化(预测与错误)。所提出的特征表示增加了估计的鲁棒性,在复杂的领域,如车窗。如图所示,10D变体的训练次数减少了150次,达到了相当的性能,而32D变体的错误减少了30%。有趣的是,G特征往往比局部和组合方法L和GL表现得更好。我们从理论上认为,从早期的SAND分支的此外,还对图1所示的结果进行了直观比较6. 第二行和第四行提供错误的视觉表示,其中红色区域表示较大的错误。如底行所示,所提出的方法增加了诸如透明车窗等区域的鲁棒性。5.2. 语义分割同样,这种方法是基于第4节中提出的成本量,最后一层产生19类分割。所有模型都在Kitti像素级语义分割数据集上训练了600个epoch。为了获得基线性能,方法培训(%)评价(%)基线[5]1.492.8710D-G1.193.0010D-L1.342.8210D-GL1.162.9132D-G1.052.6532D-L1.092.8532D-GL1.062.796206方法IoU类IOU猫平坦性质对象天空建设人类车辆基线29.353.887.178.130.163.354.41.662.132D-G31.155.887.378.536.059.857.56.766.832D-G-FT35.459.988.783.046.762.763.36.768.132D-GL29.451.785.176.633.851.854.44.356.332D-GL-FT33.156.687.491.542.656.760.43.963.7表3:类和类别平均值和每个类别细分的交集(%)度量所提出的功能的合并结果在复杂的类别,如对象和人的准确性增加。堆叠沙漏网络直接使用输入图像进行训练,而其余的则使用具有G和LG学习特征的32D变体。不出所料,L本身并不包含足够的上下文信息来收敛,因此在下面的结果中没有显示。在所提出的方法的情况下,两个SAND变量进行训练。前两个修复了前400个epoch的功能。剩下的两个部分来自这些模型,并以较低的学习率对200个额外的时期进行微调。如表3中的结果所示,所提出的方法显著优于基线。对于人和物体,尤其如此,就我们的特征而言,全局特征往往优于它们的组合特征。再次,这表明,这个特定的任务需要更多的全局信息,以便确定什么对象存在于场景中比L特征提供的确切位置信息5.3. 自我定位如前所述,使用众所周知的方法PoseNet [19]进行自定位。虽然PoseNet有几个缺点,包括对每个新场景进行额外的训练,但它已被证明非常成功,并可作为需要整体图像表示的示例应用程序。基线是通过使用原始数据集图像从头开始训练基础ResNet34架构来获得的,如[19]所述。再一次,提出的方法取代输入图像与他们各自的SAND特征表示。这两种方法都以恒定的学习率训练了100个epoch。一旦同样,只有表示为FT的版本呈现对原始预训练SAND特征的任何附加如表4所示,所提出的具有32D微调特征的方法通常优于基线。这包含回归位置的误差,以米为单位从地面实况测量,以及表示相机方向的旋转正如预期的那样,增加表示的维度(3与32)增加了最终的准确性,正如微调学习的表示一样。最值得注意的是,它在大法院,国王学院或商店门面等序列中表现良好。我们的理论是,这是由于建筑物的独特特征和形状然而,该方法往往在包含类似或重复环境的序列中表现较差,例如街道序列。这表示在PoseNet的上下文中所提出的特征的复杂环境,因为在没有附加信息的情况下,全局表示5.4. 满贯所有以前的工作领域探索使用我们的fea-在深度学习环境中,使用密集特征表示。相反,这组实验集中于它们在具有显式特征提取的稀疏匹配域中的使用学习的功能可以直接替代手工设计的功能。所使用的基线SLAM系统是S-PTAM的实现[33]。该系统使用ORB描述符来估计VO并创建环境地图。我们不对我们的功能进行额外的训练或调整,也不执行此任务的管道的任何其他部分。我们只需将我们的功能放入围绕ORB构建的架构中。值得强调的是,我们也不会在局部补丁上聚合我们的功能。相反,我们依赖于特征提取网络已经在像素的描述符中编码了所有相关的上下文信息方法GreatCourt国王学院老医院店铺外观圣玛丽教堂街PRPRPRPRPRPR基线10.300.351.540.093.140.102.2240.192.770.2222.601.013D-G12.050.332.180.094.070.092.660.294.210.2636.131.5332D-G11.460.301.620.093.300.112.200.253.670.2331.921.2432D-G-FT8.2260.261.520.083.210.92.010.223.160.2229.890.99表4:基线PoseNet的位置(m)和旋转(deg/m)误差与SAND功能变体。FT表示具有微调特征的变体。所提出的方法优于基线在一半的序列中的位置误差和旋转误差,除了一个。6207方法0002030405猿RPE猿RPE猿RPE猿RPE猿RPE基线5.630.218.990.286.390.050.690.042.350.1232D-G13.090.2141.650.366.000.086.430.136.590.1632D-L5.990.219.830.294.400.041.130.052.370.1232D-GL4.840.209.660.293.690.041.350.051.930.11方法0607080910基线3.780.091.100.194.190.135.770.432.060.2832D-G9.100.132.050.2115.400.1711.500.4518.250.3532D-L2.540.090.880.195.260.136.250.422.030.3032D-GL2.000.080.960.196.000.135.480.421.360.29表5:除01外,所有公共Kitti测距序列的绝对和相对姿态误差(越低越好)细分APE表示对准的轨迹绝对距离误差,而RPE表示运动估计误差。平均而言,32 D-GL提供了最好的结果,与32 D-L的性能相当。两个Kitti里程计序列的预测轨迹之间的视觉比较可以在图中找到7. 如所见,所提出的方法更紧密地遵循地面实况并且呈现更少的漂移。反过来,这表明我们的特征通常对重新访问具有鲁棒性,并且是视点不变的。此外,可用Kitti序列的平均绝对和相对位姿误差如表5所示。这些测量值分别表示对齐的轨迹姿态与预测运动中的误差之间的绝对距离在该应用中,可以看出系统如何极大地受益于分层聚合,300学习方法。这是由于SLAM需要两组不同的特征。为了在窄基线中估计代理的运动,系统需要局部判别特征。另一方面,环路闭合检测和映射创建需要全局一致的特征。这反映在结果中,其中G始终比L漂移更多(更高RPE),并且GL提供更好的绝对姿态(更低APE)。6. 今后的工作我们已经提出了SAND,一种新的方法,用于密集特征描述符学习与像素对比损失。通过使用来自一小部分可用训练数据的稀疏标记数据,我们证明了学习是可能的通用特征表达。而其他的方法-5004003002001000−300−200−100 0 100200300x(m)2001000−100−60−80−100−120−140−160−200 −100 0x(m)100 200作为一种提高鲁棒性的方法,我们开发了一个通用的对比损失框架,允许我们修改和操纵学习的特征空间。这导致在整个训练过程中对每个像素可见的上下文信息的分层聚合。为了证明这种方法的通用性和适用性,我们评估了一系列不同的计算机视觉应用,每个应用需要不同的特征属性。这包括从密集和稀疏的图像检测到整体图像描述和逐像素分类。在所有情况下,SAND特征显示出优于原始基线。我们希望这是一个有用的工具,为大多数领域的计算机视觉研究提供更容易使用的功能,需要更少或没有训练。这一领域的进一步工作可以包括探索学习特征空间的其他理想属性此外,为了增加这些fea的通用性−60 −40 −20 0 20 40x(m)图7:不同SAND特征的Kitti里程计轨迹预测与基线顶行显示两个完整的序列,与底部行放大的细节。该方法GL提供了鲁棒的运动和漂移校正。它们可以用更大的数据集来训练,这些数据集包含更大种类的环境,例如室内场景或季节变化。确认这项工作是由EPSRC资助的赠款协议(EP/R512217/1)。我们还要感谢NVIDIA公司的Titan Xp GPU赠款。地面实况基线32D-G32D-L32D-GL基线32D-G32D-L32D-GL露丝地面试验z(m地面实况基线32D-G32D-L32D-GLz(mz(m6208引用[1] H. Altwaijry,A. Veit和S.贝隆吉学习使用深度架构检测和匹配关键点。在2016年英国机器视觉会议的过程中,第49.1-49.12页,2016年。2[2] H. Badino,A. Yamamoto和T.卡纳德多帧特征融合的视觉里程计。在IEEE计算机视觉国际会议论文集,第222-229页。IEEE,dec 2013. 1[3] A. Balasundaram和C.切拉潘实时视频中基于视觉的运动跟 踪 。 2017 年 IEEE 计 算 智 能 和 计 算 研 究 国 际 会 议(ICCIC),第1-4页。IEEE,dec 2017. 1[4] S. Brahmbhatt,J. Gu,K. Kim、J. Hays和J.考茨用于相机定位的地图的几何感知学习。CVPR,2018年12月2[5] J. - R. Chang和Y. S.尘金字塔立体匹配网络. 2018. 二、五、六[6] L- C. Chen,G. Papandreou,K. Murphy和A. L. 尤尔。基于深度卷积网和全连接CRFS的语义图像分割。技术报告,2015年。1[7] S. 乔普拉河Hadsell和L.Y. 判别式学习相似IEEE计算机视觉和模式识别会议的Proceedings,第349-356页,2005年。2[8] M.达内尔扬湾Bhat,F. Shahbaz Khan和M.费尔斯伯格ECO:用于跟踪的高效卷积运算符。在Pro-cephaly-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,第2017卷-Janua,第6931-6939页2[9] S. Dasiopoulou , E. Giannakidou , G. Litos , P.Malasioti,andI. Kompatsiaris。语义图像和视频注释工具综述。技术报告。2[10] M. E. Fathy,Q.-H. 特兰,M。Z. 齐亚山口Vernaza和M.陈-德雷克。2D和3D几何对应的分层度量学习和匹配。ECCV,2018年。2[11] J. Flynn , I. Neulander , J. Philbin 和 N. 很 聪 明 Deep-Stereo:学习从世界的图像中预测新的观点。CVPR,2016年。5[12] C. Forster,Z. Zhang,M. Gassner,M. Werlberger,以及D.斯卡拉穆扎SVO:单目和多摄像机系统的半直接视觉里程计。IEEE Transactions on Robotics,33(2):249-265,2017年4月。2[13] W. Ge,W. Huang,黄氏拟谷盗D. Dong和M. R. Scott.深度 度 量 学 习 与 分 层 三 重 损 失 。 ECCV2018 , 第ECCV2018页,2018年。2[14] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?KITTI Vision Benchmark Suite。计算机视觉与模式识别会议(CVPR),2012年。4[15] G. Georgakis,S. Karanam,Z. Wu,J. Ernst,and J.科塞卡用于姿态不变3D匹配的关键点检测器和描述符的端到端学习。2018. 2[16] R. Hadsell,S.Chopra和Y.乐存。通过学习不变映射来降低维数InProceedings of theIEEE计算机协会计算机视觉和模式识别会议,第2卷,第1735-1742页,2006年。1、2[17] A. E. 约翰逊,S。B. Goldberg,Y.Cheng和L.H. 玛蒂鲁棒 和 高效 的 立 体 视觉 特 征 跟 踪。 IEEE InternationalConference on Robotics and Automation , 第 39-46 页 。IEEE,2008年5月。1[18] B.- N.康,Y。Kim和D. Kim.用于人脸识别的成对关系网络。2018. 2[19] A. Kendall,M.Grimes和R.西波拉PoseNet:用于实时6-dof 相 机 重 新 定 位 的 在 Proceedings of the IEEEInternational Conference on Computer Vision , 卷 2015Inter,第2938-2946页,2015年。二、七[20] B. Kitt,A. Geiger和H.拉蒂冈基于RANSAC离群点剔除算法的立体图像序列视觉里程计。在IEEE智能车辆研讨会上,第486-492页。IEEE,2010年6月。1[21] K. Lenc和A.维达尔迪学习协变特征检测器。在计算机科学讲义(包括人工智能讲义和生物信息学讲义子系列)中,第9915卷LNCS,第100- 109117. Springer,Cham,2016. 2[22] R. Li,S. Wang, Z. Long和D.顾UnDeepVO:通过无监督深度学习的单目视觉里程计。2018 IEEE机器人与自动化国际会议(ICRA),第7286-7291页,2018年5月。2[23] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网 络 。 在 Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,第07-12卷-2015年6月,第34312[24] D. G. 洛从尺度不变关键点获得独特的图像特征。International Journal of Computer Vision,60(2):91-110,2004. 2[25] D.马丁河,巴西-地Andreas,F. S. khan和M.费尔斯伯格远程相关过滤器:学习连续卷积算子进行视觉跟踪。ECCV,2016。2[26] R.梅赫雷斯岛Talmi和L.泽尔尼克庄园非对齐数据图像变换的上下文损失ECCV,2018年3月。2[27] R. 穆尔-阿塔尔M. 蒙铁尔和J。D. Tardos ORB-SLAM:一 种 多 功 能 、 精 确 的 单 目 SLAM 系 统 。 IEEETransactions on Robotics , 31 ( 5 ) : 1147-1163 , oct2015. 2[28] R. Mur-Artal和J. D. Tardos ORB-SLAM 2:一个开源的SLAM系统,用于单目、立体和RGB-D相机。IEEETransactions on Robotics,33(5):12552[29] T. Naseer和W. Burgard室外环境中基于单目相机的6-DoF全局定位的深度回归。技术报告,2017年。1[30] R. A. Newcombe,D. Fox和S. M.塞茨DynamicFusion:非刚性场景的实时重建与跟踪。计算机视觉和模式识别(CVPR),第343-352页。2[31] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积1:1520-1528,2015. 26209[32] D. Patel和S.Upadhyay。使用卢卡斯卡纳德方法的光流测量International Journal of Computer Applications,61(10):975-8887,2013. 1[33] T. Pire , T.Fische r , G. 卡 斯 特 罗 山口 DeCristo'foris,J. Civ era和J.雅各布·贝勒斯S-PTAM:立体并行跟踪和映射。机器人和自主系统,93:27-42,2017年7月。二、七[34] R. a. N. Rse. KinectFusion:实时密集表面映射和跟踪。技术报告,2013年。2[35] E. Rublee和G.布拉德斯基ORB:SIFT或SURF的有效替代方案。技术报告,2012年。2[36] Y. 酒井T.Oda,M.Ikeda和L.巴罗利提出了一种基于SIFT和SURF特征提取的目标2015年第18届基于网络的信息系统 国际会 议论文 集,NBiS 2015,第 561-565页。IEEE,2015年9月。2[37] S. Salti,F.通巴里河Spezialetti和L.D. 斯特凡诺学习特定于雷达的3D关键点检测器。在Proceedings of the IEEEInternational Conference on Computer Vision,2015年国际会议论文集,第2318IEEE,dec 2015.2[38] T.施密特河Newcombe和D.狐狸.自监督视觉描述符学习稠 密 对 应 。 IEEE Ro
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功