没有合适的资源?快使用搜索试试~ 我知道了~
2969ELSD:高效的线段检测器和描述符张浩天1罗毅成1秦方波2何一佳1*1迈谷科技2中科院自动化研究所{zhanghaotian,luoyicheng} @megvii.comqinfangbo2013@ia.ac.cnheyijia2016@gmail.comliuxiao@megvii.com摘要我 们 提 出 了 新 的 高 效 线 段 检 测 器 和 描 述 符(ELSD),同时检测线段和提取其描述符的图像。与分别进行检测和描述的传统流水线不同,ELSD利用用于检测和描述的共享特征提取器,以实时地向更高级别的任务(如SLAM和图像首先,我们设计了一个一阶段的紧凑模型,并提出了使用中点,角度和长度作为线段的最小表示,这也保证了中心对称。提出了非中心性抑制算法,滤除直线相交产生的碎片线段。精细偏移预测被设计成细化中点定位。第二,线描述符分支与检测器分支集成,并且这两个分支以端到端的方式联合训练。在实验中,所提出的ELSD实现了最先进的性能线框数据集和YorkUrban数据集,在准确性和效率。ELSD的线描述能力也超过了以往的工作的线匹配任务。1. 介绍低级视觉模式的图像感知是许多计算机视觉任务(诸如SLAM、运动恢复结构(SfM)和图像匹配)的基本问题局部点特征[4,21,24]被广泛用于这些任务中,最近研究人员一直在探索使用结构特征以获得更好的几何表示[9,10,13,30,34]。线段是人工环境中最常见的结构特征。线段的可靠提取和跨帧的匹配对于上述任务是重要的。最近, 卷积神经网络*通讯作者。本论文得到了科技部国家重点研究&发展计划(项目编号:20010010000000000000)的资助。2020AAA0104400)。图1.线框数据集上的推理速度(FPS)和准确度(sAP10)的线段检测模型已经显著优于传统方法。模型[33,36,38]由两个阶段组成。他们首先检测路口,然后生成线段的建议,最后饲料的嵌入每个线段到一个分类器。虽然这些两阶段方法可以达到很高的性能,但它们的运行速度不能满足实时应用。TP-LSD[12]首先通过引入线段的三点(一个根点和两个端点)表示来实现紧凑的一级检测。然而,TP-LSD分别预测两个端点,并且不利用线段的中心对称特性。因此,预测的根点可能不是两个预测的端点的精确中点,并且甚至三个点可能不共线。此外,根点的预测是模糊的,特别是当线彼此相交时,使得检测到属于分段线段的许多假根点。此外,TP-LSD在训练过程中不区分困难和容易的例子可能无法正确检测线段的一些硬根点。要求线段描述符表示高维度量空间中的线段,相邻两帧中的同一条线在该度量中应该是接近的2970空间存在一些基于CNN的线描述符[15,16,27]。然而,这些线描述符是单独设计的,并且尚未与线段检测器紧密耦合。单独执行检测和描述也是耗时的为此,我们提出ELSD,同时预测线段和推断线描述符在一个端到端的方式。1)我们介绍了一个阶段的体系结构,利用中心角长度(CAL)表示的矢量化线段。 我们的线路检测器由两个模块组成:(i)本地化模块和(ii)回归module. 2)由于中间点可能是模糊的为了在线相交时进行检测,如图3b所示,我们引入线中心度来过滤属于片段线段的假中点,并采用修改的焦点损失[19]来更多地关注困难情况的中点3) 在回归模块中,预测几何图以提供旋转角度和长度。此外,我们细化的中点的位置,通过预测的罚款偏移,以补偿定位精度。4)在线描述符分支中,我们通过线池化获得每个预测线段描述符是通过基于随机单应性的自监督学习的。ELSD的流水线如图2所示。综上所述,主要贡献如下:• 我们提出了一个管道,同时检测线段和推断线描述符在一个端到端的方式。据我们所知,这是第一个工作,统一线检测器和描述符在一个紧凑的神经网络。该算法的主干计算由两个任务分担,两个任务分支可以进行联合训练,对检测性能的损失可以忽略不计。• 我们利用的中心角长度(CAL)representation和灰编码的线段,只有四个参数的预测。为了克服直线相交时的检测二义性,提出了一种非中心抑制机制来去除分割线段的中点。利用偏移回归进一步细化中点位置,使线段定位更加精确。• 我们的ELSD在Wireframe和YorkUr- ban数据集上获得了最先进的准确性和效率此外,我们的模型的轻型版本在单GPU(RTX2080Ti)上实现了107.5 FPS的速度,性能相当。2. 相关作品2.1. 线段检测基于深度学习的线段检测方法由于其出色的性能而引起了极大的关注[11,12,33,38,39]。[32]第32话重新来过线段图的区域分割图和吸引场图,随后是挤压模块以生成线段。L-CNN[38]首先提出了一种用于线框解析器的两级流水线。它预测交汇点地图,以产生线的建议,并利用LoI池收集的建议的功能。然后,线验证网络分类的建议,并删除假线。 PPGNet[36]使用图形公式来表示连接之间的关系。HAWP[33]提出了一个4-D整体吸引力场图,用于发电线提案,并使用结热图来完善提案。HT-HAWP[20]结合了Hough变换和HAWP模型,在线段检测方面取得了优异的效果。作为第一个单阶段线段检测器,TP-LSD[12]提出了一种三点表示来编码线段,并以端到端的方式预测每个线段的两个端点。LETR[31]将变压器应用于从粗粒度到细粒度的线段检测。我们的ELSD与TP-LSD有类似的管道。我们编码的CAL表示的线段,并可以直接检测到可能的语义线段在图像中,而无需额外的分类。2.2. 对象检测最近涌现的一些基于关键点的对象检测器已经取得了显著的性能。CornerNet[17]通过一对拐角关键点来制定每个对象,并将所有检测到的拐角关键点分组以形成最终检测到的边界框,这需要更复杂的后处理。CenterNet[37]通过其边界框的中心点对对象进行建模,并使用关键点估计方法来找到中心点并回归到其大小。FCOS[26]将对象的所有像素视为候选位置和建议 的 中 心 , 以 表 示 所 有 候 选 位 置 的 重 要 性 。PolarNet[29]基于极坐标学习角对,并避免了笛卡尔坐标中学习到的偏移量的这种基于关键点的检测方法具有速度快、结构简单等优点。基于此,我们提出了一种新的线段表示方法,并进一步设计了一种基于关键点的线段检测器。2.3. 行说明与基于描述符的关键点匹配[4,21,24]类似,线匹配也基于比较两帧中相同线段的描述符。MSLD[28]通过计算线段相邻区域中像素梯度的均值和方差来构建线描述符。LBD[35]提出了一种线-带描述符,其以更高的鲁棒性和效率计算带上的梯度直方图。最近,一些 基 于 深 度 学 习 的 方 法 , 如LLD[27] , DLD[16]和WLD[15],使用卷积神经网络来学习线描述符并实现显着的性能。2971Σ××yc××2sinθ图2.我们提出的ELSD架构的图示。它由三个部分组成:主干、线路检测器分支和线路描述符分支。详情见正文3. 方法3.1. 线表示线段具有两个特征:1)由于中心对称,中点确定线段的位置,然后由角度和长度确定几何特征。2)由于线段是直的,因此可以从其局部一致地测量其方向,这更容易学习并且需要小的接收场。因此,我们提出了中心角长度(CAL)表示来矢量化线段,它只有四个参数:二维坐标、旋转角度和总长度。相比之下,TP-LSD[12]中的三点表示有六个参数要预测,这是冗余的,并且预测结果可能不满足中心对称性。检测器,另一个用于行描述符。线检测器分支可以从图像预测线段。我们还可以通过将共享特征和预测线段两者馈送到线描述符分支中来获得线描述符。ELSD可以产生线段并且在单个前向通路中进一步提取线段的固定尺寸描述符。此外,不同于传统的流水线,首先检测线段,然后计算线描述符,ELSD共享这两个任务之间的大部分参数,这降低了计算成本,提高了紧凑性。3.3. 线路检测器分支我们的线检测器分支将主干的共享特征作为输入,并分为两个模块:1)局部化模块,其由线中点检测器和线中点检测器组成。有角度θ,长度ρ和中心点xcyc线段的端点由下式给出两个,两个测量头和线中心检测头。在非中心抑制(NCS)中,将两个头部组合以获得更准确的中心检测; 2)回归模块,其包含几何回归头部和几何回归头部。Σxsys=+ρ一种精密偏移回归头。 回归的输出模是由(ρ,θ)组成的一对几何映射Σxe=Σ−ρΣcos θΣ(1)和一对精细偏移映射。最后,两个输出YeY C.2sin θ模块组合在一起以生成中点具有两个对称端点作为线段检测结果。3.2.整体网络架构如图2所示,我们提出的ELSD由主干、线路检测器分支和线路描述符分支组成。我们的骨干是一个U形网络,由一个编码器和两个解码器块组成。主干将大小为3 512 512的图像作为输入,并输出大小为128 128128的共享特征。在主干之后,架构分为两部分:一部分用于线路3.3.1定位模块类似于TP-LSD[12],我们使用可变形卷积、两个a-trous卷积(膨胀率=2)和标准卷积层来获得自适应空间采样和大的感受野,以预测中点图。此外,我们利用线中心度,即线上点离中点有多近,以区分中点。2972^ ^您的位置:×××××中心度图3.非中心抑制(NCS)的图示。(b)以及(c)分别示出了预测的中点图和中心度图。整条线和分段线的点线中心度通过下式计算,图4.线路合并的图示。更多详细信息请参见文本。全局结构,并且线中心度图可以进一步用非局部非线性多峰2D分布对全局结构信息进行编码。因此,线中点图和线中心度图通过等式(1)融合。3抑制误检,得到最终的中点。从而有效地缓解了TP-LSD所遇到的模糊性问题。P中心度=min(d1,d2)max(d1,d2)(二)3.3.2回归模块我们的回归模块由两个头组成:一个精密偏移回归头和一个几何回归头。细其中d1,d2是从直线上的一点到另一点的距离段分别到两个端点。显然,当点是中点时,P中心度我们使用一个地面实况(GT)的线段,其宽度为3像素,生成GT的中心地图,使用方程。2. 线段的GT之外的像素被分配zero。请注意,如果两条线段相交,则仅将较大的中心度值指定给相交像素。线中心度模块具有与定位模块相同的架构。将预测的线中点图和线中心度图分别表示为P中间和P中心度如图3所示,我们提出了非中心抑制(NCS)来过滤属于分段线段的虚假局部中点,并获得更精确的局部中点。精确的中心置信度图P1,如偏移回归头用于预测由下采样率引起的中心偏移可以通过仅将对应的偏移添加到预测的中点的位置来获得细化的子像素中点。地理度量回归头可以预测相对于中点的角度和长度。我们的回归头都包含两个33、一个11卷积层和一个反卷积层。去卷积层用于将输出图的大小恢复到256 256。我们可以通过输出映射上的中心位置(xc,yc)来索引相关的角度θ和长度ρ。然后,可以通过等式获得线段。1.一、我们使用CAL表示,而不是笛卡尔坐标表示,因为角度属于线段本身的几何属性由于可以从线段的局部部分感知角度信息,因此更容易且更精确地预测角度。P^= P^mid×P^0。5(三)角度比坐标。我们做了实验,NCS的有效性解释如下。中点检测是为了得到精确的位置,但容易因直线相交而导致误检测。如图3所示,当一条线段与另一条直线相交时,其两个端点与交点形成两条较短的分段线段。尽管这些分段的线段的中点没有被标注为地面实况并且不期望被检测到,但是检测器倾向于检测它们,因为分段的线段满足线段的定义。不同的是,如图3所示,线中心度不是精确的,而是沿着全局线段提供非局部分布。非局部分布对推理更有意义,并且包含潜在相交线的全局结构信息。也就是说,中点只能标记线段,而不知道线段的位置。比较CAL表示和笛卡尔坐标表示在第4.3节中的相同设置下进行重新表示。3.4. 行描述符分支给定一组线段,线描述符分支的目的是学习每个线段的固定长度描述符,其用于根据它们的描述符之间的距离来区分不同的线段我们首先应用两个3 - 3步幅-1卷积的共享特征图从骨干。然后通过双线性插值将该中间特征图的大小调整为256 - 256。所得到的名为密集描述符图的特征图用于以下线池。管线合并:类似于在对象检测中使用的RoIPool[6]和RoIAlign[7],线池用于将旋转的窄ROI挤压到描述符向量。所示.2973×××LL∈2σ2XY−图5.培训框架。利用随机单应矩阵实现自监督训练。详情见正文在图4中,线段的RoI被定义为以线段为中心的旋转边界框,其长度和角度与线段相同。RoI的宽度是一个超参数,取决于所需的感受野大小然后,我们裁剪一个固定大小的线特征地图采样从密集的描述符地图使用双线性插值。假设存在N个候选线段,并且每个线特征图的大小为C H’W’,其中C是密集描述符图的通道维度,并且H’,W’分别表示线特征图的高度和宽度我们进一步将1W’步幅-1深度卷积以及步幅-S最大池化应用于线特征图。最后,所得到的特征向量被平坦化并被馈送到全连接层中,然后被归一化,产生具有表示为d的固定长度的最终描述符。自我监督学习:与[4]类似,我们在图像上应用随机单应性以产生具有相同场景的不同视图的成对图像,假设平面场景或远处场景在真实环境中是常见的。我们使用的单应性变换是由平移、缩放、旋转和透视失真等一组变换组成的,覆盖了由摄像机运动引起的大部分视点变化。在对输入图像应用随机单应性之后,我们可以获得精确的图像到图像变换。所以我们可以标记匹配或不匹配的线段,到地面实况作为动态线段。注意,对于训练线描述符分支,所提出的ELSD在小批量图像对上训练。在数据准备过程中,我们可以获得一对图像的静态线段集的地面真值对应一对动态线段的地面实况对应可以由其最近的静态线段给出。如果一对动态线段的最接近的静态线段匹配,则我们将该动态对标记为匹配,否则标记为不匹配。ELSD的整个训练过程如图5所示总之,使用静态线段的训练有助于在开始时利用动态线段的训练有助于将描述符与检测器的实际预测耦合。3.5. 损失函数3.5.1全损列车ELSD的总损耗由线路检测器损耗p和线路描述符损耗D. 注意,ELSD的输入是具有随机单应性的一对图像,其具有地面实况线段以及地面实况线段和预测线段的地面实况对应。这使我们能够同时优化两种损失。给定一对图像(1A,1B),总损失可以表示为:L(A,B)=λp(Lp(A)+Lp(B))+λdLd(A,B)(4)我们根据经验设定λp= 0。9,λd= 0。1在这项工作中3.5.2线路检测器损耗在线检测器分支的训练阶段,四个头的输出包括线中点图、线中心图、几何图和精细偏移图。这些地图的地面实况线段检测的总损失在等式中示出(五)形成从一个图像到另一个图像的线段的端点,并检查两个相应端点的距离是否足够近。从零开始训练时,灵感来自Line Sam-Lp(A)=λmidLmid(A)+λcenLcen(A)+λgeoL geo㈧+λ offL off㈧其中权重λmid,cen,geo,off={25,10,1,3}(五)L-CNN[38]的L-CNN模块采用静态线采样器和动态线采样器来训练分类器,我们使用静态线段和动态线段来训练描述器。在训练阶段,静态线段是注释的地面实况,动态线段是由检测分支预测的那些,其随着模型训练的进行而改变。由于线段检测在早期训练阶段是不自信的,所以我们只使用检测到的足够接近的线段局部化损失:给定图像IA,对于具有连续值的每个地面实况中点P,我们构建中点置信度图P [0,1]H×W×1,其中中点附近有四个像素,通过flooring和ceiling,并且我们通过v来描述所选择的像素集。然后使用2D高斯核G=exp((x-px)2+(y-py)2)来计算v中像素的每个置信度。然后我们通过除以v的最大值来归一化这些置信度。如果像素的置信度被分配了不止一次,则我们保留最大值。2974IJL^ ^您的位置:^ ^您的位--×- -ΣL(A)=p∈我我--(1−Pxy)β(P^xy)αλS=1−我 我N i=1我 我我 我+√1ΣT+T−E,其中E表示总它的价值整个过程描述如下,3.4,我们有静态和动态线段,因此描述符丢失的总体损失为:PxyGxy=max(max G,Pxy)(6)Ld(A,B)=λD(T(A,B)+TD(B,A))+(十一)(i,j)∈v我曾以《易经》为题,以《易经》为题。(七)λS(TS(A,B)+TS(B,A))其中,TD、TS表示动态和静态曲线。^根据等式2的损失 (十)、 设λD=e,−1HΣW(1−Pxy)log(Pxy),如果Pxy=1Eexylog(1−P^xy),并且e表示当前纪 简而言之,我们期望更多地依赖于其中α和β是超参数,N是图像中的中点我们设α=2,β=4。根据等式 (2),我们可以获得地面实况cen-terness地图 然后我们使用加权二进制交叉熵(BCE)表示为CEN的损失,以监督中心的学习过程。回归损失:假设地面真实角度,长度为(θ,ρ),对应的预测角度,长度为(θ,ρ)。我们使用L1损失和平滑L1损失作为几何回归损失,定义为Lgeo(A)=λangL1(θ,θ)+λlenSmoothL1(ρ,ρ)(8)其中λang,len=300,10。此外,为了恢复由具有比率s的下采样引起的中点坐标的离散化误差,我们另外预测每个中点的精细偏移图。 失败者是在失败中训练出来的。早期训练阶段,多依靠动力损失后检测器经过良好的训练以使描述符适应实际检测结果4. 实验4.1. 实验设置实施详情:我们分别使用ResNet34[8]和可选的沙漏网络[23]作为主干。我们对训练集进行标准数据增强,包括水平/垂直翻转和随机旋转。输入图像被调整大小为512 512。我们的模型使用ADAM[14]优化器在四个NVIDIA RTX 2080Ti GPU和Inter Xeon Gold 61302.10 GHz CPU上进行了总共170次训练。初始学习率、权重衰减和批量大小分别设置为1e3、1e5和16。学习率在第100次和第150次时除以10N1关闭N k=1|O^−(s−,p,)|(九)纪数据集:我们在Wire上训练和评估我们的模型其中pR2是GT中点的二维位置。注意回归损失计算中仅涉及地面实况的置信度得分等于1的中点3.5.3线路描述符损耗我们利用Facenet[25]中提出的三元组损失来学习线描述符。 由于描述符通过l2归一化进行正则化,因此两个描述符的余弦相似度可以表示为cos(di,dj)=dTdj,其中di,dj是两个描述符。给定图像对(IA,IB)及其线段集LA,LB,设LA,DA为第i条线段d+是图像IB中 其匹配线段的描述符,d-1是图像IB中其不匹配线段的描述符,具有最大余弦相似度。然后,从图像IA到IB的硬负三重态损失可以表示为:NT(A,B)=[m−d d+d d](10)其中[x]+=max 0,x.N是A中线段的个数,m是同时增强匹配线段一致性和离散性的裕度,不匹配的线段。如第节SL中间(A)=N否则D2975frame Dataset[11],包含5000张用于训练的图像和462个用于测试的图像我们进一步评估约克乌尔-ban数据集[3],包含来自两个室内场景的102个测试图像和室外场景,以验证其泛化能力。结构平均精度度量[38]:结构-线段的平均精度(sAP)是基于在预测的端点和地面实况之间的L2距离如果距离小于某个阈值,则预测的线段将被计为真阳性,否则为假阳性。我们设置阈值=5、10、15并报告相应的结果,由sAP5、sAP10、sAP15表示。更多详情请参见[38]。基于热图的指标[38]:基于热图的F分数和平均精度、FH和APH是用于线框解析和线段检测的典型度量。我们首先通过分别对预测线和地面实况线进行栅格化来将其然后我们可以计算像素级的精确度和召回率(PR)曲线。最后,我们可以用PR曲线计算FH和APH4.2. 直线检测我们比较我们提出的ELSD与线段检测方法和线框解析方法。我们2976××∼方法输入大小骨干线框约克乌尔班FPSsAP5sAP10sAP15APHFHsAP5sAP10sAP15APHFHLSD[5]320//打开/关闭/55.262.5/打开/关闭/50.960.1100原子力显微镜[32]320U-Net18.524.427.569.277.27.39.411.148.263.312.8DWP[11]512沙漏3.75.15.967.872.21.52.12.65161.62.2LETR[31]512ResNet101/65.267.786.383.3/29.431.762.766.9/[12]第十二话320ResNet3456.459.7//80.424.826.8//68.178.2TP-LSD[12]512ResNet3457.657.2//80.627.627.7//67.218.1L-CNN[38]512沙漏58.962.964.980.382.8†76.981.3†24.326.427.558.559.6†63.865.3†11.1HT-HAWP[20]512沙漏62.966.6//打开/关闭2527.4//打开/关闭8.9HAWP[33]512沙漏62.566.568.284.586.1†80.383.1†26.128.529.760.661.2†64.866.3†32.1Ours-Lite256ResNet3457.463.165.585.680.224.327.429.363.263.3107.5我们的HG512沙漏62.767.269.084.780.323.926.327.957.862.147Ours-Res34512ResNet3464.368.970.987.287.3†82.383.1†27.630.231.862.062.6†63.664.8†42.6表1.线段检测的对比实验。'/'表示相关论文中未报告这些值。’APH的PR曲线0.90.80.70.60.50.40.30.20.10.00.00.10.20.30.40.50.60.70.80.9召回图6.sAP10和APH在Wireframe数据集(左两图)和YorkUrban数据集(右两图)上的PR曲线我们模型的曲线用红色表示没有显示YorkUrban数据集上的DWP、AFM和LSD结果,因为它们略低于当前方法。模型使用ResNet34作为主干,为了与其他方法进行公平的比较,我们还用Hourglass表示我们的HG。Ours-Lite是我们模型的更快版本在Ours-Lite中,我们将输入图像的大小调整为256 256,并在骨干网中添加解码器。因此,每个磁头的输出映射为256 256。表1示出了基于线段检测的sAP、APH、FH和FPS的定量结果。我们的Res34模型在FPS为42.6的两个数据集上实现了 最 佳 sAP 它 在 Wireframe 和 YorkUr- ban 上 的 msAP( sAP 的 平 均 值 ) 度 量 中 分 别 优 于 HAWP 2.3% 和1.8%。此外,当我们用沙漏网络(Ours-HG)替换骨干网时,它仍然可以在Wireframe上达到类似的sAP结果。由于HAWP和L-CNN是两阶段方法,因此它们的推理速度是有限的。此外,它们的线段依赖于一对连接点,其中连接点通常是包含较少全局信息的局部特征。另一方面,由于具有更精确的中点检测和更紧凑的直线表示方法,本文的方法优于TP-LSD。为了进一步比较,我们评估了类似于L-CNN[38]中提出的连接AP的中点的AP。ELSD中点的平均AP比TP-LSD高2.9%,说明ELSD中点的预测能力更强在ELSD中准确。在基于热图的指标方面,ELSD在线框数据集上显示APH =87.2的先进结果,并在FH上显示可比较的结果。由于线段的角度预测误差可能产生许多不正确的像素,因此与sAP相比,角度预测的误差对基于热图的度量具有更大的影响。因此,我们的模型在基于像素的度量方面的改进不如sAP的改进那么明显。我们的轻量化机型可以达到107.5FPS,也就是1.4比其他基于学习的方法快48.9倍,而精度下降有限。我们使用Ours-Res 34作为代表性模型,并在图6中描述了两个数据集上我们的ELSD优于其他线段检测方法,特别是在线框数据集上的sAP度量。此外,ELSD在YorkUrban数据集上取得了比其他两阶段方法更好的泛化能力。更多定性评价见附录1.2。4.3. 线检测我们在线框数据集上运行消融实验,如表2所示。NCS:NCS是抑制中点的碎片f=0.8f=0.7f=0.6L-CNNf=0.5TP-LSDHT-HAWPHAWPOurs-Res34f=0.5f=0.4f=0.3f=0.2精度2977号NCS上采样焦点损失Cal描述符sAP5sAP10sAP151✓✓✓✓64.368.970.92✓✓✓✓✓64.268.570.33✓✓✓63.668.070.04✓✓✓60.365.868.25✓✓✓61.866.068.06✓✓✓62.367.970.3758.062.864.8方法尺寸精密度(%)召回率(%)F评分(%)LBD7869.363.866.4LLD6457.543.649.6WLD1667.057.261.7我们25672.677.174.76473.576.274.81668.469.769.1表2.ELSD的消融研究详情见正文直线段,并保持整个线段的中点根据No.3和No.1,它将sAP10从0.680提高到0.689。描述符:根据No.1和No.2,检测和描述的多任务学习导致检测精度sAP10从0.689略微降低上采样:为了实时检测线段,我们使用128分辨率的共享特征图,这与L-CNN和HAWP的设置相同然而,在128分辨率下的中心预测比更高分辨率困难得多。我们通过将中点图、中心图、几何图和精细偏移图上采样到256分辨率来解决这个问题。因此,根据No.4和No.1,sAP10由于我们只通过双线性插值或反卷积进行一次上采样,因此它在推理速度上几乎没有额外的成本。焦点损失:我们使用变体焦点损失代替标准的二进制交叉熵(BCE)损失来训练中点图。由于我们将中点的预测视为二元分类问题,因此我们使用的焦点损失可以具有聚焦于中点的硬分类示例的能力通过引入焦点损失,根据No.5和No.1,sAP10从0.660提高到0.689。CAL:将所提出的CAL表示与TP-LSD中的三点表示根据No.6和No.1,通过用CAL表示代替Tri-points,sAP10从0.679改进这是因为三点需要回归比CAL表示更多的参数(4对2),并且角度更容易被测量。学习比位移。4.4. 线描述为了评估行描述符的性能,我们将我们的方法与LBD[35],LLD[27]和WLD[15]进行了比较。方法[18,22]等不涉及比较,因为它们利用了线的附加几何特征,而不是局部外观。我们在ScanNet数据集[2]的子集上测试所有算法,ScanNet数据集[2]是用3D相机姿势注释的RGB-D视频数据集我们选择了大约1000个图像对与大的视点变化,旋转变化,和规模的变化进行定量评价。通过检查对应线的重投影误差是否小于特定阈值来获得图像对的GT线匹配。我们进一步计算相应的线描述符的线段检测我们的表3.通过行匹配评估行描述我们展示了LBD,LLD,WLD和Ours在不同维度下的精确度,召回率和F-Score模型线段的预测匹配可以通过在描述符上找到最近的邻居并执行交叉检查来获得。我们报告的召回率,精度和F-分数来评估不同的描述符。在我们的实验中,我们使用OpenCV实现的LBD描述符和LLD/WLD描述符的官方模型。同时,我们的模型通过将描述符的长度分别设置为256、64和16来训练。结果示于表3中。我们的描述符显著优于LBD,LLD和WLD,特别是在召回方面。LBD描述符由可能不是最优解的人类优先级设计。LLD描述符和类似的基于学 习 的 描 述 符 [15 , 16] 用 由 线 检 测 器 ( 诸 如Edlines[1])给出的线段来训练然而,在这些检测到的线段和数据集中的注释线段之间存在间隙[3,11]。相比之下,我们的描述符与我们的线检测器合作良好,因为它们共享大部分参数和表示,并且它们的训练是耦 合 的 , 这 可 以 进 一 步 降 低 计 算 成 本 。 ELSD(ResNet34为主干)结合行检测器和行描述器的总体推理速度可达到38 FPS。此外,64维描述符呈现与256维描述符相同的结果,并且在准确性上优于更多定量和定性评价见附录1.3-1.5。5. 结论我们提出了一个快速,准确的模型ELSD,同时检测线段和提取描述符在一个单一的向前通过,允许共享计算和表示在两个任务。为了检测直线段,我们首先利用的中心角长度表示编码的直线段,充分利用线的几何特性。此外,引入中心度图,通过非中心度抑制来滤除伪线段我们提出的线检测器实现国家的最先进的perfor-曼斯在两个基准的准确性和效率。此外,我们的模型还实现了实时速度与一个单一的GPU。lite型号可达到10000rpm的高速107.5 FPS,同时保持相当的性能,因此适用于许多需要高实时性能的更高级别任务,如SLAM和SfM。2978引用[1] C. Akinlar和C.托帕Edlines:通过边缘绘制(ed)进行实时线段检测。在2011年第18届IEEE图像处理国际会议上,第2837-2840页,2011年。[2] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.Scannet:室内场景的丰富注释3D重建。在Proc.计算机视觉和模式识别(CVPR),IEEE,2017。[3] 作者:James H. Elder和Francisco J.埃斯特拉达有效的基于边缘的城市图像曼哈顿帧估计方法David Forsyth、Philip Torr和Andrew Zisserman,编辑,计算机视觉-ECCV 2008,第197-210页,柏林,海德堡,2008年施普林格柏林海德堡。[4] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. Superpoint:自监督兴趣点检测和描述。在IEEE计算机视觉和模式识别研讨会会议论文集,第224-236页[5] Rafael Gioi、Jeremie Jakubowicz、Jean-Michel Morel和Gregory Randall。Lsd:一个快速线段检测器,带有错误检测控制。IEEE transactions on pattern analysis andmachine intelligence,32:722[6] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2016年6月。[9] 何一家、季兆、郭跃、何文豪、奎元。Pl- vio:使用点和线特征的紧密耦合的单目传感器,18(4):1159,2018。[10] Ming Hsiao , Eric Westman , Guofeng Zhang , andMichael Kaess. 基于关键帧的密集平面猛击。在2017年IEEE机器人与自动化国际会议(ICRA)中,第5110-5117页IEEE,2017年。[11] 黄昆、王亦凡、周梓涵、丁天娇、高生华和易马。学习解析人造环境图像中的线框。在CVPR,2018年6月。[12] 黄思宇、秦方波、熊鹏飞、丁宁、何怡佳、小刘。TP-LSD:基于三点的线段检测器。在计算机视觉- ECCV2020 -第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,程序,第二十七部分,计算机科学讲义。Springer,2020年。[13] Pyojin Kim,Brian Coltin,and H Jin Kim.用于平面环境的线性rgb-d在欧洲计算机视觉会议(ECCV)的会议记录中,第333-348页,2018年。[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[15] M. Lange,Claudio Raisch,and A.席林Wld:用于线特征匹配的在VMV中,2020年。[16] M.兰格F. Schweinfurth和A. 席林 Dld:用于线特征匹配的基于深度学习的线描述符2019年IEEE/RSJ智能机器人和系统国际会议(IROS),第5910-5915页[17] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议(ECCV)的会议记录中,2018年9月。[18] 李凯,姚健,卢小虎,李莉,张志超。基于线-结-线结构 描 述 子 和 局 部 单 应 性 估 计 的 分 层 线 匹 配Neurocomputing,184,01 2016。[19] Tsung-Yi Lin , Priya Goyal , Ross Girshick , KaimingHe,and Piotr Dollar.用于密集对象检测的焦点损失。在IEEE国际计算机视觉会议(ICCV)的会议记录中,2017年10月。[20] 林彦聪,Silvia L. Pintea和Jan C.范·格默特。深霍夫变换线 先 验 。 在 Andrea Vedaldi , Horst Bischof , ThomasBrox和Jan-Michael Frahm,编辑,计算机视觉[21] 大卫·G·洛基于局部尺度不变特征的目标识别第七届IEEE计算机视觉集,第2卷,第1150Ieee,1999年。[22] 马全蒙,姜广,赖典志。通过图卷积网络进行稳健的线段匹配。arXiv预印本arXiv:2004.04993,2020。[23] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV(8),第483-499页[24] Ethan Rublee , Vincent Rabaud , Kurt Konolige , andGary Bradski. Orb:一个有效的替代筛选或冲浪。2011年国际计算机视觉会议,第2564- 2571页。IEEE,2011年。[25] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet:用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议(CVPR)上,2015年6月。[26] Zhi Tian , ChunhuaShen , Hao Chen , and Tong He.FCOS:全卷积一阶段对象检测。在Proc. Int. Conf.计算机视觉(ICCV),2019年。[27] A. Vakhitov和V. Lempitsky可学习的线段描述器的视觉满贯。IEEE Access,7:39923[28] Zhiheng Wang,Fuchao Wu,and Zhanyi Hu. Msld:一个 健 壮 的 行 匹 配 描 述 符 。 Pattern Recognition , 42(5):941[29] Wu Xiongwei , StevenHOI , and Doyen Sahoo.Polarnet:学习优化基于关键点的对象检测的极坐标关键点。在国际会议上学习代表,2021年。[30] C.许湖,加-地张丽Cheng和R.科赫基于线
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功