没有合适的资源?快使用搜索试试~ 我知道了~
16004P2-Net:像素点匹配王兵1,陈昌浩2,崔兆鹏3,秦杰4,陆晓轩5,于正迪6,赵培军1,董振7,朱凡8,尼基·特里戈尼1,安德鲁·马卡姆11牛津大学3浙江大学5爱丁堡大学7武汉大学2国防科技大学4南京航空航天大学6达勒姆8IIAI摘要准确描述和检测2D和3D关键点对于在图像和点云之间建立对应关系至关重要尽管已经提出了过多的基于学习的2D或3D局部特征描述符和检测器,但是直接匹配像素和点的共享描述符和联合关键点检测器的导出仍然未被社区充分探索。这项工作采取主动,以建立细粒度的对应关系之间的二维图像和三维点云。为了直接匹配像素和点,提出了双全卷积框架,其将2D和3D输入映射到共享的潜在表示空间中以同时描述和检测关键点。此外,一个超宽的接收机制和一个新的损失函数的设计,以减轻像素和点的局部区域之间的固有信息的大量的实验结果表明,我们的框架在图像和点云之间的细粒度匹配方面表现出有竞争力的性能,并在室内视觉定位任务中取得了最先进的结果我们的源代码可在https://github.com/BingCS/P2-Net上获得。1. 介绍分别在图像和点云之间建立精确的像素级和点级匹配是一项基本的计算机视觉任务,对于多种应用至关重要,例如同时定位和映射[34],运动恢复结构[44],姿态估计[35] 、3D重建[25]和视觉定位[42]。大多数方法的典型流水线是首先恢复给定图像序列的3D结构[24,41],以及子图。基于2D到3D重新投影的特征,顺序地执行像素和点之间的匹配。这些特征将是同质的,因为重建的3D模型中的点继承图1:通过P2-Net获得的2D-3D匹配的示例。该方法通过联合学习特征描述和检测,直接建立图像和点云之间的对应关系。描述符来自图像序列的相应像素。然而,该两步过程需要准确的3D重建,这并不总是可行的,例如,在具有挑战性的照明或大的视点变化下。更关键的是,这种方法将RGB图像视为一等公民,并且不考虑能够直接捕获3D点云的传感器的等效性,例如,激光雷达、成像雷达和深度相机。这些因素促使我们考虑像素和点匹配的统一方法,其中可以提出一个开放的问题:如何直接建立2D图像中的像素与3D点云中的点之间的对应关系,反之亦然?这是固有的挑战,因为2D图像捕获场景外观,而3D点云编码结构。为此,我们制定了直接2D像素和3D点匹配的新任务(参见图1)。图1)而没有任何辅助步骤(例如,重建)。这个任务无疑是对现有的常规和基于学习的方法的挑战,这些方法不能弥合2D和3D表示之间的差距,因为单独提取的2D和3D局部特征是不同的并且不共享共同的嵌入。象棋楼梯16005一些最近的作品[20,39]试图通过将2D和3D输入映射到共享的潜在空间来关联然而,他们构建补丁式的描述符,导致粗粒度的匹配结果即使细粒度和准确的描述符可以成功地获得,直接的像素和点的对应关系仍然很难建立。首先,基于不同的策略提取2D和3D关键点一一这导致2D中的良好匹配(例如,平坦的、视觉上不同的区域(诸如海报),不一定对应于在3D中形成强匹配的区域房间里光线不好的角落)。另外,由于点云的稀疏性,点的局部特征可以被映射到(或从)从空间上接近该点的像素获取的许多像素特征,从而增加匹配模糊度。其次,由于2D和3D数据属性之间的大差异和不灵活的优化方式,用于2D或3D局部特征描述的现有描述符损失公式[18,31,2]不能保证在这种新的上下文中收敛。此外,他们的检测器设计只关注于惩罚来自安全的混淆描述符。区域,在实践中导致次优匹配结果。为了应对这些挑战,我们提出了一个全面的双...卷积框架,称为像素和点网络(P2-Net),其能够同时实现2D和3D视图之间的特征描述和检测。此外,一个超宽的接收机制配备时,提取描述符,以解决像素和点的局部区域之间的内在信息的变化。为了优化网络,我们设计了P2-Loss,由两个组件组成:1)结合全采样策略的圆引导描述符丢失,允许通过以自定步调的方式优化正匹配和负匹配来鲁棒地学习独特描述符; 2)批量硬检测器损失,其通过鼓励正匹配和全局最硬负匹配之间的差异来额外地寻求检测的可重复性。总体而言,我们的贡献如下:1. 我们提出了一个联合学习框架,具有超宽接收机制,用于同时进行2D和3D局部特征描述和检测,以实现直接的像素和点匹配。2. 我们设计了一种新的损失,由一个圆引导的描述符损失和一个批处理硬检测器损失,鲁棒学习独特的描述符,同时明确指导像素和点的准确检测。3. 我们进行了大量的实验和消融研究,证明了所提出的框架的实用性和新损失的泛化能力,并提供了我们的选择背后的直觉。据我们所知,这是第一个联合学习,ING框架来处理2D和3D局部特征描述和检测直接像素和点匹配。2. 相关工作2.1. 二维局部特征描述与检测先前在2D域中基于学习的方法简单地用可学习的替代方案替换描述符[50,51,30,19,38]或检测器[43,59,4]。近来,二维局部特征的联合描述和检测的方法引起了越来越多的关注。LIFT [57]是第一个完全基于学习的架构,通过用神经网络重建SIFT的主要处理步骤来实现这一点受LIFT的启发,SuperPoint [16]还将关键点检测作为一项监督任务,在描述之前使用标记的合成数据,然后扩展到无监督版本[13]。不同,DELF[36] 和LF-Net [37]分别利用注意力机制和非对称梯度反向传播方案来实现无监督学习。与之前单独学习描述符和检测器的研究不同,D2-Net [18]设计了一个基于非最大抑制的联合优化框架。为了进一步鼓励关键点是可靠和可重复的,R2D2 [40]提出了基于可微平均精度的列表排序损失。同时,出于相同的目的,在ASLFeat [31]中引入了可变形卷积。2.2. 三维局部特征描述与检测3D领域中的大多数先前工作集中在描述符的学习上。代替直接处理3D数据,早期尝试[46,60]替代地从多视图图像提取表示以用于3D关键点描述。相比之下,3DMatch [58]和PerfectMatch [23]分别通过将3D补丁转换为截断距离函数值和平滑密度值表示的体素网格来构建描述符。Ppf-Net及其扩展[14,15]直接对无序点集进行操作以描述3D关键点。然而,这样的方法需要点云补丁作为输入,导致效率问题。这个约束严重限制了它的实用性,特别是当需要细粒度的应用程序。除此之外,在FCGF [12]中提出了具有完全卷积设置的密集特征描述。对于检测器学习,USIP[27]利用概率倒角损失以无监督的方式检测和局部化关键点受此启发,3DFfeat-Net [56]是点片上3D关键点联合描述和检测的第一次尝试,然后由D3 Feat [2]改进以处理全帧点集。2.3. 2D-3D局部特征描述与在单个2D或3D域中学习描述符的研究区域不同,很少关注2D-3D特征描述的学习。 通过将手工制作的3D描述符直接绑定到学习的图像描述符[29],为对象级检索任务生成2D-3D描述符。类似地,3DTNet [54]使用auxil学习3D补丁的独特3D描述符,16006LL×∈∈×××X××Y图2:所提出的P2-Net框架的概述。我们的架构是一个双分支全卷积网络,用于同时进行2D和3D特征描述(A)和关键点检测(B)。这样的网络与执行对应表示的相似性的描述符损失desc以及鼓励用于区分性对应的更高检测分数的检测器损失det联合优化从2D面片提取的二维特征。最近,2D 3DMatch-Net[20]和LCD [39]都提出学习描述器,该描述器允许针对检索问题跨2D和3D局部补丁进行直接匹配然而,所有这些方法都是基于补丁的,这不适用于需要高分辨率输出的实际相比之下,我们的目标是提取每个点的描述符和检测关键点的位置,一次向前传递以实现有效使用。3. 像素和点匹配在本节中,我们首先详细介绍了所提出的P2-Net的架构,包括联合特征描述和关键点检测[18]。接下来,我们提出了我们设计的P2损失,由一个圆引导的描述符损失和一个批处理硬检测器损失。最后,培训和测试阶段的实施细节。3.1. P2-Net体系结构功能描述。我们的方法的第一步是获得3D特征图FIRH×W×C 来 自 图 像 I和 来 自 点 云 P 的 2D 特 征 图FPRZ×C,其中H W是图像的空间分辨率,Z是点的数量,并且C是描述符的维度因此,与像素X和点Y相关联的描述符d可以分别表示为dX和dY,dX = FI,dY = FP,d ∈ RC.(一)在被L2归一化为单位长度之后,这些描述符可以容易地在图像和点云之间进行比较,以使用余弦相似性作为度量来建立对应关系。在训练期间,描述符将被优化,使得场景中的像素和点对产生类似的描述符,即使当图像或点云包含强烈的变化或噪声时。为了清楚起见,我们在下面的文本中仍然使用d来图3:为了减轻固有信息变化(A)在2D和3D局部区域之间,在特征描述的2D分支中应用具有逐渐加倍的膨胀值(高达16)的超宽接收机制(B)如图2.A,利用两个完全卷积网络分别对图像和点云进行特征描述。然而,通过描述符将像素与点正确地关联起来是不平凡的,因为2D和3D局部区域之间的信息密度存在内在变化(图11)。3.A)。具体地,由于点云的稀疏性,针对点提取的局部为了解决非对称嵌入上的关联问题并更好地捕获局部几何信息,我们基于超宽接收机制设计了2D提取器,如图所示。3.B.为了计算效率,这样的机制是通过九个3 × 3卷积层实现的,其具有从1到16的渐进加倍的膨胀值。最后,生成HW128特征图,然后可以计算其对应的HW1以类似的方式,我们修改KPconv [49]以输出128D描述符和输入点云中每个点的得分。关键点检测。如示于图2.B,我们通过在特征图的空间和通道维度上执行峰值软化非局部最大值抑制[31]来确定关键点。给定一个特征图B. 关键点检测空间最大值32 641 21284128 128信道8 16扩张Lde$c通道最大值Ldet非局部最大值抑制P2-Net峰值软化A. 特征描述特征图检测图B.超宽接收A.信息变化量���×128���×��� ×128���×1���×��� ×116007↔nnYn∈×n不不CpnnLXY不Rρt我ηi(1−m−si)ηj(sIi−m)βt=softplus(Ft−Ft),0)2+(si-1)2=2m2。反向损耗LPdesc2descdesc、ntt t我RIYnPXYY*RP图4:像素点对的定义。在一对图像I和点云P中,XY是对应关系(像素X∈I,点Y∈P)。从图像的角度来看,XYn展示了Yn位于外的负匹配边RP(Y的邻域),表示一个负值点仅关注硬负匹配,并且实验上我们发现它们在我们的2D-3D上下文中不收敛。受使用加权因子和圆形决策边界的圆形损失[47]的启发,我们设计了具有全采样策略的圆形引导描述符损失,而不是仅考虑硬负匹配,这允许自定进度优化并避免收敛模糊性。给定对应关系XY介于图像I和对于图4中的点云P,我们可以将对应的描述符dx和dY的正余弦相似度sp定义为:sp=dXdY=Σdcdc,(6)养木X参与者Y代表最难的否定匹配,从图像的角度出发,对负对进行了全采样Y*是X在整个点云空间中最难的负点。阴性和最难阴性匹配在点云的透视图中是相反的。XYn,定义一个负余弦相似集sI所有n个描述符对dX和dY1,...,j为:为sI=,dXdI,···,dXdnJ PYJ,s.t. Y−YFRT×C,其中对于图像T=H W,对于点云T=Z。通过非局部最大值抑制检测像素或点ρt的要求为:ρt是检测⇒Fc是Fc中的局部最大值与c= arg maxFk,K其中,Yj表示像素X的负样本,其位于作为点Y的安全半径的Rp之外。然后,图像部分的圆引导描述符损失被导出为:ΣjΣL描述=n、(8)1 +eppen|C|日志其中F。表示在其中是图像之间的对应关系的集合的位置T和通道C。Rρt表示ρt的邻域。I和用于优化的点云P,在训练过程中,上述过程被软化为iijIjη=ζ(1+m-s)和η=ζ(si+m)表示加权因子。使用峰值可训练和密度不变[40]:p p nniIjc c1Σcρt具有缩放因子ζ的tors,期望s >1-m且si
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功