内窥镜视频中的密集描述符学习：自监督训练和局部匹配

148 浏览量更新于2023-10-25 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用学习特征描述符的刘兴通1，郑一平1，本杰明·基林1，石井胜2，格雷戈里·D.作者：Russell H.Taylor1和MathiasUnberath11约翰霍普金斯大学2约翰霍普金斯大学医学院{xingtongliu，unberath}@ jhu.edu摘要来自内窥镜视频的高质量3D重建在许多临床应用中发挥着重要作用，包括手术导航，其中它们能够实现直接的视频- CT配准。虽然存在许多方法用于一般的多视图3D重建，但这些方法通常不能在内窥镜视频上提供令人满意的性能部分原因是建立成对点对应并因此驱动重建的局部描述符在面对解剖结构的纹理稀少表面时会挣扎基于学习的密集描述符通常具有更大的感受野，使得能够对全局信息进行编码，这可以用于消除匹配的歧义。在这项工作中，我们提出了一个有效的自监督训练计划和新的损失设计密集描述符学习。在与内部鼻窦内窥镜数据集上最近的局部和密集描述符的直接比较我们还在一个公开的稠密光流数据集和一个小规模的SfM公开数据集上对我们的方法进行了评估，以进一步证明我们的方法的有效性和通用性。源代码可在https://github.com/lppllppl920/DenseDescriptorLearning-Pytorch上获得。1. 介绍背景在计算机视觉中，对应估计旨在找到图像空间中的2D点与对应的3D位置之间的匹配。许多潜在的应用都依赖于这一基本任务，如运动恢复结构（SfM）、同时定位和映射（SLAM）、图像检索和基于图像的定位。第特别是，SfM和SLAM已被证明对基于内窥镜的手术导航[20]、视频CT配准[15]和病变定位[40]有效。这些成功依赖于SfM和SLAM同时从未标记的视频估计所观察场景的稀疏3D结构以及相机SLAM和SfM的优势是互补的。在需要实时估计的应用（例如，导航）中，SLAM提供用于对应性估计的计算上高效的框架。鲁棒的相机跟踪需要从先前帧估计的密集3D重建，但计算约束通常将SLAM限制为局部优化。这通常会导致漂移误差，特别是当轨迹环不明显时。另一方面，SfM优先考虑稀疏3D结构的高密度和准确性。这是由于在束调整中使用的耗时的全局优化，其将SfM限制于离线估计是可接受的应用。在视频-CT配准中，无标记方法依赖于对应性估计来提供来自视频的稀疏反射和相机轨迹。然后使用配准算法将重建与CT表面模型配准[32]。这需要SfM，因为它依赖于密集和准确的3D重建。估计的摄像机轨迹的准确性然而，当从内窥镜视频估计相机轨迹时，典型的SfM或SLAM流水线不能产生高质量的重建或准确的相机轨迹。最近的工作旨在通过视频捕获中的程序变化来减轻这种缺点，我们将在下面讨论。在这项工作中，我们致力于开发一种更有效的特征描述符，用于管道的特征提取和匹配模块，以大大提高提取的对应关系48474848（参见图1）。相关工作。局部描述符由从图像块计算的特征向量组成，其大小和方向通常由关键点检测器确定，例如Harris [10]，FAST [29]和DoG [18]。手工制作的局部描述符SIFT [18]可以说是对应估计和相关任务中最流行的特征描述符。近年来，已经提出了SIFT的高级变体，例如RootSIFT [1]，RootSIFT- PCA [3]和DSP-SIFT[7]。其中一些在基本矩阵估计[2]、成对特征匹配和多视图重建[31]等任务中优于SIFT描述符此外，随着深度学习的出现，基于学习的本地描述符越来越受欢迎，最近的例子是 L2-Net [36] ， GeoDesc [19] 和HardNet [22]。虽然基于学习的方法在计算机视觉的许多领域都优于手工制作的方法，但SIFT的高级变体继续与基于学习的局部描述符保持一致或更好[2，31]。已经提出了几个密集描述符，如DAISY [37]，UCN[5]和POINT2 [16]。与遵循检测和描述方法[8]的局部描述符相比，密集描述符提取图像信息，而不使用关键点检测器来找到用于特征提取的特定位置。因此，在需要密集匹配的应用中，密集描述符具有比局部描述符更高的计算效率。它们还避免了重复关键点检测的可能性[8]。另一方面，基于学习的密集描述符通常表现出更好的性能相比，手工制作的。这是因为卷积神经网络（CNN）可以编码和融合高级上下文和低级纹理信息，比人工规则更有效地提供足够的训练数据。我们的方法属于基于学习的稠密描述子的范畴.还有一些工作是联合学习密集描述符和关键点检测器，例如SuperPoint [6]和D2-Net [8]，或者学习提高局部描述符性能的关键点检测器，例如GLAMpoints [38]。在内窥镜检查领域，研究人员已将SfM和SLAM应用于来自各种解剖结构的视频，包括鼻窦[15]、胃[40]、腹部[9，20]和口腔[27]。流行的SfM管道（如COLMAP [30]）和SLAM系统（如ORB-SLAM [24]）通常无法在内窥镜检查中获得令人满意的结果，除非进一步改进。在内窥镜视频中成功进行对应性估计的方式存在几个挑战。首先，组织变形，如在来自结肠镜检查的视频中，违反了这些管道中的静态场景假设。为了缓解这个问题，研究人员提出了基于SLAM的方法，可以容忍场景变形[14，34]。其次，内窥镜检查中的纹理通常是平滑和重复的，这使得与局部描述符的稀疏匹配容易出错。Widya等人[40]提出了在胃中散布IC染料以手动向表面添加纹理，从而增加局部描述符的匹配性能。这导致更密集和更完整的重建。Qiu等[27]使用激光投影仪将图案投影在口腔表面上，以添加更多纹理，从而提高SLAM系统的性能。然而，外科医生通常不希望引入如上所述的辅助程序，因为它会中断原始工作流程。因此，而不是添加纹理，我们开发了一个稠密的描述符，以及纹理稀缺的表面上，以取代这些系统中的原始本地描述符。捐款. 首先，据我们所知，这是第一项将基于学习的密集描述器应用于内窥镜检查中的多视图重建任务的工作。其次，我们提出了一个有效的自我监督该训练方案包括一种称为相对响应损失的新损失，该损失可以训练具有关键点定位学习风格的高精度密集描述符所提出的训练方案优于各种基于学习的描述符中使用的流行的硬否定挖掘策略[5，4，22]。为了进行评价，我们对鼻窦内窥镜数据集上的成对特征匹配和SfM任务、KITTI Flow 2015数据集上的成对特征匹配[21]以及小规模自然场景数据集上的SfM [35]进行了2. 方法在本节中，我们描述了我们用于密集描述符学习的自监督训练方案，其中包括整体网络架构、训练方案、自定义层、损失设计和密集特征匹配方法。整体网络架构。如图2、训练网络是一个两分支的连体网络。输入是一对彩色图像，它们被用作源图像，目标训练目标是，给定源图像中的关键点位置，在目标图像中找到正确的对应关键点位置。将具有SIFT的SfM方法[15]应用于视频序列以估计稀疏3D重建和相机姿态。然后通过使用估计的相机姿态将稀疏3D重建投影到图像平面上来生成地面实况点密集特征提取模块是一个完全卷积的DenseNet [13]，它接收彩色图像并输出一个密集描述符映射，该映射具有与输入图像相同的分辨率和特征描述符的长度作为通道维度。描述符映射沿着通道维度进行L2归一化，以增加泛化能力[39]。对于每个源关键点位置，从源描述符映射中采样对应的描述符使用源关键点的描述符作为1×1卷积核，对4849图1. 内镜检查中SfM性能的定性比较。上不同描述符的性能在相同的鼻窦内窥镜视频序列上执行SfM任务。比较描述符是我们的，UCN [5]使用最近提出的内窥镜数据的最硬对比损失[4]进行训练，HardNet++ [22]使用内窥镜数据进行微调，以及SIFT[18]。第一行示出了相同的视频帧和来自SfM的对应稀疏3D重建的重投影。第二行显示稀疏重建和相关统计数据;每个图像的第一行中的数字是重建中的点数;每个图像的第二行中的两个数字是登记的视图的数量和序列中的视图的总数。红色的点是在显示的帧中不可见的点。黄色点位于显示帧的视场中，但由其他帧重建。图中蓝色点的三角剖分涉及所显示的帧。图2. 整体网络架构。训练数据由一对源图像和目标图像以及地面实况源-目标组成 2D点对应。源图像和目标图像是从共享相同3D点的观测的帧中随机选择的。对于每对图像，在每次训练迭代中从可用的点对应中随机选择一定数量的点对应。为了简化说明，图中仅展示一个目标-源点对及对应目标热图图中的所有概念都在方法部分中定义。兴趣点（POI）Conv层中的目标描述符映射[16]。计算的热图表示源关键点位置与目标图像上的每个位置之间的该网络使用建议的相对响应损失（RR）进行训练的Liao等人提出了将描述符学习问题转化为关键点定位问题的思想。[16]，其最初用于解决X射线-CT 2D-3D配准问题。兴趣点（POI）转换层。这一层用于将描述符学习问题转换为关键字学习问题。4850e点定位[16]。对于一对源输入图像和目标输入图像，从特征提取模块生成一对密集描述符映射Fs和Ft的大小UCN-CUCN-HC软件软件+公元前Softmax+BCERR+Softarg.RRPCK@5px25.558.836.544.635.457.963.0PCK@10px35.067.254.663.151.168.671.9PCK@20px47.074.073.677.466.078.680.0表1.特征匹配性能的评价输入图像和描述符映射分别为3×H×W和C×H×W。对于源关键点位置xs处的描述符，使用最近邻采样提取对应的特征描述符Fs（xs），如果需要，可以改变为其他采样方法描述符的大小是C×1×1。通过将采样的特征描述符视为1×1卷积核，对Ft执行2D卷积运算以生成目标热图Mt，将源描述符与每个目标描述符之间的相似性存储在Ft中。相对响应损失（RR）。该损失是根据直觉提出的，即目标热图应该在地面实况目标关键点位置处呈现高响应，并且应该尽可能多地抑制其他位置处的响应。此外，我们不想假设任何关于热图的响应分布的先验知识，以保留多峰分布的潜力，以尊重挑战性案例的匹配模糊性。为此，我们建议最大化地面实况位置处的响应与热图的所有响应之和在数学上，它被定义为，. eσMt（x t）剂量检查该表显示了来自3名测试患者的所有9个序列中阈值为5px、10px和20px的正确关键点（PCK）的平均百分比。在间隔在20帧内的所有图像对上计算PCK。对于每一对，通过将密集匹配结果与来自SfM结果的地面实况点对应进行每列中的特征匹配结果由名称位于第一行的描述符生成从左到右，评估的描述符是用对比损失训练的UCN（UCN-C）[5]，用最硬对比损失训练的UCN（UCN-HC）[4]，用Soft-argmax [ 12 ] 替换提出的相对响应损失（ RR ），用Softargmax和二进制交叉熵（BCE）替换RR，用空间softmax和BCE替换RR [11]，RR和Softargmax，以及建议的RR培训计划。使用所提出的RR训练的模型实现了最佳的平均匹配精度。只要估计的源关键点位置在原始源关键点位置的附近，我们称之为循环一致性准则。通过将所有采样的源描述符作为一个大小为N×L×1 ×1的核来处理，密集匹配的计算可以在现代GPU上并行化，N是查询源关键点的数量Lrr= −logMt（x）X，其中（1）用作输出通道尺寸的位置;L是用作输入通道的特征描述符的长度将比例因子σ应用于热图Mt以扩大[-1，1]的值范围。然后在缩放热图的地面实况位置xt处计算空间softmax，其中分母是缩放热图的所有元素的总和。为了加快收敛速度，采用了对数运算。我们观察到，通过在空间softmax操作后仅惩罚地面实况位置处的值，网络学会有效地减少其他位置处的响应并增加地面实况位置处的响应。我们比较了使用不同常见损失设计训练的密集描述符的特征匹配和SfM性能，这些设计最初用于实验部分中的关键点定位任务。由不同密度描述符生成的目标热图的定性比较3 .第三章。密集特征匹配。对于源图像中的每个源关键点位置，利用上述方法生成对应的目标热图。热图中具有最大响应值的位置被选择为估计的目标关键点位置。然后，在估计的目标关键点位置处的描述符对源描述符映射执行相同的操作以估计源关键点位置。由于局部描述子的密集匹配特性，传统的互最近邻准则在局部描述子的成对特征匹配中过于严格。我们放宽标准，接受比赛，标准2D卷积运算的维数。3. 实验我们在三个数据集上评估了我们提出的方法。使用Si- nus内窥镜数据集来评估局部和密集描述符在内窥镜中的成对特征匹配和SfM任务上的性能。KITTIFlow 2015数据集[21]用于评估密集描述器在自然场景中成对特征匹配任务上的性能使用具有建筑物照片集合的小规模数据集[35]来评估自然场景中SfM任务的局部和密集描述符的性能所有实验都在具有4个NVIDIATesla M60 GPU的工作站上进行，每个GPU具有8GB内存，并且该方法使用PyTorch [25]实现。鼻窦内窥镜检查的评价该数据集包括从8名患者和2具尸体收集的视频数据。总时长约为30分钟。为了便于实验，在训练和测试期间，所有图像都被下采样到256×320像素。对于我们的方法，我们使用了一个轻量级版本的全卷积密度网络（FC-DenseNet）[13]，具有32层，过滤器增长率为10.输出描述符的长度为256;参数总数为53万。该模型采用随机梯度下降循环学习的方法4851图3.内窥镜检查中特征匹配性能的定性比较。该图定性地显示了性能的三个密集的描述符训练不同的损失设计的任务，成对的特征匹配。前两行是训练图像，其余的是测试图像。第一列和第二列显示源-目标图像对，其中绿色十字标记表示地面实况源-目标点对应关系。对于每个密集描述符，目标热图（如最后三列所示）从POI Conv层生成。为了更好地可视化对比度，显示的热图使用空间softmax操作进行归一化，然后使用处理后的热图的最大值进行归一化最后三列中显示的数字是估计的目标关键点位置与地面实况位置之间的像素误差第四列显示了在内窥镜数据集上使用最近的最硬对比损失训练的UCN [5]的结果第五列中的模型使用与我们相同的方法进行训练，除了训练损失是Softargmax [12]和BCE而不是建议的相对响应损失。结果表明，我们的方法产生较少的高响应，从而导致更好的匹配精度。Seq. 1-1（381）Seq. 1-2（314）Seq. 1-3（370）Seq. 2-1（455）Seq. 2-2（630）Seq. 2-3（251）Seq. 三比一（90）Seq. 3-2（1309）Seq. 三至三（336）SIFT1044745.6221913175.581139385.161197515.81295103846.4312218965.38484355.09559535.5116921695.57DSP-SIFT1497835.0923519185.0613212284.7840465575.3229673225.6416734505.00422934.811507455.1718011805.18RootSIFT主成分分析1043845.8921910045.671156615.112278215.82295101476.4312820255.46502555.1821731885.3517624505.62硬网++18015544.6323321624.8124430034.6542447554.6553498284.8522557274.56796104.6641646584.6222831964.66UCN-C349134024.26311131984.5024883364.43405119354.1329382584.4619692733.987724454.10503161664.2920637364.17UCN-HC381152744.84314135194.84352169004.89455332994.67630453754.81251263224.378629884.39484133944.39283115554.39软件34859664.7431277744.7425274264.6329348614.50547125904.2420528474.22595344.1745172474.7630260394.26软件+公元前357115024.47314103734.57244103394.55426198484.34560224824.1912511504.04467744.04500121874.5130362684.06Softmax+BCE16522464.2630688854.2622886284.1937885594.10296120814.197711243.96343534.0226150244.1918129734.07RR+Softarg.381199214.99314203754.98256205504.94455443884.75630397524.64244100554.358750714.33507209064.61312128564.36RR381273175.07314228985.23367297345.06455413804.78630456544.80251196454.438967634.62507356454.68313217034.53表2. 内镜检查中SfM性能的评价。我们比较了来自3个测试患者的9个序列的SfM结果。的SfM结果由名称位于第一列的描述符生成。我们比较了局部和密集描述符的SfM性能。从第一个描述符开始，这些是SIFT [18]，DSP-SIFT [7]，RootSIFT-PCA[3]，HardNet++[22]，使用内窥镜数据集进行微调，使用对比损失（UCN-C）训练的UCN [5]，使用最硬对比损失（UCN-HC）训练的UCN [4]，使用Softargmax [12]替换提议的RR，使用Softargmax和BCE替换RR，使用空间softmax和BCE [11]，RR和Softargmax，以及建议的RR训练方案。第一行中的每个数字表示每个序列中的帧数在下面的行中，对于每个序列和每个方法，从左到右的三个数字分别是注册视图的数量、稀疏点的数量和稀疏点的平均轨迹长度结果表明，该方法（RR）在所有序列中获得了最多的SIFT或RootSIFT-PCA在所有序列中实现最高的平均轨道长度。4852#功能速率[33]范围为1.0e-4至1.0e-3。比例因子相对响应损失中使用的σ根据经验设置为20.0.采用5例患者和1例尸体的数据进行训练;另一具尸体用于验证;其余三名病人则有待化验。因为我们的评估集中在损失设计上，为了公平起见，我们对所有密集描述符使用上述相同的网络架构来提取特征。所有模型都经过训练，直到验证数据的性能停止改善。成对特征匹配的评价结果如表1所示。为了衡量特征匹配的准确性，我们使用正确关键点的百分比（PCK）与三个阈值，这是5，10和20像素。如果检测到的目标关键点位置在指定数量的像素内，则匹配被确定为正确的。结果表明，我们提出的密集描述符的训练方案优于密集描述符学习的竞争方法，即[5]中的对比损失和[4]中的最硬对比损失。此外，由于我们将描述器学习的问题转换为关键点定位，因此我们还通过使用这些损失函数而不是相对响应损失来训练所提出的网络来对于所提出的方法，在当前设置下生成和匹配一对密集描述符映射大约需要37ms。为了评估内窥镜检查中SfM任务的局部和密集描述符的性能，我们使用了一个简单的SfM管道[15]，该管道采用成对特征匹配，使用分层多仿射[26]进行几何验证，并使用全局束调整[23]进行优化。在间隔在30帧内的所有图像对中估计成对特征匹配。对于所有局部描述符，DoG [18]用于提取源图像和目标图像中的关键点位置图4. KITTI Flow 2015中特征匹配性能的定性比较[21]。该图中示出了来自用于相同源-目标图像对的三个密集描述符描述符是我们的方法UCN-HC [4]，以及使用Softargmax [12]而不是RR训练的所提出的方法。第二列中的每个图像中所示的数字表示光流估计的推定匹配率、精度和我们使用6px阈值的循环一致性标准来排除潜在的错误匹配。第一列中的图像是源、目标和地面实况密集光流图，其中黑色值表示没有有效的测量。第二列示出了密集光学流估计，其中黑色像素包括没有地面实况测量或被循环一致性判据排除的KITTI Flow 2015评估[21]。在此评估中，我们评估了光流估计任务上的密集描述符的性能。首先，我们估计匹配分数=#内联匹配。#Inlier Matches是估计的目标关键点位置和地面实况目标位置之间的距离在10个像素内的匹配数量#Features等于图像中的像素数。 We also evaluate the Putative Match Ratio =#Putative Matches and Precision =对于具有相互最近邻的稀疏特征匹配#Inlier匹配#功能(MNN)作为匹配标准。对于密集描述符，使用DoG来仅提取源图像中的关键点位置，并且针对源图像中的这些检测到的候选关键点位置对目标图像执行密集匹配。使用密集特征匹配小节中描述的循环一致性标准排除错误匹配。由于内窥镜的纹理平滑性，我们改变了DoG的超参数，以便可以检测到更多的候选关键点位置每个八度音的层数为8;对比度阈值是5。0 e-5;边缘阈值为100.0;在第一个倍频程应用于图像的高斯的标准偏差是1.1。所有手工制作的描述符都使用原作者推荐的参数设置。SfM结果见表2。请注意，我们使用与[19]相同的方法从内窥镜检查中的SfM结果构建图像补丁数据集，以微调HardNet++ [22]进行公平比较，与作者发布的预训练模型相比，该模型确实具有更好的性能[31]第三十一话匹配被确定为推定的，如果它通过循环一致性标准。我们遵循相同训练协议如[5]，其中为KITTI数据集中的每个图像对随机选择1000个点对应，并在训练期间固定。评估了使用所提出的相对响应损失、Softargmax损失[12]、对比损失[5]和最硬对比损失[4为了评估不同损失设计的性能，我们使用相同的网络架构训练所有模型进行特征提取。我们使用FC- DenseNet，38层，过滤器增长率为16。参数总数为168万。其他参数设置与内窥镜检查中的评价相同。在训练期间，图像被降采样2倍。这里引用了[5]中提出的比较方法的两个最佳结果来自不同训练模型的密集光流估计的示例如图所示。4.第一章定量评价结果如表3所示。[35]第35话：我的世界的4853DaisyFFDMUCN-CUCN-HCSoftargmaxRR推定匹配率（%）100.0100.073.680.646.088.0精密度（%）79.685.673.290.970.789.8匹配评分（%）79.685.661.976.941.581.7表3. 基于KITTI流2015年[21]。DaisyFF [41]和DM [28]使用全局优化以估计一对图像之间的密集光流图。表2介绍了最后四种方法。实验结果表明，在以6个像素为阈值的循环一致性准则下去除不可信匹配时，该方法的准确率略低于UCN-HC，而UCN-HC的推定匹配率低于我们的方法。我们的方法在最后四种方法中获得了最高的匹配分数。请注意，我们假设前两个方法不丢弃任何匹配，这就是为什么假定的匹配率显示为100。数据集由几个小规模序列组成，其中从不同的视点捕获同一建筑物，表4. 在Multi-view Stereo 2008上评估SfM性能[35]。虽然训练和测试数据集之间的场景变化很大，但我们的方法（RR）仍然可以与手工制作的局部描述符进行比较。然而，与内窥镜相比，我们确实在成对特征匹配阶段观察到大量的错误匹配。这可能意味着密集描述符需要更大量的训练数据或有限的感受野，以避免在场景变化较大时过拟合为了验证这一假设，我们训练了另一个模型，这是RR- SG，用小4倍的感受野和灰度图像作为输入，参数数量与RR相似这表明RR-SG在四个序列中的三个序列中产生更密集的重建。这可能意味着，与RR-SG相比，RR过度拟合高水平每个序列。我们评估的性能亲-提出的方法在自然场景中的SfM任务，并与手工制作的本地描述符进行比较我们的模型使用Gerrard-Hall，Personal-Hall和south-building的SfM结果进行训练，这些结果由COLMAP的作者发布[30]。我们使用32层的FC-DenseNet，过滤器增长率为16。参数总数为126万。其他参数设置与内窥镜检查中的评价相同。所有用于训练和测试的图像都被下采样到256×320。所有描述符均使用DoG关键点检测器，其参数设置与内窥镜检查中的评价相同。评价结果如表4所示。大多数实验在与内窥镜检查相同的SfM管道上进行[15]。SIFT和DSP-SIFT也用COLMAP进行了评价.4. 讨论对稠密描述符学习的各种训练方案的性能差异的直觉。我们将我们的方法和UCN-HC之间的性能差异归因于训练数据采样的不同策略。对于UCN-HC，给定一个正的点对，对于该点对中的每个点，在小批量中获得一个最难的负点，还设置了一个差异阈值，以避免挖掘太接近正点的点。还设置正容限阈值和负容限阈值以避免惩罚足够接近的正对或足够远的负对。此设置存在几个潜在问题。首先，最难的样本选择策略，也类似地用于局部描述符训练[22]，可能会导致训练不稳定，这也是原作者在他们的Github存储库中提到的。因为对于训练的每次迭代，只有minibatch中最难的负样本为网络训练提供梯度，而其他样本被忽略，所以梯度方向可能对这些被忽略的样本没有帮助在很大程度上提供了信息。与[15]中的SfM流水线相比，COLMAP在相机轨迹的完整性方面具有更稳定的性能，但通常稀疏点的数量较少。这一观察结果与[30]中的结果相似，他们将COLMAP与其他SfM管道进行了比较。这可能是由于COLMAP的内点标准更严格。样品这可能会导致训练振荡，其中最难的样本在不同样本之间跳跃，但网络永远不会收敛到最优解。不稳定性的结果可以在图中找到。3，其中许多高响应分散在热图中。其次，手动指定的直径和边缘阈值也可能导致次优解决方案。因为在所选样本的直径内的样本不被视为负样本，所以网络永远不会试图将附近的样本推离所选样本。因此，这限制了描述符的匹配精度。这一点可以在图中再次观察到。3，其中地面实况目标位置周围的高响应集群似乎比我们提出的方法更宽。损失设计中的裕度阈值还消除了进一步将阴性样本从阳性样本推开并将阳性对拉得更近的可能性，这可能是获得此类热图的另一个原因。作为比较，在我们的方法中，对于源图像中的每个采样点，在一次训练迭代中观察目标图像中的所有点只有地面实况目标点被认为是一个积极的点，所有其他点被认为是消极的。这避免了与所选择的源点和目标图像中的所有点之间的描述符距离相关的振荡该训练方案不会遭受数据不平衡问题的原因是由于所提出的相对响应损失（RR）。RR的目标是使地面实况目标位置处的响应与目标图像中所有响应的总和之间的比率尽可能高通过这样做，网络将试图压制所有入门（10）别墅（11）年龄：25城堡（30）SIFT-COLMAP1015573.861115664.332536375.913037184.57DSP-SIFT-COLMAP1018493.931117694.422536505.903042034.78SIFT1014443.541027753.632467064.593045893.76DSP-SIFT1030413.791142443.852573344.352218043.96RootSIFT主成分分析711093.421024673.542565844.472139913.84RR1029803.62762933.7225128073.962936843.67RR-SG1053103.60876763.9024157994.282734313.884854除了在目标地面实况位置处的一个之外的响应。它不假设响应热图的任何先验分布，并清楚地传达了精确特征匹配的目标，我们相信这提高了网络的表达能力。我们还评估了关键点定位任务中使用的一些常见损失，例如空间softmax+ BCE和Softargmax [12]。Spatial softmax + BCE用于热图回归，以便网络生成与地面实况相似的热图。然而，由于地面实况分布通常被假设为具有手动指定的标准偏差的高斯分布，这限制了高斯分布不是最佳的情况下网络的表达能力。这可以在图中的第三行中观察到。3，其中使用Softargmax + BCE训练的模型试图推断地面实况位置周围的高斯分布。作为比较，我们提出的方法中的学习描述符自然地沿着表面的边缘产生高响应，这是最模糊的地方。此外，BCE还存在数据不平衡问题，即阳性和阴性样本高度不平衡的情况，这也在[17]中观察到。Softargmax将关键点定位任务转换为位置回归任务，其中网络尝试生成热图，以便热图的质心接近地面实况目标位置。然而，这受到以下事实的影响：质心等于目标位置的任何分布将不会被进一步惩罚。因此，Softargmax使网络很容易陷入学习判别描述符的次优解虽然通过结合Softargmax和BCE可以减少这种模糊性，但由于单峰分布假设，性能仍然比RR差，如表1和2本地描述符与基于学习的稠密描述子。我们观察到，在鼻窦内窥镜检查中与SfM相关的实验中，基于学习的密集描述符通常优于局部描述符。我们将此归因于两个原因。首先，局部描述符通常需要关键点检测器，例如DoG [18]，以在稀疏特征匹配之前检测候选关键点。关键点检测器中缺乏可重复性使得许多真实匹配不能被发现，因为这些匹配的源或目标位置在关键点检测阶段中未被检测为候选关键点如[8]中所观察到的，不稳定的检测是因为检测器通常使用低水平信息，这通常会受到视点和照明等变化的显著影响。其次，内窥镜检查中的平滑和重复纹理使得具有有限感受野的局部描述符难以找到正确的匹配，即使真实匹配中的所有点都被关键点检测器检测到另一方面，学习-基于密集描述符不依赖于关键点检测器来产生可重复的关键点位置，并且具有更大的接收场。与局部描述符相比，稠密描述符也有不足之处。首先，密集描述符对内存的要求更高。这是因为，为了并行化具有许多关键点位置的密集匹配过程，描述符需要以密集特征匹配小节中描述的形式组织。这需要存储器在从热图估计目标位置之前存储每个源关键点位置的响应目标热图。虽然稀疏匹配也可以用密集描述符来执行，但由于依赖于可重复的关键点检测器，性能会降低。因此，在低成本嵌入式系统上的密集描述器的实际使用是有限的。其次，基于学习的密集描述符似乎更容易过拟合与基于学习的本地描述符相比。这是因为密集描述符网络依赖于高级和低级图像信息来生成描述符映射。因为高级信息，大概，有更多的变化相比，低层次的纹理信息，基于学习的局部描述符只需要，更多的训练数据可能需要一个密集的描述符。密集描述符似乎在内窥镜检查中推广良好的原因可能是由于与自然场景中的变化相比，解剖学变化5. 结论在这项工作中，我们提出了一个有效的自我监督训练计划与一个新的损失设计的学习为基础的密集描述。据我们所知，这是第一项将基于学习的密集描述符应用于内窥镜多视图重建的工作我们在内窥镜和自然场景数据集上对成对特征匹配和SfM的任务进行了评估，其中我们提出的方法在鼻窦内窥镜数据集上优于其他局部和密集描述符，并且在密集光流公共数据集中优于最近的密集描述符广泛的比较研究有助于更多地了解局部描述符和稠密描述符之间的差异，以及不同损失设计对稠密描述符整体性能的影响。由于SfM是一种离线方法，它不能够支持实时定位和映射。我们计划扩展这项工作，在未来将基于学习的密集描述符纳入现有的SLAM系统，使其在内窥镜手术导航中更加准确和稳健。我们还计划采用自举训练方法来训练密集描述符，因为观察到用稀疏SfM结果训练的描述符模型有助于SfM从测试序列和训练序列两者估计更密集的重建。4855引用[1] R.阿兰杰洛维奇每个人都应该知道的三件事来改进对象检索。在 2012 年 IEEE 计算机视觉和模式识别会议（CVPR）的会议录中，CVPR美国，2012年。IEEE计算机协会。2[2] J. - W. Bian，Y.- H. Wu，J. Zhao，Y.柳湖，加-地张曼-M.我和阿诚。里德用于基本矩阵估计的特征匹配器的评估。英国机器视觉会议（BMVC），2019年。2[3] A. Burgeland湾 Tolias和H. 我去。核局部描述符与隐式旋转匹配。第五届ACM多媒体检索国际会议论文集，ICMR'15，第595-598页，美国纽约州纽约市，2015年。ACM。二、五[4] C. Choy，J. Park，and V.科尔顿。全卷积几何特征。在IEEE计算机视觉集，第8958二三四五六[5] C. B. Choy，J. Gwak，S. Savarese和M. Chandraker统一通信网。神经信息处理系统的进展，第2414-2422页，2016年。二三四五六[6] D. DeTone ， T. Malisiewicz 和 A. 拉比诺维奇。Superpoint：自监督兴趣点检测和描述。在IEEE计算机视觉和模式识别研讨会会议论文集，第224-236页，2018年。2[7] J. Dong和S.索阿托局部描述符中的域大小池：Dsp-sift.2015年IEEE计算机视觉和模式识别会议（CVPR），第5097-5106页，2014年。二、五[8] M.杜斯马努岛Rocco，T. Pajdla，M. Pollefeys，J.西维克A. Torii和T.萨特勒D2-net：一个可训练的cnn，用于联合检测和描述局部特征。在2019年IEEE/CVF计算机视觉和模式识别会议上，2019年。二、八[9] O. G. Grasa，E.Bernal，S.卡萨多岛Gil和J.蒙蒂尔手持式单目内窥镜的视觉冲击。IEEE transactions on medicalimaging，33（1）：135-146，2013。2[10] C. Harris和M.斯蒂芬斯一种组合的角和边缘检测器。InProc. of Fourth Alvey Vision Conference，pages 1472[11] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在IEEE计算机视觉国际会议论文集，第2961-2969页四、五[12] S. Honari，P. Molchanov，S. Tyree，P. Vincent，C. 和J.Kautz。用半监督学习改进地标定位。在IEEE计算机视觉和模式识别会议论文集，第1546- 1555页四五六八[13] S. 我也是M. Drozdzal，D. Vazquez、A. Romero和Y. 本吉欧。百层提拉米苏：用于语义分割的完全卷积密集网。在IEEE计算机视觉和模式识别研讨会会议集，第11-19页，2017年。二、四[14] J. Lamarca，S.Parashar，A.Bartoli和J.蒙蒂尔Defslam：从单目序列跟踪和映射变形场景。arXiv预印本arXiv：1908.08918，2019。2[15] S. Leonard，A.辛哈A. Reiter，M. Ishii、G. L.加利亚河H.taylor等人功能性内窥镜鼻窦手术视频导航系统的体内临床数据评价和稳定性分析37（10）：2185-2195，Oct.2018. 一、二、六、七[16] H.廖，W.林静，张建，J. Zhang，J. Luo，and S. K. 舟通过用于跟踪和三角测量的兴趣点网络的多视图2d/3d刚性配准在IEEE计算机视觉和模式识别会议上，CVPR2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第12638- 12647页。计算机视

下载后可阅读完整内容，剩余1页未读，立即下载