半监督关键点检测方法用于视网膜图像匹配

166 浏览量更新于2023-12-01 收藏 4.62MB PDF 举报

图像配准

身份验证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文用于视网膜图像匹配的半监督关键点检测刘佳珍1， 2，李喜荣1，2 、韦启杰2、 3、徐杰4、丁大勇31中国人民大学德科MoE重点实验室2中国人民大学信息学院AIMC实验室3Vistel人工智能实验室，Visionary Intelligence Ltd，中国4中国北京同仁医院眼科研究所抽象的。对于视网膜图像匹配（ RIM ），我们提出了SuperRetina，这是第一个具有联合可训练关键点检测器和描述符的端到端方法。SuperRetina以一种新颖的半监督方式进行训练。一小组（近100个）图像被不完全标记，并用于监督网络检测血管树上的关键点。为了解决手动标记的不完整性，我们提出了渐进式关键点扩展来丰富每个训练时期的关键点标签。通过利用基于关键点的改进的三重损失作为其描述损失，Su-perRetina在全输入图像尺寸下产生高度区分的描述符。在多个真实世界数据集上进行的大量实验证明了SuperRetina的可行性。即使人工标注被自动标注取代，从而使训练过程完全不需要人工标注，SuperRetina也可以在两个RIM任务中与许多强大的基线进行比较，即：图像配准和身份验证。关键词：视网膜图像匹配，可训练检测器和描述符，渐进关键点扩展1介绍本文研究视网膜图像匹配（RIM），即根据眼底彩色照片的视觉内容进行匹配。匹配条件与任务相关。由于已知视网膜血管系统是独特的、跨年龄稳定的并且天然防伪[28]，因此视网膜图像用于高安全性身份验证[19]。在这种情况下，如果两个视网膜图像取自同一只眼睛，则认为它们匹配RIM对于视网膜图像配准也是至关重要的，视网膜图像配准是将从同一视网膜的不同区域（在不同时期）拍摄的两个或更多个图像几何对齐。可以使用对齐的图像用于宽视野成像[4]、视网膜状况进展的精确跨会话评估[8]和视网膜上的精确激光治疗[31]。因此，RIM是计算机视觉中一个有价值的话题。为RIM开发一个通用的方法是不平凡的。眼底照相由于受光照条件、视网膜异常改变等多种因素的影响，通讯作者：李喜荣（xirong@ruc.edu.cn）arXiv：2207.07932v1 [cs.CV] 2022年7+v：mala2255获取更多论文×88882J. Liu等人SIFT +RootSIFTGLAM points +RootSIFTSuperPoint R2D2 NCNet SuperRetina大的重叠小重叠有视网膜病变负对图1：不同方法的视网膜图像匹配。对应于几何有效/无效匹配的关键点以绿点/红点显示。前三行是正对，即。从眼睛中获取的视网膜图像。阳性对上绿点越多，红点越少，表示匹配越好。对于负对，绿色越少越好。最好在屏幕上观看。和注视眼睛的自然运动，同一只眼睛的视网膜图像在视觉外观方面可能糖尿病视网膜病变中常见的病变，如微动脉瘤和视网膜内出血，表现为黑点，而棉絮状斑点看起来像白色斑点[34]。经典的SIFT检测器[17]以尺度不变的方式发现角落和斑点，倾向于在病变周围以及圆形前景和黑暗背景之间的边界做出响应，参见图1。在这些区域检测到的SIFT关键点缺乏可重复性和可靠性。最近，GLAMpoints [31]被提出作为RIM的可训练检测器。GLAM点学习以自我监督的方式检测关键点，利用特定图像与其由受控单应性5产生的几何变换之间的已知空间对应关系。这种完全自我监督具有对非血管区域进行许多检测的缺点，这对高分辨率图像配准是不利的，参见图1。非血管区域对于身份验证也是不可靠的。由于GLAMPoints是一个检测器，因此需要一个外部描述符，例如：需要rootSIFT [3]。据我们所知，RIM与联合可训练的关键点检测器和描述符是不存在的。我们从SuperPoint [7]出发，这是一项关于自然图像匹配的关键工作，具有端到端的关键点检测和描述。SuperPoint是一个深度网络，由一个编码器和两个独立的解码器组成.给定一个h w灰度图像输入，SuperPoint首先使用编码器生成一个缩小尺寸的h×w×128的特征图利用特征图作为公共输入，一个解码器产生全尺寸的关键点检测图，而另一个解码器在H×W图像上产生每个像素的256维描述符尽管它令人鼓舞在自然图像匹配上的性能，直接将SuperPoint应用于RIM，5由于眼底图像描绘视网膜的小区域，因此在生成单应性时应用平面假设是合理的[4，31]。+v：mala2255获取更多论文××···××××88用于视网膜图像匹配的SuperRetina 3由于以下问题而引起的问题首先，为了优化其描述符，SuperPoint必须计算所有像素之间的铰链损失，导致计算和内存占用的复杂度为O（（w h）2如此高的复杂性显著限制了输入图像的大小，特别是对于训练，使得SuperPoint对于高分辨率视网膜图像配准不是最佳的。第二，在不考虑检测到的关键点的情况下计算描述损失，使得学习的描述符对于将真实对与冒名顶替者分离以进行身份验证的区分性较低最后，虽然损失是在h×w×256描述符张量上计算的，但张量已被上采样到HW256以提供用于以原始尺寸检测到的关键点的描述符。在训练和推理阶段使用的描述符之间的这种固有差异会影响性能，参见我们的消融研究。最近的一些先进技术，如R2D2 [21]和NCNet [23]，也有类似或其他问题，我们将在第2节中讨论，这促使我们开发一种新的RIM方法我们提出了SuperRetina，这是一种半监督深度学习方法，用于联合检测和描述Retinal图像匹配的关键点。与[7，21，31]限制自己完全自我监督（不使用任何手动注释）相比，我们选择使用相对较小的一组（近100个）图像初始化训练过程，稀疏标记以使标记成本能够负担得起。这种小范围、不完整但精确的监测使SuperRetina能够快速专注于特定的血管点，如交叉点和分叉点，这些点更加稳定和可重复。为了克服人工标注的不完整性，我们提出了渐进式关键点扩展（PKE）来丰富每个训练时期的标记集。这使得SuperRetina能够检测血管树中预处理未触及区域的关键点。此外，我们修改了SuperPoint的网络架构，以直接产生一个全尺寸的描述符张量，h w256，见图2b。因此，我们的描述损失是一个基于关键点的改进的三重损失，这不仅导致高度区分的描述符，但也有一个二次的复杂度w.r.t.检测到的关键点的数量。由于这个数字比h w小得多，SuperRetina允许更大的训练输入。因此，SuperRetina可同时检测分布在图像平面和血管树上的关键点，从而使其适用于多种RIM任务。总的来说，我们的贡献如下：我们提出了SuperRetina，这是RIM的第一个端到端方法，具有联合可训练的关键点检测器和描述符。我们提出PKE来解决半监督学习中人工标注的不完全性。为了扩大训练和推理的输入大小以及高度区分的描述符，我们重新设计并调整了三元组损失作为我们基于关键点的描述损失。在两个RIM任务上进行了广泛的实验，即。视网膜图像配准和基于视网膜的身份验证，显示了SuperRetina优于以往的方法，包括三个专用于RIM，即。PBO [19]、REMEP [8]和GLAM点[31]，以及四个通用点，即：SuperPoint [7] 、 R2D2 [21] 、 SuperGlue [25] 和 NCNet [23] 。代码可以在GitHub6上找到。6https://github.com/ruc-aimc-lab/SuperRetina+v：mala2255获取更多论文4 J. Liu等人。2相关工作视网膜图像匹配研究进展。RIM以前的工作是针对特定的任务量身定制的，让它成为单模态[8，31]或多模态[1，15，33] im-年龄登记或身份验证[2，14，19]。对于视网膜图像配准，LoSPA [1]和DeepSPA作为其深度学习变体[15]专注于通过步进模式分析（SPA）描述图像块，通过检测交点找到关键点。SPA描述符是为同一只眼睛的多模态视网膜图像之间的特征匹配而设计的，眼睛的身份。GLAM点[31]通过利用给定图像及其几何变换之间的空间对应性以无标记的方式进行训练。然而，这种完全的自我监督倾向于检测非血管区域上的许多关键点。REMPE [8]首先通过血管分叉检测和SIFT检测器[17]找到许多候选点，然后基于眼睛建模和摄像机姿态估计执行点模式匹配（PPM）以确定几何化有效匹配。PPM算法涉及昂贵的在线优化，需要超过三分钟才能完成注册，因此其实际用途受到质疑。对于身份验证，现有的工作集中在检测血管树上的一些标志，主要是交叉点和分叉点，这些点在不同的人和年龄之间是唯一和稳定的[2，14，19]。以检测到的地标作为输入，然后执行PPM。PBO [19]通过考虑主要分叉方向改善PPM。BGM [14]将视网膜血管系统公式化为空间图形，因此通过图形匹配实现PPM。Aleem等人[2]基于界标之间的空间关系增强给定图像的点图案，然后将图案矢量化到匹配模板。身份验证所需的关键点数量远少于图像配准。可能由于这个原因，我们没有看到尝试重新利用身份验证方法进行图像配准。简而言之，虽然RIM的可训练检测器（GLAM点）和描述符（DeepSPA）几乎没有单独的工作，但仍然缺少联合工作。自然图像匹配研究进展。与RIM相比，存在许多用于自然图像匹配的端到端方法，包括SuperPoint [7] ，R2D2 [21]，SuperGlue [25]， NCNet[23]，LoFTR [29]，COTR [10]，PDC-Net [32]，等由于新开发的方法集中在自然场景中，由于缺乏重复的纹理模式，检测可重复的关键点是困难的，我们注意到一个新的趋势，关键点免费的图像匹配。R2D2通过生成两个概率图来衡量可靠性，从而软化了关键点检测的概念。和每像素的可重复性。在NCNet中，计算所有成对特征匹配，导致二次复杂度w.r.t.像素的数量。因此，用于匹配的特征图必须大幅缩小，以使计算负担得起。LoFTR比SuperGlue改进了transformers，以利用密集定位的局部特征之间的自相关性/互相关性。这些密集的特征对于在低纹理区域中找到对应是强大的，这对于场景图像匹配是期望的。然而，当匹配视网膜图像时，这将在非血管区域中产生许多不想要的匹配+v：mala2255获取更多论文×（一）人民法院的管辖权;8888用于视网膜图像匹配的SuperRetina 53该方法SuperRetina是一种深度神经网络，它将（灰度）黑白视网膜图像I作为输入，在单次向前传递中以高重复性和可靠性检测和描述给定图像中的关键点。我们在第3.1节中描述了网络架构，然后在第3.2节中提出了训练算法。在3.3节中给出了用于RIM的SuperRetina。3.1网络架构我们采用SuperPoint网络。从概念上讲，我们的网络由一个编码器组成，用于从给定的图像I中提取缩小尺寸的特征图F。然后，特征图被并行馈送到两个解码器中，一个用于关键点检测，另一个用于关键点描述，我们分别将其称为Det-Decoder和Des- Decoder。 Det-Decoder生成全尺寸的概率图P ，其中Pi ， j指示特定像素是关键点的概率，i=1，. . . ，h且j = 1，. . . ，w. Des-Decoder产生h × w× d张量D，其中Di，j表示d维描述符。请注意，在推理阶段，对P应用非最大值抑制（NMS）以获得二进制掩码P作为最终检测结果。我们将上述过程形式化如下：P←Det-Decoder（ F ）， D← Des-Decoder （ F ），P^←NMS（P）。（一）如示于图2b，我们修改了RIM的 Det-Decoder和Des-DecoderU-Net作为Det-Decoder。有效地捕获低级别模式，如血管树上的交叉和分叉，对于以可靠和可重复的方式检测视网膜关键点至关重要。因此，我们选择使用U-Net [24]，它最初是为生物医学图像分割而开发的，其新颖的设计是通过跳过连接在解码器中重新使用编码器的不同级别的特征。为了支持高分辨率输入，我们的编码器相对较浅，使用一个conv层来生成低级别的全尺寸特征映射，然后是三个conv块，每个块由两个conv层、2× 2 max pooling和ReLU组成因此，高级特征图F具有h×w×128的大小为了恢复全尺寸的特征图，我们的Det-Decoder使用三个conv块，每个块有两个conv层，然后是双线性上采样7，ReLU和级联，以合并来自编码器的相应特征图。最后，Conv。由三个conv.层，并且在全尺寸特征图上应用一个S形激活以产生检测图P。全尺寸反解码器与SuperPoint在缩小的h×w×d张量上计算其描述损失不同，我们的目标是优化7我们使用双线性上采样，因为U-Net最初使用的转置卷积在计算上更昂贵，并且引入了不必要的棋盘伪影[13]。^+v：mala2255获取更多论文（h，w，256）4 4（h，w，192）22（h，w，128）（h，w，1）检测解码器H W（、，128）八，八H W（h w，128）（h，w，1）（h，w，64）（第2、 2、64页）4 4编码器×16166 J. Liu等人。描述符，其中每个像素与D维描述符相关联。自然地，这种密集的结果是通过插值获得的，这意味着在反向传播期间每个关键点与其邻域之间的梯度相关性。扩大邻域可以增强相关性，因此有助于使用更大的感受野进行训练[5]。在这方面，我们的Des-Decoder首先将F缩小到更紧凑的h×w×d特征图，然后使用上采样块（使用转置conv）来生成h×w×d的全尺寸描述符张量D。所有的描述符都是l2-归一化的。我们的网络自适应在概念上可能看起来微不足道。请注意，产生全尺寸的描述符张量对于SuperPoint和NCNet中使用的基于像素的描述损失在计算上是禁止的需要基于关键点的尽管如此，基于关键点的训练并不简单，因为不充分的注释会使网络快速收敛到局部的次优解。然而，具有许多训练图像被充分标记是昂贵的。为了解决实际挑战，我们开发了一种半监督训练算法，该算法适用于少量不完全标记的图像。上采样L2范数H W16、16、256）（h，w，256）(a) PKE培训反解码器(b) 网络架构我爱你基于内容的匹配失败(c) 双匹配策略= 0t= 0t= 0t= 81t= 80(d) 新添加的关键点St（红点）图2：SuperRetina。（c）中的绿色/橙色标记指示真实/假关键点。（d）中的蓝色/红色点表示初始关键点（由PBO自动检测[19]）/迭代检测的关键点用于训练。$l&我PSuperRetina渐进式关键点扩展��（共享权重编号��Y =$1（′）∗我P′SuperRetinaConv.Conv. 最大合并浓度&上采样几何匹配失败（+v：mala2255获取更多论文◦HHHclf（I;Y）=1−公司简介∗i、ji、ji、ji、j用于视网膜图像匹配的SuperRetina 73.2训练算法Det-Decoder的半监督训练。我们将关键点检测公式化为像素级二进制分类任务[7，31]。由于手动标记的关键点的稀疏性和不完整性，使用常见的二进制交叉熵（CE）损失来训练Det-Decoder是困难的。攻击稀疏性（和因此产生的阶级不平衡）问题，我们利用两种策略。第一个策略，从姿势估计[35]中借用，是将二进制标签Y转换为软拉贝什通过2D高斯模糊，其中每个关键点都是由其值呈指数衰减的邻居。第二种策略是使用骰子损失[18]，发现比加权CE损失和焦点损失更有效地处理极端类别不平衡[34]。每幅图像的基于Dice的分类损失Δclf计算为：2·i，j（PY）i，j哪里表示逐元素乘法。为了解决不完整性问题，我们提出了渐进关键点扩展（PKE）。其基本思想是通过添加Det-Detector发现的新颖且可靠的关键点来逐步扩展标记的关键点集Y，Det-Detector本身在每个历元之后都在不断改进。为了与这样的动态Y区分开，对于每个训练图像，我们现在使用Y0来指示其初始关键点，并且表示在第t个时期检测到的关键点，t=1，2。扩展关键点集合Yt为Y0St，其用于在第t个时期进行训练由于St是自动构造的，不适当的关键点是不可避免的，特别是在Det-Decoder相对较弱的早期阶段。考虑到一个好的检测器应该在不同的视角和尺度下检测到相同的关键点，GLAM点执行几何匹配以识别可以从给定图像及其投影变换中重复检测到的关键点。我们通过添加基于内容的匹配来改进GLAM点，使其成为双重匹配策略。如图2c所示，假设在I（橙色圆圈）中的非血管区域中检测到的关键点在I′=（I）中具有几何匹配的关键点（橙色正方形），作为特定的单应性。非血管区域在视觉外观上缺乏特异性，这意味着提取这样的区域的描述符相对接近。因此，即使正方形是描述符空间中与圆的最佳匹配，它与第二最佳匹配的差异也不足以通过Lowe比率测试[ 17 ]。因此，双重匹配至关重要。如图3所示，PKE模块工作如下：1) 构造I′，I的几何映射，使用I′=（I）。2) 将I′馈送到SuperRetina以获得其概率检测图P′。地图的逆投影w.r.t.I的计算公式为P ′= H−1（P ′）。^“3) 几何匹配：对于P中的每个点（i，j），如果（P）i，j> 0，则将其添加到St。5.4) 基于内容的匹配：对于St中的每个点（i，j），我们通过直接采样Des-Decoder的输出来获得其描述符，从而得到描述符集Dt。类似地，我们基于H（St）从I′中提取Dt′Dt中的每个描述符是（PP）（YY）、（二）+v：mala2255获取更多论文^i、ji、j^i、ji、ji、ji、ji、j8 J. Liu et al.中文（简体）NMS双重匹配��′Y∗$反相晶体��管投影图3：PKE模块。用作查询以在Dt′上执行最近邻搜索。一个点（i，j）只有在它的空间对应（i′，j′）通过比率检验时才能保留在ST中上述程序允许我们逐步找到新的和可靠的关键点，见图2d。此外，为了提高I及其几何变换I′的检测图之间的整体一致性，我们增加了-计算P和P′之间的Dice损失，称为Dicegeo（I，H）。我们以Yt和H为条件的检测损失∗被计算为Δdet（I; Yt，H）= Δclf（I; Yt）+ Δgeo（I，H）. （三）解译码器的自监督训练。理想情况下，解解码器的输出对于单应性是不变的也就是说，对于在I中检测到的每个关键点（i，j），其描述符应当与在I ′中的对应位置（i′，j′）处提取的描述符相同。为了避免一个简单的解决方案，一个恒定的描述符，我们选择优化三重丢失[27]，使得配对的关键点之间的距离小于未配对的关键点之间的距离。回想一下，关键点是由Det-Decoder自动提供的，我们的Des-Decoder是以完全自我监督的方式训练的。这样的属性让Des-Decoder可以轻松地从未标记的数据中学习将I和I′分别输入SuperRetina，我们就可以访问它们的全尺寸描述符张量D和D′。对于非最大抑制关键点集合P中的每个元素（i，j），令Di，j为其描述符。由于（i，j）和（i′，j′）将成对，因此必须减小它们的描述符的距离，表示为i，j。在排除（i′，j′）的情况下，我们使用随机数来表示（i，j）与从H（P）中随机选择的点设最短距离为最短距离。我们认为，单独使用Rechrand或Rechhard作为三重态损失中的负项，i，j i，j有问题由于Jerrand的要求<相对容易满足，单独使用Jerrand不足以获得良好区分度的描述符。同时，由于网络在其早期训练阶段缺乏产生良好描述符的能力，仅使用Hard为了解决这个问题，我们提出了一个简单的技巧，通过使用平均的随机和作为否定词的“硬”。因此，我们的描述损失定义为：（I;H）=max（0，m +m）1rand hard- （+）），（4）des（i，j）∈P^i、j2i，ji、j+v：mala2255获取更多论文^××HH用于视网膜图像匹配的SuperRetina 9其中m >0是控制裕度的超参数。请注意，二次时间复杂度w.r.t. P的大小，它远小于h w.因此，我们的描述损失比SuperPoint中的对应物更有效，SuperPoint是二次w.r.t.h w.因此，在相同的 GPU资源下，SuperRetina可以在更高分辨率的图像上进行训练。虽然我们分别描述了Det-Decoder和Des-Decoder的训练算法，但它们是通过最小化以下组合损失来联合训练的其中，单应性H在每个小批次中变化。3.3基于关键点的视网膜图像匹配经过培训后，使用SuperRetina for RIM非常简单。给定查询图像Iq和参考图像Ir，我们将它们分别馈送到SuperRetina中以获得它们的关键点概率图Pq和Pr以及相关联的描述符张量Dq和Dr。对Pq和Pr执行NMS以获得关键点Kpq和Kpr。回想一下，Dq和Dr是全尺寸的，因此相应的描述符descq和descr直接从两个张量中获取。Kpq之间的初始匹配和Kpr通过OpenCV暴力匹配器获得。单应矩阵然后使用匹配的对来计算寄存器Qw.r.t. R.作为用于身份验证，被重新使用以去除离群值。这两个图像被认为是真实的，即。如果匹配点的数量超过预定阈值，则为来自同一只眼睛的冒充者，否则为冒充者。上面的过程可以用几行Python风格的代码编写，请参阅补充。4评价为了在真实场景中评估SuperRetina，我们在固定数据上训练它然后，将该模型直接应用于（无重新训练）独立于训练数据的多个测试集上的不同RIM任务（表1）。4.1常见设置训练数据。我们构建了一个小的标记集，如下所示。我们邀请了10名实验室成员（工作人员和学生）。受试者的年龄范围为22至42岁，视网膜状况正常。使用SYSEYE Reticam 3100眼底照相机拍摄每只眼睛的后极部的多个彩色眼底图像（45μ m的FoV）。我们总共收集了97张图片。每个图像手动标记为8的关键点的数量在46和147之间，平均值为93。3.我们称标记数据集为Lab。此外，为了支持我们的Des-Decoder培训，我们8Keypoint标签需要很少的医学知识。第一作者在4个工作小时内完成了标记任务，我们认为这是负担得起的。+v：mala2255获取更多论文×××H10 J. Liu等人。收集了来自120名患有各种视网膜疾病的受试者的844个视网膜图像的辅助数据集。回想一下，Des-Decoder是以完全自我监督的方式训练的，因此辅助数据集不需要额外的注释。实施 . 我们使用 PyTorch 实现 SuperRetina 根据我们的 GPU 资源（NVIDIA GeForce RTX 2080 Ti），我们选择768 768的训练输入大小。网络由SGD端到端训练，最小批量大小为1。优化器是Adam[12]，其中β =（0. 九，零。999）和初始学习率0. 001.使用标准的数据增强方法：高斯模糊，对比度变化和照明。最大训练周期数为150。描述符长度d为256。对于推断，NMS大小为10 × 10像素。对于单应性拟合，我们使用带有LMEDS的cv2.findHomography。表1：我们的实验数据。大的跨数据集差异w.r.t.视网膜下病变、视网膜状况、成像FoV等。让我们能够评估SuperRetina的有效性和泛化能力所有测试图像的大小都调整为768×768，除了来自VAIRA的图像由于其较小的FoV而使用512 × 512。数据集受试者眼睛图像图像对总真正骗子训练集：实验室（标记）10 20 97辅助（未标记）120215 844用于视网膜图像配准的测试集消防[9]基于视网膜的身份验证[20]第二十话–139233 27,02815526,873临床100180691 16,2031,47314,730BES [11，36]2,066 4,13224,880 99,84649,92349,9234.2任务1.眼底图像配准测试集。我们采用FIRE [9]，一个由129张大小为2，912的图像组成的基准集2， 912例使用Nidek AFC-210眼底照相机采集（FOV为45mm）和134个配准的图像对。根据配准难度，将对分为三组：容易（71对，重叠度高，无解剖结构变化）、中等（14对，重叠度高，解剖结构变化大）和困难（49对，重叠度小，无解剖结构变化）。业绩指标。在[31]之后，我们报告了三种速率，即失败，不准确，可接受。给定查询图像Iq及其参考Ir，如果匹配数小于估计单应性H所需的最小值4，则认为配准失败。否则，对于I q中的每个查询点pq，我们计算（pq）及其在I r中的引用pr。对于每个查询图像，中值距离被定义为中值误差（Median Error，简写为SNR），以最大距离作为最大误差（MAE）。如果是20和MAE 50，则注册被认为是可接受的，否则是不准确的。<<+v：mala2255获取更多论文···用于视网膜图像匹配的SuperRetina 11此外，我们报告了[9]提出的曲线下面积（AUC），该曲线下面积估计了接受率的期望值。决策阈值，从而反映了特定方法的整体性能。在[9]之后，我们计算每个类别的AUC，即简单，Mod和Hard，取其平均值（mAUC）为一个整体的衡量。较高的接受率/AUC和较低的不准确/失败率更好。所有度量都是在2912× 2912的原始大小上计算的。基线。为了进行可重复的比较，我们选择了具有源代码或论文作者发布的预训练模型因此，我们有以下八个基线：SIFT检测器[17]加上RootSIFT描述符[3]，使用OpenCV API。PBO [19]，一种传统的关键点提取和匹配方法，由作者提供Matlab实现。REMPE [8]，通过眼睛建模和姿态估计执行视网膜图像配准9。• SuperPoint10 [7]在MS-COCO上训练[16]。• GLAMpoints11 [31]（+RootSIFT描述符）在私人眼底图像上训练• R2D212 [21]，在亚琛数据集上训练[26]。• SuperGlue13 [25]，在ScanNet上训练[6]。• NCNet14 [23]，在室内场地数据集上进行预训练[22]。由于视网膜图像和自然图像之间的自然域间隙，在自然图像上预训练的基线模型可能不处于RIM的最佳条件。我们通过在训练数据上微调SuperPoint，GLAM点，R2D2和NCNet来考虑这一点。与现有方法的比较。如表2所示，Super-Retina，零故障，不准确率1.49%，接受率98.51%，是最好的。有趣的是，我们发现依赖于通过视网膜几何建模增强的传统图像处理的REMPE比基于深度学习的替代方案（包括GLAMpoints、R2D2、SuperPoint、SuperGlue和NCNet）表现更好。SuperRetina击败了这个强大的基线。在AUC评分方面观察到类似的结果。唯一的例外是Easy组，其中REMPE获得更高的AUC（0.958 vs 0.940）。再次提醒，这组图像重叠较大，无解剖学变化，因此REMPE中视网膜结构的重建模是有利的。造福端到端学习的效果在处理温和组和困难组时变得更加明显。SuperRetina的AUC-Mod评分明显高于REMPE（0.783 vs 0.660）。此外，REMPE执行一次配准需要198秒，而SuperRetina效率更高，只需要1秒，其中大部分时间用于数据IO和预处理。由于只有查询图像必须在运行中计算，而数据库中的图像可以预先计算，9https://projects.ics.forth.gr/cvrl/rempe/10https://github.com/rpautrat/SuperPoint11https://github.com/PruneTruong/GLAMpoints www.example.com12https://github.com/naver/r2d213https://github.com/magicleap/SuperGluePretrainedNetwork14https://github.com/ignacio-rocco/ncnet+v：mala2255获取更多论文12 J. Liu等人。表2：两项RIM任务的最新性能，即：视网膜图像配准和基于视网膜的身份验证。在我们的训练数据上对后缀为finetune的方法进行了微调。所提出的SuperRetina与现有方法相比毫不逊色，即使是通过PBO方法自动检测的初始关键点集Y0。方法图像配准(FIRE作为测试集）身份验证(EER[%]）不合格[%]不准确[%]可接受[%] AUC-简易AUC-改良AUC-硬性mAUC VARIA CLINICAL BES传统：SIFT，IJCV 04 [17]020.1579.850.9030.4740.3410.5730.653.64 4.67PBO，ICIP 10 [19]0.7528.3670.890.8440.6910.1220.5520.654.96 4.33REMPE，JBHI 20 [8]02.9997.010.9580.6600.5420.720–––基于深度学习SuperPoint，CVPRW 18 [7]05.2294.780.8820.6490.4900.6740.011.06 2.00SuperPoint-finetune06.7293.280.9090.6090.4650.6610.012.89 3.91[31]第三十一话07.4692.540.8500.5430.4740.6220.024.32 2.95GLAM点-微调07.4692.540.8250.5170.4900.6110.036.74 4.83R2D2，NIPS 19 [21]012.6987.310.9000.5170.3860.6010.056.23 7.16R2D2-finetune04.4895.520.9280.6660.5400.7110.051.83 7.76[25]第二十五话0.753.7395.520.8850.6890.4880.68702.38 2.35NCNet，TPAMI [23]037.3162.690.5880.3860.0770.35014.1922.13 30.67NCNet-finetune014.1885.820.8170.6090.4100.6127.973.05 19.87SuperRetinaY0：预训练02.9997.010.9220.7200.5020.71501.04 1.93Y0：PBO03.7396.270.9440.7890.5160.75001.02 1.10Y0：手动贴标01.4998.510.9400.7830.542 0.75500.83 1.18因此，可以大大加快整个图像匹配过程。简而言之，SuperRetina相对于REMPE的优势有三个方面：（i）端到端学习检测器比REMPE的血管分叉检测器更可靠，Y0的手动标记与自动标记。表2的最后三行是具有初始关键点集合Y0的不同选择的SuperRetina。预训练意味着我们首先尝试在SuperPoint使用的合成角数据集上训练 SuperRetina ，然后使用这个预训练的SuperRetina来产生Y0。倒数第二行表示使用PBO检测到的关键点作为Y0。他们的结果表明，即使使用自动生成的Y0，SuperRetina也比当前的方法更有利。特别地，使用基于PBO的Y0获得0的mAUC。750. 该数字，虽然低于使用手动Y0（mAUC 0。755），明显优于最佳基线，即REMPE（mAUC 0. 720）。SuperRetina的性能相对损失仅为0.66%，它确实可以以一种无需手动注释的方式进行训练。评估PKE的影响力。如表3所示，SuperRetina w/o PKE遭受了明显的性能下降。没有PKE，SuperRetina检测到的关键点的平均数量大幅减少，从每张图像的530个减少到109个。我们还尝试了没有基于内容的匹配的PKE，使其有效地成为GLAMpoints使用的关键点选择策略其较低的性能（表3中的第3行）验证了所提出的双匹配策略的必要性上述结果证明了PKE在扩展半监督学习的注释数据方面的有效性。+v：mala2255获取更多论文用于视网膜图像匹配的SuperRetina 13对于描述损失，我们同时利用硬负实例和随机负来计算等式中的负项。（四）、我们尝试了半硬负采样的替代策略，其中在给定的小批量中的所有候选负中排名在中间的负被选择用于计算负项。这种替代策略（表3中的第4行）无效。此外，我们重新运行相同的训练流水线，但分别使用w/o描述符上采样、w/o2D高斯模糊和使用（加权）CE损失代替Dice。它们的性能一直较低，这说明有必要对网络及其培训战略进行拟议的修改表3：消融研究。FIRE的mAUC越大，VARIA、CLINICAL和BES的EER越低越好。设置FIRE（↑）VARIA（↓）CLINICAL（↓）BES（↓）完整设置0.75500.831.18不带PKE0.6850.015.143.11PKEw/o基于内容的计算0.67001.481.19半硬负采样0.4072.7510.187.83无上采样0.6970.033.464.15无高斯模糊0.5748.387.4410.82Dice→ CE骰子→加权CE0.6530.7040.650.024.201.792.481.32与其他探测器比较：Det：SIFT，Des：SuperRetina0.58504.404.23Det：GLAM points，Des：SuperRetina0.60502.841.51Det：SuperPoint，Des：SuperRetina0.67301.601.68与其他描述符比较：Det：SuperRetina，Des：RootSIFT0.70502.812.10Det：SuperRetina，Des：SOSNet0.71200.881.784.3任务2.基于视网膜的身份验证测试集。我们使用三个测试集：VARIA [20]，北京眼科研究（BES）[11，36]和一个私人集。VARIA有来自139只眼睛的233个灰度级视网膜图像，用Topcon NW-100照相机获取。图像以视盘为中心，具有约20μ m的小FoV。北京谱仪是2001年至2011年在北京进行的一项基于人群的研究中获得的由于早期拍摄的图像是印刷照片的数字扫描，BES的图像质量各不相同。我们的私人集，称为临床，由来自100名患者的691张图像组成，这些图像是在眼科门诊使用Topcon Trc-Nw 6眼底相机采集的，并获得了适当的伦理批准。临床上表现出多种异常情况，如陈旧性黄斑病变、视网膜色素变性和黄斑水肿。测试集的联合使用导致了对正常（VARIA）/异常（CLINICAL）条件下和跨年龄（BES）的视网膜的系统评价。+v：mala2255获取更多论文14J. Liu等人性能指标。我们报告相等错误率（EER）。作为评估生物识别系统的常用指标，EER是当系统的错误接受率和错误拒绝率相等时的值越低越好。基线。我们重复使用第4.2节中的基线，但REMPE [8]除外，它不适用于身份验证。与最新技术水平的比较。如表2所示，SuperRetina在VARIA上的EER为0%，0. 83%，临床1。BES上的18%，与基线相比有利。所有基于深度学习的方法在VARIA上效果很好，它具有小的FoV，血管清晰可见。然而，他们的性能在CLINICAL和BES上明显下降，特别是对于GLAM点和R2D2，两者都使用自我监督训练。如图1所示，GLAM点和R2D2倾向于检测非血管区域上的关键点。相比之下，SuperRetina关键点主要沿着血管树分布，因此更适合身份验证。消融研究。表3显示PKE对于身份验证也很重要对于Y0的选择，使用PBO产生的标签对于三个测试集中的两个测试集，即，VARIA和BES。值得注意的是，

下载后可阅读完整内容，剩余1页未读，立即下载