从镊子到镊子：一种新的手术器械实例分割框架

18 浏览量更新于2023-10-16 收藏 3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6191从镊子到镊子：一种新的手术器械实例分割框架Britty Baby1，2，Daksh Thapar3，Mustafa Chasmai1，Tamajit Banerjee1，KunalDargan1，Ashish Suri2，1，Subhashis Banerjee4，1，Chetan Arora11印度德里IIT，2印度新德里AIIMS，3印度曼迪IIT，4印度阿育王大学摘要微创手术和相关应用需要在实例级进行手术工具分类和分割外科手术工具在外观上相似，并且是长的、薄的，并且以一定角度处理。对在自然图像上训练的用于仪器分割的最先进（SOTA）实例分割模型的微调难以区分仪器类别。我们的研究表明，虽然边界框和分割掩模通常是准确的，但分类头错误地分类了手术器械的类别标签。我们提出了一个新的神经网络框架，增加了一个分类模块作为一个新的阶段，现有的实例分割模型。该模块专门用于改进由ex-task模型生成的仪器掩码的分类。该模块包括多尺度掩模注意力，其注意到仪器区域并掩盖分散注意力的背景特征。我们建议使用具有弧损失的度量学习来训练我们的分类器模块，以处理手术器械的低类间方差。我们对基准数据集EndoVis2017和EndoVis2018进行了详尽的实验。我们证明，我们的方法优于所有（超过18种）SOTA方法，并在EndoVis2017基准测试挑战中将SOTA性能提高了至少12个点（20%），并有效地推广到整个数据集。包含源代码的项目页面可在nets-iitd.github.io/s3net上获得。1. 介绍近年来，计算机视觉社区在设计语义和实例分割算法方面取得了显着进展。其中一个原因是大型数据集的可用性[43，1，5，14]。另一方面，由于小切口和快速恢复的优点，微创手术（MIS）越来越多地被各种外科专业所接受[53，26]。(a)（b）[45]（c）[24](d)[21]（e）[39]（f）我们的图1.在EV17数据集的样本上通过各种竞争性方法产生的仪器分割[3]。每个鳄鱼类都以不同的颜色显示。请注意，ISINet[21]正确分割，但分类错误。我们确定仪器误分类的SOTA技术的低性能为了说明问题的严重性，将MaskR-CNN对象的预测类标签替换为地面真值标签，将模型的AP 50分数从0.65提高MIS中手术器械的自动分割是具有高实用性的活跃研究领域。手术器械分割带来了各种挑战，具体取决于数据集采集源、手术类型和涉及的器械/工具、图像分辨率、数据集大小、工具统计、挑战性条件（遮挡、快速外观变化、镜面反射、烟雾、模糊、血液飞溅）[9]。大多数手术数据集和算法将器械分割结构化为语义分割，将每个像素分类为器械类之一[45，23，28、31、37、49]。由于断开的区域和闭塞/重叠的仪器，将实例标签分配给语义分割输出的任务是不平凡的。然而，获得操纵器械的实例级掩模对于大多数外科手术来说是必不可少的6192依赖于图像跟踪[18，34，46，30，7]的鳄鱼分割应用。因此，我们主张将任务公式化为多类实例分割。手术器械分割的研究主要由EndoVis2017数据集[3]驱动，EndoVis2017数据集是一个包含不同器械类型注释的机器人器械数据集。该数据集包含7个单元，所有这些单元都具有细、长、管状结构。ISINet [18]微调MaskRCNN [24] 主干用于实例分割，报告的ChallengeIoU 评分为 0.55 。 TraSeTR [58] 使用Transformer架构，利用跟踪线索辅助手术器械分割，挑战IoU评分为0.6。贡献一：我们调查了SOTA算法在医疗器械分割上的低IoU分数的原因。我们发现，这些方法为边界框和分割掩码提供了合理的输出，但通常会对输出框/掩码进行错误分类（图1）。①的人。我们相信，我们的观察结果类似于[50]对自然图像的观察结果。作者报告说，在具有长尾的数据集中，用于自然图像中的对象检测的SOTA技术为不太频繁的类提供了正确的区域建议，但经常对它们进行错误分类。我们认为，由于自然对象和医疗器械之间存在显著的视觉差异，进行跨域微调的深度神经网络模型无法开发出用于分类的鲁棒特征然而，由于边界框和掩码预测基于更鲁棒的特征（诸如边缘），因此这些预测更容易概括。因此，在这些技术中需要一个专门的模块，重点是获得有效分类手术器械所需的属性因此，我们建议在现有技术中添加一个专用的分类模块作为新的阶段，该模块将分类与边界框和掩码预测分离，并专门从分布的尾部分类类贡献二：更深入的调查发现自然图像和MIS之间的纵横比和方向的变化。而在自然图像中，宽高比通常在0.5左右，手术器械大多为2或更大。此外，自然对象在图像中看起来大部分是垂直的，并且很好地适合直线边界框。另一方面，手术器械被倾斜地使用，并且在边界框的对角线上出现仪器的长宽比和倾斜的外观减少了它在边界框区域的比例，并带来了一个分散注意力的背景。更糟糕的是，给定MIS中的小操作区域，所提出的边界框可能包含多个工具，从而使分类任务进一步复杂化。这一发现激发了基于掩模的注意力而不是现有边界框的分类需求-基于一。因此，我们建议在建议的专门分类模块中包括基于掩码贡献三：手术器械显示出类别间的外观相似性，并包含长轴;唯一的区别特征可能是器械的尖端。因此，当代架构中分类器的基于通用交叉熵的训练不适合手术工具的细粒度分类。最近的文献表明，对于小数据集，分离表示学习和分类阶段是有益的[54]。第一个可以使用对比损失来实现，然后对分类进行微调。我们遵循类似的方法，并使用弧损失[16]训练我们提出的分类模块，然后使用交叉熵损失进行微调。结果：我们对基准机器人辅助手术数据集EndoVis2017（EV17）和EndoVis2018（EV18）进行了详尽的实验。所提出的方法在所有这些数据集上都有很好的推广效果，优于具有不同主干的实例分割方法，并在基准 EndoVis2017 挑战中实现了比 SOTA 至少 12 点（20%）的改进。2. 相关工作MIS领域中的对象检测、分割和跟踪的应用扩展到各种医学分支，如妇科、眼科和神经外科[8，55，38，40]。研究人员在这方面也提供了不同的数据集[2，42，22]。使用Endovis挑战数据集开发了许多技术。工具分割问题已经使用语义[45，23，28，31，37，49]，以及实例分割[32，21，29，33]。用于该分割的方法可以是监督、半监督或无监督方法。半监督/无监督方法处理医学领域中的数据注释稀缺性，并探索模型对手术场景的领域适应[44，35，57，36]。在这项工作中，我们专注于监督的立场分割问题。医疗器械的语义分割：Ter- nausNet使用U-Net架构[41]，在预先训练的VGG 11或VGG 16骨干上[45]。它在二值分割上表现出最好的性能，但在乐器类型的分类上表现不佳。 U-NetPlus使用改进的基于编码器-解码器的U-Net架构和数据增强技术来提高性能[23]。一些方法探索实时仪器语义分割[28，49]。PAANet聚合多尺度注意力特征[37]，MF-TAPNet将基于流的时间先验集成到注意力金字塔网络[31]。上面讨论的所有方法都使用单阶段方法来实现6193多尺度特征箱型提案自顶向下FPN罗亚利尼框预测NMS类预测前5盒自下而上的区域建议网络掩模预测建议的掩码预测边界框ResNet特征掩蔽分类负责人类评分预测实例掩码输入图像多尺度特征多尺度掩码参与分类器图2.建议的3阶段神经网络模型的架构，命名为S3Net，用于仪器分割。而前两个阶段是类似的最先进的，我们介绍了第三个阶段，名为MSMA，专门从事分类。如正文所述，我们在MSMA的设计中进行了几项创新。语义分割，它经常将一个词分割成多个类（见图[45]）。①的人。医疗器械的实例分割该公式已通过两种方式进行了探索：对在自然图像上预训练的模型进行跨域微调[24，32，21，58]，以及为任务定制设计的模型[29，33]。对于第一类，研究人员主要使用MaskR-CNN [24]。Kong 等人 [32] 通过优化仪器类型的锚标度来调整MaskRCNN。ISINet [21]使用微调的MaskRCNN以及时间consideration模块来利用数据的顺序性质ISINet中的改进性能是由于跨各种类别的区域的非最大抑制以及对于任何鳄鱼实例仅保留最高预测类别。他们的时间一致性模块改善轻微超过他们的实例选择算法。TraSeTR [58]是一种基于变换器的跟踪到分段方法，其结合了跟踪线索，例如器械分段。该技术依赖于第二阶段掩模中的错误，反之亦然。在这项工作中，我们专注于基于边界框的实例分割方法的误分类挑战时，微调仪器分割。我们建议增加一个新的专门的分类模块，以减轻挑战。3. 建议的体系结构因此，我们的主要贡献，专门的分类模块作为一个新的阶段，可以插入到任何现有的实例分割模型。然而，我们将我们的模型基于MaskRCNN [24]主干进行验证。MaskRCNN主干包含两个阶段，对应于区域建议网络（RPN）和一个为每个建议生成掩码和标签的分类头。我们将我们的分类模块作为第三阶段插入MaskRCNN，并将第二阶段生成的标签替换为我们的我们提出的三阶段深度神经网络（S3Net）的架构如图所示。二、符号：对于给定的输入帧I，第一阶段，（框具有巨大的时间变化的结构[29]第二十九话提出了一种用于实时输入的编码器-解码器结构，建议）摘录日我l边界框建议，其中Bi，j是姿态分割它们已经显示出对域适应的MaskRCNN的改进Mask-then-classify [33]也使用了编码器-解码器网络，以及使用分割阶段的特征对像素实例进行分类的分类器。该方法使用单级网络，并且如果存在较低的阈值，则容易出现分类错误。第i帧中的j提案。第二阶段（掩码预测），使用边界框建议预测每个乐器的掩码Pi，j，c。在这里，c是指在这个阶段预测的类。第二级输出的处理：MaskRCNN和其他类似模型的第一阶段被称为Region Pro-6194×ΣC该方法通常使用RPN网络，并且通常输出与图像中的单个对象实例相对应的许多重叠区域即使在跨域微调之后，MaskRCNN的分类头仍然很弱。因此，这些重叠的盒子中的许多被分类为不同的类。典型的非最大抑制（NMS）步骤不拒绝对应于不同类别的重叠框如果不加以解决，这将导致MaskRCNN和其他SOTA技术的许多假阳性预测，我们在实验中进行了比较。因此，我们修改了我们的实现处理分类错误：在一个两阶段的网络中，我们观察到，由第一阶段的RPN产生的建议是不准确的。然而，这些建议在第二阶段中通过边界框回归头得到细化，从而在第二阶段之后获得更高的边界框和掩码精度。然而，分类是在从第一阶段的不准确区域建议中裁剪出来的区域上执行的，并且仍然是脆弱的，这使得分类成为乐器分割精度的瓶颈基于从我们的分析中获得的见解，我们提出了一种新的深度神经网络范式，该范式使用标准实例分割方法的前两个阶段，但包含一个额外的第三阶段，专门用于基于掩码的分类。我们称之为建议分类器多尺度掩模参与（MSMA）分类器：卷积特征掩模[15]由Dai等人提出。来利用形状信息来将物体与材料分离。我们在一个实例分割框架中采用这一方法，将乐器与背景/重叠乐器分开，并改进分类器。我们探讨了分离属性的面具和分类头，并使用一个专用的神经网络与多尺度面具注意力的分类。我们提出的范例如图所示。二、它将原始RGB图像I i和每个仪器实例的预测掩模P i，j，ci作为输入。 ResNet [25]主干用于从I i中提取多尺度特征。然后，将掩模Pi，j，c乘以每个特征以创建多尺度掩模关注特征。然后使用另一个11卷积合并掩蔽的特征，为每个实例创建单个特征图。注意，如果在帧中预测类的多个实例，则针对每个实例单独运行MSMA分类器。我们在掩蔽的特征映射上学习嵌入层，该层为每个嵌入实例输出嵌入Ei，j然后，每个Ei，j用于对掩码中存在的鳄鱼进行分类，从而为掩码提供新的类标签c。为了训练MSMA分类器，我们利用电弧损失[16]，如下所定义：作为多尺度掩码参与分类器（MSMA），其更新/校正来自前两个阶段的类预测1c=Cecos（θc+m）让表示类别标签，并且把面具取出来-L=−日志ecos（θ+m）+.ecosθ对应于一个区域提案。然后MSMA的目标是将原始图像和掩模Pi，j，c_n作为输入，并将类别标签从c_n细化为更具有ccu速率的标签c。最终掩码（具有更新的类标签）表示为Pi，j，c。如前所述，医疗器械的边界框矩形区域包含许多背景和其他器械的像素这是由于手术工具的形状以及手术工具在手术中的典型使用方式这会分散分类头的注意力并导致错误。因此，而不是使用矩形区域的建议，我们在MSMA中引入空间掩模注意力，以强调仅属于仪器的区域在训练过程中，我们使用与实例对应的地面真值掩码，而在测试过程中，我们使用第二阶段预测的掩码。这种硬掩模注意力是在图像的多尺度特征上执行的。这有助于我们的模型专注于图像中正确的仪器空间区域，从而对MaskRCNN第二阶段生成的掩码进行更准确的此外，为了有效地使用小数据集进行训练，我们在建议的第三阶段中分离了学习我们首先使用弧损失函数进行度量学习，然后使用分类交叉熵进行学习分类下面我们描述所提出的MSMA模块。这里C是类的数量，m是不同类的特征之间强制执行的角度范围此外，θj是嵌入特征Ej与最终完全连接层中第j个神经元的权重向量之间形成的角度弧损失从面部识别域适应到类间方差低的手术域;弧损失试图最大化类的特征之间的距离，从而提高分类准确度。与计算Ei，j和每个权重向量之间的点积的分类交叉熵损失不同，弧损失仅取决于它们之间的角度使用弧损失消除了权重向量的大小对最终决策的影响由于权重向量的大小是无界的，因此对于具有更多样本的类，它们很容易因此，弧损失通过移除对权重向量的幅度的依赖性来处理数据中的类不平衡此外，弧损失为每个类形成基于度量的角度聚类，而不是学习各种类之间的决策边界这是由角边缘m确保的，尽管数据稀缺，但导致更好的类内紧凑性和ΣCcPi，j，cCc=1j=1，jCJ6195×4. 数据集和评价基准数据集：我们使用机器人辅助内镜手术数据集EndoVis 2017 [3]（表示为EV17）和EndoVis 2018 [4]（表示为EV18）数据集进行实验。（1）EV17数据集包含来自达芬奇机器人系统的10个视频，并提供6个机器人仪器和一个超声探头的注释。我们采用了[45]中的4重交叉验证，用于1800帧（8 225）的公平比较。折叠式分割使其分别具有1350帧和450帧用于训练和验证。（2）EV18是一个机器人器械临床数据集，包括器官和手术物品（如纱布和缝线），并包含器械超级类别，但不包含器械类型。[21]还对该数据集进行了仪器类型注释，其中包括7种机器人仪器类型和11个训练视频，以及4个测试视频，每个视频包含149张图像。它们提供作为图像像素的我们自己为实验标注了实例。评价：我们将比较的方法分为两类。EVS方法是已经报告其在EV17或EV18数据集上的准确性NLI模型是针对自然图像提出的实例分割方法对于EV17和EV18数据集，我们评估了EV17挑战[6]中提出的挑战IoU（ChIoU）指标和 [21]中提出的ISINetIoU（ISIIoU）和平均类IoU（mcIoU5. 实验和结果5.1. 实现细节主干：建议的MSMA模块可以添加到任何现有的实例分割方法作为一个广告阶段。为了验证这一点，我们在两种具有非常不同架构的方法上添加了MSMA：一个基于 CNN 的 MaskRCNN [24] 和一个更新的基于transformer的Mask2former [12]。后者用于第三阶段的验证，与前者相比表现较差。我们使用MaskRCNN作为初始阶段报告了大部分结果。我们将这两个模型（基于MaskRCNN或Mask2former）称为S3Net，并在使用Transformer架构时显式指定架构类型。训练：我们首先使用回归损失、交叉熵分类损失和每像素分割损失来训练前两个阶段。我们使用ImageNet预训练的ResNet-50-FPN模型来匹配SOTA[21]架构，并针对仪器数据集对其进行微调。我们将每个图像的大小调整为（1333，800）。使用学习率为20−2的随机梯度下降来同时训练两个阶段12个epoch。对于阶段3（MSMA），我们首先使用来自框建议模块的ResNet-50-FPN的预训练权重，然后使用来自框建议模块的ResNet-50-FPN的预训练权重。最初冻结它们以避免过度拟合。MSMA分类器的分类头首先使用交叉熵损失使用然后，使用电弧损失对它进行15个时期的训练。在25个epoch之后，我们还解冻了ResNet的权重，并使用arc loss对完整的MSMA分类器进行了五个epoch的端到端训练最后，使用交叉熵损失仅训练分类层。为了训练MSMA分类器，我们将每个图像的大小调整为（224 ， 224 ）。在掩蔽特征以匹配ResNet中的块3的最后一层的特征分辨率的同时，将地面真实掩模的大小调整为（56，56）MSMA的掩码参与分类头使用Adam优化器以10-5的学习率进行训练，而MSMA的端到端训练使用10-7的学习率进行。推理：在推理过程中，我们将得分阈值设置为0.0以适应所有类别，并仅选择前5个实例，因为典型帧在地面实况中包含大约3到4个仪器。5.2. 分析与SOTA的比较：我们比较了S3Net的文档类型分割与EVS方法，包括语义分割[45，31]和实例分割方法[21，58]。对于NLI技术，我们使用作者提供的源代码来训练上述数据集的模型，并使用我们的推理参数。我们添加了第节中提到的基于区域的NMS。3作为对图像的预测掩模的后处理步骤，并在对所有模型进行后处理后报告IoU分数（参见表1）。①的人。对于EV17，S3Net优于所有NLI方法和其他基于evs 的实例分割方法。它比 ISINet[21]提高了30%ChIoU和60% mcIoU，表明使用阶段3的基于掩码的分类仅使用空间信息就可以通过可考虑的裕度改进结果。尽管TraSeTR[58]探索了具有掩码分类范例的基于transformer的架构，并且还使用了时间信息，但S3Net在Ch IoU上的表现优于它20%，在mcIoU上的表现优于它26%，实现了SOTA结果。对于EV18数据集，S3Net在ChIoU和 mcIoU上分别以3.8%和5.8%的微弱优势优于ISINet[21]。与TraSeTR相比，结果稍差，这表明对于该数据集，除了分类之外，其他决定因素（如仪器的节奏信息）有利于基于跟踪的方法。验证SOTA准确度低的原因：表中1，我们在EVS数据集上比较SOTA实例我们已经分析了为什么NLI模型不太准确。如前所述，我们对SOTA6196地面实况✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓TernausNetA A aA A aA A aA A aA A aA A aA A aA A aMaskRCNN_dA A aA A aA A aA A aA A aA A aA A aA A aISINet_flow✓ X轴XXXXOX✓ OOOXO✓ X X✓ OX提出✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓ ✓✓ ✓XX轴图3.实例分割比较的定性分析：用4个符号表示结果;✓表示正确标记的实例，示出错误分类的实例，并且‘0’表示丢失的实例。字母‘A’指示模糊的实例，其中由于过度分割或由于同一区域处的仪器类别的多个副本，选择仪器的类别是模糊的。我们表现出更好的分类稀疏类，重叠仪器的情况下，不错过仪器的实例。我们的失败案例包括实例显示器械的唯一轴杆和器械方向发生显著变化的案例成功：稀疏类成功：重叠工具成功：细分失效：分类错误6197方法会议拱门。Ch ISI仪器类别IOUmcIoU IoUBF PF LND VS/SI GR/ CA MCS UPIoU数据集EV17NLI方法MaskRCNN [24] ICCV17 R50 45.65 41.77 27.59 33.67 43.96 17.95 0.80 4.20 8.98 19.59CascadeRCNN [10] CVPR 18 R50 49.03 39.9 33.47 32.03 44.1 16.36 1.38 3.74 10.94 20.29HTC [11] CVPR 19 R50 43.81 40.39 35.86 27.01 46.3 14.16 1.36 7.05 9.4 20.96MScoring RCNN [27] CVPR 19 R50 47.63 44.54 37.95 38.48 49.43 13.55 2.57 3.93 9.52 25.23SimCal [51] ECCV 20 R50 49.56 45.71 39.44 38.01 46.74 16.52 1.9 1.98 13.11 23.78Cond Inst [47] ECCV 20 R50 59.02 52.12 44.29 38.03 47.38 24.77 4.51 15.21 15.67 27.12BMaskRCNN [13] ECCV20 R50 49.81 38.81 32.89 32.82 41.93 12.66 2.07 1.37 14.43 19.74SOLO [52] NeurIPS20 R50 35.41 33.72 22.05 23.17 41.07 7.68 0 11.29 4.6 15.79SCNet [48] AAAI21 R50 48.17 46.92 43.96 29.54 48.75 22.89 1.19 4.9 14.47 25.98MFTA [20] CVPR 21 R50 46.16 41.77 31.16 35.07 39.9 12.05 2.28 6.08 11.61 20.27DetectoRS [39] CVPR 21 R50 50.93 47.38 48.54 34.36 49.72 20.33 2.04 8.92 10.58 24.93Orienmask [17] ICCV21 Dknt53 42.09 39.27 40.42 28.78 44.48 12.11 3.91 15.18 12.32 23.22QueryInst [19] ICCV21 R50 33.59 33.06 20.87 12.37 46.75 10.48 0.52 0.39 4.58 15.32FASA [56] ICCV21 R50 34.38 29.67 20.13 18.81 39.12 8.34 0.68 2.17 3.46 13.24Mask2Former [12] CVPR 22 Trfmr 40.39 39.84 19.60 20.22 45.44 11.95 0.00 1.48 22.10 17.78S3Net（+Mask2former）R50 53.31 51.2 49.48 29.91 70.61 32.98 19.53 18.35 49.51 38.13EVS方法TernausNet-11 [45] ICMLA 18 UNet 11 35.27 12.67 13.45 12.39 20.51 5.97 1.08 1 16.76 10.17MF-TAPNET [31] MICCAI19 UNet 37.35 13.49 16.39 14.11 19.01 8.11 0.31 4.09 13.4 10.77ISINET [21] MICCAI20 R50 55.62 52.2 38.7 38.5 50.09 27.43 2.01 28.72 12.56 28.96TraSeTR [58] ICRA 22 Trfmr 60.4 65.2 45.256.755.838.911.4 31.3 18.2 36.79S3Net（+MaskRCNN）R5072.54 71.99 75.0854.3261.8435.527.47 43.23 28.38 46.55数据集EV18NLI方法MaskRCNN [24] ICCV17 R50 69.41 67.94 72.85 43.13 0.85 32.63 0 86.16 0 33.66CascadeRCNN [10] CVPR 18 R50 67.11 66.29 71.22 33.6 4.94 0 0 90.61 2.62 29HTC [11] CVPR 19 R50 69.07 68.04 72.45 36.64 1.64 37.04 0 88.27 1.95 34MScoring RCNN [27] CVPR 19 R50 65.19 64.04 68.69 31.23 4.81 0 0 88.23 1.75 27.82SimCal [51] ECCV20 R50 68.56 67.58 73.67 40.35 5.57 0 0 89.84 0 29.92Cond Inst [47] ECCV 20 R50 72.27 71.55 77.42 37.43 7.77 43.62 0 87.8 0 36.29BMaskRCNN [13] ECCV20 R50 68.94 67.23 70.04 28.91 9.97 45.01 4.28 86.73 3.31 35.46SOLO [52] NeurIPS20 R50 65.59 64.88 69.46 23.92 2.61 36.19 0 87.97 0 31.45SCNet [48] AAAI21 R50 71.74 70.99 78.4 47.97 5.22 29.52 0 86.69 0 35.4MFTA [20] CVPR 21 R50 69.2 67.97 71 31.62 3.93 43.48 9.9 87.77 3.86 35.94DetectoRS [39] CVPR 21 R50 66.69 65.06 73.94 46.85 0 0 0 79.92 0 28.67Orienmask [17] ICCV21 Dknt53 67.69 66.77 68.95 38.66 0 31.25 0 91.21 0 32.87QueryInst [19] ICCV21 R50 66.44 65.82 74.13 31.68 2.3 0 0 87.28 0 27.91FASA [56] ICCV21 R50 68.31 66.84 72.82 37.64 5.62 0 0 89.02 1.03 29.45Mask2Former [12] CVPR 22 Trfmr 65.47 64.69 69.35 24.13 0 0 0 89.96 10.29 27.67S3Net（+Mask2former）R50 67.78 67.06 71.18 29.77 1.59 0 0 90.61 10.29 29.06EVS方法TernausNet-11 [45] ICMLA 18 UNet 11 46.22 39.87 44.2 4.67 0 0 0 50.44 0 14.19MF-TAPNET [31] MICCAI19 UNet 67.87 39.14 69.23 6.1 11.68 14 0.91 70.24 0.57 24.68ISINET [21] MICCAI20 R50 73.03 70.97 73.83 48.61 30.98 37.68 0 88.16 2.16 40.21TraSeTR [58] ICRA 22 Trfmr76.276.353.3 46.540.613.986.317.5 47.77S3Net（+MaskRCNN）R50 75.81 74.0277.2250.87 19.8350.59092.127.44 42.58表1. SOTA实例分割方法在EV17和EV18仪器分割数据集上的性能。(R50代表ResNet-50-FPN，Trfmr代表Transformer，BF-双极钳，PF-抓钳，LND-大号针驱动器，VS/SI-血管闭合器/吸引器，GR/CA-抓钳/施夹器，MCS-单极弯剪，UP-超声探头）分割精度第一，现有的两级分类头比较薄弱，是准确性的瓶颈。其次，仪器第三，基于交叉熵的损失使得学习视觉上相似的乐器变得更加困难。我们调查了所有的三项指控。对于第一个声明，我们将两阶段模型（MaskRCNN）的预测标签替换为地面真实标签。这个简单的改变将面罩AP50分数从6198模型ChIoU第一阶段2第一阶段2 37.97第一阶段和第二阶段wsr 53.30阶段1和2掩模c 57.35第一阶段2 wma 57.09第3阶段第3阶段 cel 63.63S3Net72.54表2.EV17上申报S3Net的消融研究0.65至0.90，显示分类不准确。我们评估视频1帧的EV17包含超声探头的第二个索赔。MaskRCNN预测了224个超声探头边界框中的37个，其中26个具有0.75的IoU26个盒子中有22个的长宽比大于3，而只有4个的长宽比小于3。3.拉长盒的预测准确率为84%。当地面真值框紧紧地拥抱仪器时，MaskR-CNN具有更高的准确性。对于第三种说法，我们比较了使用交叉熵损失和基于弧损失的度量学习训练第三阶段后的结果5.3. 定性分析定性分类精度结果如图所示。3.第三章。定性地给出了语义分割方法、典型实例分割方法和EVS方法的比较结果。在稀疏类和重叠类仪器的情况下，我们表现出更好的分类。我们的失败案例包括实例仅显示器械轴和器械方向发生显著变化的案例。我们在稀疏类Grasping牵开器上的更好性能是由于基于度量学习的训练损失。由于我们设计了一个基于掩模注意力的分类器，网络在对重叠区域进行分类时表现良好。我们只专注于改进实例分割的分类，而不是时间上下文，因为下一阶段的应用程序的分类精度这个问题的未来方向可以是进一步基于时间信息来改进掩码和改进实例标签。5.4. 消融研究选项卡. 2给出了为了解我们系统中各种模块的重要性而进行的各种消融研究的结果。我们描述下面的符号：第12阶段：在这里，我们报告了模型在第2阶段后获得的准确度，无需后处理。由于我们的模型在前两个阶段使用MaskRCNN主干，因此这本质上是使用我们的超参数的MaskRCNN的准确性阶段1 2 wsr：第二阶段的结果，使用我们的跨类非最大抑制阶段12 maskc：在当前MaskRCNN中，分类和掩码预测并行执行。根据本文的论文，错误框的分类因此，在这个实验中，我们改变了阶段2预测的顺序。现在，分类不是与掩模预测并行地执行，而是在掩模预测之后执行，并且在掩模涉及的特征上完成。阶段1 2 wma：我们已经探索了是否可以使用阶段2的特征进行分类，而不是训练单独的分类器阶段。在这个实验中，我们保持前两个阶段不变，但是在阶段2之后，仅使用来自阶段2的掩模参与特征。这个配置和以前的配置之间的区别是，在以前的配置中，MaskRCNN的原始分类器被禁用，但在这个配置中，它保持原样。阶段3细胞：在这里，我们使用交叉熵而不是弧损失来训练S3Net第三阶段。这种配置的较低准确性验证了本文的关键观察之一6. 结论在这项研究中，我们调查了为自然图像开发的技术在手术器械分割任务中性能低下的原因我们还展示了精心设计的架构创新如何能够有效地缓解挑战。我们对基准机器人辅助手术数据集EndoVis2017（EV17）和EndoVis2018（EV18）进行了验证性实验。所提出的方法在所有这些数据集上都有很好的推广，优于具有不同主干的实例分割方法，并在基准EV17挑战上比SOTA我们的结论是，添加第三个分类阶段，提高了涉及细粒度分类，如手术工具分割的应用程序的结果我们希望我们的分析和创新，以减轻特定的手术器械的挑战，将激发类似的兴趣，研究人员的有效应用，在自然成像模型的先进手术成像任务。所提出的框架可以用于依赖于工具识别和分割的下游应用。我们计划扩展该方法，包括跟踪线索，并进一步提高分类精度。鸣谢：这项工作得到了印度科学技术部生物技术部的支持（项目编号：BT/PR13455/oE/34/24/2015）6199引用[1] 上下文中的通用对象（COCO）数据集。网址：http：//cocodataset.org/1[2] 内窥镜视力挑战。http：//endovis.grand-challenge.org网站。2[3] 内窥镜视觉挑战：机器人器械分割子挑战。网址：//IEEE计算机视觉和模式识别会议，第3992-4000页，2015年。4[16] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR中，第4690-4699页，2019年。二、四[17] 杜文涛，向智宇，陈淑雅，乔成宇，陈怡曼，白廷明.实时实例分割与判别方向图。在CVPR中，页码endovissub 2017-roboticinstrumentsegmentation.7314-7323，2021。7grand-challenge.org/网站。一、二、五[4] 内镜愿景挑战：机器人操作分割子挑战。https：//endovissub2018-roboticscenesegmentation.grand-challenge.org/home/。5[5] Imagenet数据集。 https://www.image-net.org/啊 1[6] Max Allan ， Alex Shvets ， Thomas Kurmann ， ZichenZhang，Rahul Duggal，Yun-Hsuan Su，Nicola Rieke，IroLaina，NivedithaKalavakonda，SebastianBodenstedt，et al. 2017年机器人仪器分割挑战赛。arXiv预印本arXiv：1902.06426，2019。5[7] Britty Baby ， Vinkle Kumar Srivastav ， RamandeepSingh，Ashish Suri和Subhashis Banerjee。神经内活动追踪器：神经内镜训练器的自动活动检测应用程序：神经内活动追踪器见ICACCI，第987-993页。IEEE，2016. 2[8] Sebastian Bodenstedt，Max Allan，Anthony Agustinos，Xi- aofei Du ， Luis Garcia-Peraza-Herrera ， HannesKenngott，ThomasKurmann，BeatMüller-Stich，AdritienOurselin，Daniil Pakhomov，et al.微创手术中肿瘤分割和跟踪方法的比较评价。arXiv预印本arXiv：1805.02475，2018。2[9] 大卫·布吉特，马克斯·艾伦，达内尔·斯托扬诺夫，皮埃尔·杨宁.基于视觉和无标记的手术工具检测和跟踪：文献综述医学图像分析，35：633-654，2017。1[10] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR中，第6154- 6162页，2018年。7[11] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu XiaoLi，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.实例分段的混合任务级联。在CVPR中，第4974-4983页，2019年。7[12] Bowen Cheng ， Ishan Misra ， Alexander G Schwing ，Alexan- der Kirillov，and Rohit Girdhar.用于通用图像分割的掩蔽注意掩码Transformer。在I

下载后可阅读完整内容，剩余1页未读，立即下载