基于牙弓先验的弱注释3D牙齿实例分割方法

160 浏览量更新于2023-10-25 收藏 24.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

207520DArch: 基于牙弓先验的弱注释3D牙齿实例分割0Liangdong Qiu 1,3* Chongjie Ye 1* Pei Chen 1 Yunbi Liu 1,3 Xiaoguang Han 1,2† Shuguang Cui 1,2,301 SSE, CUHK-Shenzhen 2 FNii, CUHK-Shenzhen 3 Shenzhen Research Institute of Big Data0{liangdongqiu, chongjieye, peichen}@link.cuhk.edu.cn, ybliu1994@gmail.com,0{hanxiaoguang, shuguangcui}@cuhk.edu.cn0摘要0在3D牙齿模型上进行自动牙齿实例分割是计算机辅助正畸治疗的基本任务。现有的基于学习的方法严重依赖于昂贵的逐点注释。为了缓解这个问题，我们首次探索了一种低成本的3D牙齿实例分割注释方法，即为每个牙齿模型标记所有牙齿质心和只有少数牙齿。针对仅提供弱注释时的挑战，我们提出了一种牙弓先验辅助的3D牙齿分割方法，即DArch。我们的DArch包括两个阶段，包括牙齿质心检测和牙齿实例分割。准确地检测牙齿质心可以帮助定位单个牙齿，从而有利于分割。因此，我们的DArch提出利用牙弓先验来辅助检测。具体而言，我们首先提出了一种由贝塞尔曲线回归生成牙弓的粗到精的方法，然后训练了一个基于图的卷积网络（GCN）来对其进行细化。有了估计的牙弓，我们接着提出了一种新颖的基于弓的点采样（APS）方法来辅助牙齿质心提案的生成。同时，我们使用基于补丁的训练策略独立地训练了一个分割器，旨在从以牙齿质心为中心的3D补丁中分割出一个牙齿实例。对4773个牙齿模型的实验结果表明，我们的DArch可以准确地分割出每个牙齿，其性能优于现有的方法。01. 引言0通过直接口腔扫描获得的牙齿模型通常用于计算机辅助牙科。计算机辅助牙科需要牙齿模型0* L. Qiu and C. Ye contributeequally. † Corresponding author0具有弱注释的训练数据0注释0我们的分割结果0图1.使用弱注释的训练数据训练模型时的分割结果示例。左：带有弱注释的牙齿模型，即为所有牙齿质心和只有少数牙齿进行标注。右：我们的分割结果。0作为输入，以帮助牙医分析和评估特定患者的牙齿健康和牙齿排列，以进行以下治疗。对牙齿模型进行自动分割是计算机辅助正畸治疗的必要前提步骤。尽管最近的基于学习的方法在3D牙齿实例分割方面取得了令人印象深刻的性能[28,29,39]，但它们严重依赖于具有密集手动注释的大量数据，例如标记牙齿模型中每个单独牙齿的所有点。由于注释此类训练数据特别耗时，很难收集足够大的数据集来覆盖真实世界中的复杂牙齿模型，从而在很大程度上限制了这些基于学习的分割方法的泛化能力[30, 36,38]。自动3D牙齿实例分割的主要挑战之一是在各种牙齿模型上定位每个牙齿对象，其中一些牙齿缺失、拥挤或错位。崔等人[3]发现，在牙齿检测阶段，牙齿质心是比传统方法中用于裁剪检测到的牙齿对象的边界框更可靠的信号。因此，牙齿检测可以转换为牙齿质心检测。受到他们的工作的启发，我们提出了一种可行且低成本的注释方法，如图1右侧所示，即为所有牙齿实例指定3D质心。207530并且仅为每个牙齿模型标记密集实例掩码，以减轻对昂贵的逐点注释的需求。在本文中，我们提出了一个新颖的检测和分割框架，包括检测牙齿质心和分割分配给相应牙齿质心的每个牙齿实例。我们主要关注基于直觉的检测阶段，即检测越准确，分割越好。此外，我们采用基于补丁的训练策略来降低分割器的区分难度，该策略旨在从以牙齿质心为中心的3D补丁中分割牙齿实例，而不是从牙齿模型的整个点云数据中分割所有牙齿实例。这样做对我们的方法中的牙齿质心预测提出了很大的需求。以前的3D点云检测方法[3, 13,18]通常使用最远点采样（FPS）方法来均匀选择生成提案的采样点。对于牙齿质心检测，FPS方法采样的点通常包含不相关的点，例如位于牙冠和牙龈上的点，这可能导致牙齿质心的提案不准确。为了准确完整地预测每个牙齿模型的牙齿质心，我们提出了一种基于弓形先验的牙齿质心点采样（APS）模块，通过引入牙弓先验来辅助检测过程。这是基于以下观察结果的：牙弓自然地描绘了一个人的整体牙齿，所有牙齿质心都会落在上面。为了估计每个牙齿模型的牙弓，我们首先通过将其表示为通过牙齿质心的曲线来形成牙弓，然后采用轻量级的一维卷积网络来改进牙弓的精度。与从整个牙齿投票中进行均匀采样的FPS方法不同，我们沿着估计的牙弓采样点，以过滤掉大多数不相关的点。实验证明，我们提出的APS策略可以大大提高牙齿质心的检测准确性，相比之下，FPS方法则更有利于分割。据我们所知，这是对具有弱注释的牙齿模型进行3D牙齿实例分割的首次尝试。我们的工作的主要贡献可以总结如下：0•我们是第一个探索低成本注释方法用于3D牙齿实例分割的研究，并提出了一种名为DArch的新框架来处理这个具有挑战性的任务。我们希望这一尝试能够激发更多基于学习的弱注释场景方法的研究。0•我们提出了一种粗到精的方法来估计牙弓。具体而言，牙弓最初通过B´ezier曲线回归进行近似，然后使用基于图的卷积网络（GCN）进行估计。0进一步改进。0•我们引入了一种基于牙弓的点采样（APS）模块，通过引入牙弓先验来辅助牙齿质心提案的生成。0•大量实验证明，与其他使用其他采样策略的方法相比，我们提出的DArch可以极大地提高牙齿质心检测的性能。至于分割性能，我们的DArch在弱注释和完全注释的场景中都优于最先进的方法。02. 相关工作02.1. 自然场景中的3D理解0在自然场景中的3D理解通常涉及对象检测[9, 15, 27,37]，实例分割[4, 5]，形状理解[31, 33]，部分分割[7,32]等问题，这是计算机视觉中的一个基本问题。近年来，一些基于深度学习的方法已经在不同的表示上提出，例如体积数据[12, 21, 41, 41]，点云[25, 26, 35]和其他表示[16,24]。点云是表示3D形状或对象的最流行的方式之一。PointNet[20]是一个早期的尝试，设计了一个适用于无序3D点集的新型深度网络。PointNet++ [22]和PointCNN[8]通过递归地以分层方式应用PointNet来扩展PointNet，以便高效且鲁棒地学习深度点集特征。这两个工作激发了许多后续工作。例如，VoteNet[18]提出通过赋予点云深度网络（即PointNet++）类似于经典Hough投票的投票机制来检测3D对象。通过投票，VoteNet实际上生成靠近对象中心的新点，这些点可以被分组和聚合以生成盒子提案。鉴于PointNet++的特征表示能力和VoteNet中生成对象中心的投票机制的强大能力，我们采用VoteNet作为牙齿质心检测网络的基本架构，并将PointNet++作为提取细粒度牙齿对象的深度点特征的骨干网络。为了从提案步骤中的投票中生成提案，VoteNet使用最远点采样（FPS）来均匀采样K个投票簇。这样的采样策略可能会选择与牙齿质心检测无关的投票簇，例如位于牙冠和牙龈上的投票簇。为了避免这个问题，我们提出了一种基于弓形先验的点采样（APS）策略，通过利用牙弓先验来辅助牙齿质心的提案生成。...207540预测的掩模 GT掩模0� 牙齿实例分割0牙齿模型0点云输入0采样0主干0共享0投票0投票0投票0�� ×(3+ ��1 )0N m 种子0APS和分组0�� × (3 + �� 3 )0�� ×(3+ ��2 )0N k 提案0牙弓预测0预测的牙弓0N m 投票0提案生成0过滤0GT质心0预测的质心0� 牙齿质心检测0主干特征0分割器裁剪相对坐标0固定数量的点0裁剪牙齿质心检测0牙齿实例分割0� � �0� � �0融合0采样0a) 训练模式0b) 推理模式0带有弱标注的牙齿模型0图2.我们DArch在训练和推理模式下的示意图。我们的DArch由牙齿质心检测和牙齿实例分割两部分组成。在推理模式下，我们的DArch可以通过融合基于补丁的结果来分割所有牙齿实例。APS：基于弓的点采样。02.2. 3D牙齿理解0最近，基于深度学习的方法已经广泛用于处理牙齿实例分割任务[30, 38, 39]。例如，Mask MCNet [38]提出了一个框架，将MonteCarlo卷积网络（MCCNet）与MaskR-CNN相结合，通过预测边界框来定位每个牙齿对象，并分割框内的所有牙齿点。基于图卷积神经网络（GCN）的框架[28, 29,40]已经被提出，用于学习更具有区分性的3D牙齿模型分割的几何特征。TSegNet[3]发现牙齿质心在牙齿检测阶段比边界框更可靠，基于这一观察，提出了一个新的流程，将牙齿模型分割分为两个子问题：鲁棒的牙齿质心预测和基于点云数据的准确的单个牙齿分割。然而，现有的基于学习的方法严重依赖于昂贵的密集点注释，即在训练数据中标记每个牙齿模型的所有牙齿，以监督训练过程。这种全注释的方式给人工标注带来了相当大的负担，并增加了收集大量数据的难度，从而限制了这些方法在实际应用中的使用。在本文中，我们首次研究了具有有限注释的3D牙齿实例分割问题。在上述方法的启发下，我们提出了一种新颖的检测和分割框架，称为DArch，以应对具有弱标注的3D牙齿实例分割的挑战。我们的DArch旨在给定单个牙齿模型的点云输入，分割所有牙齿实例。如图2所示，我们的DArch由牙齿质心检测和牙齿实例分割两部分组成。特别地，为了准确预测所有牙齿质心，我们引入了一个牙弓预测模块来估计牙弓，并提出了一种基于弓的点采样（APS）策略来生成质心提案。我们的分割网络采用基于补丁的训练策略，在推理阶段，训练好的分割器可以通过融合所有基于补丁的分割结果来预测牙齿模型中的所有牙齿实例。我们将在下文详细介绍我们的检测和分割网络。0DArch包括一个牙齿质心检测模型，用于识别每个牙齿对象，以及一个牙齿实例分割模型，用于分割每个牙齿实例。为了准确检测每个牙齿质心，我们提出了估计牙弓并利用估计的牙弓来辅助牙齿质心的提案生成的方法。03. 方法03.1. 概述0在这项工作中，我们提出了一种新颖的检测和分割框架，称为DArch，以应对具有弱标注的3D牙齿实例分割的挑战。我们的DArch旨在给定单个牙齿模型的点云输入，分割所有牙齿实例。如图2所示，我们的DArch由牙齿质心检测和牙齿实例分割两部分组成。特别地，为了准确预测所有牙齿质心，我们引入了一个牙弓预测模块来估计牙弓，并提出了一种基于弓的点采样（APS）策略来生成质心提案。我们的分割网络采用基于补丁的训练策略，在推理阶段，训练好的分割器可以通过融合所有基于补丁的分割结果来预测牙齿模型中的所有牙齿实例。我们将在下文详细介绍我们的检测和分割网络。Bezier Curve��, ��, ��Lctr = 144�i=1ℓ1�ˆxctri− xctri�(1)207550基于GCN的弓细化0投票控制点0初始弓点0贝塞尔曲线回归0初始/细化的弓点0细化后的弓点0最近投票的插值特征0迭代细化0(∆��, ∆��, ∆��)0偏移量0图3.我们提出的牙弓预测方法的概述。我们的方法包括两个步骤，即贝塞尔回归和GCN细化。从生成的贝塞尔曲线中采样出一个初始曲线。然后，通过迭代偏移来细化点ˆX。03.2. 牙齿质心检测0我们的牙齿质心检测网络由一个检测骨干和一个弓生成分支组成。我们采用VoteNet[18]作为我们的检测骨干，因为它具有坚实的架构和投票机制。众所周知，提案生成是3D物体中心检测的最关键部分之一。考虑到牙齿的细粒度结构，我们提出了一种APS方法来替代VoteNet中用于生成牙齿质心提案的FPS采样方法。接下来，我们首先简要回顾VoteNet的工作，然后提出我们的弓生成方法。最后，我们介绍我们的APS方法用于提案生成。03.2.1 VoteNet回顾0原始的VoteNet是由Qi等人提出的[18]。它是基于PointNet++[22]的3D点云检测方法。给定一组输入的3D点{p i}N i =1，PointNet++的骨干网络选择种子点并生成丰富的C维特征向量。点坐标被嵌入到C维特征向量中以表示种子{s i}M i= 1，其中si是一个(3+C)维特征向量。然后，种子点被输入到共享的多层感知机(MLP)中来计算投票{v i}M i = 1。生成的投票v i将在物体中心周围聚合。生成投票v i后，使用FPS采样方法从中采样出一部分投票{v i}K i =1。然后通过在一定的欧氏距离内找到所有附近的投票，将投票生成为K个簇，接着通过一个三层MLP生成提案。最后，应用NMS来过滤重叠的提案并生成最终的预测结果。0采样方法对于生成合理的提案非常重要。对于牙齿质心检测这个特定任务，FPS可能会从整个牙齿投票中采样到无关的点，比如位于牙冠和牙龈上的点，这是由于其均匀稀疏的采样机制，导致提案不准确。为了解决这个问题，我们提出通过预测通过所有牙齿质心的牙弓，然后基于预测的牙弓提出一种基于APS的方法，以替代FPS以生成准确的提案。03.2.2 牙弓预测0牙弓可以描述牙模型的牙齿排列。为了自动预测每个牙模型的牙弓，我们提出了一种由粗到细的牙弓预测方法。如图3所示，我们提出的牙弓预测方法首先通过回归三次贝塞尔曲线来粗略预测牙弓，然后采用基于GCN的网络来细化弓。接下来，我们详细介绍我们的牙弓预测方法。0贝塞尔曲线回归最近的研究表明，人类牙弓形状可以通过贝塔函数进行准确的数学表示[14]。受到[14]的启发，我们从贝塔函数集合中选择了一个简单的函数，即三次贝塞尔曲线，来初步近似牙弓形状。具体的三次贝塞尔曲线可以由四个控制点决定。通过最小化合成贝塞尔曲线与牙齿质心之间的距离，可以得到控制点的真值。如图3顶部所示，我们使用MLP来预测4个控制点{x ctr i}4 i = 1。损失函数定义为0其中 x ctr i 和 ˆ x ctr i 分别是目标和预测控制点对应的第 i个点。通过回归这 4个控制点，我们可以得到最终合成的贝塞尔曲线，以初始方式描述牙弓。0基于GCN的牙弓细化：我们通过连接依次通过牙齿质心的所有线段，并从连接的线段中均匀采样点来生成目标牙弓。目标和预测的牙弓分别表示为 � x gt i � N0i =1 和 { ˆ x i } N i =1 ，其中 N是组成牙弓曲线的点的数量，设置为 32 。如图 3底部所示，我们首先使用均匀采样的点初始化牙弓曲线，沿着合成的贝塞尔曲线。选择与每个初始牙弓点对应的最近的三个投票，并选择它们的特征。Larch = 1NN�i=1ℓ1�ˆxi − xgti�(2)C = αDarch + βDvotes(3)Ldet = Loffset + Lconf + γLcenters(4)207560插值表示对应的弓点特征。插值特征通过MLP聚合，然后输入到我们的GCN中生成偏移量。我们将初始弓点的坐标和学习到的偏移量相加，生成新的弓点。生成偏移量的学习过程迭代重复 3次，以细化初始牙弓预测，生成牙弓的精细预测。牙弓点预测的损失函数可以表示如下：03.2.3 基于弓弧的点采样（APS）0根据估计的牙弓，我们设计了一种APS方法，专门选择牙冠周围的点来解决上述问题。这是基于我们观察到所有牙齿都按顺序排列在牙弓上，它们的质心也是如此。如图 2所示，APS和分组模块利用预测的牙弓生成最终的 N k牙齿提案。具体而言，我们利用匈牙利方法在 N m个投票中对子采样点进行采样。与直接采样到牙弓的K个最近点的KNN方法相比，匈牙利方法考虑了分配点之间的距离，并更均匀地采样点。匈牙利方法的成本矩阵 C包含两部分：0第一个矩阵 D arch是投票和牙弓点之间的欧氏距离。第二部分 D votes是投票位移的欧氏距离。α 和 β用于平衡这两个距离测量对采样的重要性。我们实验性地将α 和 β 设置为 1 和 5。比较了不同采样方法对检测和分割的影响，并在附录中附上了结果。03.2.4 损失函数0在训练网络时，只使用牙齿质心的注释。我们使用Huber ℓ1 损失 [23] L offset监督偏移量预测，从原始子采样点到最近的注释质心获取点F。接下来，我们使用交叉熵损失 L conf监督提案置信度。我们假设与其最近的牙齿质心距离小于0.3 的提案的真实置信度为1，并将相应的牙齿质心分配给提案，例如VoteNet[18]。最后，基于分配的牙齿质心，我们计算用于学习质心偏移和回归牙齿对象框的损失 L centers 和 L boxs[19]。具体来说，损失函数为：0牙齿检测的步骤如下：0我们经验性地将γ设置为0.1。03.3. 牙齿实例分割0我们的分割器是基于PointNet++[22]构建的。我们采用基于块的训练策略来训练分割器，并使用常见的交叉熵损失函数来优化训练过程。给定一个质心点，我们从原始点云P中裁剪最接近该质心点的M =2048个点。如图2所示，分割器的输入是主干特征和相对于裁剪的3D块给定质心的相对坐标，输出是指示3D块中点可能是牙齿点的概率掩膜。用于训练我们的分割器的训练数据是通过裁剪最接近标记牙齿实例的牙齿质心生成的所有3D块。例如，如果在一个牙齿模型中标记了三个牙齿实例，我们将通过裁剪最接近这三个牙齿质心的M个点来生成三个3D块。基于块的训练策略可以增加训练样本并充分利用注释信息。在推理阶段，经过训练良好的分割器可以通过融合基于每个检测到的质心生成的所有块上的分割结果来分割整个牙齿模型的所有牙齿实例。03.4. 网络训练0为了训练牙齿质心检测网络，我们从每个牙齿模型中均匀采样N =16,000个点，使用它们的3D坐标作为唯一的输入特征。我们首先在前210个epoch中训练检测主干网络，其他网络设置，如优化器和学习率，遵循[18]的设置。然后我们使用固定的检测主干网络训练架构预测分支100个epoch。通过估计牙弓，我们执行APS生成准确的提议，并微调提议生成网络，如图2中的黄色梯形所示。对这些提议应用非极大值抑制（NMS）生成最终的质心预测。为了训练牙齿实例分割网络，我们使用训练牙齿模型中那些带有注释的牙齿掩膜的牙齿质心来生成3D块，通过从相应的点云中裁剪最接近它们的M =2,048个点。我们使用基于块的训练策略来训练我们的分割器。我们的分割器是基于PointNet++[22]构建的，并且在训练阶段遵循[22]的类似设置。所有训练都在一张RTX 3090 NvidiaGPU上进行。详细信息请参考附录。2.210.070.00.51.01.52.02.5minx∈P1 ∥x − y∥22(5)207570方法牙齿质心检测牙齿实例分割0准确率召回率中心距离完全弱0IoU Dice IoU Dice0VoteNet [18] 88.82 85.68 0.036 - - - - MLCVNet [34] 90.86 85.68 0.033 - - - -Group-free 3D [11] 91.14 92.70 0.035 - - - -0TSegNet [3] 99.41 84.94 0.037 94.83 96.91 93.39 95.83 VoteNet & PointNet++ [22]84.32 85.40 0.040 93.92 96.29 93.38 95.97 DArch (我们的方法) 99.68 85.39 0.037 95.9397.70 95.42 97.380表1. 与最先进方法在弱标注和完全标注场景下进行牙齿质心检测和牙齿实例分割结果的比较。“-”表示这些检测方法的分割得分不可用。04. 实验04.1. 数据集和注释0我们收集了4,773个来自3,231名正畸前患者的3D牙齿模型。我们随机选择3,973个模型作为训练模型，其余800个模型作为测试模型。所有训练牙齿模型共包含54,658个牙齿实例。所有牙齿模型都进行了完全注释，即每个牙齿模型的所有牙齿实例都由专业牙医手动标注。在我们的工作中，我们提出了一种低成本的注释方式，即标注所有牙齿质心和每个牙齿的少数牙齿。为了计算完全注释和我们提出的弱注释所花费的时间，我们的一位作者在专业牙医的指导下使用不同的注释方式手动注释了10个牙齿模型。尽管我们实验中使用的牙齿质心是通过完全注释的牙齿掩膜计算得到的，但我们提出了一种通过多视图图像注释牙齿质心的新方法，这种方法耗时较少。我们首先将牙齿模型渲染为三个不同视图的图像。然后，按照严格的顺序，我们分别在这些图像上选择每个牙齿的中心点来计算待注释牙齿质心的坐标。为了注释一个牙齿生成掩膜，我们使用流行的可编程3D网格编辑软件Meshlab[2]作为我们的注释工具。我们使用Meshlab提供的Z-painting工具在每个牙齿实例上绘制顶点。图4显示了完全注释和我们提出的弱注释的示例，并指示了两种注释类型在一个牙齿模型上的平均注释时间。如图4所示，我们工作中使用的弱注释方式相比其他基于学习的方法中使用的完全注释方法可以大大节省时间。04.2. 实验设置0竞争方法。我们将我们的方法与牙齿中心点检测和牙齿实例分割的最先进方法进行比较。至于检测，我们的0带有所有牙齿掩模的完整注释0带有所有牙齿中心点和少量牙齿掩模的弱注释0掩模中心030.5分钟09.12分钟0（a）（b）0图4.不同注释方式的时间消耗示例。（a）标记每个牙齿掩模和中心点所花费的时间比较；（b）标记一个完整的牙齿模型所花费的时间比较，包括完整和弱注释。0DArch与流行的3D检测方法进行了比较（即VoteNet[18]，MLCVNet [34]和Group-free 3D[11]）。VoteNet是一种用于点云的通用3D检测方法。MLCVNet通过利用多级上下文模块扩展了VoteNet，即补丁对补丁、物体对物体和全局场景。Group-free3D进一步采用了基于Transformer的提案生成网络。至于分割，我们将我们的DArch与最先进的3D牙齿实例分割方法（即TSegNet[3]）以及流行的VoteNet和PointNet++的组合进行比较。TSegNet是用于3D牙齿实例分割的最先进的基于学习的方法。评估指标。我们使用广泛使用的指标-准确率（ACC）和召回率来评估检测性能，以及使用IoU和Dice指标来评估分割性能。此外，我们采用额外的指标-Chamfer距离[1]来衡量预测的中心点与地面真值中心点之间的距离。给定两个点云P1 � R3，P2 � R3，Chamfer距离可以定义为0d CH ( P 1 , P 20x ∈ S 1 min y ∈ P 2 ∥ x− y ∥ 2 2 + �207580地面真值我们的方法（弱注释） TSegNet VoteNet & PointNet++0图5.不同方法生成的牙齿模型分割结果的视觉比较，以及相应的地面真值。从左到右依次是其他方法的结果（第1-2列）带有完整注释，我们的结果带有弱注释，我们的结果带有完整注释和地面真值。0方法数量牙齿中心点检测牙齿实例分割0准确率召回率中心距离 IoU Dice0FPS 20 84.32 85.40 0.040 93.38 95.97 30 85.4 85.66 0.038 95.57 97.490APS（我们的方法） 20 99.68 85.39 0.037 95.42 97.38 30 99.74 85.370.037 95.67 97.530表2. 使用不同阈值的中心点数量和采样方法时的检测和分割结果。'Number'表示检测阶段检测到的牙齿中心点的数量。04.3. 与竞争方法的比较0实验设置。在本节中，我们将我们的方法与不同的竞争方法进行比较。请注意，我们的DArch和另外两种竞争方法TSegNet和VoteNetPointNet++的所有分割模型都采用基于补丁的训练策略，并融合所有基于补丁的分割结果以生成整个牙齿模型的分割结果。所有分割模型的输入都是通过裁剪最接近的2048个点来生成的，这些点与检测到的牙齿中心点相对应。正如我们在第3.2.1节中提到的，VoteNet和我们的DArch检测到的牙齿中心点是通过NMS过滤生成的。通过阈值处理，VoteNet和我们的DArch可以生成0预测的牙齿中心点的数量不同。检测到的牙齿中心点的数量会影响检测和分割结果。检测召回率可能会随着检测到的牙齿中心点数量的小幅增加而增加，分割性能也可能会提高，但效率会降低，因为需要融合更多的补丁的分割结果。我们的实验统计结果显示，TSegNet模型检测到的平均牙齿中心点数量约为28.6个。为了公平比较并考虑模型效率，我们对VoteNet和我们的DArch的提案进行过滤，并为两种方法生成20个牙齿中心点。结果。总体的检测和分割结果如表1所示，并与这些竞争方法进行了比较。207590在弱标注（即仅标记训练牙齿模型中所有牙齿实例的20%）和完全标注的情况下，我们的DArch在分割性能上均优于竞争的分割方法。由于VoteNet [18]、MLCVNet[34]和Group-free 3D[11]只能用于检测，它们的分割指标是默认的。从表中可以看出，我们的DArch在弱标注和完全标注的情况下都取得了最佳的分割性能。与最先进的3D牙齿实例分割方法TSegNet相比，提出的DArch在IoU和Dice上分别提高了1.1%和0.79%（完全标注），在IoU和Dice上分别提高了2.03%和1.55%（弱标注）。在弱标注的情况下，我们的DArch提升更多。原因可能是我们的方法可以生成更准确的检测结果。由于准确的检测结果，我们的分割模型在弱标注的情况下也表现出色。这也表明，定位牙齿对象对于分割是重要的，而我们提出的弱标注是可行的。我们的方法和其他方法的可视化结果如图5所示。从这个图中，我们可以发现，即使只有弱标注可用于我们的DArch，它仍然可以产生比其他具有完全标注的方法更好的视觉效果，特别是在小牙齿区域。04.4.消融研究04.4.1采样0阈值化质心数量和检测阶段中不同的采样方法会影响检测和分割性能。在本节中，我们研究了不同阈值化质心数量（即20和30）和采样方法（即FPS和APS）对牙齿质心检测和牙齿实例分割的影响。结果报告在表2中。从该表中，我们可以观察到我们提出的APS方法在检测和分割结果方面取得了最佳结果，特别是准确率远高于其他采样方法在不同质心数量上的结果。此外，当阈值化质心数量较低（即20）时，我们的APS仍然能够保持相对一致的检测和分割性能，而FPS下降更多。这也表明，通过利用牙弓先验知识，我们的APS可以检测到比传统的FPS方法更准确的质心点。04.4.2牙弓预测0在我们的工作中，我们提出了一种粗到细的方法来预测牙弓。我们首先使用MLP网络合成一个三次Bézier曲线来初步描述牙弓，然后使用一个轻量级网络来细化初步估计的牙弓。为了验证该方法的有效性0方法准确率召回 MSE（1e-4）0直接� 93.13 85.12 7.50 粗糙 93.44 85.276.22 粗糙+精细 99.89 84.17 4.360表3.牙弓预测的消融研究。直接�表示使用MLP网络直接预测弓形点。粗糙表示仅通过Bézier曲线回归预测弓形点。精细表示进一步细化粗糙预测。0通过粗到细的策略，我们使用不同的方法预测牙弓，例如使用MLP直接预测、粗Bézier曲线回归和我们提出的粗到细策略。结果报告在表3中。该表中的结果表明了我们的粗到细策略在牙弓预测上的有效性。超参数的分析见附录。05.结论0在这项工作中，我们提出了一种新颖的牙齿实例分割框架-DArch。我们的DArch由牙齿质心检测和牙齿实例分割两部分组成。该方法提供了一种新颖的牙弓估计方法，并引入了基于估计牙弓的弓形感知点采样（APS）模块用于牙齿质心检测。由于检测阶段获得了令人印象深刻的检测性能，我们的DArch在弱标注和完全标注的情况下都取得了优越的分割性能。我们的分割器以全监督的方式进行训练，没有充分利用弱标注的质心信息和我们提出的牙弓先验知识。未来，我们将设计一个更智能的分割器，充分利用这些信息。0更广泛的影响。我们DArch的分割器是以全监督的方式进行训练的。当只有少量牙齿被手动标记时，训练数据是有限的，这将限制训练分割器的泛化能力。该模型可能在来自真实世界的未见牙齿模型上生成不准确的分割结果，从而对计算机辅助正畸治疗产生不利影响。0致谢：本工作部分得到了河套深港科技合作区基础研究项目编号HZQB-KCZYZ-2021067、国家重点研发计划项目编号2018YFB1800800、深圳市优秀人才培养资金202002、广东省研究项目编号2017ZT07X152和2019CX01X104的支持。本工作还得到了NSFC-62172348、61902334、深圳市一般项目(JCYJ20190814112007258)和香港中文大学(深圳)信息技术服务办公室管理的高性能计算门户的支持。207600参考文献0[1] Harry G Barrow, Jay M Tenenbaum, Robert C Bolles, andHelen C Wolf.参数对应和Chamfer匹配：图像匹配的两种新技术。技术报告，SRI INTERNATIONAL MENLO PARK CA ARTIFICIALINTELLIGENCE CENTER，1977年。60[2] Paolo Cignoni, Marco Callieri, Massimiliano Corsini,Matteo Dellepiane, Fabio Ganovelli, GuidoRanzuglia等。Meshlab：一种开源的网格处理工具。在欧洲计算机图形学分会会议上，卷2008，页码129-136。意大利萨莱尔诺，2008年。60[3] Zhiming Cui, Changjian Li, Nenglun Chen, Guodong Wei,Runnan Chen, Yuanfeng Zhou, and Wenping Wang. Tsegnet:一种高效准确的基于3D牙齿模型的牙齿分割网络。医学图像分析，69:101949，2021年。1，2，3，60[4] Lei Han, Tian Zheng, Lan Xu, and Lu Fang.Occuseg：一种基于占据感知的3D实例分割方法。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码2940-2949，2020年。20[5] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu,Chi-Wing Fu, and Jiaya Jia. Pointgroup:用于3D实例分割的双集合点聚类。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码4867-4876，2020年。20[6] Harold W Kuhn.匈牙利方法用于分配问题。海军研究后勤季刊，2(1-2):83-97，1955年。50[7] Truc Le, Giang Bui, and Ye Duan.用于3D网格分割的多视图循环神经网络。计算机与图形学，66:103-112，2017年。20[8] Yangyan Li, Rui Bu, Mingchao Sun, Wei Wu, Xinhan Di,and Baoquan Chen.Pointcnn：基于X变换的点卷积。神经信息处理系统进展，31:820-830，2018年。20[9] Ming Liang, Bin Yang, Shenlong Wang, and RaquelUrtasun.深度连续融合多传感器3D物体检测。在欧洲计算机视觉会议(ECCV)论文集中，页码641-656，2018年。20[10] Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, andSanja Fidler.基于Curve-GCN的快速交互式对象注释。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码5257-5266，2019年。20[11] Ze Liu, Zheng Zhang, Yue Cao, Han Hu, and Xin Tong.通过Transformer进行无组群的3D物体检测。arXiv预印本arXiv:2104.00678，2021年。6，80[12] Daniel Maturana and Sebastian Scherer.Voxnet：一种用于实时物体识别的3D卷积神经网络。在2015年IEEE/RSJ国际智能机器人与系统大会(IROS)上，页码922-928。IEEE，2015年。20[13] Ehsan Nezhadarya, Yang Liu, and Bingbing Liu. Boxnet:一种从鸟瞰视角点云中估计2D边界框的深度学习方法。在2019年IEEE智能车辆研讨会(IV)上，页码1557-1564。IEEE，2019年。20[14] Hassan Noroozi，Tahereh Hosseinzadeh Nik和RezaSaeeda。重新审视牙弓形态。《角度正畸学家》，第71卷（5）：386-389页，2001年。40[15] Guan Pang和UlrichNeumann。使用多视图卷积神经网络进行3D点云物体检测。在2016年第23届国际模式识别会议（ICPR）上，第585-590页。IEEE，2016年。20[16] Jeong Joon Park，Peter Florence，Julian Straub，RichardNewcombe和StevenLovegrove。Deepsdf：学习用于形状表示的连续有符号距离函数。在IEEE /CVF计算机视觉和模式识别会议上，第165-174页，2019年。20[17] Sida Peng，Wen Jiang，Huaijin Pi，Xiuli Li，HujunBao和Xiaowei Zhou。用于实时实例分割的深度蛇。在IEEE /CVF计算机视觉和模式识别会议上，第8533-8542页，2020年。20[18] Charles R Qi，Or Litany，Kaiming He和Leonidas JGuibas。用于点云中的3D物体检测的深度Hough投票。在IEEE /CVF国际计算机视觉会议上，第9277-9286页，2019年。2，4，5，6，80[19] Charles R Qi，Wei Liu，Chenxia Wu，Hao Su和Leonidas JGuibas。用于RGB-D数据的锥体PointNet进行3D物体检测。在IEEE计算机视觉和模式识别会议上，第918-927页，2018年。50[20] Charles R Qi，Hao Su，Kaichun Mo和Leonidas JGuibas。PointNet：用于3D分类和分割的点集深度学习。在IEEE计算机视觉和模式识别会议上，第652-660页，2017年。20[21] Charles R Qi，Hao Su，Matthias Nießner，AngelaDai，Mengyuan Yan和Leonidas JGuibas。用于3D数据上的物体分类的体积和多视图CNN。在IEEE计算机视觉和模式识别会议上，第5648-5656页，2016年。20[22] Charles R Qi，Li Yi，Hao Su和Leonidas JGuibas。PointNet++：度量空间中点集的深层次特征学习。arXiv预印本arXiv：1706.02413，2017年。2，4，5，60[23] Shaoqing Ren，Kaiming He，Ross Girshick和JianSun。更快的R-CNN：使用区域建议网络进行实时物体检测。神经信息处理系统的进展，第28卷：91-99页，2015年。50[24

下载后可阅读完整内容，剩余1页未读，立即下载