没有合适的资源?快使用搜索试试~ 我知道了~
智能系统与应用17(2023)200183方头肌下隐窝扩张Marco Colussia,Marco,Gabriele Civitaresea,Dragan Ahmetovica,Claudio Bettinia,Roberta Gualtierottib,c,Flora Peyvandib,c,Sergio MascettiaaUniversità degli Studi di Milano,Department of Computer Science,Via Celoria,18,20133,Milan,Italyb米兰大学病理生理学和移植系,Via Pace,9,20122,米兰,意大利cFondazione IRCCS CaA R T I C L E I N F O A B S T R A C T保留字:多任务学习临床决策支持积血关节出血是血友病患者的常见病,如果不治疗,可能导致血友病性关节病。超声成像最近已成为诊断关节出血引起的关节窝扩张的有效工具。然而,没有计算机辅助诊断工具存在,以支持医生在诊断过程中。本文研究了方头肌下隐窝的自动检测问题在血友病患者收集的超声图像中,在构建问题之后,我们提出了两种不同的方法:第一种是针对任务采用单阶段对象使用483张带注释的图像进行的实验评估表明,仅基于对象检测的解决方案具有0.74的平衡准确度得分,平均IoU值为0.66,而多任务方法具有更高的平衡准确度值(0.78),代价是平均IoU值略低1. 介绍血友病是一种遗传性血液凝固障碍,导致出血风险增加,由于创伤或自发,这与疾病的严重程度有关。关节(主要是踝关节、膝关节和肘关节)和肌肉内也可能经常发生眼睑破裂,这些部位共同导致血友病患者约80%的出血事件(Roosendaal Lafeber,2003,Srivastava et al.,2020年)。关节出血会导致切除的关节窝扩张,如果复发,可导致滑膜增生、骨软骨损伤和血友病性关节病(Hilgartner,2002)。因此,必须及时识别关节窝扩张。体格检查可能不足以诊断关节窝扩张,因为在早期它可能是无症状的(Plut et al.,2019年)。磁共振成像(MRI)通常被认为是精确评估关节的金标准工具,但由于成本高、可用性有限和检查时间长,其对于血友病患者的定期随访并不实用(Plut等人,2019年)。替代解决方案是超声(US)成像(Wells,2006),其与MRI相反,具有低成本、短检查时间并且其是广泛可获得的(Joshua等人,2007年)。血友病早期关节病检测*通讯作者。超声(HEAD-US)是一种标准化的方案,其设计用于指导从业者获取相关的US图像并解释它们以诊断6个最常见的受累关节中的关节窝扩张(Martinoli等人,2013年)。计算机辅助诊断(CAD)系统可以提高检测准确性(Chan等人,1990年),并减少所需的图像读取时间 实践者(Doi,2005)。最近的研究表明,基于美国的CAD系统支持血友病患者关节扩张诊断的潜在有效性,这些研究关注于识别与损伤相关的关节健康(Long等人,2020年)。在这项工作中,我们制定的研究问题,支持医生在诊断关节窝扩张的血友病患者使用CAD系统。该问题包括检测US图像内的关节窝并将其分类为扩张或非扩张。具体来说,我们专注于膝关节的主关节窝,也称为股四头肌下窝(SQR)。我们考虑SQR纵向扫描,这是HEAD-US方案中针对该关节规定的三种扫描之一(Martinoli等人,2013年)。一项先前的工作解决了在患有血友病的儿科患者中检测SQR扩张的问题(Tyrrell等人,2021年),但有关方法和评估的具体细节并未报告。电子邮件地址:marco. unimi.it(M. Colussi),gabriele. unimi.it(G. Civitarese),dragan.ahmetovic@ unimi.it(D. Ahmetovic),claudio. unimi.it(C.Bettini),roberta. unimi.it(R. Gualtierotti),unimi.it(F。Peyvandi),sergio. unimi.it(S. Mascetti)。https://doi.org/10.1016/j.iswa.2023.200183接收日期:2022年7月26日;接收日期:2022年12月6日;接受日期:2023年1月14日2023年1月20日在线提供2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect智能系统及其应用杂志主页:www.journals.elsevier.com/intelligent-systems-with-applicationsM. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001832Fig. 1. 图像采集。除了提出研究问题外,我们还提出了两种方法来解决这个问题:第一种方法称为检测方法,采用最先进的对象检测来发现US图像中的膨胀或非膨胀SQR,并返回具有最高置信度的检测结果。第二种解决方案称为多任务方法,使用多任务学习过程,目的是同时检测US图像内的SQR并将其分类为扩张或非扩张。实验是在一个新的图像数据集上进行的,由于缺乏其他公开可用的数据集,我们收集并注释了这些数据集。在我们的数据集中,我们收集了来自208名血友病成人受试者的450多张图像,这与文献中的其他研究一致(Tyrrell et al.,2021,Wang等人,2022,Long等人,2020年)。在实验中,我们比较了两个提出的解决方案,并与两个基线,一个分类基线和一个检测基线。结果显示,多任务方法和检测方法在平衡准确性方面都优于分类基线。此外,多任务方法在平衡的准确性和灵敏度方面优于分类基线和检测方法,正如我们在下文中所激励的那样,这与给定的问题特别相关。为了什么在检测精度方面,检测方法比多任务方法具有稍好的性能,并且它保持与检测基线一致。综上所述,本文的创新贡献如下:• 我们制定了从US图像中检测和分类SQR距离的问题• 我们提出两个解决方案来解决这个问题。• 我们评估并比较了从208例患者收集的数据集上提出的解决方案。2. 问题公式化在这项研究中,我们解决了SQR隐窝的自动检测问题,并将其分类为扩张或非扩张。2.1. 超声图像超声(US)(Chan Perlas,2011)是一种非常流行的医学成像技术。它是便携式的、安全的和可拆卸的,因此通常用于医疗保健(Brattain等人,2018年)。然而,这种技术的一些局限性是高度依赖于操作者专业水平和所获取图像的可能噪声(Plut等人,2019年)。超声成像使用高频声波信号。然后测量信号的反射以表示图像。该技术可以产生具有高空间分辨率的身体内部结构的图像,如肌腱、骨骼、血液和肌肉(Wells,2006)。图像以灰度表示,其中每个PIXEL值描述信号遇到的材料的密度。亮区代表回声组织(即反射声波的区域),而暗区域表示无回声的(即,不反射声音的)结构如液体。另一个需要考虑的因素是,回声组织,如骨,屏蔽了不能穿过它们的信号,因此不可能检测到它们下面的任何东西。如图1所示的一个例子:髌骨在浅色中清晰可辨(见红色方框),而其下方的区域几乎全黑。2.2. SQR纵向扫描我们专注于HEAD-US方案中规定的三种膝关节扫描之一,用于收集和诊断血友病患者的关节窝扩张(Martinoli等人,2013):SQR纵向扫描。该扫描用于评估SQR扩张,并包含不同的特征元素(见图1)。1):• 股骨(蓝色方框)通常显示为一条浅粗线,近似于X线水平,从图像的左侧开始并向右侧延伸,通常位于图像的下半部分。• 髌骨(红色方框)通常显示为一条弯曲的光线,位于图像的右边界,通常位于上半部分,没有完全被捕获。• 股四头肌腱(棕色方框)表现为由回声平行线(即,它们表现为细的水平条纹),起源于髌骨。SQR(绿色盒)位于股骨和髌骨之间 并且通常包含至少少量的液体,因此它是暗的。在某些情况下,关节隐窝膜可以以灰色可见。SQR的大小和形状取决于许多因素,包括它是否扩张,如下所述。图1b示出了在SQR纵向扫描的采集期间探头必须如何定位。在图中,黄色方框X是图中所示的US图像捕获1a,而绿色框X是SQR。为了正确获取这种类型的图像,膝盖必须M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001833图2. 纵向SQR扫描的示例。在30度左右弯曲。探针必须定位在髌骨的起始处,并水平移动,以识别前面描述的正确关键特征。为了正确采集SQR纵向扫描,需要指定多个超声探头参数。这些参数中的一些需要针对每个患者进行个性化设置(如增益、焦点和动态范围),而其他参数的值可以预先确定,如频率和深度,在我们的研究中分别设置为12 kHz和40 - 50 kHz。2.3. SQR扩张关节窝可能由于三个主要原因而扩张: 若有血,则为血,若有血,则为血。如关节积血),以及如果其膜由于称为滑膜炎的炎症而变厚。近似凹槽位置可以从第2.2节中描述的三个特征元件的位置推断(即,髌骨、股骨和肌腱):凹部位于肌腱下方、股骨最右端上方和髌骨左下方。为了确定凹部的确切位置,从业者观察存在于该区域中的无回声区域。凹处看起来是一个被较亮的膜包围的黑暗区域为了确定SQR是否扩张,我们依赖于医师对US图像的评估。医生观察凹陷,并定性地确定它是否肿胀,这是它它是由液体填充的,或者它的膜变厚了。相反,非扩张的凹部应该呈现为细线。 我们强调,使用成像数据的主观评估作为基础事实是临床评价中的常见做法(Long等人, 2020年)。 实际上,虽然两种替代方法是可能的,但它们是不切实际的:MRI是昂贵且耗时的(Plut等人,2019年),虽然愿望通过穿刺(关节穿刺术)来吸收液体是侵入性的,特别是在患有出血性疾病如血友病的患者中(Peyvandi等人,2016年)。图2示出了纵向SQR扫描的三个示例。在图2a中,SQR是绿色方框中显示的暗区。在这种情况下,SQR它是薄的,因此它不会膨胀。反之亦然,在图2b中,SQR厚得多,表明它是扩张的。虽然图2a和图2b显示了两个典型的典型例子,但也有临界情况,即SQR似乎略有扩大,但并没有扩张(见图2a和图2b)。2C)或它是非常轻微的扩张。与来自Angelo Bianchi Bonomi血友病和血栓形成中心的医生(其中两位也是本文的作者)进行的访谈显示,需要计算机辅助工具(CAD)来支持医生诊断SQR扩张。 该工具可以用作关节积血早期诊断方案的一部分,这与血友病患者特别相关(Gualtierotti等人,2021,Plut等人,2019年)。事实上,直接识别关节积血,超声图像特别具有挑战性,因为它需要区分血液和滑膜积液以及血液凝块和滑膜增生,两者看起来非常相似。为了在诊断过程中为医生提供支持,CAD工具应识别特定US扫描内SQR的位置,并将其分类为扩张或非扩张。2.4. 问题建模在机器学习方面,CAD工具需要实现分类和检测技术的组合。关于分类,现有的模型可以直接应用于给定的问题,定义两个类别,一个是扩张的,另一个是非扩张的。对于检测问题,我们将凹部建模为要检测的目标对象。可以采用两种可能的解决方案:对两个不同的对象类(即,一个用于扩张的凹部,另一个用于非扩张的凹部)或对单个类别(即,表示扩张和非扩张的凹部)。在这两种情况下,直接应用现有的对象检测算法将无法正确地建模给定的问题。实际上,现有的对象检测技术假设可以在单个图像中检测来自相同或不同类别的多个对象。例如,这在肿瘤检测的问题中是适当的,因为多个恶性和良性肿瘤可以在同一图像中可见(Mohiyuddin等人,2022年)。而应 对于给定的问题,我们可以从领域知识中推断出单个对象(即,凹部)在每个图像中是可见正如我们在下面所展示的,我们使用检测方法两个不同的类,而使用多任务方法,我们建模单个类。此外,这两种解决方案都通过为每个输入图像返回单个对象来3. 方法对于第2节中定义的问题,我们提出了两种解决方案。第一个解决方案,我们称之为检测方法,在第3.1节中描述。它基于最先进的检测技术,来解决检测和分类问题。 第二个解决方案,我们称之为多任务方法(见3.2节),是一个多任务网络,其中一个分支解决检测问题,另一个分支解决分类问题。3.1. 检测方法图3描绘了检测方法的网络架构。每个输入US图像由YoloV5处理(Jocher等人,2022)对象检测器,该对象检测器返回一组候选SQR,每个候选SQR由置信度值、边界框和标签(膨胀或膨胀)表征。M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001834图三. 检测方法的总体架构。非扩张)。由于在所考虑的域中,输入图像实际上只包含一个SQR,因此检测后处理模块选择具有最高置信度的预测,并输出其边界框X及其标签。检测到的元素的边界框以及它们的预测类。损失函数我们使用默认的YOLOV5损失函数,如公式(1)所示,并计算为三个值的加权和我们训练网络识别两类物体:利用:a)定位损失(���)是用完全IoU损失计算的���������SQRs和非扩张SQRs。由于标记图像的数量这个领域通常是稀缺的,很难收集到足够的信息。大型数据集,以充分训练强大的检测网络。所以我们函数(CIoU)(Zheng等人,2020),并表示PO中的误差b)类损失(classloss,简写为Loss)是用二进制交叉熵(Binary Cross-Entropy,简写为BCE)计算的,表示分类中的误差���采用迁移学习方法(Cheng Malhi,2017)来初始化C.预测类; C.客观性损失(���)计算,���������网络具体来说,我们使用预训练的权重pub。可用于YoloV5网络,在MS COCO数据集上训练(Lin等人,2014年)。最后,网络在包含标记的US图像的实际数据集上进行微调YoloV5是一个单级检测器,旨在检测图像中的不同对象,并直接为它 们 分 配 相 应 的 类 别 。 YoloV5是 YoloV4 框 架 的 优 化 版 本(Bochkovskiy等人,2020),其已在文献中广泛用于对象检测任务。具体而言,在YoloV5提供的五个模型中,我们使用大型模型,该模型是根据经验选择的,因为它在初步测试中取得了最佳结果。YoloV5内部分为特征提取子网络和检测子网络。其亦采用特定损失函数及提早终止准则。这四个概念在下文中简要描述。特征提取子网络特征提取子网络是卷积神经网络(CNN)。具体来说,它是一个CSPDark-net 53网络,最初是在C中提出Y. Wang等人(2020),并且这被证明对于对象检测特别有效(Bochkovskiy等人,2020)和超声图像分类(Jabeen等人,2022年)。检测子网检测子网络分为一个颈部,和头部部分。颈部部分的总体目标是将图像划分为多个小片段,目的是通过执行语义分割(通过将类别与PIXEL相关联)以及实例分割(在pixel级别对对象进行分类和定位)来简化进一步的分析。头部是一个单阶段检测器(Redmon Farhadi,2018),它处理颈部返回的特征并输出BCE,表示预测边界块X ac-实际上包含感兴趣的对象。这些值的权重是需要根据经验调整的超参数(见5.4节)。������������������������������������������=提前停止标准我们使用默认的YOLOV5提前停止标准来终止训练,如果在给定数量的训练时期内结果没有改善。此默认标准考虑检测的平均精度(mAP),即,考虑到IoU的给定阈值与相应的地面真值,正确分类的边界框的比率。请注意,在多类场景中,该标准考虑了对象的正确分类和正确检测。具体而言,它被计算为mAP@0.5和mAP@0.5:0.95的加权和,其中对于mAP@0.5给出0.1的权重,并且对于mAP@0.5:0.95给出0.9的权重,以便优先考虑更准确的边界框检测。3.2. 多任务方法检测方法通过选择具有最高置信度的检测标签来解决将SQR分类为扩张或非扩张的问题另一种(可能更自然)的解决方案是对整个图像进行然而,这不会提供所需的SQR边界框X。出于这个原因,我们提出了将图像分类和检测配对的多任务方法(见图11)。4)。所提出的网络是用于检测方法的网络的修改版本。密钥修改由执行SQR二进制分类的分类子网络组成输入M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001835图第四章多任务方法的总体架构。图像首先由特征提取子网络进行处理,该子网络用于分类和检测任务。然后,提取的特征由检测子网络和分类子网络同时处理。分类子网络处理特征并返回预测的SQR类(即膨胀或不膨胀)考虑到整个图像。与检测方法解决方案不同,多任务解决方案中的检测子网络的目标仅仅是检测SQR,而不提供关于扩张的信息。因此,检测子网络网络使用单个类进行训练,并且它返回一组边界框,所有边界框都属于同一类,每个边界框都具有关联的置信度值。检测后处理模块选择具有最高置信度的边界框。在训练阶段,多任务损失联合考虑分类和检测的错误,以更新网络权重。3.2.1. 分类子网图5显示了多任务方法的分类子网络。子网络的第一层是自适应平均池层,负责将特征维度减少到固定的二维输出大小。然后,将输出提供给Flatten Layer,该层将二维数据转换为一维数组。然后,这个数组由一个完全连接的网络处理,该网络由两个隐藏层组成,分别为1024和512个单元。这些层使用ReLu激活函数。在两个隐藏层之间应用dropout层,目的是减少过拟合。最后,Softmax层负责提供最可能的类(即,膨胀/非膨胀)。这个网络的架构已经确定经验。3.2.2. 多任务损失训练多任务网络需要一个自定义的损失函数,同时考虑分类和检测误差。出于这个原因,我们通过添加一个代表分类子网络误差的新损失项来调整用于检测方法的损失函数。具体来说,我们采用了一种典型的解决方案,图五. 分类子网架构。二进制分类,包括计算分类误差���带BCE功能的 键 盘。关于检测方法中使用的损失函数的另一个区别是,在多任务方法中,检测子网络是用单个类训练的,因此类预测不可能有错误因此,在等式(1)中考虑的最小参数总是零。因此,总体多任务损失被计算为加权和,如等式(2)所示。������������������������������������这些权重是需要根据经验调整的超参数(见5.4节)。������������������������������������������������=由于该领域的数据集通常是高度不平衡的(例如,在我们的数据集中,75%的图像被标记为非膨胀),存在网络支持非膨胀分类的风险,这反过来可能会增加假阴性的数量为了缓解这个问题,我们调整了分类损失的估计,以给出更高的误差。M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001836假阴性(false negative),扩张SQR归类为非扩张)。这是通过在地面真值为“膨胀”时向“扩展”添加额外权重来实现的。���������具体而言,为了实现平衡分类,权重计算为训练集中非扩张和扩张样本之间的比率由于这种方法,膨胀样本上的误差对整体损失的影响更大3.2.3. 多任务早停准则如上所述,对于检测方法,基于mAP的默认YOLOV5提前停止标准用于停止训练,如果在指定数量的时期内没有检测到改进。相反,对于多任务方法,由于检测是针对单个类别计算的,因此mAP不考虑分类准确性,而只考虑检测准确性。因此,对于多任务方法,我们考虑将mAP@0.5的加权和用于检测,并将平衡准确度用于验证集上的分类。特别是,我们为平衡精度提供了更高的权重(0.7),为mAP@0.5(0.3)提供了更低的这是因为我们更喜欢在分类上更加准确,而代价是识别出稍微不太准确(但仍然提供信息)的边界框。我们考虑100个epoch的耐心值,这意味着如果早期停止标准没有针对耐心值指定的epoch数进行改进,则停止训练。4. 数据集尽管存在分析相关区域的US图像(膝盖的SQR扫描)的现有工作(Tyrrell等人,2021,Wang等人,2022,Long等人,2020年),这些作品都没有提供公开的数据集。因此,我们收集了2021年1月至2022年5月期间208例成人血友病患者(年龄44.7 ± 18.6岁)的该数据集的收集得益于与米兰综合医院的“Centro Emofilia e TrombosiAngelo Bianchi Bonomi”(一家专门治疗血友病的医疗机构)的合作由专门接受过血友病患者SQR扩张诊断培训的专家医生对图像进行注释这项研究得到了该机构伦理委员会的批准在采集数据集之前,我们首先定义了一个标准化的数据采集协议,包括:a)基于HEAD-US的检查程序(Martinoli等人,2013)方案; b)关于在就诊期间如何使用超声设备的指南,例如,定义在获取图像本身时应当注释关节侧(左或右); c)用于从超声设备提取数据的程序; d)数据伪匿名化过程。对于每名患者,医生从不同关节的各种扫描中收集了几张US图像。在这项研究中,我们选择了SQR纵向扫描。每次访视期间通常收集两张SQR纵向扫描图像,每个膝关节(左/右)一张,但对于某些患者,我们只有一张图像,而其他患者则访视两次(通常相隔数月),因此,四张图片。4.1. 数据采集和注释在血友病患者的常规访视期间,由一名专业医生使用Philips A Penniti50US设备1当收集图像时,如图所示定位探头 在图1b中,将膝关节伸直30°。每个图像都有分辨率1024 × 780,如图1 a所示,它包含采集参数(保存为图像中的文本)和实际US扫描(即图中的黄色矩形1a),其大小可以变化。1www.usa.philips.com/healthcare/product/HC795208/a超声系统。注释过程分为三个阶段。第一阶段是图像选择:在从US扫描仪采集的所有图像中,选择代表膝关节SQR纵向扫描的图像。医师丢弃不合适的图像,如未成年患者的图像、具有假体的患者的图像或具有错误膝关节弯曲角度的图像。在这个阶段之后,总共选择了483张图像。第二阶段是凹进边界框注释。使用注释工具(Tzutalin,2015),从业者使用第2.3节中介绍的方法识别SQR位置,并绘制边界框(边缘平行于轴的矩形第三阶段是分类标记:使用第2.3节中介绍的方法,医生评估隐窝是否扩张,并将此信息输入注释工具。基于该过程,在483个SQR纵向扫描中,360个被标记为非扩张,123个被标记为扩张。4.2. 预处理我们对收集的图像进行预处理以提取实际的US图像(例如,图1a中的黄色盒子事实上,如先前所观察到的(Lin等人,2020,Long等人,使用US器械返回的整个图像可能会降低分类准确性,因为图像的这一部分不包含所需任务所需的信息。正如Tingelho Jesus等人(2008年)所建议的,我们最初手动裁剪图像。然而,这个过程是耗时的。因此,我们开发了一种算法,从收集的图像中自动提取US扫描。图6示出了预处理算法的步骤。 在第一步中,我们测量并二值化图像的梯度;然后我们移除由少于1000个非零像素组成的连接像素组;之后,我们膨胀图像以填充黑色像素的小组,并且我们执行打开操作以移除像素组。 不属于在先前步骤中与其合并的US扫描的元素。我们用上一步得到的白色区域的边界框裁剪原始图像。最后,将图像调整为256 × 256像素。作为注释的一部分,所有图像都经过了双重检查过程中,没有发现裁剪误差,表明所提出的自动预处理是可靠的。5. 评价在本节中,我们描述了对上述数据集进行的实验评估。首先,我们介绍了研究中使用的基线。然后,我们描述了所采用的评估方法,指标,我们描述了我们如何选择超参数。最后,我们展示了这两种解决方案的结果,并将它们与两个基线进行了比较。我们通过展示所提出的解决方案的应用示例来结束本节,通过讨论结果。5.1. 基线为了评估这两种解决方案的有效性,我们将它们与两个基线进行比较,每个基线用于我们解决的两个任务:分类和检测。分 类 基 线 是 一 个 二 进 制 分 类 器 , 它 使 用 Darknet53 ( Redmon&Farhadi,2018)作为特征提取器(即,,与在多任务和检测方法中)。然后将特征向量传递到执行分类的全连接层。与我们提出的解决方案一样,特征提取器在训练期间进行了预训练和冻结。我们认为这种方法是分类识别率的基线,因为它代表了广泛采用的医学图像分类解决方案(Sarvamangala Kulkarni,2022)。Detection baseline是一个对象检测器,其架构与Detection方法相同。与检测方法的主要区别在于,检测基线检测单个类,M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)20018372见图6。帧提取过程的中间步骤。SQR,而不考虑它是否膨胀。检测基线输出以最高置信度检测到的对象。我们选择该解决方案作为检测任务的基线,因为该技术在文献Sarvamangala和Kulka-rni(2022)中被广泛采用,并且与检测方法不同,它只关注 在SQR检测任务上,不考虑分类任务。由于检测基线解决了比我们的解决方案更简单的问题,因此它代表了我们解决方案检测性能的上限。为了公平地比较这四种技术(两种基线和这两个提出的解决方案),数据遵循第5.3节中描述的相同预处理和训练管道。出于同样的原因,所有四种技术都使用相同的交叉验证分割进行评估5.2. 度量我们定义了两组度量:一组用于检测,另一组用于分类。对于涉及到的检测,我们测量了平均交集对并集(IoU)。两个平面图之间的IoU被定义为它们相交的面积与它们的并集的面积之比当测量给定技术的性能时,对于每个测试图像,我们测量预测边界boX和地面真实边界boX之间的IoU。然后,我们在所有测试图像中计算该度量的先前的文献通常认为IoU≥ 0.5的检测是正确的(Everingham等人,2010年)。因此,我们认为这是可接受的IoU结果的阈值。考虑到分类,对于每个图像,我们将地面真值类与预测类进行比较,从而计算结果是真阳性(TP)、真阴性(TN)、假阳性(FP)还是假阴性(FN)。请注意,阳性类别为扩张,阴性类别为非扩张。然后,我们使用以下分类指标:• 特异性:衡量模型识别真实阴性的能力。 特异性被定义为• 灵敏度:测量模型识别真������������阳性的能力。 灵敏度被定义为灵敏度• 平衡准确度:指������������的是特定性和灵敏度。与准确性相比,当类不平衡程度高(Brodersen等人,2010年)。平衡准确度定义为平衡误差+平衡误差表1EX 5倍交叉验证的0倍中的样本数据分布。折叠0列车试验总非扩张289 71 360膨胀97 26共计386 97 483患者总数166 42 208• 置信区间(CI):分类和检测结果的95%置信区间。CI通过指示同一实验的重复结果在95%的时间内应落在的范围来提供结果的可靠性度量,从而显示报告结果的一致性水平(CI Rule,1987)。5.3. 评价方法建议的解决方案的识别率的评估是基于5倍交叉验证。为了避免高相关性偏差,训练和测试分割不具有来自相同患者的共同图像。结果是,我们无法将数据集精确地划分为80%和20%的分割,因此分割的图像数量略有不同。折叠细分示例见表1。每个训练折叠被进一步分割:80%作为训练集 , 20% 作 为 验 证 集 。 在 训 练 期 间 , 我 们 使 用 具 有 动 量 的 SGD(Sutskever等人,(2013年)作为优化器。5.4. 超参数选择为了适当地调整我们网络的许多超参数,我们采用了一种进化方法(Bochinski et al., 2017年)。 给定一个拟合函数,进化算法通过变异和交叉操作来评估最佳拟合的超参数集。为了这项工作,我们考虑了YOLOV5中提出的进化方法,该方法只考虑90%概率和0.04方差的变异操作。每个突变步骤生成一组新的超参数,给定来自所有前几代的最佳亲本的组合。用于检测方法和多任务方法的超参数选择的拟合函数分别对应于第3.1节和第3.2.3节M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001838表2选定的超参数。学习率辍学新加坡元动量������������检测多任务0.003690.0018–0.776280.624030.068680.054270.490620.675980.2343––表3评价结果(报告为倍数平均值±标准差)。平衡精确度规格灵敏度IOU分类基线0.73± 0.030.85 ±0.090.61± 0.13–检测基线检测方法0.74 ± 0.070.97 ±0.030.52 ± 0.120.66 ±0.01*多任务教学法0.78±0.050.92 ± 0.040.64 ±0.090.63 ± 0.02图第七章 混淆矩阵。为了平衡对大量进化时期的需求与有限的计算资源,我们仅在一个折叠上运行进化算法。我们对每个解决方案执行了300个epoch的进化算法。考虑到多任务方法,在第193个时期获得了最佳结果,而对于检测方法,在第4个时期找到了最佳超参数集。从进化中得到的超参数集已被用来评估我们的方法在完整的交叉验证过程。表2中列出了最相关的超参数。请注意,R2是与仅在检测方法中考虑的干扰损失相关联的权重,而R3是与仅在多任务方法中考虑的干扰干扰损失相关联的权重。���最后,辍学率仅包含在多任务方法的分类子网络中。5.5. 结果表3显示了两个基线和两个拟议解决方案的性能。请注意,为了公平地比较检测方法与检测基线和多任务方法,计算检测方法的平均IoU(标记为*)时忽略了预测类。这意味着,对于检测方法,我们考虑具有最高置信度的检测的边界BOX,而不考虑检测到的BOX的类是否实际上是正确的。由于多任务方法的早期停止标准和超参数选择方法都是以牺牲检测准确度为代价来优先考虑分类准确度的,因此其平衡准确度被确认为高于检测方法。具体而言,检测方法具有平衡的准确度为0.74(95% CI [0.73 − 0.75]),比达到平衡准确度0.73(95%CI [0.72 − 0.74])的分类基线略有改善。多任务方法的平衡准确度为0.78(95% CI [0.77 − 0.79]),优于分类基线和检测方法。检测基线和检测方法的IoU指标均为0.66(95% CI [0.65 − 0.66]),并降至0.63(95% CI [0.62 − 0.63])。如第5.7节所述,这些结果表明,多任务方法是所考虑问题的最合适的解决方案,因为根据现有文献它具有可接受水平的平衡精度和IoU(Power等人,2013年,Everingham等人,2010年)。考虑到置信区间也支持这一结论:多任务方法置信区间范围完全高于分类和检测的阈值,平衡准确度CI与检测方法区间不相交,表明其性能始终更好(Schenker Gen- tleman,2001)。多任务方法的平衡准确度值的增加在很大程度上受到灵敏度增加的影响。这种增加的原因可能是由于为缓解不平衡数据问题而引入的多任务方法中的调整后分类损失(见第3.2.2节)。事实上,考虑图7中的混淆矩阵,我们可以观察到,在总共123个标记为膨胀的图像中,检测方法具有59个假阴性(48%),而多任务方法中有44个假阴性(38%)。这种改进是以较低的特异性值为代价的,然而,正如我们在5.7节中所激励的那样,特异性值在给定域中的相关性低于敏感性。5.6. 示例为了更好地说明我们的方法是如何工作的,下面我们展示一些正确和不正确的输出示例M. 科卢西湾Civitarese,D.Ahmetovic等人智能系统与应用17(2023)2001839图8. 两种解决方案都正确分类的图像示例。紫色箭头指向股骨,橙色箭头指向髌骨,绿色方框X表示SQR。图8显示了两种方法都正确分类的两个US图像,并且相对容易被医学专家分类。图8a示出了US图像,其中股骨、髌骨和SQR清晰可见,并且SQR薄(即,不膨胀)。另一方面,图8b示出了扩张的SQR的示例。在这种情况下, SQR明显较厚,因此扩张。图9示出了即使由医学专家分类也更具挑战性的图像的四个示例。这通常发生在US扫描中存在噪声时(如图9c所示)或当SQR介于扩张和非扩张之间时(如图9d所示)。图9a通过两种入路正确分类为非扩张。图9b通过多任务方法而不是检测方法正确分类。反之亦然,图9c是通过检测方法而不是多任务方法正确分类的。最后,两种解决方案都错误地将图9d分类。考虑到检测问题,图10示出了US图像,其中两种方法检测到具有最低和最高IoU的SQR。在图10a中,多任务方法错误地将在位置方面与实际SQR相似的图像区域检测为SQR和形状,导致非常低的IoU值(0.33)。 在这种情况下,检测方法也不能准确地可靠地检测正确的目标,并且实际上它仅检测到实际SQR的一小部分(IoU=0.05)。相反,在图10b中所示的示例中,多任务方法准确地检测SQR(IoU=0.95),而检测方法准确地检测SQR(IoU=0.95)。该方法识别出具有较低IoU(0.68)的相同区域图10c示出了检测方法提供最低IoU值的US图像。 该问题类似于图10a的问题:区域被错误地识别为SQR,因为它类似于SQR。 SQR。在这种情况下,检测到的边界boX不与地面实况重叠,因此IoU为零。相反,多任务方法基本上检测到正确的目标(IOU=0.58)。图10d示出了检测方法提供最高IoU值(0.96)的US图像。在这种情况下,多任务方法识别正确目标的准确性较低,导致IoU为0.55。5.7. 讨论实验评估表明,多任务方法的结果在一个更好的平衡精度相比,检测方法。这一点特别重要,原因有二。首先,多任务方法的平衡准确度置信区间完全高于0.75的阈值,据报告,该阈值是医疗诊断的要求。测试是2013年)。因此,多任务方法适合我们的应用领域。多任务方法的另一个重要特性是,相对于检测方法,它产生了更高的灵敏度值(+12%),但代价是更低的特异性值(-5%)。 这一点特别重要,因为在所考虑的领域中,敏感性应优先于特异性。事实上,假阴性(通过灵敏度捕获)对患者的影响比假阳性(通过特异性捕获)更严重。这是由于假阳性预测可能导致在不需要时引起从业者的注意,并且在更坏的情况下,可能导致过度治疗(例如,当实际上不需要时提供因子VIII),这通常对患者产生有限的负面影响。相反,假阴性预测可能导致治疗不足,进而导致永久性关节损伤(Hilgartner,2002)。考虑到检测性能,我们可以观察到,当IoU高于0.5时,这是定义“正确”检测的常见阈值,SQR直观地被正确检测到,因此可以在检查期间支持从业者。 例如,在图10d中,红色框X的IoU为0.55,实际上它正确地检测到了正确的区域,尽管边界矩形比地面真实值略短和略大。在超过82%的情况下,这两种解决方案的IoU都在0.5以上(检测方法为85%,多任务方法为82%)。在这些情况下(以及在IoU低于0.5的许多情况下),目标SQR被正确地检测到,但是检测到的边界框是不精确的。只有少数情况下,这些技术检测到错误的目标,如图1A和图1B的示例。10a和10c。6. 相关工作在本节中,我们首先报告了在广泛领域的相关工作 美国的CAD系统然后,在第6.2节中,我们报告了关于超声图像中关节窝扩张的分类和检测的现有文献,并将现有工作与我们的解决方案进行了比较。6.1. 美国CAD系统已经研究了使用医学成像数据的机器学习(ML)技术,以支持医生诊断各种疾病(Fujita,2020)。特别地,超声(US)(Chan Perlas,2011)是一种非常流行的医学成像技术,通常也被用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功