没有合适的资源?快使用搜索试试~ 我知道了~
10632识别&定位阳性样本对比剂关注病理诊断•浸润•质量•气胸Align,Attend and Locate:有限监督下对比剂诱导注意网络在胸部X线诊断中的 应用Jingyu Liu1人,Gangming Zhao2人,Yu Fei1人,Ming Zhang1人,Yizhou Wang1人,2人,3人,YizhouYu2人†1北京大学2Deepwise AI Lab3鹏程实验室摘要胸部X射线图像中疾病的准确识别和定位所面临的障碍在本文中,我们提出了一个对比度诱导注意力网络(CIA-Net),它利用胸部X射线图像的高度结构化属性,并通过对比学习对齐的阳性和阴性样本来定位疾病。为了迫使atten- tion模块专注于异常,我们还引入了一个可学习的对齐模块来调整所有输入图像,这消除了在不良扫描条件下生成的X射线图像的尺度、角度和位移的变化我们表明,对比注意力和对齐模块的使用允许模型仅使用少量的位置注释来学习丰富的识别和定位信息,从而在NIH胸部X射线数据集中获得最先进1. 介绍胸部X线图像分析在胸部疾病的临床诊断中起着至关重要的作用。传统上,它需要多年积累的专业知识和一致的浓度来完成任务,增加了繁重的工作量,放射科医生。幸运的是,我们可以将胸部X射线图像分析制定为分类任务,其将疾病的特定类型分配给图像,以及检测任务,其提供异常的位置注释。因此,可以在深度卷积神经网络(CNN)方法的帮助下实现自动图像分析系统[28,5,11,12,27]。为了在自然图像中实现良好的性能,经典的CNN方法需要大量具有图像级标签的样本用于图像分类,以及具有类别和位置标签的样本用于对象检测。然而,在这方面,*同等贡献†通讯作者阴性样本图1.我们提出的框架包括两个分支。的上分支从输入图像中提取卷积特征。下分支计算提取的特征图上的对比度诱导的注意力。来自每个分支的信息被合并以产生针对输入胸部X射线图像的疾病识别和定位结果。当涉及胸部X射线图像诊断时,这些要求提出了两个挑战。首先,针对胸部X射线图像获取准确的位置标签是昂贵的,使得难以训练准确的检测器。第二,位置、形状和结构的多样性使某些异常的范畴模糊不清,相互混淆。在本文中,我们提出了一种新的对比度诱导注意力网络(CIA-Net)(图1)来解决这些问题。CIA-Net的动机源于人类胸部结构的一致性。通过对比研究,利用一对正图像(有疾病)和负图像(无疾病)之间的视觉对比,CIA-Net在缺乏注释的情况下捕获额外的识别和定位信息。具体来说,我们从CNN中提取图像对的高级图像特征表示然后,为了利用输入的高度结构化属性,我们计算负图像和正图像中的相应像素之间的L1距离,其结果用作后者上的然而,一些图像,10633尤其是正的,遭受由差的扫描条件引起的几何变形。因此,为了合理化对比学习的过程,我们提出了一个可学习的对齐模块来调整输入图像的几何规范。最后,为了进一步利用有限的位置标注,我们应用多实例学习(MIL)在CIA-Net上执行端到端训练。我们表明,在对齐模块和CIA- Net的帮助下,即使对于模糊、微小和随机出现的病变,CIA-Net也比以前的方法做出更准确的预测。最重要的是,我们的贡献在于三个方面:• 我们提出了CIA-Net,这是第一个通过对比正面和负面图像来捕获信息的网络。更一般地说,它提供了灵感,以解决视觉任务的样本共享高度相似的视觉• 我们提出了一个可学习的对齐模块,这是有效的变换和对齐图像在不同的扫描条件。这项技术也可以被广泛使用。用于其他需要对齐的医学图像分析任务。• 我们在ChestX-ray 14上实现了分类和定位的最新结果。2. 相关工作大规模胸部X射线数据集的发布允许深度学习方法在自动胸部X射线分析中的广泛应用。Wang等人。[30]介绍了ChestX-ray 14数据集,该数据集是迄今为止最大的,包含14种胸部疾病的112,120张正视图。在此之前,包含3,955份放射学报告和7,470份相关胸部X射线的大型公共数据集Open-i [15]可以使用早期深度模型。然而,胸部X射线数据集通常遭受有限的注释和数据。最近的调查[15,25]表明了深度学习方法在胸部X射线图像分类[30,19,4,34,32]和检测[19,18,31]中的潜力。技术上,Rajpurkar等人[19]和Wang et al.[30]应用为更全面的数据集开发的C- NN模型来解决分类任务,并使用类激活图(CAM)[34]来获得疾病的位置。Yan等人。[31]将挤压和激励块[6]添加到DenseNet[7],并利用多映射和最大-最小池化技术。后来,Li etal.我建议使用全卷积神经网络(FCN)[14]来解决这个问题。它们将图像级和框级数据的训练统一在一个框架中,并具有自定义的MIL损失。与以往的方法不同,以往的方法主要是采用为其他方法开发的模型或损失。任务,我们提出的对比注意力利用胸部X射线的道具来解决这个问题。许 多 工 作 将 注 意 机 制 应 用 于 胸 部 X 线 分 析 。Ypsilantis等人[32]提出了一种用于识别心脏肥大区域的递归注意力模型。后来,Pesce et al.[18]介绍了一种软注意力机制,该机制通过CNN生成的显着图的突出部分来定位病变Guan等人[4]使用注意力来生成遮罩,这有助于放大病变区域。这些注意机制大多是隐式建立的,并且高度依赖于分类结果。考虑到图像标签不是直接来自专家的人工注释,而是使用自然语言处理从相关的放射学报告中挖掘出来的而我们的CIA-Net专注于图像之间的关系,并利用数据的高度结构化属性明确地建立注意力。目标检测目标检测一直是计算机视觉领域的基础和研究热点。在深度学习出现之后,两种主要方法在对象检测中已经发展成熟第一是两阶段检测器,主要基于区域- CNN系列。第二种是单级检测器,主要由YOLO [20]和SSD [16]代表。在Faster R-CNN [21]中,第一阶段中的区域建议网络(RPN)为每个候选区域预先计算对象得分,并保留前K个候选。然后,第二阶段的快速R-CNN[3]网络对每个候选区域进行分类,并通过回归调整它们的位置。在YOLO中,在同一阶段计算对象性分数、分类和位置我们的方法在精神上与单级检测器相似我们将图像分割成细胞,并根据其与地面真实的重叠来决定细胞是否为阳性,这模仿了探测器中锚盒的作用基于问题设置,弱对象检测[26,1,33,24,13,10,22,29]也与我们的方法密切相关。仅给定图像级标签,大多数方法将对象检测制定为MIL问题。损失通常基于正面图像包含至少一个正面对象而负面图像不包含任何正面对象的范例来设计。另一种有效的方法是在特征图或热图中找到峰值,其中CAM是最常用的方法。这种方法的一个缺点是本地化总是局部的,并且需要大量的工程工作来调整结果-S.我们的方法执行端到端训练,不依赖于任何后处理技术。3. 方法我们提出的框架如图2所示,由两部分组成:1.对齐模块,通过以下方式自动调整输入图像朝向规范10634+阿尔尼梅模块积极样品积极样品识别与定位分支MIL损失&BCE损失-阿尔尼梅模块关注地图负样品对比引起注意分支CIA-Net一致性损失路线网标准箱特征图预测结果感知损失-+对准模块元素智慧:差和积地面实况图2.我们提出的框架包括两个部分:(a)对准模块,其自动地将输入图像仿射变换为规范的。(b)中央情报局网络,由两个分支组成上分支从输入图像提取卷积特征下分支计算提取的特征图上的对比度诱导的注意力。BCE损失和MIL损失分别负责盒级注释数据和类级数据。仿射变换2. CIA-Net由两个分支组成。对比度诱导注意分支从一对正图像和负图像中产生对每一类疾病的注意。包含定位信息的注意力帮助识别和定位分支进行预测。接下来,我们介绍我们的框架的每个关键组件的细节。一个标准的高质量的胸部X线正面图像应该是直立和对称的。然而,有时扫描的X射线图像由于相机与患者之间的不适当的距离、角度或位移而远离标准图像的几何变形可以近似为仿射变换,如图3所示为了使胸部X射线能够共享相同的结构,我们引入了一个对齐网络来对齐所有图像。我们的对齐网络在精神上类似于空间转换器网络(SpaceTransformer Network)[8],但我们用更明确的支持来构建它。我们将所有图像 对 齐 到 单 个 目 标 图 像 , 我 们 称 之 为 CanonicalChest。为了获得规范的胸部图像,我们简单地从数据集中随机收集500个阴性图像。并求平均值以获得平均图像。在那之后,我们裁剪出紧紧围绕两个肺的中央视图。最后的典型胸部显示(a)标准胸部(b)原始图像(c)对齐图像图3.从左到右分别是标准胸部、原始图像和对齐图像。在图3(a)中。从统计学上讲,我们认为平均胸部X线图像应接近标准图像。3.1. 对准模块在获得作为目标图像的典型胸部之后,我们将变换学习框架为最小化变换图像和目标图像之间的结构分歧。形式上,设I和T分别表示要变换的输入图像和目标图像。给定I,比对网络φA将I变换为φA(I)。为了使φA(I)具有标准结构,我们最小化结构损失:Ls=f(φA(I),T). 具体来说,我们使用一个轻量级的ResNet-18作为φA的骨架。的10635T(IoU)模型肺不张心脏肥大积液浸润质量结节肺炎气胸是说X,Wang[30]0.240.460.300.280.150.040.170.130.220.3Z,Li [14]0.360.940.560.660.450.170.390.440.49我们0.530.880.570.730.480.100.490.400.53X,Wang[30]0.050.180.110.070.010.010.030.030.060.5Z,Li [14]0.140.840.220.300.220.070.170.190.27我们0.320.780.400.610.330.050.370.230.390.7X,Wang[30]Z,Li [14]0.010.040.030.520.020.070.000.090.000.110.000.010.010.050.020.050.010.12我们0.180.700.280.410.270.040.250.180.29表1.使用80%注释和50%未注释图像训练的结果比较。定位精度在不同的T(IoU)在{0.1,0.2,0.3,0.4,0.5,0.6,0.7}中。粗体值表示最佳结果,为了便于阅读,结果四舍五入为两位小数。在大多数情况下,我们的模型始终优于以前的方法这一优势在高T(IoU)下尤为明显T(IOU)模型肺不张心脏肥大积液浸润质量结节肺炎气胸是说Z,Li[14]0.590.810.720.840.680.280.220.370.570.1基地0.610.880.730.780.670.230.090.360.54我们0.390.900.650.850.690.380.300.390.600.3基地0.330.710.340.680.360.060.050.200.34我们0.340.710.390.650.480.090.160.200.380.5基地0.190.570.140.490.210.010.030.080.21我们0.190.530.190.470.330.030.080.110.240.7基地0.110.400.060.290.110.000.010.060.13我们0.080.300.090.250.190.010.040.070.13表2.使用100%未注释图像和没有任何注释图像训练的结果的比较疾病定位准确率在{0.1,0.3,0.5,0.7}中的各种T(IoU)处评估。在大多数情况下,我们的模型在不同的IoU阈值下优于[14]和我们自己实现的基线模型比对网络的输出是仿射变换的一组参数(tx,ty,sx,sy,θ)。tx和ty代表水平和垂直位移。sx和sy代表水平和垂直缩放。θ代表旋转角度。为此,I被转换为φA(I)如下:3.2. 中情局网与具有灵活结构的自然图像不同,胸部X射线图像具有相对固定的结构。基本上,阳性样本(具有疾病的图像)可能具有三种类型的视觉异常:不透明度和..φA(I)=Bsxcosθ−sysinθtxsxsinθ sycosθtyΣΣG(I),I(一)由积聚的液体或异常组织引起的复杂纹理,例如渗出、实变和肿块。 2.由空气引起的过度透明,例如肺气肿和p-气胸。3.器官的视觉异常形状,例如汽车-其中,B表示双线性插值函数,G表示规则网格函数。为了使φA(I)具有与T相似的结构,理想的解决方案是从X射线图像中提取胸部结构但是,结构注释不可用,因此我们需要找到一种替代方法来解决这个问题。[9]《易经》云:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!二倍体我们评估的数据集中的大多数疾病都属于上述三种类型。与阴性样品相比,这些异常表现出明显的视觉对比。为此,我们建议使用视觉对比度作为指示疾病的可能位置的注意信号。如图2(a)所示,中央情报局网络由两个分支组成。 上分支提取卷积从正像I+得到大小为c×h×w的特征图F+。在风格转换的内容和结构上,我们采用了i+i在我们的任务中。具体来说,我们采用[9]中使用的特征下分支取正像Ii 和负图像I-作为一对输入。 共享编码器网络i+−+−编码Ii而我我注意力地图MiM i的尺寸分别为h×w。ly. 那之后,我们计算绝对值1个差值M=. M+−M−。在M+和M-之间。Lfeat(φA(I),T)=CHWNfeat(φA(I))−Nfeat(T)2我我我(二)其中,C、H、W是特征图的大小,N是提取特征的网络在实践中,我们还使用一致性损失来计算图像对的相应像素的欧氏距离。图3(b)和(c)中示出了I和φA(I)10636我我我最后,将空间方向注意力图∆M相乘与F+逐元素地进行加权,以获得加权特征图F¯+,如下:w×hF<$+=mkfk(3)K10637IJIJ伊伊季我气胸质量结节积液肺炎肺不张浸润心脏肥大图4.一些本地化结果的八个类与框注释。 显示了原始图像、基线结果和我们的结果分别在左列、中列和右列中。我们可以看到,我们的方法可以输出更准确的定位结果。其中∆mk表示∆M,Σ中的kth权重,fk表示kthF+中的网格。我们对∆M进行归一化,使∆mk=w×h,对应的类。对于具有框级标注的图像,如果特征图中的网格与I+K保持F i的激活适当缩放。更具体地,将两个分支的输入图像的大小调整为512×512。ResNet-50来自ImageNet的投影的地面实况框,然后我们将标签1分配给网格,否则我们将其赋值为0。因此,我们对每个网格使用二进制交叉熵损失:数据集作为两个分支的主干为在上分支中,我们使用C5(最后)之后的特征图F+Lk(B)=Σ −yklog(pk)−Σ(1−yk)log(1−pk)(4)我我第5级的卷积输出),这是向下的32倍样本大小为2048×16×16。的关注ij ij ij ij ijJ J分支,我们使用C4(第四级的最后卷积输出)作为编码器模块,并在16次下采样后获得大小为1024×32×32注意然后,blob通过2×2最大池化层,一个1×1卷积层,以获得尺寸16×16。 损失函数 在获得加权其中k、i和j是类、样本和网格的索引分别yk表示网格的目标标签,表示网格的预测概率。对于仅具有图像级注释的图像,我们使用[14]中使用的MIL损失。Y<$+Lk(I)= −yklog(1−(1 −pk))特征图Fi ,我们将其通过1×1卷积层和sigmoid层以获得大小为C×H′×W′的类感知特征图,其中C是类的数量。特征图中的每个网格表示疾病的存在概率。然后,我们遵循[14]中使用的范例,计算每个通道的损失并进行预测i i ijJY−(1 −yk)log((1−pk))J其中yk表示图像的目标标签。(五)10638我我我我T(IOU)年比率模型肺不张心脏肥大积液浸润质量结节肺炎气胸是说0.3百分之八十基地我们0.460.540.860.820.590.550.770.810.400.490.070.290.630.510.510.400.540.55百分之四十基地我们0.410.550.740.730.530.550.790.760.310.480.080.220.490.390.290.300.460.500%的百分比基地我们0.330.340.710.710.340.390.680.650.360.480.060.090.050.160.200.200.340.380.5百分之八十基地我们0.270.380.790.770.440.420.550.630.230.340.040.260.550.390.380.270.410.43百分之四十基地我们0.220.360.600.570.340.370.560.620.190.340.030.130.310.230.170.170.300.350%的百分比基地我们0.190.190.570.530.140.190.490.470.210.330.010.030.030.080.080.110.210.240.7百分之八十基地我们0.110.180.740.710.330.310.400.420.180.250.030.110.450.260.250.230.310.31百分之四十基地我们0.120.190.420.470.150.200.370.410.150.220.000.060.190.120.080.110.190.220%的百分比基地我们0.110.080.400.300.060.090.290.250.110.190.000.010.010.040.060.070.130.13表3.使用不同数量的注释图像训练的模型的定位结果,其中100%未注释图像。图5.比对模块输出的一些比对结果。 每一对由原始样本和对齐样本组成。我们可以看到对齐的样本比原始样本具有更多的规范视图所有样本的所有类别的总损失为:Σ ΣλkβBLk(B)+(1−λk)Lk(I)(6)Ik其中λk∈0,1表示第i个样本中的第k个类是否具有框注释,βB是两个损失的平衡权重3.3. 训练和测试训练我们使用带有Nesterov动量的SGD算法在胸部X射线数据集上训练15个时期的所有模型。对于CIA-Net,我们在单个GPU上使用6个小批量。学习率从0.001开始,每5个epoch后降低10倍。此外,权重衰减和 动 量 分 别 设 置 为 0.0001 和 0.9 。 所 有 权 重 都 由ImageNet [23]上的预训练ResNet [5]模型初始化。我们的实现基于PyTorch [17]。试验. 我们使用0.5的阈值来区分类别特征图中的正网格和负网格在实践中,特征图是从16×16至128×128,以实现更准确的预测-S.上采样操作插入在最后两回旋4. 实验4.1. 数据集和评估指标数据集。NIH胸部X射线数据集中有14类疾病的112,120张正面视图X射线图像[30]。请注意,每个图像可能有不同的疾病。此外,该数据集包含880幅图像,具有984个标记的边界框。我们按照[14]中的术语将880幅图像称为“ 无 注 释 ” 。 我 们 将 原 始 3 通 道 图 像 的 分 辨 率 从1024×1024调整到512×512,而没有任何数据增强技术。评估指标。我们遵循[14]中使用的度量标准。对于本 地 化 , 精 度 由 预 测 和 地 面 实 况 之 间 的 IoU(Intersection over Union)计算。请注意,预测可以是离散的小矩形。我们只报告定位结果的8种疾病与地面实况框。本地化结果是重新-10639图6.由CIA网络生成的注意力地图。左边显示了预测的图像,其中绿色和蓝色框分别代表地面实况和预测。右图显示了生成的注意力地图,它为异常的位置提供了有用的线索模型肺不张心脏肥大巩固水肿积液气肿纤维化Z,Li[14]0.800.870.800.880.870.910.78我们0.790.870.790.910.880.930.80模型疝浸润质量结节胸膜增厚肺炎气胸是说Z,Li[14]0.770.700.830.750.790.660.800.80我们0.920.690.810.730.800.750.890.83表4.我们的方法和基线的AUC评分在这里,70%和20%的图像分别用于训练和测试当IoU > T(IoU)时,认为是正确的,其中T(*)是阈值。对于分类,我们还利用AUC评分(ROC曲线下面积)[2]来衡量我们模型的性能。4.2. 与最新技术疾病定位在[14]之后,我们进行了5次交叉验证。我们设计了两个实验来验证我们的方法的有效性。在第一个实验中,我们用80%的注释图像和50%的未注释图像训练我们的模型,并将相应的定位精度与[14]和[30]进行比较(表1)。该模型在剩余的20%注释图像上进行评估。在第二个实验中,我们用100%未注释的图像训练模型,没有任何注释的图像,并将局部化精度与[14]进行比较(表2)。在所有带注释的图像上评估模型表1显示了第一个实验的结果,我们表明我们的模型在大多数情况下表现更好。特别是,当T(IoU)增加时,我们的模型在用于评估的所有8个类中逐渐例如,当在T(IoU)= 0处求值时。7、易类的准确性如“C a r - d i o m e g a l y ” 为 0 . 7 0 , 而 参 考 模 型 实 现了0.52[14]和0.03 [30]。对于相对较小的对象类,例如对于“Nocturnal”和“Mass”,我 们的准确 度达到0.27和0.04,而参考模型在[30]中的两个类别仅达到0.00,在[14]中为0.11和0.01。我们还计算了所有类别的平均精度,以比较不同方法的一般性能。在T(IoU)= 0处。3,我们的方法实现了0.53的准确度,领先0.03[14]。在T(IoU)= 0处。5且T(IoU)= 0。7,我们的方法达到了0.39和0.29的精度,领先0.12[14]和0.17。总体而言,表1所示的实验结果表明,我们的方法更能够准确定位,这为临床实践提供了更大的支持。表2显示了第二个实验的结果。 S-因为[14]只提供了T(IoU)= 0时的结果。1,我们利用我们自己实现的基线模型[14],并在T(IoU)= 0时对其进行评估。3,0。5,0。7、更好的比较在T(IoU)= 0处的结果。1表明我们实现的基线与[14]具有相似的结果,验证了后者的比较。总体结果表明,即使没有用于训练的注释数据,我们的方法也可以实现不错的本地化结果。与基线模型相比,我们提出的方法在T(IoU)= 0时在大多数类中表现更好。1,0。3,0。5证明了我们的模型优于基线方法。另一个有趣的观察是,对于像“Nod- ule”和“Mass”这样的硬类,我们的模型在没有任何注释数据的情况下实现了与第一个实验中的结果相当的结果。实验结果表明,该模型能够利用未标注数据的信息,弥补了定位标注的不足,在某些硬异常类型的胸部X射线图像中取得了较好的效果在图4中,我们展示了第二个实验中用于评估的八个类的一些定性结果从左到右是原始图像、基线和我们的结果。绿框和蓝框分别代表地面实况和预测它表明,我们的方法可以产生更准确的定位在大多数情况下。疾病识别。表4显示了所有14个类别的AUC评分。我们将我们的结果与以前的最先进的结果进行比较[14]。我们遵循[14]使用70% IM-年龄用于训练和20%的图像用于测试。我们可以看到,我们的模型对大多数疾病都获得了更好的AUC评分。平均AUC评分从0.80提高到0.83,表明CIA-Net用于识别的有效性。4.3. 消融研究在本节中,我们从三个方面进行消融研究。首先,我们探讨了不同数量的注释样本对我们的方法的影响其次,我们研究了不同模块的贡献。第三,我们探讨了不同的负采样策略用于培训和测试。10640T(IOU)模型肺不张心脏肥大积液浸润质量结节肺炎气胸是说0.7我们的+佳能我们的+兰德我们的+模拟0.050.170.180.620.620.710.180.300.310.160.460.420.120.210.250.070.080.110.260.200.260.200.150.230.210.270.31表5.不同负抽样策略的影响。 所有模型都使用100%未注释和80%注释的图像进行训练。随机:随机抽取阴性样本。佳能:总是使用规范的胸部。Sim:基于结构相似性的采样。T(IOU)模型肺不张心脏肥大积液浸润质量结节肺炎气胸是说0.7基地基础+对齐0.110.220.600.620.210.240.420.440.230.230.010.020.210.180.110.110.230.25中情局CIA+对齐0.060.090.640.680.240.280.460.460.240.260.040.060.260.290.140.150.260.28表6.比对模块对定位结果的影响所有模型都使用100%未注释和80%注释的图像进行训练4.3.1CIA-Net获得本地化信息如表3所示,随着标注图像数量的增加,定位精度将进一步提高。具体地,在T(IoU)= 0处。7,当训练集中标注图像的比例从40%增加到80%时,平均准确率从0.22提高到0.31。此外,通过使用40%注释的图像,我们的模型比使用0%注释的图像获得了更高的平均准确度(0.22 vs. 0.13),T(IoU)= 0。7 .第一次会议。此外,如表3所示,当使用较少注释的图像时,CIA-Net具有较大的改进。具体来说,在大多数情况下,我们的模型在anno比率= 0%和40%时显示出更高的平均性能。实验结果表明,在CIA-Net提供的定位信息的帮助下,我们的模型可以有效地工作在有限的注释图像。4.3.2负采样在训练和测试阶段,我们使用感知散列算法为每个训练样本选择一个结构相似的图像对。具体来说,我们通过将所有63,000张底片图像调整为16×16并将其展平来生成哈希码字典。在训练和测试过程中,我们将每个样本的大小调整为16×16,并根据余弦距离选择最近的哈希码。然后,将相应的负图像与正图像配对,并发送到后面的模块。为了证明这种方法的合理性,我们将其与其他方法进行了比较。呃两种抽样方法:1.从阴性图像中随机采样2.利用典型的胸部作为反面形象。从表5中的结果,我们发现,在大多数类中,基于结构相似性的抽样通常优于其他2种方法。随机采样给模型带来了很大的随机性,使得对比学习很难捕捉到有意义的第二种方法受到真实图像和平均图像之间的域间隙的影响。4.3.3不同模块的贡献图5显示了原始图像和对齐图像的一些示例。我们可以看到对齐的样本接近标准胸部,标准胸部更对称、垂直并集中在胸腔上。表6示出了对准模的定量贡献。对于基线方法,我们的对齐模块可以将平均定位精度从0.23提高到0.25。对于CIA-Net,比对模块还可以将平均精度从0.26提高到0.28。实验结果证明了该对齐模块的有效性。此外,通过比较CIA-Net与基线模型,我们证明了CIA-Net的有效性在没有对齐模块的情况下,CIA-Net可以将平均定位精度从0.23提高到0.26,在有对齐模块的情况下,可以将平均定位精度从0.26提高到图6示出了一些示例的可视化注意力图我们可以看到,从小的病变(如气胸)到大的区域类别(如气胸和心脏肥大),CIA-Net可以生成注意力图,提供疾病位置的有用线索5. 结论在本文中,我们提出了CIA-Net来解决胸部X射线中的自动疾病诊断问题,其中图像具有相似的胸部结构。我们提出的CIA-Net能够从正负图像对中对比诱导注意可以提供异常可能发生部位的定位线索为了使CIA-Net合理化,我们还提出了一个可学习的对齐模块来调整所有输入图像以使其规范化。在NIH胸部X射线数据集上的定性和定量实验结果证明了该方法的有效性。致谢本文得到了北京市科学技术委员会的部分资助,资助号:Z181100008918005,国家重点研究发展计划资助号:SQ2018AAA010010,国家自然科学基金资助号:61772039,91646202,61625201,61527804.10641引用[1] Chunshui Cao,Xianming Liu,Yi Yang,Yinan Yu,Jiang Wang , Zilei Wang , Yongzhen Huang , LiangWang,Chang Huang,Wei Xu,and Deva RamananandThomas S.煌仔细看,三思而后行:用反馈卷积神经网络捕获自上而下的视觉注意力。2015年国际计算机视觉会议(ICCV)[2] 汤姆·福西特ROC分析导论Pattern recognition letters,27(8):861[3] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[4] Qingji Guan , Yaping Huang , Zhun Zhong , ZhedongZheng,Liang Zheng,and Yi Yang.像放射科医生一样诊断:注意力引导卷积神经网络用于胸部疾病分类。arXiv预印本arXiv:1801.09927,2018。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[6] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页[7] 福里斯特·扬多拉、马特·莫斯凯维奇、谢尔盖·卡拉耶夫、罗斯·吉尔希克、特雷弗·达雷尔和库尔特·科伊策。Densenet:实现高效的convnet描述符金字塔。arXiv预印本arXiv:1404.1869,2014年。[8] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,第2017-2025页,2015年[9] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[10] Vadim Kantorov 、 Maxime Oquab 、 Minsu Cho 和 IvanLaptev。Contextlocnet:用于弱监督定位的上下文感知深度网络模型。欧洲计算机视觉会议(ECCV),2016。[11] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统进展(NIPS),2012年。[12] 放大图片创作者:Bernhard E.作者:John S.放大图片作者:Richard E.作者:Howard,Wayne E. Hubbard,andLawrence D.杰克基于反向传播网络的手写体数字识别。神经信息处理系统进展(NIPS),1989年。[13] Dong Li,Jia-Bin Huang,Yali Li,Shengjin Wang,andMing-Hsuan Yang.具有渐进域适应的弱监督对象定位。在计算机视觉和模式识别(CVPR),2016年。[14] 李哲、王冲、韩梅、袁雪、魏巍、李丽佳、李菲菲。胸部疾病识别和局部化,监督有限。在IEEE计算机视觉和模式识别会议集,第8290-8299页[15] Geert Litjens、Thijs Kooi、Babak Ehteshami Bejnordi、Ar- naud Arindra Adiyoso Setio 、 Francesco Ciompi 、Mohsen Ghafoorian、Jeroen Awm Van Der Laak、BramVan Gin-ne k en和ClaraISa'nchez。深度学习在医学图像分析中的应用医学图像分析,42:60-88,2017。[16] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。[17] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[18] Emanuele Pesce , Petros-Pavlos Ypsilantis , SamuelWithey , Robert Bakewell , Vicky Goh 和 GiovanniMontana。学习使用视觉注意力网络检测包含肺结节的胸片arXiv预印本arXiv:1712.00996,2017。[19] PranavRajpurkar ,Jeremy Irvin ,Kaylie Zhu ,BrandonYang,Hershel Mehta,Tony Duan,Daisy Ding,AartiBagul , Curtis Langlotz , Katie Shpanskaya , et al.Chexnet:通过深度学习在胸部X光片上进行放射科医生级别的肺炎检测。arXiv预印本arXiv:1711.05225,2017。[20] Joseph Redmon,Santosh Divvala,Ross Girshick,andAli Farhadi.你只看一次:统一的实时对象检测。在IEEE计算机视觉和模式识别集,第779-788页[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。In C.Cortes ,N. D. Lawrence ,D. D. 李, M 。Sugiyama 和R.Garnett , 编 辑 , Advances in Neural InformationProcessing Systems 28 , 第 91Curran Associates , Inc.2015年。[22] Mrigank Rochan和Yang Wang。使用外观转移的新对象的弱监督在计算机视觉和模式识别(CVPR),2015年。[23] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein, et al. Imagenet 大 尺度 视觉 识别 挑战 赛 。International Journal of Computer Vision,115(3):211[24] 兰 普 拉 萨 河 Selvaraju , Michael Cogswell , AbhishekDas,Ramakrishna Vedantam,Devi Parikh,and DhruvBatra.你为什么这么说?通过基于梯度的定位从深度网络获得视觉解释。arX- iv:1611.01646,2016年。[25] Hoo-Chang Shin,Holger R Roth,Mingchen Gao ,LeLu,Ziyue Xu,Isabella Nogues,Jianhua
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功