没有合适的资源?快使用搜索试试~ 我知道了~
3630疾病分类阳离子疾病分类胸部X线分类汤姆·范·松斯贝克1,郑贤通1,2,德瓦里卡纳特·马哈帕特拉2,马塞尔·沃林11阿姆斯特丹大学,阿姆斯特丹,荷兰2Inception Institute of Artificial Intelligence,阿布扎比,阿联酋摘要医学图像数据集及其注释的增长速度不如一般领域中的等同物。这使得从最新的、对视野产生巨大影响的数据密集型方法进行翻译变得在本文中,我们提出了一种新的概率潜变量模型的胸部X射线图像的疾病分类具体而言,我们考虑包含全局疾病标签的胸部X射线数据集,并且对于较小的子集,包含以眼睛注视模式和疾病边界框的形式的对象级专家注释。我们提出了一个两阶段的优化算法,它能够处理这些不同的标签粒度,通过一个单一的训练管道在两个阶段的方式。在我们的流水线中,全局数据集特征是在模型的较低级别层中学习的细粒度专家对象级注释中的具体细节和细微差别在模型的最后层中使用受条件变分推理启发的知识蒸馏方法来随后,模型权重被冻结以指导该学习过程,并防止在较小的丰富注释的数据子集上过拟合所提出的方法在共同的基准数据集胸部X射线14和MIMIC-CXR上的不同骨干上产生一致的分类改进这显示了从粗粒度到细粒度的标签的两阶段学习,特别是对象级注释,是一种更优化注释使用的有效方法。1. 介绍最近视力的巨大进步可以归因于两个主要因素:算法创新和大量数据。特别是注释良好的数据集的可用性显示出是一个决定性因素[42,6,50]。这是一个值得注意的发展时,看的作用,一般培训阶段1培训阶段2大型数据集具有对象级注释的子集=放行重量=冷冻重量图1:对象级注释的概率集成的模型架构概述。近年来,视觉领域对医学成像领域产生了重大影响。将早期基于深度学习的通用计算机视觉解决方案应用于医疗领域显示出良好的效果,具体而言:1)CNN的引入导致了第一个深度学习方法,其表现优于放射科医生[34]。2)虽然通用数据和医疗数据之间存在明显的差距[33,1],但从一般视觉领域微调预训练模型作为医疗数据新模型的基础,会产生良好的结果[30,4]。剩下的一个挑战是,在一般视觉领域的数据驱动的突破是否可以以类似的方式转化为医疗领域在一般领域,可以通过复杂的视觉语言方法,通过众包,网络抓取和标签预测来增加注释数据集的大小。这允许像Vision Transformer [6]这样强大的模型以及许多基于该模型的构建和创新方法[29,3,49]。3631∼∼这些方法的适应性导致了医疗领域的竞争然而,与以前的方法相比,它们的效果并不像在一般领域(3%)中看到的那样大(1%)。这可能是由于域转移,(注释)数据的稀缺性和注释质量。在医学领域获得大规模注释更为复杂,其中可靠的注释来自训练有素的医学专家[52]。在实践中,这意味着当前的公共医疗数据集很小,并且完全注释,或者很大,并且只有部分注释。当无法在整个数据集上获得专家级注释时,通过元数据或其他信息源自动获取注释是一种选择,即使这会导致较低的注释质量[53,32]。专家级注释的这种缺乏对于胸部X射线扫描尤其相关。胸部X射线是最常见的医学成像方式之一。低成本、无创性和低患者影响解释了其作为主要诊断工具的用途。 大量的扫描使得应用自动化深度学习方法成为过去几年探索的一条有趣的途径。因此,存在超过100k扫描的多个公开可用的数据集。这些数据集上的注释通常限于使用自然语言处理(NLP)从其相应的放射学报告中提取的全局疾病标签[44,17]。放射学报告的使用为整个数据集提供了注释,但也容易出现意外的错误标记和偏倚[39]。访问更高质量的专家级注释有助于提高准确性。除了全局疾病标签之外,许多X射线数据集还包含由临床医生针对数据子集做出的更精确的对象级注释。在现阶段,这些措施是:1)边界框注释[44,24],描述X射线内的感兴趣区域(ROI),疾病的体征位于其中。2)眼睛注视信息[18,24],临床医生提取的注视模式,在他们使用专用软件分析和报告胸部X射线扫描时进行跟踪这些眼睛凝视图包含关于ROI和临床医生分析过程的有价值的见解,因为它们显示了有助于专家注释者决策和报告的确切位置。到目前为止,这些对象级注释还没有被广泛用于提高分类性能。边界框信息被用来验证分类方法的位置意识。到目前为止,最近引入的公众眼睛注视数据集限制了探索为了改进疾病分类,我们看到了一种场景的机会,在这种场景中,我们使用具有全局疾病标签的大型数据集以及包含更丰富的对象级注释的较小子集。这样做,我们遇到了两个挑战。首先,该方法应该能够从包含不同粒度的标签的数据集学习,即全局疾病标签和来自临床医生的眼睛注视信息图的较小子集以及疾病边界框注释。其次,当用少量数据训练深度神经网络时,存在过度拟合和失去对大型数据集的泛化能力的风险。我们提出了一种两阶段优化算法,将对象级注释纳入胸部X射线图像的表示学习中。这种统一的训练策略可以整合不同类型的图像标签。在本文中,我们做出了以下贡献:• 我们提出了一种新的概率潜在变量模型的疾病分类,能够学习图像表示,利用不同粒度的注释。• 我们提出了一个两阶段的优化策略,使模型能够学习低级别的功能与大的基础数据集和更多的相关功能的疾病,通过整合对象级别的注释。• 我们进行了大量的实验,这些实验表明,通过将变分模型和两阶段训练策略相结合,可以在两个胸部X射线分类基准数据集上持续提高疾病分类性能超过3%。2. 相关作品胸部X线分类在过去几年中,胸部X线疾病分类的问题已经取得了进展自从ChexNet [34]引入以来,已经为这个分类问题提供了许多新的解决方案方法范围从监督[48,41,32,38,20]到半监督学习[28,26]。这些方法中的许多方法使用对象级注释来检查疾病分类的位置意识[27,45,35,47,7]。 Li等人[25]示出了在大X射线数据集上疾病定位可以通过边界框注释的子集来辅助。据我们所知,没有现有的方法使用对象级注释,其目的是提高大规模X射线数据集的分类性能。今年发布了两个包含临床医生分析胸部X射线扫描的眼睛注视信息的数据集。 Huang等人[15]表明,即使是小规模的眼睛凝视数据集也有能力提高疾病分类性能。Zhu等人[54]也有类似的发现,并且进一步证明了注视信息也可以用于生成更有用的注意力/显著性图。这些发现是有希望的,并表明即使有少量的数据,3632|||培训阶段1培训阶段2=放行重量=冷冻重量眼睛凝视图边界框图2:胸部X射线分类中对象级注释的概率集成架构该架构由两个学习阶段组成:首先,整个模型在大规模基础数据集上进行训练其次,细粒度的对象级注释的数据子集注入通过变分先验,使更好的疾病分类性能。眼睛注视图包含改善疾病分类结果的有价值的信息。对于这些方法来说,推广到更大的数据集仍然是一个开放的挑战,因为这些模型是在它们所来源的数据集的1%<概率潜变量模型概率潜变量模型的一个主要成功应用领域是在多模态领域,这是由于跨域使用潜变量的固有多功能性。最近成功应用的例子是跨模态检索[5]和多模态姿态生成[23]。概率模型的用例也扩展到医疗领域。例如,在脑部MRI扫描[8]和腹部CT扫描[51]的多模态分割中。此外,关于胸部X射线的多模式方法,如报告生成[31]和图像-文本疾病分类[43],都是基于概率建模方法。当我们考虑对象级注释作为一种额外的数据形式时,使用概率潜在变量模型可能是合适的。3. 方法给定胸部X光图像,我们想将其分类为不同的疾病类别我们把疾病分类-通过定义概率潜变量模型,将基于胸部X射线图像的量化作为条件潜变量被定义为胸部X射线图像的特征表示。首先给出变分自编码器的基本概念,在此基础上通过设计条件先验引入条件推理模型。之后,我们将描述我们的两阶段优化方法,如图所示。(二)、3.1. 预赛变分自动编码器(VAE)[22,36]是一种概率生成模型,在许多应用中取得了成功VAE已被证明是有效的学习低维表示的图像。具体来说,给定来自数据分布p(x)的输入图像x,我们希望学习其在潜在空间中的n维向量表示z,以推断潜在变量z上的后验p(z x)。然而,直接推断后验是困难的。相反,我们引入了一个变量后验q(zx),通过最小化它们之间的KL分歧来近似p(z x)DK L[q(z|x)||p(z|x)](1)通过将贝叶斯规则应用于等式(1)我们得到编码器疾病分类分类器头2/2分类器头1/2KL损失编码器编码器疾病分类分类器头2/2KL损失分类器头1/23633BN||||·∗||SB|联系 我们众所周知的证据下限(ELBO):LVAE=E[logp(x|z)]−DK L[q(z)|x)||p(z)],(2)其中后验q(z x)依赖于x,先验p(z)通常被假设为各向同性高斯分布。为了利用大规模数据集以及它们的小子集中的注释,我们提出了两阶段优化。我们的变分推理的目标函数提供了这样做的灵活性我们考虑一个图像集{x}NB,全局标签cB作为大基数分布(0,I)除以z。VAE主要用于生成建模,而在这项工作中,我们希望进行疾病分类的监督学习。为此,我们设计了一个新的目标的基础上方程。(2)通过用条件似然p(yz,x)替换数据似然。这就产生了监督学习的目标函数如下:L=E[logp(y|z,x)]−βDK L[q(z)|x)||p(z)]。其中y是对应于输入图像x的疾病标签,并且β是用于控制KL项被认为是正则化子。直观地,在Eq. (3)鼓励模型学习输入图像X的紧凑潜在表示,以最大限度地预测其疾病标签。3.2. 对象级注释在Eq. (3)是非信息性的,其用于去除潜在表示中的冗余。然而,我们希望先验能够包含先验知识,以获得更多的信息表示。为此,我们建议设计一个有条件的dis-crimination的先验利用额外的标签信息提供的对象级注释,特别是边界框和眼睛凝视地图。更具体地说,对于数据子集中的给定图像x,我们还有一个与之关联的对象级注释c,它与x具有相同的维度。通过将先验指定为以凝视图为条件的p(zc),我们获得如下的新目标函数:L=E[logp ( y|z , x ) ]−βDK L[q ( z ) |x ) ||p(z|c)],(四)凝视图中包含的知识通过最小化KL项通过数据相关先验来使用,这引导模型从输入图像中提取最相关的特征。这个目标提供了一个原则性的形式主义,将先验知识的表示学习。3.3. 两阶段优化一般来说,我们可以直接使用Eq中的目标。(4)学习特征表示。在实践中,额外的注释对于通常仅包含全局标签注释的大规模数据集不可用对象级注释,例如,仅为小规模数据集提供凝视图。在这种情况下,我们无法在这些小数据集上从头开始训练深度模型。只包含疾病标签的数据集。此数据集将用于第一阶段的预训练 进一步定义了一个子集xNSxNB,其中NB>> NS.它既包含附加的对象级注释yS,也包含全局标签cS。此数据集将用于Stage中的微调2.学习阶段旨在最佳地利用现有的标签空间。第1阶段:预训练在这个阶段,我们使用等式中的优化目标在大规模基础数据集(三)、我们将后验定义为q(zBxB),其条件是来自基础数据集的输入图像xB和作为正态高斯分布的先验p(z) 在此阶段利用大型数据集可以全面提取相关图像特征。第2阶段:微调在这个阶段,我们使用对象级注释进一步微调小数据集上的模型。我们用等式中的优化目标训练模型。(四)、在这种情况下,先验被定义为p(zSc)。这最后一个阶段允许在模型的早期层中已经学习的图像特征的最佳情境化为了防止过度拟合并保持对基础数据集的泛化,模型权重在早期模型层中被冻结。3.4. 定性评价这种方法背后的原因是,包括来自临床医生的对象级注释可以有助于模型以与临床医生相似的方式在空间上处理图像。注入像素级临床医生注释的最后一步旨在根据眼睛注视和边界框图来强调图像中的某些重要这应该通过比较应用最后一个训练步骤之前和之后的基础数据集的图像的类激活图(CAM)可见。我们定义了以下度量标准来衡量这一点,S()是一个类似于均方误差(MSE)或Dice的相似性度量:S=S(c,CAM(x)BASE)100(5)S(c,CAM(x))3.5. 执行该方法的实现(图)。(2))通过采用摊销技术[22]使用深度神经网络完成。变分后验q(z x)和先验p(z c),p(z)都被参数化为完全分解的高斯分布。重新参数化技巧[22]3634||××肖恩·×||∼允许从这些分布中采样z:z ( λ )=f(x,λ(λ)),其中λ(λ)(0,I),f(λ)为确定性可微函数.在后验q(z x)中,x被认为是X射线图像的CNN表示。以类似的方式,先验p(z c)中的c是对象级注释的CNN表示,其可以是凝视图或边界框。先验和后验都由多层感知器(MLP)推断4. 数据和实验设置4.1. 数据集所提出的方法进行评估,两个大型的公共胸部X射线数据集,其中还包含较小的子集的对象级注释的临床医生。4.1.1胸部X光14该数据集由113,120个尺寸为1024 1024的正面胸部X射线扫描[44]组成,其中14个疾病标签通过基于规则的提取方法来源于随附的放射学报告(非公开)。边界框注释的子集可用于此数据集。这些是分布在983个X射线扫描上的1600个疾病边界框但是,所有这些注释都包含在测试集中。使用这些注释意味着结果不能在官方测试集上报告。相反,应用了五重交叉验证,类似地由Li等人采用。 [25]来解决这个问题。我们承认,这种方法使得与以前的方法的可比性,评估整个测试集不太可靠,因为在训练和测试数据集的分配不匹配。然而,由于该数据集近年来作为胸部X射线疾病分类的主要基准,因此仍将其包括在内。4.1.2MIMIC-CXR这个目前最大的胸部X射线数据集包含377,110张图像(大小为2500 - 3000),这些图像是总共227,827项通过类似于胸部X射线14的过程提取标签,尽管标签空间略有不同[16]。MIMIC-CXR有三个不同的子集,可以产生细粒度的像素级专家注释。它们源自REFLACX [24]和EGD-CXR [18]。RE-FLACX包含2616次X射线扫描的眼睛注视信息。此外,对于相同的子集,还提供了疾病界限框(BB)。EGD-CXR包含1083次X射线扫描的眼睛凝视图。由于这些注释分布在训练集和测试集上,因此可以在官方测试集上报告结果。4.2. 实验设置X-射线图像通过标准化和重新缩放到具有中心裁剪的尺寸224224而标准化。 这是尽管会导致轻微的性能下降,但仍符合该领域的标准[9]。为了衡量我们方法的一致性,我们评估了我们在常用CNN主干上的实验CNN的骨干是:[12]第121话:[14]最近的研究表明,后者在胸部X射线图像上效果最好[34,46]。微调应用于CNN主干[19,33]。后验q(z x)由具有隐藏维度512的两个顺序的两层MLP推断。注意,在训练阶段2中对对象级注释进行调节期间,第一个MLP的权重将保持冻结先验p(z c)类似地通过具有512个隐藏维度的两层MLP生成。对象级注释(边界框、眼睛注视图)被合并为像素级注释。它们被表示为值范围在0和1.这些应该代表图像关键区域这些映射将通过与X射线图像编码器相同类型的ImageNet预训练CNN编码器眼睛注视数据集包含放射科医生在图像内特定坐标上的注视点,以及这些注视持续的时间每次注视的特征在于高斯,其半径取决于以秒为单位的注视边界框类似地映射到原始X射线图像的形状为了防止边缘与CNN编码器混淆,使用σBB= 5应用边缘的高斯平滑Grad-CAM [37]用于计算CAM。训练是用一个Ryzen2990WX CPU 和 一 个 NVIDIA RTX 2080ti GPU 完 成的,使用Adam [21]优化和提前停止,公差为1%。5. 结果和讨论5.1. 改进疾病分类我们的方法在不同CNN主干上的性能如表1所示。我们看到,对象级注释的添加提高了分类结果与基础模型结果的一致性。与基线模型相比,这种一致的改进是我们方法的主要特点。此外,它显示出与先前的作品竞争,在胸部X射线的AUC评分中表现更好或在1%以内14然而,在此比较中,应考虑胸部X线片14上训练/测试分割的差异3635∼∼该方法的鲁棒性和一致性反映在我们的方法对多个胸部X光14设置最小均方误差(%)死亡率(%)CNN骨干和两个不同的数据集。MIMIC-CXR上的结果表明,对于我们的方法,眼睛注视信息是比边界更有价值的对象级注释VGG 16基本型号--+边界框+14 +5ResNet 50基础模型--+Bounding boxes +15+8 DenseNet121Base model--ResNet50基础模型--+边界框+8+6+凝视-REFLACX+15+9+凝视-EGD-CXR+16+8+凝视- EGD-CXRBB -REFLACX+凝视- EGD-CXR凝视-REFLACX+7 +6+16 +8DenseNet 121基础型号--+边界框+8 +5+凝视-REFLACX +17 +8+凝视-EGD-CXR +15+11+凝视- EGD-CXRBB -REFLACX+凝视- EGD-CXR凝视-REFLACX+19+5+14 +7表2:在使用对象级注释的该子集进行微调之前和之后,GRADCAM激活标测图和对象级临床医生注释之间的+凝视- EGD-CXRBB -REFLACX+凝视- EGD-CXR凝视-REFLACX0.809零点二五0.8320.26包装盒。表1中的一个特殊发现是REFLACX和EGD集成之间的性能差异DenseNet121基本型号0.807零点二五+ BB-REFLACX0.8210.26+凝视-REFLACX0.827零点二七+凝视-EGD-CXR0.836 零点二七CXR眼睛凝视图。这些数据集的大小为 3k1k分别。预计较大的数据集在利用较高的分类分数方面将更有效,而结果显示相反。+凝视- EGD-CXR&BB -REFLACX+凝视- EGD-CXR凝视-REFLACX0.815零点二五0.835零点二七不能肯定地说这可以归因于哪个数据集属性,但我们可以得出结论,这些对象级注释中的数据质量是一个重要因素。表1:所提出的方法在AUC和F1评分中的疾病分类性能。基础模型得分指示训练阶段I之后的性能,具有大的基础数据集。其他分数指示在训练阶段2中对象级标注子集的集成之后在基础数据集测试集上的性能。1五重交叉验证在 MIMIC-CXR 上 测 试 了 两 个 源 ( EGD-CXR 和REFLACX)的对象注释的同时输注。结果表明,两个眼睛注视子集的同时集成产生更好的结果比边界框和眼睛注视子集的集成。因此,我们得出结论,对象级注释中的某种一致性按疾病类别划分的结果列于补充材料A中。骨干设置AUCF1胸部X光14半监督Aviles等人[二]《中国日报》图-0.789-Liu等人[28日]DenseNet169-0.792-Liu等人[26日]DenseNet169-0.811-监督Wang等人[第四十四届]ResNet50-0.745-Yao等人[48个]DenseNet121-0.761-Guendel等人[七]《中国日报》DenseNet121-0.807-Kim等人[20个]DenseNet121-0.820-[41]第四十一话Transformer-0.779-Taslimi等人[41个]Transformer-0.810-Li等人[25]第1页ResNet50基础模型0.746-+边界框0.797-我们的1VGG16基础模型0.7540.24+边界框0.7860.25ResNet50基础模型0.7630.24+边界框0.7930.26DenseNet121基础模型0.7720.24+边界框0.8090.25MIMIC-CXRPooch等人[32个]DenseNet121-0.828-Seyyed等人[38个]DenseNet121-0.834-我们VGG16基础模型0.8060.24+BB -REFLACX0.8140.25+凝视-REFLACX0.8310.26+凝视-EGD-CXR0.8270.26+凝视- EGD-CXRBB -REFLACX0.8290.26+凝视- EGD-CXR&凝视-REFLACX0.811零点二四+边界框+6+7级MIMIC-CXRVGG16基础模型--+边界框+7级+4+凝视-REFLACX+12级+10+凝视-EGD-CXR+13+9+凝视- EGD-CXR&BB -REFLACX+3级+4+凝视- EGD-CXR凝视-REFLACX+13+93636MIMIC-CXR子集胸部X射线14子集VGG 16 ResNet 50Densenet 121 REFLACX凝视REFLACX BBEGD凝视BB AUC F1 AUC F1 AUC F1胸部X光检查14例0.240.7630.250.772 零点二四2019年07月09日0.240.7570.250.789 零点二五2017年07月07日0.240.7310.220.766 零点二四2017年07月06日0.250.7930.260.8090.26MIMIC-CXR微控制器0.8060.240.8040.240.807 零点二五澳门金沙城中心0.240.8180.260.826 零点二五2019年07月04日0.230.7880.240.798 零点二四2019年08月27日星期一0.260.8340.260.836 零点二七表3:跨域性能,其中在第二训练步骤期间在数据集之间交换注释子集(眼睛注视图和边界框(BB))。在此设置中,基础模型仅在源数据集(左列)上训练。VGG16ResNet50Densenet121编码器CH1CH2AUC F1AUC F1AUC F1胸部X线14胸片 0.7510.250.7710.250.7590.24价格 0.7670.250.7640.260.7680.262017年07月03日0.250.7220.240.7230.23✗✗✓0.7860.260.7930.260.809 0.26MIMIC-CXR微控制器0.7790.190.7650.170.7820.16价格 0.7830.200.7880.170.7920.182019年06月09日0.160.7030.160.7100.172018年08月27日0.260.8340.260.836 零点二七表4:第二个训练步骤的消融研究。复选标记指示在第二训练步骤期间是否释放模型组件的权重。模型组件(图)2)是:编码器,分类器头(CH)1和2。5.2. Grad-CAM与对象级注释的相似性通过使用我们的专家对象级注释的集成方法,我们指导我们的分类方法,以空间上类似的方式作为临床医生考虑X射线图像表2显示了(1)基础数据集训练和(2)使用对象级注释进行子集训练后,X射线的CAM与其对象级注释之间的相似性差异正值意味着在使用包含对象级注释的子集进行训练之后,由于表2中的结果显示这些相似性得分增加,我们确认我们的方法背后的推理是有效的。相似性分数的增加对于眼睛注视图比对于边界框更高。这可以指示眼睛注视图是比边界框信息量更大的对象级注释。在图(3)中,示出了几个示例以说明对象级注释的注入如何能够有益于分类能力。图(3A)示出了临床医生的眼睛注视模式如何具有左下焦点,其似乎通过训练阶段2被采用。在此阶段之后,模型不再错误地检测到“Effective”标签。 在图(3B-C)中,可以观察到类似的GradCAM移位模式。用一个无表情的眼睛凝视地图,如图。(3D)我们看到条件反射对凝视图的影响有限。在在这种情况下,我们可以看到,在阶段1训练之后丢失的5.3. 跨数据集学习另一个有趣但具有挑战性的设置是,当第二个训练步骤中使用的对象级注释来自另一个类似的数据集时,评估我们的方法。胸部X射线数据集内的可转移性和相似性已在早期工作中进行了研究,并表明当前公共胸部X射线数据集之间存在不可忽略的域偏移[33,19,32,13]。我们在表3中的结果证实了这种结构域的转移。一致地使用不同基础数据集的注释子集不会导致分类改进。有趣的是,当包含更多的数据集外子集时,与基础数据集训练的性能比较可以提高,但与数据集内训练相比仍然5.4. 两阶段训练我们在最后的训练步骤中显示了冻结或释放权重的不同设置,其中我们在表4中对模型进行了对象级注释。这些实验证实了在用小数据子集进行微调时仅更新最后模型层中的模型权重的益处。解冻较早层的权重导致性能急剧下降此外3637X射线图像对象级别注释培训阶段2培训阶段2一胸膜增厚胸膜增厚,渗出性胸膜增厚B肺不张,效应性肺不张,效应性肺不张,效应性C肺炎,肺炎,群体性肺炎,肺炎,群体性肺炎,D滤过,肺炎滤过,肺炎图3:在第二个训练阶段之前和之后的Grad-CAM变化的可视化,条件是对象级注释。绿色、蓝色和红色标签分别代表正确、遗漏和错误的预测(A) EGD-CXR眼睛注视(B)REFLACX眼睛注视(C)胸部X射线14边界框(D)REFLACX眼睛注视。它们表明需要对最后的层进行微调以获得最佳的分类结果。解冻早期模型层的另一个缺点是过拟合的发生更快,这也不利于基础数据集分类的泛化。6. 结论在本文中,我们介绍了一种概率潜变量模型的分类胸部X射线。它解决了医学成像领域中标签稀缺的问题。该模型能够处理不同类型的标签粒度,从而有效地使用所有可用的标签。为了实现这一点,引入了两阶段方法。在第一阶段,通过在大的基础数据集上在第二阶段,冻结较早层中的模型权重这使条件-以眼睛注视图和边界框的形式对对象级注释的小数据子集进行定位,以更好地将在第一训练阶段中学习的特征上下文化。这种简单而有效的方法通过持续提高多个数据集的性能来它提供了一个有趣的前景,如何管理数据和如何利用更小的子集丰富的注释数据在一个有效的方式。确认这项工作得到了人工智能初始研究所、阿姆斯特丹大学以及荷兰经济事务和气候政策部的顶级知识和创新联盟(TKI)的资助3638引用[1] Laith Alzubaidi 、 Muthana Al-Amidie 、 Ahmed Al-Asadi 、 Amjad J Humaidi 、 Omran Al-Shamma 、Mohammed A Fad- hel、Jinglan Zhang、J Santsaba 'ıa和Ye Duan。一种用于有限标记数据医学成像的新的迁移学习方法。Cancers,13(7):1590,2021.[2] Angelica I Aviles-Rivero , Nicolas Papadakis , RuotengLi ,Philip Sellars ,Qingnan Fan ,Robby T Tan , andCarola-BibianeSch oünlieb. 最低限度监督下的胸部x光分类在医学图像计算和计算机辅助干预国际上,第504-512页Springer,2019年。[3] 陈春福、范全福、熊猫拉米斯瓦。Crossvit:用于图像分类的交叉注意多尺度视觉Transformer。在IEEE/CVF国际计算机视觉会议论文集,第357-366页,2021年。[4] Veronika Chebuggina猫或猫扫描:从自然或医学图像源数据集迁移学习?生物医学工程的当前观点,9:21[5] Sanghyuk Chun , Seong Joon Oh , Rafael Sampaio deRezoba,Yannis Kalantidis,and Diane Larlus.跨模态检索的概率嵌入。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第8415-8424页[6] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. 在2020年的学习代表国际[7] Sebastian Guendel , Sasa Grbic , Bogdan Georgescu ,Siqi Liu,Andreas Maier,and Dorin Comaniciu.学习用位 置 感 知 密 集 网 络 识 别 胸 部 x 光 片 中 的 异 常 。 在Iberoamerican Congress on Pattern Recognition,第757-765页。Springer,2018.[8] Mohammad Hamghalam , Alejandro F Frangi , BaiyingLei,and Amber L Simpson. 多模态胶质瘤分割中基于高斯过程先验变分自编码器的模态完成。医学图像计算和计算机辅助干预国际会议,第442-452页。斯普林格,2021年。[9] Md Inzamam Ul Haque,Abhishek K Dubey,and JacobD Hinkle. 图像分辨率对胸部x线自动分类的影响。medRxiv,2021年。[10] 何克蕾,陈干,李卓远,雷基克,尹子豪,纪文,高扬,王倩,张俊峰,沈定刚.医学图像分析中的变压器 : 重 新 审 视 。 arXiv 预 印 本 arXiv : 2202.12165 ,2022。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE CVPR,2016年6月。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[13] MohammadRezaHosseinzadehTaher,FatemehHaghighi , Ruibin Feng , Michael B Gotway , andJianming Liang.用于医学图像分析的迁移学习的在域适应和代表性转移,以及负担得起的医疗保健和人工智能资源多样化的全球健康,第3-13页。斯普林格,2021年。[14] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger. 密 集 连接 的 卷 积网 络 。 在IEEECVPR会议记录中,第4700[15] Yifei Huang , Xiaoxiao Li , Lijin Yang , Lin Gu ,Yingying Zhu,Hirofumi Seo,Qiuming Meng,TatsuyaHarada,and Yoichi Sato.利用人类选择性注意力进行有限训练数据的医学图像分析。arXiv预印本arXiv:2112.01034,2021。[16] Jeremy Irvin , Pranav Rajpurkar , Michael Ko , YifanYu , Silviana Ciurea-Ilcus , Chris Chute , HenrikMarklund , Behzad Haghgoo , Robyn Ball , KatieShpanskaya,et al. Chexpert:具有不确定性标签和专家比较的大型胸片数据集。在AAAI人工智能会议论文集,第33卷,第590-597页[17] Alistair EW Johnson,Tom J Pollard,Seth J Berkowitz,Nathaniel R Greenbaum,Matthew P Lungren,Chih-yingDeng,Roger G Mark,and Steven Horng. Mimic-cxr,一个公开可用的带有自由文本报告的胸片数据库。科学数据,6(1):1[18] Alexandros Karargyris , Satyananda Kashyap , IsminiLourentzou , Joy T Wu , Arjun Sharma , MatthewTong , Shafiq Abedin , David Beymer , VandanaMukherjee,Eliza-beth A Krupinski,et al.用于人工智能开发的具有眼动跟踪和报告听写的胸部x光数据集的创建和验证。科学数据,8(1):1[19] 亚历山大·柯,威廉·埃尔斯沃思,大石·班纳吉,安德鲁·吴,和普拉纳夫·拉杰普尔卡。Chextransfer:用于胸部X射线解释的ImageNet模型的性能和参数效率。在健康,推理和学习会议论文集,第116-124页[20] Eunji Kim , Siwon Kim , Minji Seo , and SungrohYoon.Xpro- tonet:胸部X线摄影诊断,具有整体和局部解释。在IEEE/CVF计算机视觉和模式识别会议论文集,第15719- 15728页[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv:1412.6980,2014。[22] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在2014年学习代表国际会议上[23] Jogendra Nath Kundu,Rahul M V,Jay Patravali,andVenkatesh Babu RADHAKRISHNAN.无监督跨数据集适应通过概率非模态三维人体姿势完成。在IEEE/CVF计算机视觉应用冬季会议(WACV)上,2020年3月。[24] Ricardo Bigolin Lanfredi,Mingyuan Zhang,William FAuf- fermann , Jessica Chan , Dong-Anh T Duong ,Vivek Sriku- mar,Trafton Drew,Joyce D Schroeder,and Tolga Tasdizen.Reflacx是一个报告和眼动跟踪数据的数据集,用于本地-3639胸部X光检查中的异常。科学数据,2022年9月。[25] 李哲、王冲、韩梅、袁雪、魏巍、李丽佳、李菲菲。胸部疾病识别和局部化,监督有限。在IEEE计算机视觉和模式识别会议论文集,第8290-8299页[26] Fengbei Liu , Yu Tian , Filipe R Cordeiro , VasileiosBela- giannis,Ian Reid,and Gustavo Cordeiro.用于半监督胸部x射线分类的自我监督平均值教师。在医学成像机器学习国际研讨会上,第426-436页。斯普林格,2021年。[27] 刘靖宇、赵刚明、俞飞、张明、益州王、益州俞。对准、关注和定位:通过对比诱导注意网络进行胸部X射线诊断,并进行有限监督。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,2019年10月。[28] Quande Liu,Lequan Yu,Luyang Luo,Qi Dou,andPheng Ann Heng.基于关系驱动自集成模型的半监督医学图像分类。IEEE transactions on medical imaging,39(11):3429[29] Ze Liu,Han Hu,Yutong Lin,Zhuliang Yao,ZhendaXie,YixuanWei,Jia Ning,Yue Cao,Zheng Zhang,Li Dong,et al. Swin Transformer v2:扩展容量和分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集,第12009-12019页[30] Mohammad Amin Morid,Alireza Borjali,and GuilhermeD
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功