GLoRIA：医学图像识别的标签高效模型

96 浏览量更新于2023-10-15 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3942--GLoRIA：一个用于标签有效医学图像识别的黄世诚*沈丽月*Matthew P.斯坦福大学摘要近年来，医学成像的日益增长的利用深度学习为自动医学图像分析和临床决策支持提供了一种有前途的解决方案然而，训练深度神经网络所需的大规模手动标记数据集这项工作的目的是开发标签高效的多模态医学成像表示，利用放射学报告。我们提出了一个基于注意力的框架，通过对比图像子区域和配对报告中的单词来学习全局和局部表示。此外，我们提出的方法来杠杆年龄的学习表示为各种下游的医学图像识别任务有限的标签。我们的研究结果表明，高性能和标签效率的图像-文本检索，分类（微调和零拍摄设置），并在不同的数据集分割。1. 介绍医学成像技术的进步已经彻底改变了医疗保健实践并改善了患者结果。然而，近年来越来越多的成像虽然深度学习和计算机视觉为自动化医学图像分析提供了有前景的解决方案，但注释医学成像数据集需要领域专业知识并且在规模上成本高昂因此，建立有效的医学成像模型的任务是阻碍了缺乏大规模的手动标记的数据集。为了解决这个问题，一个自然的解决方案是杠杆年龄相应的医疗报告，其中包含详细的* 同等贡献电子邮件：mschuang@stanford.edu电子邮件：mschuang，liyues，mlungren，stanford.edu代码：https://github.com/marshuang80/gloria图1：我们的多模态全局-局部表示学习框架（GLoRIA）通过图像和文本编码器提取特征，并通过对比注意力加权图像子区域和报告中的单词来学习全局和局部表示。学习的全局-局部表示被用来获得标签高效的模型，用于各种下游任务，包括图像-文本检索，分类（微调和零拍摄设置）和分割。由放射科医生观察到的医学状况的描述。最近的几项工作利用这些医疗报告来提供监督信号，并通过最大化配对图像和报告的全局表示之间的互信息来然而，病理学通常仅占据医学图像的小部分，使得难以单独使用全局表示来有效地表示这些细微但关键的视觉线索。这激发了学习本地化特征以捕获图像中的细粒度语义以及全局表示的需要。虽然学习局部表示的想法已经在自然图像的几个其他上下文中进行了探索[7，27，25，4]，包括图像-文本检索和文本到图像生成，但这些工作通常需要预先训练的对象检测模型来提取局部图像特征，这对于医学图像来说并不容易获得。在这项工作中，我们专注于共同学习全球和局部表示的医学图像使用的核心-3943回复放射科报告具体来说，我们介绍了GLoRIA：一个框架，用于学习全局 -本地 R 表示为 I 图像使用Atenion机制，通过对比图像子区域和单词的配对报告。我们不依赖于预先训练的对象检测器，而是学习强调特定单词的重要图像子区域的注意力权重，以创建上下文感知的局部图像表示（图2）。①的人。针对医学报告的冗长性，提出了一种基于自注意的图文联合表示学习模型，该模型能够进行多句子推理。此外，我们提出了一个令牌聚合策略来处理医疗报告中常见的缩写和错别字。我们证明了我们的学习代表的数据高效的图像-文本检索，分类和分割的普遍性我们在三个不同的数据集上进行实验并评估我们的方法：CheXpert [16]、RSNA肺炎[32]和SIIM气胸。利用全球和本地表示的图像-文本检索是不平凡的，由于在将多个表示为每个图像-文本对的困难。因此，我们引入了一个相似性聚合策略，杠杆年龄信号从全球和本地表示检索。此外，我们的本地化图像表示使用关注权重，依赖于文字来提供上下文。因此，为了利用用于分类的本地化表示，我们生成针对每个医学状况类别的严重性、子类型和位置的可能的这允许我们通过测量图像-文本相似性来构建图像分类任务，并使用学习的全局-局部表示来启用零拍摄分类。最后，在各种任务和数据集上的实验结果表明，我们的GLoRIA实现了良好的性能与有限的标签和一贯优于其他方法在以前的作品。我们的贡献可概括如下：（1）我们提出GLoRIA：一种通过对比注意力加权图像区域与配对报告中的单词来联合学习医学图像的多模态全局和局部表示的框架，以及（2）我们通过评估学习的多模态全局-局部表示对图像-文本检索、分类（微调和零拍）和具有有限标签的分割任务来证明我们的框架的标签效率。2. 相关工作2.1. 利用医学图像为了利用来自放射学报告的信息，许多先前的工作探索了用于经由自然语言处理（NLP）从报告中提取标签的方法，作为手动注释的替代[16，35，18]。尽管这些方法可以被缩放以生成用于大规模应用的数据集，提取的标签是嘈杂的，往往限制了模型的性能。此外，这些努力忽视了标签提取过程中报告中最初包含的丰富和详细的描述近年来，利用文本和图像数据作为输入的深度学习模型引起了更多的关注。这些方法通过利用注意力机制或图像-文本转换器从图像和相应的报告中提取知识[28]。然而，这些方法中的一些需要放射学报告作为用于推断的输入，使得它们在实践中不太适用于同期模型部署。其他研究已经开发了避免在推理过程中需要文本报告的方法[41，3]，但它们仍然需要在训练过程中进行大规模的手动此外，很少有现有的工作研究用于学习多模态数据的局部特征的方法，这对于医学图像是至关重要的。相比之下，图像-文本联合表示学习策略通常在训练期间不需要手动注释，并且可以用于仅使用模态中的一个来微调下游任务。比如说，[13]使用无监督的对抗训练，并显示出有希望的结果图像-文本检索。[40]通过对比学习最大化跨模态的互信息，并对检索和分类任务进行评估。然而，这些研究仅考虑了全局表示，这可能是限制性的，因为医学状况通常占据整个医学图像的一小部分。我们的工作建立在这些先前的工作之上，通过利用医学报告共同学习医学图像的全局和局部多模态表示。2.2. 局部化图文表征学习图像-文本联合表示学习已经被广泛研究用于诸如VisualQA [2，11，14，39]、im-QA [2，11，14，39]等任务。年龄字幕[22，36，21，20]，以及图像-文本检索[5，38、8、9、15、38、34]。最近的研究已经通过利用堆叠注意力[25]，语义排序[15]和图形卷积神经网络[27，7]的局部表示取得了进展这些工作中的大多数依赖于使用自然图像数据集预训练的对象检测模型来提取图像区域特征。虽然对象检测器对于自然图像是有效的，但是到医学图像数据集的直接转移受到医学图像和自然图像之间的域间隙的限制。此外，很少有以前的作品已经将学习到的表示应用于图像-文本检索之外的任务。其他作品探索学习本地化表示，而不依赖于预训练的对象检测模型，但仅证明了特定自然图像任务的有效性。 [38]提出了使用排名损失函数来学习全局和局部表示的图像-文本检索。[37]学习注意力权重以统一图像3944∈i=0时∈i=0时ΣΣ区域和单词表示，用于细粒度的文本到图像生成。然而，医疗报告通常包含印刷错误以及长范围上下文依赖性，这引入了在自然图像标题数据集中不常见的独特挑战。我们利用一个基于自我注意力的模型来解决这些挑战，该模型对多句推理是有效的，并提出了一个令牌聚集策略。2.3. 零炮分类自从引入零拍摄学习[24]以来，许多研究已经研究了在没有训练标签的情况下对图像进行分类的方法[23，33，10，26，6，31，29]。一种可能的解决方案是利用来自其他模态的信息[23，33，10，26]。最近的努力引入了使用文本数据作为监督来学习视觉表示的策略[6，31，29]。然而，这些方法仅学习图像的全局表示，这在应用于医学图像识别任务时可能是限制性的，因为医学图像之间的高类间相似性仅通过非常细微的视觉线索可区分。相反，我们的工作共同学习全球和本地representations，这可以提供互补的信息，从完整的图像和关键的局部区域的利益。3. 方法这项工作的目标是共同学习全球和本地的医学图像的多模态表示杠杆老化的医疗报告的各种下游任务，其中手动注释是有限的。具体而言，我们观察到，在医学成像检查中存在的病理通常占据图像的一小部分，并且仅对应于医学报告中的某些关键词。受此启发，我们提出了一个基于注意力的框架，通过对比图像子区域的话在相应的报告中的多模态表示学习。我们的方法通过学习强调特定单词的重要图像子区域的注意力权重来在这里，我们首先在第3.1节中描述我们用于从每个模态中提取特征的图像和文本编码器。节中3.2，我们形式化了我们的多模态全局-局部表示学习目标。最后，在第3.3中，我们提出了在各种下游任务中利用全局和局部表示进行标签有效和3.1. 图文编码给定配对输入[xv，xt]，其中xv表示图像，xt是相应的报告，我们使用图像编码器Ev和文本编码器Et从每个模态中提取全局和局部特征全局特征包含汇总图像和报告的语义信息局部图像特征捕捉图像中的语义子区域，而本地文本特征是词级嵌入。这些全局和局部特征用于使用我们的框架来学习多模态表示，并且编码器与我们的表示学习目标联合训练。然后，我们将学习到的表示应用于下游图像识别任务，如检索，分类和分割。3.1.1图像编码为了构建图像编码器Ev，我们使用ResNet-50架构[12]作为主干来从图像中提取特征。从ResNet-50模型的最终自适应平均池化层提取全局图像特征fgRC，其中C表示特征维度。我们从中间卷积层中提取局部图像特征，并进行向量化以获得M个图像子区域中的每一个的C维特征：fl ∈RC× M。3.1.2文本编码医疗报告通常由长段落组成，并需要在多个句子中进行推理因此，我们利用一个自我注意为基础的语言模型学习远程语义依赖性在医疗报告。特别地，我们使用BioClinicalBERT [1]模型，用来自MIMICIII数据集[19]的医学文本预训练作为我们的文本编码器Et以获得临床感知的文本嵌入。我们进一步采用词块标记化来最小化医学报告中常见的缩写和印刷错误的词汇表外嵌入。对于具有W个词的医学报告，每个词被标记为ni个子词。分词器将生成总共N=Wn i个词段嵌入作为文本编码器的输入。文本编码器分别提取每个单词片段的特征因此，从文本编码器输出的本地文本特征可以被表示为glRK×N，其中K是每个词段特征的维度全局文本特征被定义为所有词段特征的聚合g g=Ng li。3.2. 全局和局部表示学习我们的表示学习框架的概述如图2所示。除了训练图像编码器Ev和文本编码器Et用于特征提取之外，我们还学习全局表示函数（分别表示为图像和文本特征的Rvg、Rtg）和局部表示函数（表示为图像和文本特征的Rvl、Rtl）以将图像和文本特征投影到多模态语义空间，其中来自真实图像和文本对的表示非常接近。总体表示学习目标包含：1）全局对比度损失，其学习将整个图像与配对报告相关联，以及2)学习细粒度对齐3945∈∈⟨⟩∈GNk=1 exp（v，tgk/τ1）G图2：所提出的多模态全局-局部表示学习框架（GLoRIA）的概述。给定一对医学图像和报告，我们首先使用图像编码器和文本编码器分别提取图像和文本特征。通过全局对比损失来学习全局图文表示为了学习局部表示，我们计算的相似性矩阵的基础上的图像子区域的功能和字的水平的功能，以产生注意力加权的图像表示。局部对比目标是基于注意力加权的图像表示和相应的单词表示。整体表示学习框架通过共同优化局部和全局对比损失进行端到端训练。在图像子区域和字段之间。通过同时训练全局和局部损失，模型能够使用互补互信息学习更好的全局和局部3.2.1多模态嵌入框架对于每个输入图像，我们使用在第2节中详细描述的图像编码器Ev3.1提取全局和局部特征。接下来，我们训练全局和局部图像表示学习函数Rvg和Rvl，以将全局和局部图像特征变换为多模态特征空间中的表示：vg=Rvg（Ev（xv））和vl=Rvl（Ev（xv））。全局图像表示vgRD是单个D维向量，而局部图像表示vlRD×M由所有M个图像区域的D维向量组成如前所述，我们克服了来自AB-分别为：tg=Rtg（Et（xt））和tl=Rtl（Et（xt））。3.2.2全局对比损失由于医学报告包含对对应医学图像的观察的详细描述，因此预期配对的图像和报告在多模态特征空间中具有类似的语义信息。因此，第一学习目标是通过使用全局表示来最大化图像和文本的真实对与随机对之间的对齐为了实现这一点，我们遵循[40，29]使用对比损失函数来最大化全局图像表示vgi的后验概率，给定其对应的文本表示tgi。因此，全局目标被公式化为最小化负对数后验概率：N医学中常见的缩写和印刷错误通过使用标记化来将单词表示为词块嵌入来生成报告。但是，我们要学习正确的-L（v|t）= Σ − log（Σ exp（∠vgi，t gi∠/τ1）i=1GI）（1）视觉语义对特定单词而不是单词片段的响应，用于精确的多模态表示，特别是用于医学术语。例如，不是为每个词段[“Car”、“dio”、“mega”、“ly”]找到视觉信号，重要的因此，我们通过对由文本编码器编码的词段特征求平均来聚合以获得词级特征。然后，将聚合的词级特征投影到Ddi中的表示。其中τ1R是缩放温度参数，并且vgi，tgi表示全局图像表示vgi和全局文本特征tgi之间的余弦相似性。类似地，由于图像和文本对之间的相互关联，我们还最大化文本在给定其对应图像的情况下的后验以这种方式，确保了图像-文本相关性对于任一模态都是不对称的。N使用全局和局部的表示为Rtg和Rtl的L（t|v）= Σ − log（Σ exp（∠vgi，t gi∠/τ1）i=1GK）（2）Nk=1 exp（v，tgi/τ1）3946∈ΣΣ∈ΣLNexp（Z（x得双曲余切值.）/τ）3.2.3注意力加权图像表示虽然全局对比度损失约束整个图像和文本之间的对齐，但是仅依赖于全局表示可能限制医学图像识别。与自然图像相比，医学图像的感兴趣区域由非常微妙的视觉线索指示，并且可以容易地单独使用全局特征来表示不足。为了绕过预训练的对象检测模型提取子区域的图像特征的依赖通过对比-其中τ3R是另一缩放因子，而Xv和Xt是图像和报告的局部特征。由于匹配函数捕获了注意力加权图像特征与词级文本特征之间的相似性，因此局部对比度损失可以被定义为基于匹配函数Z（Xt，Xv）的后验概率。这样，局部对比损失旨在最大化给定单词表示的注意力加权图像区域表示的后验概率N张力加权图像表示到对应的通过单词嵌入，注意力权重被学习为L（v|t）= Σ − log（Σ exp（Z（xvi，x ti）/τ2）i=1viTK）（7）我们的地方代表目标的一部分。为了生成基于单词的注意力加权图像表示，我们首先计算本地文本和图像特征的所有组合之间的点积相似度：s=vT t1（3）类似地，为了确保多模态表示与任一输入模态不对称，我们还最小化：NM×WL（t|v）= Σ − log（Σ exp（Z（xvi，x ti）/τ2）i、jti）（8）2文本中的词i与子区域图像中的j。我们对每个子区域的相似性进行归一化，以确保图像区域之间的相似性相当。3.2.5全损我们的表示学习框架的最终训练目标包含全局L（t|v）+L（v|t）和本地对于报告中的每个单词，我们计算一个关注度g gL（t|v）+L（v|t）对比损失。通过联合优化基于其相似性的加权图像表示Ci到所有图像子区域。注意力权重aij是跨所有图像区域的词的归一化相似度：全局和局部目标，这两种损失可以相互补充，以同时学习更好的全局和局部表示。exp（sij/τ2）a=（四）L= L（t|v）+L（v|t）+L（t|v）+L（v|t）（九）ijMk=1 exp（sik/τ2）g gl l其中τ2R是温度参数。上下文感知图像表示是基于子区域与给定单词的相似性的所有图像子区域特征的注意力加权和Mci=aijvj（5）j=03.2.4局部对比损失为了学习前面章节中介绍的注意力权重，我们需要一个局部目标进行训练。在这里，我们建立了一个对比的目标学习本地化的多模态表示。具体地，我们使用局部特征匹配函数Z来聚合所有W个词特征t i与它们对应的注意力加权图像特征c i之间的相似性。WZ（xt，xv）= log（exp（ci，ti/τ3））τ3（6）i=1LLNk=1 exp（Z（x得双曲余切值.）/τ2）s∈R表示W之间的相似性矩阵字和M个图像子区域。因此，S对应于i=1k=1VK39473.3. 利用全局和局部表示在多模态表示学习阶段之后，所学习的表示可以用于不同的下游任务，包括检索、分类和分段。现有的研究通常基于针对不同下游任务的学习的全局表示来微调特定于任务的模型。然而，这些方法没有利用通过我们的框架学习的本地功能联合利用全球和本地representations的下游任务，如图像-文本检索是不平凡的，因为它需要将多个representations为每个图像和文本对。因此，我们提出了一种聚合策略，以考虑全局和局部图像-文本相似性，如图所示。三个此外，我们的本地化的图像表示使用注意力权重，它依赖于提供上下文的话产生。由于图像分类数据集通常不提供上下文单词，因此我们生成了我们预测要表示的医疗状况39482图3：混合全局和局部图像-文本相似性。通过图像和文本表示方案提取特征，然后根据全局图像和文本表示计算全局相似度。使用基于单词的注意力加权图像表示和对应的单词表示来计算局部相似性。通过对全局相似度和局部相似度进行平均，得到最终的图像-文本相似度。每个班级。这使我们能够将图像分类框架为图像-文本相似性任务，并使用学习的全局-局部表示实现零拍摄分类。3.3.1图文检索在图像-文本检索任务中，使用查询图像作为输入，以基于它们的表示之间的相似性来检索最接近的匹配文本。形式上，给定查询图像X v和候选文本X t的集合，我们通过使用它们各自的编码器和表示学习函数来提取全局图像和文本表示v g，t g。然后通过找到最高相似度得分来检索目标句子： argmaxkS（vg，tgk）。注意，S（vg，tgk）可以是查询图像vg和候选句子k之间的任何相似度。然而，该公式化仅比较查询和候选的全局表示之间的相似性对于医学图像，整个报告中的关键词往往只对应于图像的一小部分，需要在词和图像区域之间进行细粒度的对齐以提高检索性能。因此，我们建议利用全局和局部特征进行更准确的检索。我们使用在等式2中定义的注意力驱动的图像-文本匹配分数Z（tli，vli）6作为局部表示的相似性度量以这种方式，可以基于上下文感知的局部表示来计算查询图像与候选句子之间的局部相似度。最后，基于聚集的图像-文本相似性度量，通过对全局和局部相似性求平均来完成图像-文本检索任务，如图所示。3.第三章。3.3.2零炮图像分类在零触发分类中，我们将图像xv作为输入，并且目标是预测对应的标签y=C（xv），即使分类器C没有用类别标签y显式地训练。受[29]的启发，我们将分类类转换为文本标题，并将图像分类任务框架为测量图像-文本相似性。具体地，我们咨询放射科医师以利用医学领域知识来生成合理的文本，以描述分类类别中的每个医学状况以这种方式，我们生成这样的文本提示以通过随机组合子类型、严重性和位置的可能的词来表示每个分类类接下来，使用我们预先训练的表示学习函数将所有n个类的生成的候选提示Y t投影到多模态嵌入空间：t g=R tg（E t（Yt））和tl= R tl（E t（Y t））。相似地，我们获得了输入图像的全局和局部表示 vg=Rvg （ Ev（xv）），vl=Rvl（Ev（xv））。因此，通过根据全局和局部表示找到具有最高平均相似性的类提示来对输入图像进行分类：argmaxi[l（S（t gi，v g）+Z（t li，v l））]。4. 实验结果为了验证我们的表示学习框架的有效性，我们进行实验，使用学习的全局和局部表示的图像-文本检索，图像分类（微调零拍）和分割。我们比较了我们的方法，几个国家的最先进的图像-文本联合嵌入方法，并表明我们的方法取得了更好的结果一致的3个不同的数据集。4.1. 数据集CheXpert[16]。我们使用CheXpert数据集来训练我们的表示学习框架并评估分类任务。CheXpert数据集包含来自65，240名患者的总计224，316张胸片，其中每张胸片与相应的放射学报告配对。每张X光片均标记有总共14次医学观察结果。在我们的实验中，我们专注于调查正面胸片与191229图像文本对。根据[40]中的实验设置因此，我们从训练数据中随机抽取5,000张图像进行验证。CheXpert 5x200。原始CheXpert数据集中的胸部X光片是多标记的，以说明同时存在多个医学观察结果。由于我们的零射击分类和检索是基于找到最相似的目标，具有多个可能的标签3949方法预处理@5前@10Prec@100DSVE [8]40.6432.7724.74VSE++[9]44.2836.8126.89ConVIRT [40]66.9863.0649.03GLoRIA（我们的）-仅限67.0264.6849.55GLoRIA（我们的）-仅限68.2264.5848.17GLoRIA（我们的）69.2467.2253.78表1：CheXpert 5x 200数据集上的图像-文本检索结果。针对K=5、10、100报告前K个精度度量。我们的方法实现了最佳的性能，通过incor- porating全球和当地的代表。目标可能导致类别之间的混淆结果。因此，根据[40]中的设置，我们使用来自CheXpert的部分数据创建CheXpert 5x200数据集，其中包括每个CheXpert竞争任务的200个唯一阳性图像：肺不张、心脏肥大、水肿、胸膜、积液。在该数据集中，每个图像仅包含一个特定条件的阳性标签。RSNA肺炎[32]。为了评估我们用于外部数据集分类的预训练表示框架的通用性，我们使用包含30k正面视图胸部X光照片的RSNA Pneumonia数据集，这些照片被标记为训练 / 有效 / 测试分割分别占数据集的70%/30%/30%。SIIM气胸。我们使用SIIM气胸数据集来评估学习表示的分割能力。该数据集总共包含12047张胸片，每张胸片都与气胸的手动注释分割掩模配对。训练/有效/测试分割分别构成数据集的70%/30%/30%。4.2. 基线我们比较我们的方法与其他国家的最先进的多模态表示学习方法。在相同的医学图像领域内，我们将我们的工作与Con-VIRT[40]进行了比较，Con-VIRT [40]通过仅对比图像和报告对的全局表示，由于ConVIRT的代码库未公开发布，因此我们根据[40]中的描述实现该方法。此外，我们还比较了我们的方法与其他多模态表示学习方法提出的自然图像任务。大多数现有技术的方法需要预训练的对象检测模型用于局部特征提取，这不适用于医学图像。因此，我们专注于表2：基于训练数据的不同部分的CheXpert和RSNA测试集上的微调图像分类（ AUROC 评分）的结果： 1% 10%100%。4.3. 图文检索首先，我们使用CheXpert 5x 200数据集来评估我们的图像-文本检索表示学习框架的有效性。给定图像作为输入查询，我们通过使用学习的表示计算查询图像与所有候选报告之间的相似度来检索目标报告我们使用Precision@K度量来计算前K个检索报告中的精度，方法是检查所选报告是否与查询图像属于同一类别。基于表1中给出的结果，当仅使用全局表示时，我们的模型实现了与ConVIRT相当的性能。这是预期的，因为我们使用与ConVIRT相同的全局对比损失来训练我们的全局表示。虽然我们发现我们的方法可以单独使用本地化表示来实现更好的结果，但我们最好的检索结果是基于利用本地和全局表示，在很大程度上优于所有基线。这表明在我们的方法中学习的全局-局部表示有效地提供了互补的语义信息。4.4. 分类我们进一步评估了两种不同设置中的图像分类任务的学习表示对于监督分类，我们使用不同量的训练数据（1%、10%或100%）在预训练的图像编码器之上训练线性分类器，以评估全局图像表示的数据效率。对于零射击分类，我们采用第二节中描述的方法。3.3.2评估我们学习的表示在没有额外标签进行微调的情况下用于分类的有效性在表2中，我们示出了在不同百分比的训练数据上的CheX-pert和RSNA数据集为了解释随机采样训练数据结果的方差，我们对五次独立运行的结果进行了我们用ROC曲线下面积比较我们的方法与DSVE[8]，它显示了定位能力，而不使用对象检测器。我们还将我们的方法与VSE++[9]进行了比较，VSE++ [9]通过仅使用全局表示来实现图像-文本检索的最佳性能。（AUROC）作为我们的评估指标。我们的方法在两个数据集上都优于其他表示学习方法。同样值得注意的是，我们的方法只使用1%的数据进行训练，始终优于使用100%数据进行训练的imagenet初始化模型这个indi-CheXpertRSNA百分之一百分之十百分百百分之一百分之十百分百随机56.162.665.758.969.474.1ImageNet74.479.181.474.974.576.3DSVE [8]50.151.051.549.752.157.8VSE++[9]50.351.252449.457.267.9ConVIRT [40]85.986.887.377.480.181.3GLoRIA（我们86.687.888.186.188.088.63950初始化方法气胸分割百分之一百分之十百分百随机0.0900.2860.543ImageNet0.1020.3550.635ConVIRT [40]0.2500.4320.599GLoRIA（我们的）0.3580.4690.634Zero-shot0.700.890.650.430.950.58表3：在CheX-pert 5x 200和RSNA数据集上的零激发图像分类的结果。请注意，表示学习框架是使用CheXpert训练的。我们将分类结果与不同数量的训练数据进行比较。同时训练全局和局部对比目标也可以帮助学习更好的全局表示以用于标签有效分类。尽管DSVE和VSE++证明了图像-文本检索的有效表示学习，但直接应用于医学图像数据集并没有显示出可比较的结果。这些方法只关注最小化真实图像和文本对的表示距离，而不与其他样本进行对比。因此，当应用于类间视觉相似性高的医学图像时，这些方法可以通过学习不相关的患者/病例特定视觉线索而容易地过拟合。对于零激发分类，我们使用CheXpert 5x200数据集进行5类分类，使用RSNA Pneumonia数据集进行二元分类。我们在表中给出了零激发分类结果。 3.在CheXpert数据集上，与使用训练标签微调的分类模型相比，我们的零触发分类器能够实现更好的F1得分虽然我们只使用CheXpert数据集来训练表示学习框架，但RSNA数据集上的性能仍然与使用1%训练数据的监督模型微调相当4.5. 分割我们还证明了我们的表示学习框架分割的有效性具体来说，我们采用UNet [30]架构进行分割，并使用来自我们预训练的图像编码器Ev的权重初始化模型的编码器部分。我们比较我们的方法与随机，imagenet和ConVIRT初始化。在表4中，我们报告了Dice分数，并通过使用1%、10%或100%数据进行训练来评估每种方法的数据效率我们表明，学习表示使用我们的框架是有效的分割任务时，有限的分割模板可用于训练。表4：具有不同部分的训练数据的SIIM数据集上的图像分割（Dice分数）的结果：1% 10% 100%。图4：胸部（上）的正面X线照片示例，其中给定单词（下）具有相应的注意力权重。4.6. 注意力权重我们将注意力权重可视化（参见等式4），作为我们的表征学习框架的一部分进行训练，以定性地评估我们的方法。虽然注意力不是解释，但经过良好训练的注意力权重应该正确识别与特定单词对应的重要图像区域[17]。我们重塑注意力权重以匹配输入图像的大小，并将注意力图覆盖在原始图像上以进行可视化。图4证明了我们的注意力模型能够正确地识别给定单词的重要例如，关注基于“肺炎”这个词的图。图4a（底部）正确地局部化右下叶的包含指示肺炎的不均匀实变混浊的区域。类似地，对于图1中所示的“气胸”的关注权重。图4b（底部）正确地突出显示了右肺尖中的明亮，其提示了半胸。4b（顶部）。我们在图中显示了“水肿”和“不透明度”的类似结果。4c和图4便士5. 结论我们提出了一个多模态的全球局部表示学习框架的医学图像，利用放射学报告。具体地，通过对比报告中的注意力加权图像子区域和单词来学习表示。实验结果表明，数据的效率和零射击能力的学习表示的各种下游任务，在不同的数据集，包括检索，分类和分割。CheXpertAcc.Sens.规格PPVNPVF1百分百0.570.830.800.510.950.63百分之十0.550.760.820.510.920.61百分之一0.470.680.850.530.910.59零发射0.61 0.700.91 0.650.920.67RSNA Accc Sen Spe PPV NPV F1百分百0.790.870.760.520.950.65百分之十0.780.780.790.520.920.63百分之一0.720.820.690.440.930.573951引用[1] Emily Alsentzer，John R Murphy，Willie Boag，Wei-Hung Weng ， Di Jin ， Tristan Naumann ， and MatthewMcDermott.可公开获得的临床bert包埋。arXiv预印本arXiv：1904.03323，2019。[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[3] Geeticka Chauhan，Ruizhi Liao，William Wells，JacobAndreas，Xin Wang，Seth Berkowitz，Steven Horng，Peter Szolovits，and Polina Golland.用于肺水肿评估的胸片和放射学报告的联合建模。arXiv：2008.09884 [cs]，2020年8月。arXiv：2008.09884。[4] Hui Chen，Guiguang Ding，Xudong Liu，Zijia Lin，JiLiu，and Jungong Han. Imram：迭代匹配与循环注意记忆的跨模态图像-文本检索。在IEEE/CVF计算机视觉和模式识别集，第12655[5] 陈晶晶，庞磊，吴忠华。跨模态配方检索：这道菜怎么做？在 InternationalConferenceonMultimediaModeling ，第588Springer，2017.[6] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。arXiv预印本arXiv：2006.06666，2020。[7] Haiwen Diao，Ying Zhang，Lin Mafdevlin2018bert，andHuchuan Lu.图文匹配中的相似性推理与过滤。arXiv预印本arXiv：2101.01368，2021。[8] Mart inEngilber ge ， LouisChevallier ， PatrickPe'rez ，andMatthieu Cord.在汉堡里发现豆子：深度语义-视觉嵌入与本地化。在IEEE计算机视觉和模式识别会议集，第3984-3993页[9] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[10] Andrea Frome、Greg Corrado、Jonathon Shlens、SamyBengio 、 Jeffrey Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。2013.[11] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] 徐子铭、翁伟鸿、威利·博格、马修·麦克德莫特和彼得·索洛维茨。跨医学图像和报告的无监督多模态表示学习arXiv： 1811.08615 [cs] ，2018年 11月。arXiv：1811.08615。[14] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在IEEE计算机视觉国际会议论文集，第804-813页，2017年[15] 炎黄、齐武、宋春风、梁王。学习图像和句子匹配的语义概念和顺序。在IEEE计算机视觉和模式识别会议论文集，第6163- 6171页[16] Jeremy Irvin ， Pranav Rajpurkar ， Michael Ko ， YifanYu ， Silviana Ciurea-Ilcus ， Chris Chute ， HenrikMarklund ， Behzad Haghgoo ， Robyn Ball ， KatieShpanskaya，et al. Chexpert：具有不确定性标签和专家比较的大型胸片数据集。在2019年第33届AAAI人工智能[17] Sarthak Jain和Byron C Wallace。注意不是解释。arXiv预印本arXiv：1902.10186，2019。[18] Alistair EW Johnson，Tom J Pollard，Nathaniel R Green-baum ， Matthew P Lungren ， Chih-ying Deng ， YifanPeng，Zhiyong Lu，Roger G Mark，Seth J Berkowitz，and Steven Horng. Mimic-cxr-jpg，一个大型的公开可用的标记胸片数据库arXiv预印本arXiv：1901.07042，2019。[19] Alistair EW Johnson ， Tom J Pollard ， Lu Shen ， HLehmanLi-Wei ， MenglingFeng ， MohammadGhassemi ， Benjamin Moody ， Peter Szolovits ， LeoAnthony Celi，and Roger G Mark. Mimic-iii，一个可免费访问的重症监护数据库。Scientific data，3（1）：1[20] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集，第1219-1228页[21] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap：用于密集字幕的全卷积定位网络。在IEEE计算机视觉和模式识别会议论文集，第4565-4574页[22] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference

下载后可阅读完整内容，剩余1页未读，立即下载