没有合适的资源?快使用搜索试试~ 我知道了~
基于医疗报告生成的视觉-文本注意语义一致性模型的研究
3985面向医疗报告生成的视觉-文本注意语义一致性易周* 1、雷黄2、陶周3、华助赋4、令少41东南大学计算机科学与工程学院2北京航空航天大学人工智能研究院SKLSDE3南京理工大学计算机科学与技术学院4Inception Institute of Artificial Intelligence,阿布扎比,阿联酋摘要医学射线照片上的自动报告生成最近引起了人们的兴趣。然而,识别疾病以及正确地预测其对应的大小、位置和其他医学描述模式(这对于生成高质量报告是必不可少的)是具有挑战性的。尽管先前的方法集中于产生可读报告,但是如何准确地检测和描述与查询X射线匹配的发现尚未被成功地完全解决。在本文中,我们提出了一个多模态语义注意模型,以整合视觉特征,预测的关键发现嵌入,以及临床特征,并逐步解码报告与视觉-文本语义一致性。首先,提取多模态特征,并与来自句子解码器的隐藏状态一起,以编码丰富的上下文向量,用于更好地解码报告。这些模态包括扫描的区域视觉特征、以高概率预测的前K个发现的语义词嵌入以及适应症的临床其次,渐进式报告解码器consists的句子解码器和单词解码器,其中我们提出的图像-句子匹配和描述精度损失,以约束视觉-文本语义一致性。在公开的MIMIC-CXR和IU X-Ray数据集上进行的大量实验表明,我们的模型与最先进的方法相比实现了一致的1. 介绍胸部X光检查是非常重要的放射学检查。然而,解读胸部X射线图像需要放射科医师的强大专业知识和经验,并且容易出错。因此,疾病的自动诊断[41,35,19,21,31,7,51]已经成为医学成像界中的新兴研究课题。com-* 通讯作者:周毅(yizhou. gmail.com)视觉和临床信息编码器多注意渐进式报告解码器关键发现预测:气腔混浊度0.9558/胸腔积液0.9477/ 多 发 性 0.9386/ 肺 部 病 变 0.9162/ 左 侧0.9130/ 下 部 0.9044/ 肺 不 张 0.8644/ 骨 折0.8617/大0.8062/ 肺气 肿0.8014 /胸膜 其他0.7843 /生成的报告:1. 左肺肺不张伴多房性胸膜病变。2. 心脏无异常。3. 左侧第七和第八根肋骨有可疑损伤。4. 左胸壁肿块。5. 适用于左肺癌伴胸膜及胸壁侵犯。女性,53岁临床信息:胸痛,咳嗽。图1. 自动医疗报告生成的图示。给定胸部X射线和相应的临床信息,我们的模型预测关键发现并生成诊断报告。主要任务包括识别不同的胸部病变[42,45,52]及其相应的位置和大小,并生成包含病变形状和类型等详细描述的人类可读报告[26,24,20,53]医疗报告生成的基本框架与图像字幕的基本框架类似[16]。目前,大多数图像字幕模型[39,43,1,27,9]都采用深度学习,因为它最近在许多任务中取得了突破[15,14,37,40,50,11]。然而,由于两个主要原因,医学报告生成比图像字幕更具挑战性首先,与普通图像相比,医学图像中的异常具有成对图像-报告数据的公共基准是稀缺的。然而,一般图像中的对象以及它们之间的对应关系是非常清晰和容易描述的。大规模匹配的图像-句子训练数据集是可用的,例如MS COCO[29]和Visual Genome [23]。第二,图像字幕的目标通常是为每幅图像生成一个句子或具有相似描述的多个句子。对于医疗报告,需要生成多个句子,以集中在不同的疾病中。3986}我们的地区。以前的方法[30,47,49]提出了分层解码器来生成不同的主题,但仅使用单词级监督,而对句子级(主题级)主题的准确性和适用性没有任何约束本文采用了一种新的方法,如图1所示。1、给定X线片和相应的临床信息,我们提出了一种自动诊断方法来预测关键发现和生成详细描述。临床信息被组合到模型的输入中,因为它是密切相关的在临床应用中,X射线始终与X射线一起使用。主要贡献如下:(1)提出了多模态语义注意(MMSA)模型,以将不同的模态特征组合成用于解码器的上下文向量。与以前的注意力模块[43,18]不同,在这项工作中,区域视觉特征是自关注的,并与句子解码器的隐藏状态相关,以获得不同主题步骤的语义注意力。因此,MMSA学习图像级和主题级两个方面。此外,预测的关键发现的临床特征和词嵌入也被集成用于多注意学习。(2)为了优化顺序句子和单词解码器,除了单词级的监督外,我们还在句子解码器的顶部引入了两个主题级的损失。设计了一个图像-句子匹配损失来连接配对的图像特征和生成的句子嵌入,同时惩罚未配对的。此外,描述精度损失,以确保生成的全局报告嵌入包含正确的语义。通过一个可变自动编码器这些方法可以更好地适应医疗报告生成任务,但仍然没有很好地解决生成的准确性和多样性。医学报告生成方法可以分为自动生成模型和基于模板的检索模型。TieNet[42]首先被提出使用CNN-RNN架构来Jing等人。[20]提出了一个基本的共同注意力模型来实现自动报告生成,而没有足够的深思熟虑的设计。我们的方法从多个方面增强了该模型,并大大提高了性能。Li等人。[26]以强化学习的方式将基于模板的方法与生成框架相结合然而,他们的方法需要仔细选择模板,因此性能随不同的数据集而变化。最后,知识驱动编码[24]添加了异常图,但缺乏对图像的注意力学习。类似地,在[49]中,采用基于多个疾病术语的预构建图嵌入来改进医疗报告的生成。3. 提出方法如示于图2、所提出的方法主要由三部分组成:特征编码、多模态语义注意学习和渐进式报告解码。3.1. 视觉和临床特征编码视觉特征编码模块是基于后-预测的关键发现的TIC信息(3)广泛进行实验以显示所述方法的有效性。DenseNet-201的骨骼[17]。区域特征{rnNn=1提出了多注意力模型,匹配和描述精度损失。一个新的度量标准,归一化的关键词距离(nKTD),也被引入到更合理地评估医疗报告生成性能。2.相关工作图像字幕。最近的最新图像捕获方法基于生成模型[9,27,46,12,25],其实现了比基于模板[8]和基于检索[10]的模型更好的性能。这一类别的一般框架是首先对图像的视觉内容进行编码,然后采用递归语言解码器来生成描述[39]。引入注意力机制[43,1,18]以选择重要区域并聚焦于主要视觉对象以获得更好的字幕。虽然大多数图像字幕方法仅产生一个句子,但是一些作品[22,2]已经引入了段落字幕,其可以产生多个句子。Krause等人[22]首次提出了一个层次框架来生成描述性的图像段落,它可以讲述详细的故事。在文献[2]中,建立了段落与图像关联的相干向量和固有歧义模型(‘region’ denotes each grid in certain feature maps, and 在使用自注意机制[48]对图像中的长程依赖性进行建模之后,通过多标签分类和全局报告嵌入回归来获得全局视觉特征并对其进行监督。为了训练用于胸部疾病分类的图像编码器,常规方法[41,13,42]仅采用疾病标签。除了预测疾病类别,我们还引入了另一种类型的标签,称为描述模式,包含更丰富的信息,如病变位置,大小和形状。这种设计背后的动机是疾病和描述模式标签的组合可以丰富所生成报告的细节和准确性。例如,在扫描中发现的结节可以准确地描述为这两种标签以两种不同的方式提取疾病标签提取器建立在基于规则的自动标签器[19]上,根据我们使用的两个数据集中的句子对否定前不确定性、否定和否定后不确定性进行必要的修改另3987−Cr,nl,kk=1--图2.建议方法的管道多模态语义注意力模型学习不同模态特征之间的相关性句子解码器在将生成的主题与准确的图像和报告标签匹配的约束下进行优化,并且单词解码器将每个主题解析成详细的句子。虚线表示仅在训练期间可用的监督组件。如果该词出现在报表中,则描述模式标签为正,否则为负。采用二进制交叉熵损失进行训练。此外,选择针对前K个概率预测的标签,并且使用BioSentVec[3]提取对应的单词级嵌入以用于进一步的多注意学习。所提取的离散标签是有噪声的,并且因此不能保留来自放射学报告的所有信息,特别是对于不太频繁出现的那些有用的词。 一个报告嵌入,也提取使用BioSentVec训练图像编码器,它利用更多的语义信息的单词之间的关系BioSentVec[3]训练了来自PubMed的超过3000万篇学术文章和来自MIMIC-III数据库的临床笔记,以便提取的嵌入可以准确地表示来自原始句子的医学概念。因此,我们采用报告嵌入来共同训练图像编码器,并学习更多的语义视觉特征。这种监督仅在培训阶段可用。此外,受真实临床场景的启发,放射科医师通常考虑其相应的临床原因信息(诸如因此,我们对原因嵌入、年龄和性别向量进行编码,并将它们集成到临床特征嵌入中。BioSentVec提取词级临床原因嵌入年龄被编码为20维的一热向量,年龄范围从1-100岁,每个类别覆盖5年。性别被编码为二维向量。3.2. 多通道语义注意传统的视觉注意机制通常集中在寻找图像中的重要区域,目的是以数据驱动的方式完成广告识别任务。这是有帮助的,但缺乏对语义信息的探索。在医疗报告生成任务中,需要基于注意力模型针对各种器官和疾病所关注的不同区域来生成多个句子。在本文中,提出了一个多模态语义注意模型,相关的区域图像特征,语义嵌入的关键发现预测和临床信息,与隐藏状态在每个主题步骤从句子解码器。因此,疾病的不同发现和排除可以逐一正确描述。为了获得在每个时间步长t聚焦于一个主题的简明上下文向量,计算三个语义注意力以选择该主题的相关特征。对于每个注意力,在句子解码器的步骤t1,对一个特定的模态特征和隐藏状态嵌入ht-1h0初始化为零。然后,采用软注意机制作为以下功能:αsemantic=exp ( Wvisualtanh ( Wrrn+Wr,hht−1)),(1)αsemantic= exp(Wclinicaltanh(Wcc+Wc , hht−1)),(2)αsemantic= exp(Wlabeltanh(Wllk+Wl,hht−1)),(3)其中,c表示临床特征,并且是前K个预测标签的语义嵌入。{W 视 觉,Wr,Wr , h},{W 临 床,Wc,Wc,h}和视觉特征编码(输入)地域特征全局特征报告嵌入Self-Attention700均方误差BioSentVec联系我们448图像编码器14*204850448142048n&多通道语义注意伊什博克…*6700多标记交叉熵Top-K词嵌入200渐进式报告解码(输出)ctxt句话9:;<7,69:=>6t@A7,6普>tt512解码器字解码器t*9:=>6t@A;,B*9:=>6t@A一*=[*,*,*]+**+**+*** **双向最大利润排名ℒI������������������������������������������������������������(,)(%,)继续/停止+s普B阿勒>tt普雷特>tt伊什t语句嵌入1专题1‘单词1临床特征编码(输入)临床特点继续/停止专题2词2原因年龄BioWordVec 嵌入向量向量Concat性继续/停止1x1转换话题3字3 “ 不 透 明 ”年龄性别编码器200202生成的报告嵌入分类器���������������������������������������������������������……‘256句子嵌入3原因:胸痛年龄:74岁性别:男句子嵌入2由CheXpert Labeler提取的疾病标签(18):心脏肥大/水肿/实变/肺炎/肺气肿/疝气/纤维化/脊柱变形//间质/小/模糊/线性/主动脉/胃/报告:右上叶线性纤维化阴影伴体积损失左上叶小结节影。右心尖胸膜增厚。心脏和骨性胸腔不明显。疑似远端肺结核。平均3988--Sλ=αl。(6)kC∈r,nattattSFSCSL {}attr,nr,nattattattattISMS我S我CSCSNΣΣ+maxΣ0,m−Σ(v·s)+ Σ(v·s)Σ,,% sctx %s,tLW标签、Wl、Wl、h分别是用于视觉、临床特征和关键标签嵌入的语义注意学习的可训练参数。相应的偏置在等式中被省略。一旦获得了注意力权重,则在每个时间步长t处针对不同模态的对应上下文向量被计算为:Rt =ΣΣγsemanticαsemanticrn+γselfαselfrnΣ,(4)n=1结束展开并停止生成句子。除了这两个基本损失,图像-句子匹配损失和描述损失被提出来约束视觉-文本语义一致性。3.3.2 图像-句子匹配损失给定提取的视觉特征fv和对应的通过在主题步骤t处生成的句子嵌入,我们tatttatt=α语义c,(5)K语义l,kk=1将它们映射到使用非线性变换的潜在空间中(通过具有ReLU激活的全连接层,维度减少到128)进行特征选择,并创建正对(v,si),i(1,S),其中S是查询图像的句子数量。此外,我们抽样两个对于区域视觉特征,除了语义at-注意,还学习了自我注意力图αself[48],以更好地对捕获全局病变的长期依赖性进行建模。学习参数γsemantic和γself以自动平衡两种注意力图。类型n ∈g at iv e对(v−,si)和(v,s−j),j∈(1,S).v−和s-j分别表示不正确匹配的图像和句子在这里,我们还从其他报道中抽取了S然后,通过学习一个双向最大边缘定义图像-句子匹配损失LISM最后,三个出席的特点rt不att 和LT是ranking[33]作为以下函数:并且使用一个或多个线性变换Watt将它们融合为ctxt=Wrt、ct、lt。该迪-L=,max0,m−1(v·s)+1(v−·s)将联合上下文向量的长度设置为512。整个多注意力模型的图表在中以黄色显示(v,s)我我(九)图二、 在来自解码器的不同主题步骤处,语义注意模型在图像的不同区域中产生高响应以生成相应的句子。3.3. 基于语义一致性的3.3.1句子解码器句子解码器在确定每个句子中应该描述图像的哪个部分方面起着至关重要的作用。解码器基于两层长短期记忆(LSTM)单元,其递归地解码多个句子嵌入。 在每个主题步骤t,LSTM将当前上下文向量ctxt和隐藏状态ht−1和ht作为输入,然后使用以下函数将它们建模为两个输出-预测句子嵌入f t和继续-停止向量t:ft=ReLU(W ctxt+W ht),(7)t=Sigmoid(Wcs,tht+Wcs,t−1ht−1),(8)1 1−SiSji j其中m是裕度约束。该功能旨在通过优化句子解码器以生成接近潜在空间中输入图像的视觉特征的句子嵌入来将查询射线照片与匹配的诊断描述链接。为了组成更有效的否定对,如果给定的查询图像是正常的,我们采样异常图像和它们的句子,反之亦然。3.3.3描述精度损失LDA如上所述,用于训练图像编码器的标签是从地面实况报告中提取的。 为了确保生成的报告提供准确的描述,我们约束生成的句子嵌入映射到正确的疾病和描述模式标签。一个AD,其中{Wctx,Ws,t,Wcs,t,Wcs,t−1}是额外的描述精度网络,由三个全连接层(512-512-标签数),与在句子解码器中的可学习权重,不包括LSTM 权重。隐藏状态维度被设置为512。为了优化句子解码器,四个不同的损失是精心设计的监督。首先,直接采用使用BioSentVec提取的真实句子嵌入,并将其连接到用于发送均方误差学习的ft。第二,通过使用地面实况0,1停止来监督继续停止向量,其中0指示当前句子不是最后一个句子,否则采用在测试阶段,如果预测超过0.5的阈值,则句子解码器将CL得双曲余切值.F3989S为多标签分类而构造。生成的报告嵌入分类器的输入是每个报告中所有句子嵌入的平均表示该网络与句子解码器同时优化。3.3.4字解码器给定由句子解码器生成的一个主题的句子嵌入,随后的单词解码器将依次解码对应的单词。单词解码器基于具有维度的单层LSTM。3990SL512,其将f-t和每个单词t-ken的级联作为输入。对于每个主题,单词解码器与仅预测一个句子的常规图像字幕解码器类似地工作START和END令牌分别用作解码器的第一个输入和最后一个输出。每一步的输出连接到下一个单词标记,并采用交叉熵单词。报告生成的总体损失函数定义为:L报告=λISMLISM+λDALDA+λ发送L发送( 十)+λstopLstop+λwordLword,其中{λISM,λDA,λsent,λstop,λword}被配置为{10,10,1,100,1}用于将损耗平衡到相同的尺度。3.4. 实现细节在训练阶段,首先对视觉特征编码模型进行预训练,以预测准确的自我注意力图和标签。然后,我们固定该组件的参数,并开始训练多注意力和报告解码模型。否则,从开始阶段开始的端到端训练会阻止解码器收敛。在我们的实现中,句子级和报告级嵌入维度都是700,由BioSentVec [3]提取。用于临床信息和前K标签预测的词级嵌入的维度为200.此外,K被设置为20。如果前20个中的预测标签的概率低于0.5,则对应的语义嵌入将被丢弃为零。为了预训练图像编码器,ADAM优化器是特征嵌入由于数据集的大小很小,我们以最小频率3过滤令牌,保留1,042个根据被要求阅读来自两个数据集的报告的放射科专家的建议,我们手动定义两类图像标签。第一种分类有18种疾病标签,如“无发现”、“心脏肥大”、“空域不透明”和“纤维化”。我们仔细定义了否定和不确定性语言模式,并采用CheXpertLabeler[19]来提取标签。第二组具有32个描述模式标签,诸如对于这两个数据集,患者索引的数据以7:1:2的比例随机分为训练集、验证集和测试集,然后是[26,20,24]。此外,我们使用MIMIC数据集来预训练IM。年龄编码器在所有的实验,由于其大规模。常见的图像字幕评估指标,包括BLEU[34]、CIDEr[38]、 ROUGE[28]和ME-2000。TEOR[5]仅关注单词水平的流畅性或回忆,不足以评估生成的医疗报告。因此,我们提出了一种新的度量标准,称为归一化的关键词距离(nKTD)。其目的是判断生成的句子是否包含所有观察到的疾病及其详细描述信息。我们使用CheXpert Labeler[19]从生成的报告和地面实况中提取所有标签,如bge和bgt,并计算汉明距离,其定义为:d汉明(bge,b gt)采用的经验基础学习率为0.001,SnKTD=、(11)N动量0.5对于20个时期的然后,我们将基本学习率配置为0.0002,以训练多注意力模型并报告批量大小为32的解码器。4. 实验结果4.1. 数据集和评估指标MIMIC-CXR。MIMIC[21]是最大的胸部X光片公共数据集,拥有超过140k对胸部X射线图像和报告。图像包括前后位、后前位和侧位视图。报告中的调查结果部分被用作地面真相句子。适应症用作临床信息。在语料库上进行令牌化,并且仅保留频率超过5的单词,总共产生5,348个唯一令牌。IU X射线。 印第安纳大学胸部X光片集[4]是一个公共数据集,包含7,470对图像和相应的诊断报告。每项研究都有一个正面和一个侧面视图,并与包括印象、发现、比较和指示部分的报告相关联。我们在调查结果部分选择句子作为地面事实。由于IUX线片的年龄和性别信息不完整,我们仅使用原因嵌入进行临床其中N表示标签的数量。分数越小,生成的报告中包含的关键发现就越准确4.2. 消融研究4.2.1消融研究报告生成为了评估所提出的报告生成模型,比较了五个基线进行 分 析 。 多 模 态 语 义 注 意 的 有 效 性 ( Ours-wo-MMSA):MMSA能够将区域视觉特征与预测的关键发现嵌入和临床特征相结合,以对它们之间的相关性进行建模,并提取高级语义背景信息。通过分离MMSA,全局视觉特征fv简单地与临床特征级联。全连接层被配置为将组合向量映射到上下文向量以用于解码。描述模式标签的有效性(Ours-wo- DPL):以前的方法只采用疾病标签来训练图像编码器。为了评估附加的描述模式标签是否可以有助于生成的句子的准确性,在检测到的疾病的更多细节的情况下,我们丢弃它们并且仅采用该基线中的疾病标签。匹配的有效性和去3991LL表1. 自动报告生成的定量评估。“wo”是without的缩写。我们模型的最佳结果以红色显示,而最先进方法的结果以蓝色显示。数据集会议模型BLEU-1BLEU-2BLEU-3BLEU-4苹果酒胭脂流星nKTDMIMIC-CXR2015年CVPR[39]CNN-RNN0.3030.1980.1350.0900.8790.2960.1490.2562015年CVPR[6]LRCN0.3160.2070.1370.0910.8610.2950.1460.2382017年CVPR[32]阿达阿特0.3060.2020.1370.0890.8830.2980.1500.2462017年CVPR[36]Att2in0.3090.2040.1360.0900.8850.2990.1490.2322018年CVPR[42]TieNet0.3290.2150.1380.0930.9930.2940.1530.2172018年中国国际纺织品展览会[20]共同关注0.3460.2260.1520.1120.8590.3240.1790.1852018年NeurIPS[26]HRGR-代理0.3420.2240.1550.1110.9340.3110.1700.1932019年IPMI[44]IDCTF0.3470.2290.1560.1150.9160.3200.1760.1792019年AAAI[24]应急署0.3520.2250.1540.1090.8940.3070.1680.1622019年MICCAI[47]MvH+AttL+MC0.3550.2280.1570.1130.9070.3210.1740.154Ours-wo-MMSA0.3530.2240.1560.1110.9090.3150.1710.158Ours-wo-DPL0.3610.2320.1610.1151.0320.3230.1770.170我们Ours-wo-CF我们的-我们的0.3730.3510.3640.3720.2390.2230.2330.2410.1680.1580.1620.1680.1210.1130.1150.1231.1250.9541.0291.1210.3190.3200.3250.3350.1750.1730.1790.1900.1170.1550.1320.106IU X射线2015年CVPR[39]CNN-RNN0.3090.2080.1370.0900.1150.2740.1570.2332015年CVPR[6]LRCN0.3580.2140.1420.0960.1980.2830.1510.2192017年CVPR[32]阿达阿特0.3130.2100.1380.0920.1130.2730.1590.2252017年CVPR[36]Att2in0.3160.2110.1390.0920.1140.2740.1580.2162018年CVPR[42]TieNet0.3890.2520.1950.1470.3240.3190.1800.1982018年中国国际纺织品展览会[20]共同关注0.5020.3630.2850.2310.3130.4250.2130.1692018年NeurIPS[26]HRGR-代理0.4830.3590.2870.2320.3190.3940.2040.1752019年IPMI[44]IDCTF0.4980.3620.2890.2340.3170.4130.2090.1572019年AAAI[24]应急署0.5110.3680.2930.2370.3120.3560.1950.1452019年MICCAI[47]MvH+AttL+MC0.5180.3740.2960.2400.3150.4110.1980.137Ours-wo-MMSA0.5150.3710.2900.2380.3200.3940.1960.142Ours-wo-DPL0.5240.3790.3010.2440.3270.4230.2100.145我们Ours-wo-CFOurs-wo-LISMOurs-wo-LDAOurs0.5330.5120.5210.5360.3920.3720.3800.3910.3120.2930.3050.3140.2500.2360.2480.2520.3370.3240.3280.3390.4120.4160.4310.4480.2050.1980.2150.2280.1040.1300.1160.097书写损失(Ours-wo-ISM和wo-DA):图像-句子匹配损失和描述准确性损失两者被设计为推动所生成的句子以匹配查询X射线图像并且包含正确的关键发现。我们通过丢弃双向最大边际排名模块和生成的报告嵌入分类器来设置两个基线,临床特征的有效性(Ours-wo-CF):临床特征包含相关疾病的一些基本指征,通常由放射科医生考虑用于初步诊断。我们还想探索这些对我们的模型有多大好处。在该基线中,我们分离多注意力模型中的临床特征输入。表1中每个数据集的底部行显示了比较结果。在MIMIC数据集上,没有多模态语义注意设计,在所有评估指标上的性能大大降低为了计算Ours-wo-DPL的nKTD,我们在训练阶段丢弃描述模式标签,但在测试阶段仍然提取它们以进行公平比较。平均而言,与我们的相比,我们的-wo-DPL总共错误预测了3.2个标签,其中3.2个中的2.7个是描述模式标签。临床特征可以适度增加结果,特别是在ROUGE和METEROR方面,它们更侧重于关键发现的回忆两个双-方向最大间隔排序模块和生成的报告嵌入分类器可以增强模型,尽管前者更有效。对于IU X射线数据集上的消融研究,每个设计模块的有效性已通过MIMIC数据集的类似结果比较去除多模态语义注意模块或主题级图像-句子匹配损失,在很大程度上降低性能。在所生成的报告嵌入分类器的约束下,利用额外的描述模式标签来训练图像编码器也可以适度地有助于最终生成的报告。此外,正如我们提出的度量nKTD评估,只有4.85的50个标签(关键术语)是错误的,在我们的方法产生的报告中描述,平均。因此,我们的模型在两个数据集上都实现了一致的改进。4.2.2疾病预测报告生成的性能适度依赖于我们模型中中间关键发现预测的准确性。因此,我们探索了几种特定的设计来训练图像编码器以获得更好的多标签分类结果。本任务比较了三个基线。自我关注的有效性(Ours-wo-SA):更好地3992表2. MIMIC疾病预测的评价。最佳结果以红色显示。表3. 在MIMIC数据集上评估描述模式标签预测。最佳结果以红色显示。疾病我们我们的-wo-SA我们的-双稀土我们的-w-CF扩大的Cardiom0.7660.7530.7480.765心脏肥大0.8560.8390.8410.852肺部病变0.7730.7820.7610.785气腔混浊0.8450.8410.8360.852水肿0.9430.9260.9350.958巩固0.9090.9120.9150.923肺炎0.8940.8570.8800.908肺不张0.8890.8760.8680.895气胸0.7990.8080.8040.806胸腔积液0.9580.9360.9510.966胸膜其他0.8480.8550.8310.853骨折0.8370.8210.8120.830气肿0.8460.8370.8480.851疝0.7540.7560.7520.753纤维化0.9550.9310.9400.948脊柱退化。茶。0.7780.7630.7760.773支撑装置0.8230.8290.8170.819没有发现0.8050.8180.7820.793是说0.8490.8410.8380.852描述图案我们我们的-wo-SA我们的-双稀土我们的-w-CF描述图案我们我们-wo-SA我们的-双稀土我们-w-CF上0.7880.7670.7630.784食管0.7760.7730.7710.779低0.8170.8030.7980.812胃0.8140.8060.8090.816左0.8590.8420.8360.850主动脉0.8210.8150.8080.825权0.8160.8030.8010.814曲折0.7910.7820.7740.787斑片状0.8810.8760.8790.878隔膜0.7540.7610.7500.742双边0.7560.7390.7320.759升高0.8710.8740.8710.867横向0.7490.7510.7460.752二尖瓣0.7280.7130.7150.720体积0.8370.8350.8380.830多0.7840.7850.7770.782小0.8100.8020.7970.808单独----间质0.9030.8950.8980.899高血压0.8370.8450.8320.846基底0.9510.9530.9480.946大0.8150.7980.7850.803模糊0.6180.6250.6120.605弥漫性0.9040.8860.8890.907线性0.7780.7740.7810.775中央0.8250.8080.8040.812支气管0.8600.8580.8520.863冠状0.8840.8770.8790.882密度0.8210.8270.8190.820钙化0.7600.7620.7570.755放大0.8540.8530.8450.858网状0.9430.9310.9330.928是说0.8190.8130.8090.816在多注意力模块中计算视觉注意力,除了语义注意力之外,我们还建立了一个纯粹基于区域视觉特征的自我注意力。我们评估了这个自我关注模块与没有它的基线相比,在多大程度上改善了多标签分类结果。报表嵌入监督的有效性(Ours-wo-RE):由于标签不是由领域专家注释的,而是由CheX-pert labeler自动提取的,因此它们不是绝对正确的,也没有保留来自原始报告的所有重要信息。报告嵌入可以在一定程度上弥补这一缺点,并被采用除了离散标签来训练图像编码器。并对其有效性进行了评价。临床特征的有效性(Ours-w-CF):利用临床特征帮助生成报告的动机为了验证这一点,编码的临床特征直接与全局视觉特征连接,然后连接到报告嵌入和多标签分类监督。因此,也可以实现疾病预测的改进。在 [41 , 19] 之 后 , 我 们 采 用 受 试 者 操 作 特 征(ROC)的曲线下面积(AUC)来评估在MIMIC数据集上对18种疾病标签的识别性能,如表2所示。实验是在MIMIC数据集上进行的,因为MIMIC数据集规模较大,更有说服力。通过Ours-wo-SA获得的略微降低的平均结果说明大多数病变可以从自我注意设计中受益。轻微肺部病变、气胸和正常结果是例外情况,因为这些疾病标签的异常视觉模式不清楚。报告嵌入监督促进了除气胸之外的所有标记上的图像编码器训练,平均AUC增加1.1%。此外,临床特征适度地增强性能,特别是对于肺部区域中的病变,因为大多数临床适应症与肺部病变相关。描述模式标签预测的结果也在表中示出。3. (请注意,与关键发现的平均AUC性能相比主要原因是这些标签的定义通常是模糊和嘈杂的,例如此外,我们的功能齐全的最终模型实现了最好的结果相比,所有三个基线。因此,关键标签预测的改进启发我们通过这样的设计来增强我们的报告生成模型。4.3. 与现有技术的为了进一步验证我们的方法,我们将其与四种最先进的图像字幕模型和六种医疗报告生成模型进行比较,这些模型列于表1中每个数据集的上部。所有模型都采用DenseNet- 201作为视觉特征编码器的主干。对于基于强化学习的方法HRGR-Agent[26]和KERP[24],它们需要一个模板数据池来在构建模板候选时,通过阈值从每个数据集的训练集中选择以高频率出现的句子作为模板候选。然后,具有相似含义但不同语言描述的候选者被进一步分组到同一模板中。因此,分别为MIMIC-CXR和IU X射线选择132和29个句子模板。此外,我们使用在MvH+AttL+MC [47]中的医学概念的模型中定义的相同的50个标签。如表1所示,强化学习并没有表现出明显优于纯交叉熵优化的优势。我们的最终模型在所有的评估指标上实现了一致的改进。对于在MIMIC-CXR上生成的报告,我们的方法使得2.4平均而言,与表现最好的先前工作MvH+AttL+MC相比,错误标签预测较少,这表明我们的模型对关键发现的描述更加完整和精确。3993临床:发热、寒战、不适地面真相:获得胸部的正面和侧面视图。右侧少量胸腔积液,小裂内可见少量液体,可能为部分分叶状。散在的斑片状阴影主要突出在右肺,引起了感染的关注,不太可能是不对称水肿。左侧基底动脉肺不张。肺相对过度充气,横膈膜变平,提示慢性阻塞性肺病。心脏和纵膈轮廓相对稳定。临床:呼吸困难、胸腔积液我们的-wo-VSMA:右侧胸腔积液。心脏和纵膈轮廓正常。无 急 性 心 肺 功能异常。没有局部浸润或渗出。气管内导管处于适当位置。没有肺炎或气胸我们的病人:右侧胸腔大量积液,右肺不能评估实变。左肺底和左肺下叶斑片状阴影可反映肺不张。右侧肺不张。心脏大小正常。未检测到急性骨异常。右侧胸腔有中到大量积液。LLLLOurs-wo-DPL : 心 纵 隔 轮 廓 稳定,在正常范围内。肺不张阴影,不伴局灶性实变气胸。右侧胸腔积液。心脏大小正常。无急性心肺功能异常。无急性骨异常。地面真相:提供了胸部的PA和侧视图。在先前的检查中发现大量的右侧胸腔积液,伴有右中下肺的压迫性肺不张。左肺除轻度左下肺不张外,其余清晰。由于右心边界消失,难以评估心脏大小。骨骼结构完好无损。右胸大量积液,右中下肺压迫性肺不张。我们的������&病人������:右侧有中度至大量胸腔积液。中度至重度肺水肿和中度胸腔积液,均在右侧。有轻微的心脏肥大 左肺透明,无局灶性实变。未见明显的肺水肿。小裂孔疝我们的病人:双侧小到中度胸腔积液。右肺底部可见极轻微斑片状阴影,可能是肺水肿区域。 肺部过度膨胀,可能有一些潜在的慢性肺部疾病。左肺下叶线性肺不张心脏大小可能是正常的。没有气胸。我们的-wo-VSMA:没有气胸或右侧胸腔积液的证据。斑片状双基底动脉腔阴影可反映肺不张。无明确的局灶性实变。无急性心肺过 程 。心纵隔轮廓在正常范围内。无急性骨质异常。我们的肺部轻度过度充气双侧胸腔积液微量无局灶性气腔实变或气胸。可 能 存在肺不张。心脏大小正常。肺门和纵隔轮廓正常。没有气胸。我们的������&工作������:未见胸腔积液或气胸。无急性胸内异常。未发现与感染有关的病灶实变。心脏大小稳定。再次可见大的心后裂孔疝。骨骼结构完好无损。胸片正常。图3.通过我们的方法生成的句子的插图和与基线的比较对于我们的报告,报告中正确提到的关键发现用绿色突出显示,错误描述的用红色突出显示。蓝色文本是输入的临床信息。总的来说,我们得到以下观察和分析。传统的图像字幕模型CNN-RNN、LRCN、AdaAtt和Att 2 in在所有指 标 上 的 结 果 都 比 医 学 生 成 方 法 TieNet 、 Co-Attention 、 HRGR-Agent 、 IDCTF 、 KERP 和MvH+AttL+MC低得多。这是因为提出用于医学图像的报告生成器用于预测描述单独和不同主题的多个句子。基于强化学习的方法HRGR-Agent和KERP使用选定的模板的检索方式。然而,由于关键医学术语的召回率低虽然MvH+AttL+MC在所有先前的作品中实现了最好的性能,因为它结合了多视图图像特征、注意力学习和医学概念,但是它4.4. 定性结果为了更好地展示模型的性能,我们的报告与地面实况和图中的一些基线3(更多结果见补充文件)。句子解码器的不同主题步骤处的语义注意图也被可视化。与真实情况相比,我们的报告通常可以检测并正确提及胸部疾病及其相应的描述模式。考试-在第一种情况下,胸腔积液是在扫描中发现的,它也被准确地描述为“大”和“右”。肺不张也提到其位置为
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功