没有合适的资源?快使用搜索试试~ 我知道了~
XPRONET:放射学报告生成的跨模态原型驱动网络
+v:mala2255获取更多论文基于跨模态原型驱动网络的放射学报告生成Jun Wang,Abhir Bhalerao,and Yulan He英国华威大学计算机科学系{jun.wang.3,abhir.bhalerao,yulan.he} @ warwick.ac.uk抽象的。放射学报告生成(RRG)旨在用类人语言自动描述放射学图像,并且可以潜在地支持放射科医生的工作,减轻人工报告的负担。以前的方法通常采用编码器-解码器架构,并专注于单模态特征学习,而很少有研究探讨跨模态特征交互。在这里,我们提出了一个跨模态PRO-totype驱动的网络(XPRONET),以促进跨模态模式学习,并利用它来改善放射学报告生成的任务这是通过三个精心设计的、完全可区分的和复杂的模块来实现的:共享的跨模态原型矩阵,用于记录跨模态原型;跨模态原型网络,用于学习跨模态原型并将跨模态信息嵌入到视觉和文本特征中;以及改进的多标签对比损失,用于实现和增强多标签原型学习。XPRONET在IU-X射线和MIMIC-CXR基准上获得了实质性的改进,其性能在IU-X射线上超过了最新的最先进方法,在MIMIC-CXR上的性能相当1关键词:放射学报告生成,跨模态模式学习,原型学习,变压器1介绍放射学图像,例如,X射线和MRI在医学中被广泛用于支持疾病诊断。然而,传统的临床实践是费力的,因为它需要医学专家,如放射科医生,仔细分析图像,然后生成医疗报告,这通常需要五分钟以上。由于主观因素,如疲劳和分心,这个过程也可能容易出错。放射学报告自动生成作为专家诊断的替代方案,因此越来越受到研究人员的关注自动医疗报告生成具有快速产生报告并帮助放射科医师做出最终诊断的潜力,从而显著减少放射科医师的工作量并节省医疗资源,特别是在训练有素的放射科医师可能短缺的发展中国家。1代码可在https://github.com/Markin-Wang/XProNetarXiv:2207.04818v1 [cs.CV] 2022年7+v:mala2255获取更多论文2Wang等人1.11.00.90.80.70.60.50.40.30.20.1图1:使用XPRONET生成的报告和选定的跨模态原型索引示例。所选单词从图像补丁和文本实例中选择的原型索引标记为红色。0.0-0.1-0.10.00.10.20.30.40.50.60.70.80.91.01.1图 2 : 使 用 T-SNE [27] 在MIMIC-CXR 数 据 集 上 可 视化跨模态原型矩阵。具有相同颜色的点来自相同的原型类别。由于用于图像字幕的计算机视觉模型的发展和大规模数据集的可用性,最近在自动放射学报告生成方面取得了重大进展[47,14,24]。然而,放射学报告的生成仍然是一个具有挑战性的课题,远未得到解决.原因有三方面。首先,与通常仅产生单个句子的传统图像标题任务不同,医疗报告由几个句子组成,其长度可能是图像标题的四倍。其次,医疗报告往往表现出更复杂的语言和语义模式。最后,常用的数据集存在明显的数据偏差:大多数训练样本是正常情况的,任何异常区域通常只存在于图像的一小部分中,并且即使在病理情况下,大多数陈述可能与正常发现的描述相关联,例如参见图4。总体而言,这些问题提出了一个实质性的挑战,跨模态模式的相互作用和学习信息功能,准确的报告生成的建模。现有的方法往往侧重于学习歧视,单模态特征,忽视了跨模态交互的重要性,处理复杂的图像和文本语义相互关系至关重要。因此,跨模态交互是非常重要的,因为仅在给定放射学图像的情况下需要模型来生成有意义的报告。以往的研究通常通过自注意机制对编码器-解码器架构中提取的视觉和文本特征进行建模,无法充分捕获复杂的跨模态模式。出于这一动机,我们提出了一种新的框架称为跨模态PROtotype驱动的NETwork(XPRONET),学习跨模态的原型上飞,并利用它们来嵌入跨模态的信息到单一的模型功能。XPRONET将跨模态原型视为中间表示,并显式地建立跨模态信息流来丰富单模态特征。图1示出输入图像从60个向量中选择前10个原型向量索引:[49,14,1,8,58,20,39,31,44,50]生成的报告… the+v:mala2255获取更多论文用于放射学报告生成的跨模态原型驱动网络3一个跨模态信息流的例子,其中视觉和文本特征选择几乎相同的(前10个中的9个)跨模态原型来执行交互。这些丰富的功能更有可能捕获精确报告生成所需的复杂模式。此外,不平衡的问题是通过强迫单模型功能,通过类相关的,跨模态的原型查询和响应模块与他们的跨模态原型进行交互我们的工作有三个主要贡献:1. 我们提出了一种新的端到端的跨模态原型驱动的网络,我们利用跨模态原型,以增强图像和文本模式的交互。以这种方式为RRG利用跨模态原型还没有被明确地探索。2. 我们采用记忆矩阵来学习和记录跨模态原型,这些原型被认为是视觉和文本特征之间的中间表征。设计了一个跨模态原型网络,将跨模态信息嵌入到单模态特征中。3. 我们提出了一种改进的多标签对比损失学习跨模态原型,同时通过自适应控制器项适应标签差异。在讨论了相关的工作之后,我们的方法和实现在第3节中详细描述。第4节中的实验结果表明,我们的方法在两个广泛使用的基准测试中优于许多最先进的方法。我们还进行消融研究,以验证我们的方法的各个组成部分讨论和建议,以启发未来的工作。2相关工作图像字幕图像字幕的目的是生成类似人类的句子来描述给定的图像。该任务被认为是一个结合了计算机视觉和自然语言处理研究的高级视觉最新的最先进的方法[35,41,22,26,45,36]遵循编码器-解码器架构,并且在一些传统的图像字幕基准中表现出很大的改进。特别是,由于Transformer[39]的自我注意机制及其为任务提取有意义特征的令人印象深刻的能力,最复杂的模型[5,9,32,12]通常采用该模型作为其然而,这些方法被设计用于生成简短的文本描述,并且不太能够生成长报告。虽然已经提出了几项工作[18,28]来处理长文本生成,但它们通常无法捕获特定的医学观察结果,并且倾向于生成忽略图像中异常区域的报告,导致性能不令人满意。放射学报告生成受图像字幕中基于编码器-解码器的框架的巨大成功的启发,最近的放射学报告生成方法也采用了类似的体系结构。具体而言,Jing et+v:mala2255获取更多论文∈4 Wang et al.[14]开发了一种分层LSTM模型来生成长报告,并提出了一种共同注意机制来检测异常补丁。Liu等人[24]建议首先确定每个报告的主题,然后根据这些主题生成报告。同样,Zhang等人[47]也确定了疾病主题,并利用先验知识通过预先构建的知识图来帮助生成报告。Liu et al. [23]扩展了这项工作,一个PPKED模型,它将先验知识和后验知识都提取到报告生成中。一些作品[29,31]研究了强化学习以提高生成的报告的一致性。这些编码器-解码器的方法往往侧重于提取有区别的单模态特征(视觉或文本),而很少有研究探讨的跨模态模式的相互作用的重要性。与我们最相似的工作是R2GenCMN[3],它利用额外的内存来学习跨模态模式。然而,有三个主要的区别。首先,我们设计了一个共享的跨模态原型矩阵来学习类相关的跨模态模式,并提出了一种改进的多标签对比损失,而Chen等人[3]随机初始化一个记忆矩阵并使用交叉熵损失。此外,我们的查询和响应过程是类相关的,也就是说,跨模态模式学习只在共享相同标签的跨模态原型上执行,而不是在所有跨模态原型上执行。此外,我们采用了一种更有效的方法来提取跨模态信息到单模态表示,而不是简单的平均功能中使用的R2GenCMN。XPRONET是由交叉模态原型驱动的,据我们所知,在放射学报告生成之前还没有探索3方法我们的目标是学习重要的信息跨模态模式,并利用它们为了明确地对放射学报告生成的跨模态特征交互进行建模,图1显示了XPRONET的总体架构。主要三个模块的详细信息,即,图像特征提取器、交叉模态原型网络和编码器-解码器在以下小节中描述3.1图像特征提取器给定输入放射学图像I,使用ResNet-101 [10]提取图像特征vRH×W×C,如图1中的蓝色虚线矩形所示。特别地,在最终平均池化操作之前,从最后的卷积层提取图像特征v。这里H、W和C分别是图像的高度、宽度和通道数一旦提取,我们通过连接图像特征的行来线性化图像特征v,并将每个区域(位置)特征视为视觉单词标记。最终的特征表示序列vs∈RHW×C被作为后续+v:mala2255获取更多论文用于放射学报告生成的跨模态原型驱动网络5图3:XPRONET的体系结构:图像被送入视觉特征提取器以获得补丁特征。在时间步长T处的词(例如,“肺”)经由嵌入层被映射到词嵌入上。 然后,将视觉和文本表示发送到跨模态原型查询和响应模块,以基于相关联的伪标签对所选择的跨模态原型执行跨模态交互。然后,通过线性层生成的响应来丰富单模型特征,并将其作为Transformer编码器-解码器的源输入以生成报告。模块,并表示为:s s s s s{v1,v2,..., vi,., vNs−1,vNs}= fife(I), (1)其中vi表示vs的第i个位置处的区域特征,Ns=H×W,并且fi fe(·)是图像特征提取器。3.2跨模态原型网络学习图像特征和相关文本描述之间的复杂相关模式是具有挑战性的。但是跨模态学习能够共同学习图像和文本的信息表示。我们网络的核心是一个原型矩阵,其中包含图像伪标签,使用下面描述的方法进行初始化。伪标签生成跨模态原型需要每个样本的类别为了解决原型学习的这个问题,我们利用CheXbert[37],一个自动放射学报告标签器,为每个图像文本生成一个伪标签汇率我们将与图像I相关联的报告表示为:R={w1,w2,., 我... wNr −1,wNr},(2)“是”Pseduo标签[1,0,1,“肺”''Softmax跨模态原型矩阵''Transformer………× 9解码器层解码器层跨模态原型解码器层查询响应视觉特征提取编码层块特征…编码层…输入图像编码层………嵌入层全连接层特征提取器…+v:mala2255获取更多论文·联系我们∈∈KKKuKu6 Wang et al.其中wi是报告中的第i个单词,Nr是报告中的单词数。然后,标记过程可以表述为:{y1,y2,..., 是的, yNl−1,yNl}= fal(R),(3)其中,结果是独热向量,并且yi0, 1是第i个类别的预测结果。注意,值1指示该类别的存在,Nl是类别的数量,并且fal()表示自动放射学报告标注器。原型矩阵(PrototypeMatrix)现有的方法通常直接使用编码特征对跨模态信息交互进行建模,并学习隐含的跨模态模式。报告的长度、正常和异常案例的文本描述分布不均衡以及复杂的跨模态模式使得跨模态模式难以有效地捕获。为了更好地进行跨模态模式学习,我们设计了一个共享的跨模态原型矩阵P MRNl×Np×D来学习和存储跨模态模式,可以被视为中间表示。这里Np和D分别是每个类别的学习跨模态原型的PM在训练过程中更新和学习,然后由类相关的原型查询和响应模块使用,以显式地将跨模态信息嵌入到单模态特征中。原型矩阵的初始化至关重要。一种方法是随机初始化矩阵[3],但这不会捕获任何有意义的语义信息,并妨碍后续的原型学习。因此,我们建议利用先验信息来初始化语义跨模态原型机器人。具体来说,对于具有相关伪类标签y的图像-文本对,我们采用预训练的ResNet-101和BERT [37]来提取全局视觉和文本表示,oi∈ R1×C1和ot∈R1×C2,其中C1和C2分别是视觉和文本表示提取的通道数。为了提高鲁棒性,我们还提取了R1×C1时的翻转图像特征.通过对所有训练样本重复这个过程,我们可以为每个类获得一组特征集,公式为:R1={oi(f)}|yu,k=1},RT={ot|yu,k=1}。(四)这里RI RT是类别k的视觉和文本特征集,i(f)表示原始图像i或翻转图像if,并且yu,k表示样本u的类别k的标签。然后,我们将视觉和文本表示连接起来,形成跨模态特征,r∈R1×D。注意D=C1+C2。最后,采用K-Means[25]将每个特征集聚类为Np个聚类,并将每个聚类中特征的平均值用作初始值。+v:mala2255获取更多论文NN我k我{|}∈∈JJSk,ij=0J我我我我我我不S用于放射学报告生成的跨模态原型驱动网络7跨模态原型的PM。这一过程可以概括为:ou=Concat(oi(f),ot),(5)k kk乌乌kk,ik我{g1,., gNp−1,gN p}=fkm(Rk),gi={o1,.,oN d },(6)P M(k,i)=1rk,i,(7)其中ou和Rk是样本的级联跨模态表示,u和类别k的跨模态特征集,gk是第i个分组的聚类对于由K-Mean算法返回的第k个类别fkm。Nd是数字第k个类别的第i个聚类中的样本的数量P M(k,i)则表示第i个第k个类别的跨模态原型集中的向量跨模态原型查询在获得原型矩阵之后,类似于[3],我们采用查询和响应过程来显式地将跨模态信息嵌入到单模态特征中。与文献[3]不同的是,对于给定的图像,我们的跨模态原型查询测量其单模态表示与图像相同标签下的跨模态原型向量之间的相似性,并选择具有最高相似性的顶部γ向量与单模态表示进行交互 这个过程在图1中的黄色虚线矩形中进行了说明。给定图像-文本训练对I、R>和相关联的伪标签y,然后生成样本的查询的跨模态原型向量。<查询的跨模态原型向量pv=P M(k)yk= 1,其中P M(k)是由等式(5)-(8)生成的第k个为了过滤掉可能的噪声,在将其发送到查询过程之前,对pv应用线性投影以将其映射到CP维度,如下所示:p=pv·Wpv,(8)其中Wpv∈RD×CP是一个可学习的权重矩阵。我们将嵌入层输出的报告表示为vt={vt,vt,., vt,., vtt,vtt}和交叉模态原型向量作为pi,其中12我N−1Nt∈ R1×C是报 告 的第i个 词嵌入。后再查询,我们线性地投影视觉特征序列vs,文本报告em,beddingsvt和交叉模态原型向量pi转换成相同的维数d因为它们可能具有不同的尺寸:vs=vs·Wv,vt=vt·Wv,p=pi·Wp,(9)其中WvRC×d和WpRCP×d是两个可学习的权重。每个单模态特征和跨模态原型向量对之间的相似性通过以下公式计算:(i,u)=vs·puD(j,u)=vt·puD.(十)k我vD,D+v:mala2255获取更多论文DΣΣn=pn=p不(i,j)p和p我(i,j)我(i,j)8 Wang et al.由于大多数跨模态原型可能与查询向量无关,这可能会引入噪声跨模态模式,因此我们只选择γ个最相似的向量来响应查询向量。在此基础上,我们计算这些选定的原型向量的相似性的基础上的权重。这种在跨模态原型、视觉区域表示和文本词嵌入之间的过程由以下捕捉我我Ss(i,u)t不(i,u)w(i,u)= γj=1S(i,j),w(i,u)= γj=1不(i,j)(十一)跨模态原型响应在获得前γ相似跨模态原型向量及其权重之后,下一步是生成针对视觉和文本特征的响应。特别地,我们首先将查询的原型向量通过全连接层转换到查询向量的相同表示空间。视觉和文本特征的响应通过对这些变换的跨模态原型向量进行加权和来创建:S(i,j)S(i,j)γ·We,e(i,j)不(i,j)γ·We,(12)rs=ws·ej=1,rt=wt·ej=1、(十三)其中ps不(i,j)是最相似的交叉中的第j个分别用于第i个类似地,第i个图像块和字的第j个变换的原型向量表示为S(i,j)不(i,j).我们将第i个图像块和单词的响应表示为rs和rt。WSWT是通过等式(11)至(12)获得的权重,我我(12).(i,j)(i,j)特征交互模块所选的跨模态原型向量包含类相关和跨模态模式。最后一步是通过特征交互将这些信息模式引入到单模态特征中在[3]中,这是通过直接添加单模态特征及其相关响应来实现的然而,这种简单的方法可能是次优的,因为可能有噪声响应或非区分性的单模型特征。为了缓解这个问题,我们建议自动学习重要性差异并过滤掉噪声信号。具体而言,我们首先将单模态特征与其关联响应连接起来。然后应用线性层来融合单模态特征和跨模态原型向量。请记住,融合表示包含丰富的类相关特性和跨模态模式。流程如下:ls=F CN(Concat(vs,rs)),lt=F CN(Concat(vt,rt)),(14)DDDeS不为e和e(i,j)(i,j)+v:mala2255获取更多论文12我T−1用于放射学报告生成的跨模态原型驱动网络9其中,F CN表示全连接层,Concat是连接函数。特征交互模块的输出被用作以下Transformer模块的源输入,以生成报告。3.3使用TransformerTransformer 已 经 被 证 明 对 NLP 任 务 非 常 有 效 , 例 如 , [2019 - 04 -16][2019 - 04 - 19][2019 - 04][2019 - 04 因 此 , 我 们 采 用 了 一 个Transformer来生成最终的报告。通常,Transformer由编码器和解码器组成。在第一步,响应的视觉特征被馈送到编码器中以获得中间表示。结合当前融合的文本表示-站序列It={It,It,...,我...,ls},这些中间表示然后作为解码器的源输入来预测当前输出。通常,编码和解码过程可以表示为:sS s{m1,m2,..., mNs}=编码器(11,12,..., INs), (15)tt tpT=解码器(m1,m2,..., mNs; l1,l2,., lT −1),(16)其中pT表示时间步长T的单词预测。通过重复上述过程获得完整的报告。3.4改进的多标签对比度损失尽管跨模态原型矩阵被确定地初始化,但是需要进一步学习来学习类相关的和信息性的跨模态模式,因为跨模态模式实际上比原型初始化模块中的视觉和文本表示的简单连接复杂得多。此外,跨模态原型特征提取器(预训练的ResNet-101和BERT)没有在我们的目标基准上训练,导致潜在的噪声信号。因此,在线跨模态原型学习变得更有意义。一个简单的方法是利用广泛使用的对比损失来监督跨模态原型的学习。尽管如此,香草对比损失是专为单标签原型学习,而每个训练样本,可以属于我们任务中的多个类别。因此,我们通过将具有至少一个共同标签(不包括标签0)的样本视为正对,将对比损失修改为多标签场景。如果两个样本不共享任何共同标签,则它们形成负对。而不是采用对比损失的响应功能,我们建议应用的响应损失,因为融合的功能是用于医疗报告生成,而不是用于分类。给定视觉响应rs={rs,rs,.,rs,., rss,rss}和文本t t t t tt12我SN−1N响应r={r1,r2,., ri,., rNt−1,rNt},我们修改的多标签对比+v:mala2255获取更多论文BBCNICN--Σ−ICN--我 J我Jj:yiyj=010 Wang et al.损失公式如下:S1ΣΣ-hdsSLicn=B2(θi=1j:yiyj=0Bht−Sim(σ(ri,rj)+(十七)max(Sim(σ(rs,rs))−α,0)这里B表示一个批次中的训练样本的数量,并且A是点生成操作。yiyj=0确保响应rs和rs至少一个公共标签(不包括0)。σ(·)和Sim(·)是平均函数在所有的图像块响应之后,分别进行L2归一化和余弦相似性函数只有相似度较大的负对一个恒定的裕度α可以对Ls作出贡献。注意,与标准对比损失不同,最大正相似性y(或一个)被替换为标签差项θ(. )的。在这种情况下,模型可以容忍正对之间在标签差异方面的一些差异,而不是强迫它们相同,这在多标签设置下是不合理的:hd=(abs(yi−yj)),ht=(yi+ yj),(18)其中abs和分别是绝对值和汇总函数。Hd计算不同标签的数量,Ht表示两个训练样本的总标签的数量(不包括零)。因此,θ控制相对公差,其中较小的值表示给定相同标签的较小公差差一种改进的文本响应Lt获得以类似的方式。给定整个预测的报告序列{pi}和相关的地面实况报告wi,XPRONET通过交叉熵损失和我们改进的多标签对比损失进行联合优化:NrLce =1wNrii=1·log(pi),(19)Lfnl=Lce+λLsticn ,(20)这里λ和δ是平衡损失贡献的两个超参数。4个实验我们在两个广泛使用的医疗报告生成基准上验证了XPRONET的有效性,IU-X射线和MIMIC-CXR。四个常见的自然语言处理评估指标:BLEU 1-4[33], ROUGE-L[21], ME-TEOR[8]和CIDER[40]用于衡量性能。实施细节见附录A.1。+δL+v:mala2255获取更多论文用于放射学报告生成的跨模态原型驱动网络11表1:XPRONET与先前研究的比较结果。最佳值以粗体突出显示,次佳值以下划线突出显示。BL、RG和MTOR是BLEU、ROUGE和METEOR的缩写。符号表示我们用官方代码复制的结果。模仿-CXRKERP[19]R2 GenCMN N[3]0.4740.3020.2200.1680.370 0.198-XP RONET(我们的)0.525 0.357 0.262 0.199 0.411 0.220棘轮[11]0.232 - 0.240 0.101-ST[38]0.2990.1840.121零点八四0.263 0.124-[26]第二十六话0.1850.124零点零八0.266 0.118附件2IN[36] 0.3250.2030.136零点零九六0.2760.134-自上而下[1]0.3170.1950.130零点零九二0.267 0.128R2GenCMNN[3]0.3540.2120.139零点零七0.2710.137-XP RONET(我们的)0.3440.2150.1460.105 0.279数据集IU-Xray[6]是一个广泛使用的基准,包含印第安纳大学建立的7,470张X射线图像和3,955份相应报告。大多数患者提供了正面和侧面放射学图像。MIMIC-CXR[15]是最近发布的大型胸部X射线数据集,由BethIsrael Deaconess Medical Center提供了473,057张X射线图像和206,563份报告。这两个数据集都是公开的2。我们遵循与[20]相同的数据分割比例,将IU-X射线数据集分为训练集(70%),验证集(10%)和测试集(20%),而MIMIC-CXR数据集采用官方数据分割。在这里,我们将实验结果与IU-Xray和MIMIC-CXR数据集上的先前研究进行了比较。如表1所示,我们的(XPRONET)在IU-X射线数据集上的表现优于R2 GenCMN的先前最佳SOTA方法。特别是,XPRONET在BLEU-1、BLEU-4和RG-L评分上分别超过第二好的方法4.3%、3.1%和4.1%在MIMIC-CXR基准测试中可以看到类似的模式,其中XPRONET在所有评估指标上都达到了最佳性能,除了BLEU-1,它略低于R2GenCMN。我们主要归因于改进的性能,丰富的单模态特征表示,通过跨模态原型类型学习。XPRONET在IU-X射线上的优势比MIMIC-CXR更明显。这可以部分解释为数据大小的差异,因为MIMIC-CXR中的样本数量几乎是IU-X射线的50倍,因此2https://physionet.org/content/MIMIC-cxr-jpg/2.0.0/https://openi.nlm.nih.gov/数据集方法BL-1BL-2BL-3BL-4RG-L mTOR苹果酒[第38话]0.2160.1240.0870.0660.306--ADAATT[26]0.2200.1270.0890.0680.308-0.295[36]第三十六话0.2240.1290.0890.0680.308-0.220[47]第四十七话0.4410.2910.2030.1470.304-0.304IU-X射线[20]第二十话0.4380.2980.2080.1510.322-0.343CoAT[14]0.4550.2880.2050.1540.369-0.277CMAS−RL[13]0.4640.4820.3010.3250.2100.2260.1540.1620.3620.339--0.2750.280+v:mala2255获取更多论文12 Wang等人。表2:IU-X射线和MIMIC-CXR数据集上消融研究的实验结果最佳值以粗体突出显示。BL和RG是BLEU和ROUGE的缩写。IU-X射线BL-1BL-2BL-3BL-4 RG-L流星XPRONET0.525 0.357 0.262 0.199 0.4110.220无PI0.4760.3070.2180.1600.3710.196不含IMLCS0.4710.3070.2150.1590.3770.196不含CMPNet0.4670.3030.2100.1550.3670.197MIMIC-CXR BL-1BL-2BL-3BL-4 RG-L流星XPRONET0.344 0.215 0.146 0.105 0.2790.138无PI0.3290.2050.1390.1000.2750.133不含IMLCS0.3360.2040.1370.0980.2690.135不含CMPNet0.3210.1980.1330.0950.2730.131学习信息丰富和类相关的跨模态原型更加困难我们在图4中展示了一个可视化示例,并在下面给出了进一步的分析。消融分析消融研究旨在进一步探索XPRONET的每个组件对报告生成性能的影响。我们研究了以下变体:– XPRONET w/o CMPNet : 基 本 模 型 , 仅 由 可 视 化 提 取 器(ResNet-101)和编码器-解码器(Transformer)组成,没有其他扩展。– XPRONET w/o PI:没有跨模态原型初始化(PI)的XPRONET交叉模态原型矩阵被随机初始化。– 不 含 IMLCS 的 XPRONET : 不 含 改 进 的 多 标 记 对 比 丢 失(IMLCS)的XPRONET。我们将适应性最大相似度-hd等式(17)中的θht,其中1将其切换回标准多标签对比损失。XPRONET消融研究的主要结果见表2。首先,所有三个组成部分,即,原型初始化,改进的多标签对比度损失和整个跨模态原型网络架构,显着提高性能作为一个显着下降时,可以看到任何其中一个被删除。例如,BLEU-4分数从0.199降低到当原型初始化被移除时,IU-X射线和MIMIC-CXR数据集上的0.160和0.105至0.100。类似地,去除改进的多标记对比度损失导致BLEU-2和ROUGE-L的分数降低。这些结果验证了在多标签、跨模态原型学习设置下信息性地初始化跨模态原型和允许肯定对之间的一些相异的重要性+v:mala2255获取更多论文地面实况获得胸部的正面和侧面视图。肺仍然过度膨胀表明有慢性阻塞性肺病未见局灶性实变性胸腔积液或气胸迹象。心脏和纵膈的轮廓是稳定和不明显的。肺门轮廓也稳定。输入图像用于放射学报告生成的跨模态原型驱动网络13XPRONET:获得胸部正面和侧面视图。肺过度充气,横膈膜变平,提示慢性阻塞性肺病. 未见局灶性实变性胸腔积液或气胸迹象。心脏和纵膈的轮廓并不明显XPRONET w/o CMPNet:心脏大小正常。纵膈和肺门轮廓正常肺血管系统正常肺部过度膨胀但清晰未见胸腔积液或气胸。没有急性骨质异常。XPRONET(不带IMLCL):提供了胸部的正侧位视图无局限性实变积液或气胸。心内膜轮廓正常成像的骨结构是完整的。右半膈下未见自由空气。XPRONET w/o PI:提供了胸部的PA和侧位视图。无局限性实变积液或气胸。心内膜轮廓正常成像的骨结构是完整的。右半膈下未见自由空气。图4:不同模型生成的报告示例。地面实况报告显示在蓝色虚线矩形中。在地面实况中出现的单词标记为红色。此外,在没有整个跨模态原型网络的模型上可以看到最大的性能下降,例如,IU-Xray和MIMIC-CXR数据集上的BL-1分别为0.525至0.467和0.344至0.321图4中显示了一个可视化示例,以说明XPRONET的优势。附录A.2中给出了更多的可视化示例正如我们所看到的,XPRONET可以捕获异常信息并生成更好的报告,而扩孔模型往往会忽略图像中观察到的异常模式来生成句子。这可以归因于良好学习的跨模态原型和类相关的查询和响应模块,它们更好地捕获跨模态流并将原型信息嵌入到特征学习过程中。我们在图2中说明了从线性投影(方程(8))中提取的跨模态原型矩阵。可以看出,在跨模态原型矩阵中显示出明显的聚类模式。应该提到的是,XPRONET可以容忍肯定对之间的一些不同之处,因此总是与其他类别一起出现的类别可能会导致相关联的原型与其他类别分散橙色),这是一个预期的结果。为了进一步探索XPRONET的有效性,我们在图1中展示了生成的报告和选定的跨模态原型索引的示例。对于单词XPRONET对响应原型向量数量的敏感性γ如图5所示。BL-4评分在γ从+v:mala2255获取更多论文CMPDNet基地14 Wang et al.13到14,然后在(0. 199)在15,之后分数稳步下降到0。在IU-X射线数据集上,γ增加到17。通常,过多或较少响应的原型向量会导致显著的性能下降。其原因是过多的跨模态原型向量可能会引入噪声信息,而不足的数量不能提供足够的跨模态和类相关模式。图6显示了XPRONET的容差率控制器项θ对MIMIC-CXR基准测试的影响。如我们所见,θ值为1.750时性能最佳,其他值时性能下降。较小的θ表示较大的最大相似性,这迫使正对更加相似,从而导致给定不相似的正对的性能下降相比之下,XPRONET无法学习具有大θ的有用的跨模态原型,这会导致较小的最大相似度。因此,在跨模态原型学习和相异容忍之间取得良好的平衡显得很重要。0.2000.1060.1950.1900.1850.1800.1750.1040.1020.1000.1700.1650.1600.1550.0980.09613 14 15 1617γ1.500 1.625 1.750 1.875 2.000θ图图5:响应原型载体的不同γ数量对(BLEU-4评分)的影响。图6 :不 同 θ 、 耐 受 率 控 制 对(BLEU-4评分)的影响。5结论我 们 提 出 了 一 种 新 的 跨 模 态 原 型 驱 动 的 医 疗 报 告 生 成 框 架 ,XPRONET,其目的是通过跨模态原型网络显式地建模跨模态模式学习类相关的跨模态原型查询和响应模块将跨模态信息提取为单模态特征,解决了数据偏差问题。改进的多标签对比损失的目的是更好地学习跨模态原型,可以很容易地融入到现有的作品。在两个公开的基准数据集上的实验结果验证了XPRONET的优越性。我们还提供了消融研究,以证明所提出的组成部分的有效性。改进XPRONET的一个潜在方法是增加跨模式原型的数量,特别是对于较大的数据集。此外,我们推测,一个更有效的聚类方法在跨模态原型矩阵初始化可以带来进一步的改善。CMPDNetCMPDNet w/oIMLCS BaseBL-4评分BL-4评分+v:mala2255获取更多论文用于放射学报告生成的跨模态原型驱动网络15引用1. Anderson,P.,他,X.,Buehler,C.,Teney,D.,约翰逊,M.,Gould,S.,Zhang,L.:自下而上和自上而下关注图像字幕和视觉问题回答。IEEE计算机视觉与模式识别会议论文集。pp. 60772. Bao,G.,张玉,滕志,陈伯,Luo,W.:用于文档级机器翻译的G-transformer。于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议(第1卷:长文)。pp. 34423. 陈志,沈,Y.,宋,Y.,Wan,X.:用于放射学报告生成的跨模态记忆网络于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议论文集(第1卷:长文)。pp. 59044. Cheng,J.,福斯蒂罗普洛斯岛Boehm,B.,Soleymani,M.:多模态分阶段变压器的情感分析。2021年自然语言处理经验方法会议论文集。pp. 24475. Cornia,M.,Stefanini,M.,巴拉尔迪湖Cucchiara,R.:用于图像字幕的网状存储器Transformer。IEEE计算机视觉与模式识别会议论文集。pp. 105786. Demner-Fushman,D.,Kohli,医学博士,Rosenman,M.B.,Shooshan,S.E.,罗德里格斯湖,Antani,S.,托马斯,G.R.,McDonald,C.J.:准备收集放射性物质-分发和检索的ogy检查。美国医学信息学协会杂志23(2),3047. 邓,J.,Dong,W.,Socher河,Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议。pp. 248-255. 05 The Lord(2009)8. Denkowski,M.,Lavie,A.:Meteor 1.3:自动度量,实现可靠的优化和机器翻译系统的评估。In:Proceedings of the sixth work-在统计机器翻译上购物pp. 859. Guo,L.,中国科学院,刘杰,Zhu,X.,Yao,P.,(1986 - 1990),中国地质大学,吕,S.,Lu,H.:用于图像字幕的归一化和几何感知自注意网络。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1032710. 他,K.,张,X.,Ren,S.,Sun,J.:深度残差学习用于图像识别。IEEE计算机视觉与模式识别会议论文集。pp. 77011. Hou , B. , Kaissis , G. , 萨 默 斯 , R.M. , Kainz , B. : 棘 轮 : 医 用Transformer,用于胸部X射线诊断和报告。在:医学图像计算和计算机辅助干预国际会议。pp. 293-303.施普林格(2021)12. 吉,J.,Luo,Y.,(1996年),美国,太阳,X.,陈芳,Luo,G.,吴,Y.,高,Y.,Ji,R.:通过利用Transformer网络中的层内和层间全局表示来改进图像字幕在:AAAI人工智能会议论文集卷35,pp. 165513. Jing,B.,王志,Xing,E.:展示、描述和总结:关于胸部X线报告结构信息的开发。在:计算语言学协会第57届年会的会议记录。pp. 657014. Jing,B.,Xie,P.,Xing,E.:医学影像报告的自动生成。在:计算语言学协会第56届年会的会议记录(卷1:长论文)。pp. 2577+v:mala2255获取更多论文16 Wang et al.15. 约翰逊,A.E.,Pollard,T.J.,Greenbaum,N.R.,Lungren,M.P.,Deng,C.y.,Peng,Y.,吕志,马克,RG,Berkowitz,S.J.,Horng,S.:Mimic-cxr-jpg,一个大型的公开可用的标记胸片数据库。arXiv预印本arXiv:1901.07042(2019)16. Kacupaj , E. , Plepi , J. , Singh , K. , Thakkar , H. , Lehmann , J. ,Maleshkova,M.:基于知识图的会话式问题回答与Transformer和图形注意力网络。在:计算语言学协会欧洲分会第16次会议的会议记录:主要卷。pp. 85017. 金玛,D.P.,Ba,J.:Adam:一种随机优化方法。In:InternationalConference on Learning Representations,(Poster)(2015)18. Krause,J.,Johnson,J.,克里希纳河,巴西-地李菲菲:一种生成描
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功