没有合适的资源?快使用搜索试试~ 我知道了~
1MDNet:一个语义和视觉可解释的医学图像诊断网络张子昭,谢元普,邢福永,Mason McGough,杨林佛罗里达大学zizhao@cise.ufl.edu摘要不能以语义和视觉上有意义的方式解释模型预测是大多数现有计算机辅助诊断方法的众所周知的缺点。在本文中,我们提出了MDNet建立一个直接的多模态映射之间的医学图像和诊断报告,可以读取图像,生成诊断报告,检索图像的症状描述,并可视化attention,提供合理的网络诊断过程。MDNet包括图像模型和语言模型。提出了图像模型,以提高多尺度特征集成和利用效率。该语言模型结合了我们改进的注意力机制,旨在从报告中读取和探索有区别的图像特征描述,以学习从句子词到图像像素的直接映射。整个网络通过使用我们开发的优化策略进行端到端训练。基于病理膀胱癌图像及其诊断报告(BCIDR)数据集,我们进行了充分的实验,以证明MDNet优于比较基线。所提出的图像模型在两个CIFAR数据集上也获得了最先进的性能。1. 介绍近年来,深度学习技术的快速发展对生物医学图像领域产生了显著影响。传统的图像分析任务,如分割和检测[2],支持从医学元数据中快速发现知识,以帮助专家进行手动诊断和决策。自动决策任务(例如诊断)通常被视为标准分类问题。然而,通用分类模型并不是智能计算机辅助诊断的最佳解决方案,因为此类模型隐藏了其结论的基本原理,因此缺乏可解释的理由来支持其决策过程。 它很难研究模型捕获和理解关键生物标志物信息的程度。一图片检索图片细胞核严重多形性。...中度核拥挤...高级别癌症报表查询MDNet图1:我们的医学图像诊断网络(MDNet)的概述,用于可解释的诊断过程。能够从视觉和语义上解释支持其诊断结果的潜在原因的模型是重要和关键的(图1)。在临床实践中,医学专家通常会撰写诊断报告,以记录图像中的显微镜发现,以进行诊断和选择治疗方案。教机器学习模型自动模仿这个过程是为机器学习模型提供可解释性的一种方式。最近,图像到语言生成[14,22,4,33]和注意力[36]方法吸引了一些研究兴趣。在本文中,我们提出了一个统一的网络,即MD-Net,它可以读取图像,生成诊断报告,通过症状描述重新检索图像,并可视化网络注意力,以提供网络诊断过程的公正性。 为了进行评价,我们将MDNet应用于具有诊断报告的病理膀胱癌图像数据集(第5.2节介绍了数据集详细信息)。在膀胱病理学图像中,尿路上皮细胞核的大小和密度的变化或膀胱组织的尿路上皮肿瘤的增厚指示癌。准确描述这些特征有助于准确诊断,对于早期膀胱癌的识别至关重要。即使对于具有丰富经验的观察者来说,准确区分这些细微的外观变化也是一项挑战。为了训练MDNet,我们解决了直接从报告中挖掘有区别的图像特征信息的问题,并学习了从报告句子到图像像素的直接多模态映射。这个问题很重要,因为支持诊断结论推断的区别性图像特征在报告中是有效利用6428可解释的诊断过程图片报告6429埃尼湖KL报告中的这些语义信息对于有效的图像语言建模是必要的。对于基于卷积神经网络(CNN)的图像建模,我们讨论了网络的能力以捕获用于图像表示的尺寸变化图像特征(例如以像素表示的有丝分裂或以区域表示的细胞极性)。我们从集成学习的角度分析了残差网络(ResNet)[6,7]的弱点,并提出了集成连接来鼓励多尺度表示集成,根据我们的实验结果,这会导致更有效的特征利用。对于语言建模,我们采用长短期记忆(LSTM)网络[33],但重点是研究LSTM的使用,以从报告中挖掘判别信息并计算有效梯度来指导图像模型训练。我们开发了一种优化方法,从头开始训练整个网络的端到端。我们将注意力机制[36]集成到我们的语言模型中,并建议增强其视觉特征与句子单词的对齐,以获得更清晰的注意力地图。据我们所知,这是第一项开发可解释的基于注意力的模型的研究,该模型可以明确模拟医学(病理学)图像诊断过程。我们使用完整的评估指标进行了充分的实验分析,以证明MDNet可以生成有希望和可靠的结果,并且在BCIDR上优于众所周知的图像字幕基线[14]越来越多的人对它的探索感兴趣,以实现网络的可解释性[41,27]。这一领域的全部力量具有革新计算机辅助医学诊断的巨大潜力,但缺乏相关的工作。到目前为止,[25]和[17]处理生成放射学图像的疾病关键词的问题。跳接:基于残差网络(ResNet)[6],新的pre-act-ResNet[7]引入了身份映射- ping skip-connection [7]来解决网络训练的困难。身份映射逐渐成为一种新的-边缘策略,以克服训练非常深的网络的障碍[7,11,39,10]。此外,跳过连接鼓励多尺度表示的集成,以更有效地利用特征[21,1,35]。3. 图像模型3.1. 残差网络最新的ResNet [7]中的身份映射是一种简单而有效的跳过连接,允许网络内部的统一信息流[29]。每个跳跃连接的计算单元被称为残差块。中具有L个残差块的ResNet,来自第l个残差块的前向输出yL和损失L相对于其输入yl的梯度被定义为L-1yL=yl+Fm(ym),(1)M=L L−1数据集。此外,我们验证了属于MDNet的所提出的图像模型联系我们=∂y ∂y∂(1 +伊ΣFm(ym)),(2)l L lm=l在两个公共CIFAR数据集上[18]。2.相关工作图像和语言建模:联合图像和语言建模能够生成语义描述,从而提供更易于理解的预测。图像加帽是一种典型的应用[16]。最近的方法使用递归神经网络(RNN)来对以CNN建模的图像信息为条件的自然语言进行建模[14,33,13,38]。它们通常采用预先训练的强大CNN模型,如GoogLeNet [28],以提供图像特征。语义图像特征在准确的字幕中起着关键作用[22,4]。许多方法专注于学习从自然语言单词到提供的视觉特征的更好对齐,例如注意力机制[36,38,37],多模态RNN [22,14,4]等等[24,37]。然而,在医学图像领域,预训练的通用CNN模型不可用。一个完整的端到端的可训练模型联合图像句子建模是一个有吸引力的开放问题,它可以促进图像和语言模型之间的多模态知识共享。图像-句子对齐还鼓励对网络内部工作的视觉解释[15]。因此,注意力机制变得尤为必要[36]。我们知道-其 中 , Fm 由 连 续 批 量 归 一 化 [12] , 校 正 线 性 单 元(ReLU)和卷积组成。谢谢对于加法方案,梯度(即,back-ward中的卷积层(例如,卷积层L)可以直接流到前面的层,而不通过任何卷积层。由于卷积层的权重可以缩放梯度,因此当网络的深度增加时,该属性会消除梯度消失效应[23,7]。3.2. 解耦集成网络输出剩余块中的一个跳过连接提供了两条信息流路径,因此总路径随着网络的深入而呈指数增长[11]。最近的工作[32]表明,具有n个残差块的ResNet可以被解释为2n个相对较浅的网络的增强。可以看出,指数集成提高了网络性能[32]。因此,这种观点通过我们对其分类模块的探索揭示了ResNet的弱点。在ResNet和其他相关网络[7,11,19,30]中,连接卷积层的分类模块包括全局平均池化层和全连接层。层. 这两层在数学上定义为pc=<$wc·<$y(k)(i,j),(3)k i,j6430L1任务元组n:(特征类型、描述、图像特征)T1:(核特征,重度多形性细胞核中存在严重的多形性。细胞核在中等程度上拥挤基底膜极性部分丧失。有丝分裂在整个组织中是罕见的。核仁大多不明显。恶性肿瘤。图像特征T2:(核拥挤,核T5:(核仁,核仁是6X扩展小批量任务 :特征类型n字1Conv1Conv2Conv3图像特征512-D图像特征平均池化Convfeatures:512x14x14浪模块AAS模块字1字2Conv特征字2字3隐藏状态输入图像和报告Conv特征()^T×0.20.7=0.00.1充分4路连接的输出W1 *+ W2 *+ W3 *卷积特征嵌入注意模型图2:MDNet的整体示意图。我们使用膀胱图像及其诊断报告作为示例。图像模型生成一个图像特征,以任务元组和由AAS模块(在方法中定义)计算的Conv特征嵌入(用于注意力模型)的形式传递给LSTM。LSTM根据指定的图像特征类型(最佳颜色)执行预测任务。其中Pc是类别C的概率输出。(i,j)表示空间坐标。wc=[w c,.,wc,. ]T是第c列。(见图2),以便分类模块为所有网络集成输出分配权重,并将它们映射到1K全连接层AP的权重矩阵的Umn,连接到PC上。y(k)是最后残余块的第k个通过插入Eq.(1)到Eq.(3)1,我们可以看到,pc是求和的集合输出的加权平均值:标签空间很明显我们的设计也保证了信息流的畅通[7],克服了梯度消失效应。我们在剩余块之间应用集成连接pc= Σi、jwcyL= Σi、jwc(y1+L−1m=1 Fm)。(四)连接要素图维度所在的块组更改(参见附录A)并维护组2内块的标识映射。 集成连接在本文中,我们认为在分类模块中使用单个加权函数在这种情况下是次优的。这是因为所有集合的输出共享分类器,从而削弱了其单个特征的重要性。为了解决这个问题,我们建议将集成输出解耦,并通过使用大自然在最后一个概念中整合了多尺度表示涡卷层这种多尺度方案本质上不同于[35,1]使用的跳跃输出方案。4. 语言建模与网络培训4.1. 语言模型对于语言建模,我们使用LSTM [8]来建模pc= Σ。i、jwc·y1+L−1m=1WCm+1 ·FmΣ.(五)通过最大化句子上的联合概率来生成诊断报告:ΣT与Eq相比。在等式(4)中,该等式为每个系综输出分配单独的权重wc到wc,这使得logp(x0:T|I; θL)=t=0 logp(xt|I,x0:t−1; θ L),(7)其中{x,.,X}是句子单词(编码为独热分类模块独立决定infor-0T信息的重要性从不同的残留块。我们提出对ResNet架构进行“重新设计”以实现上述想法,即,一种新的跳过连接残差块的方法,定义如下:y1+ 1=F1(y1)|y1,(6)其中,n是连接操作。我们将这种跳跃连接方案定义为集合连接。它允许来自残差块的输出通过级联特征直接并行映射到分类层1为了简洁起见,我们省略了空间坐标(i,j)和特征图维度从y1到FL的LSTMLSTMLSTMLSTM:视觉嵌入:梯度输出序列输出注意力:单词嵌入:集成连接特征图1特征图2特征图36431向量)。 LSTM参数θL用于计算几个LSTM内部状态[8,33]。 根据[36],我们通过上下文向量z t(定义如下)将“软”注意力机制集成为了进行预测,LSTM将上一个时间步的输出xt−1以及隐藏状态ht−1和zt作为输入,并计算下一个单词xt的概率,如下所示:2稍后,我们注意到一个新的网络,DenseNet [10],它最终得到了类似的解决方案(级联代替加法)。我们认为,我们的解决方案是基于不同的动机和结果在不同的尽管如此,这个网络可以被视为我们的合奏分析的成功验证。6432ht=LSTM(E xt−1,ht−1, zt),图像原创关注我们的关注p(x|I,x;θ)αexp(G (h)、(8)t0:t−1L h t其中E是单词嵌入矩阵。Gh将ht解码到输出空间。注意力机制动态计算权重向量以提取支持单词预测的部分图像特征,其被解释为指示网络捕获视觉信息的注意力图。注意力是支持我们网络的视觉可解释性的主要组成部分。在实践中,我们观察到原始的注意力机制[36]更难训练,它通常会生成平滑突出大部分图像区域的注意力地图。为了解决这个问题,我们提出了一个辅助注意力锐化(AAS)模块,以提高其学习效率。 注意机制可以被看作是图像空间和语言空间之间的一种对齐。 如[20]所述,可以通过使用区域级标签(例如,边界框)。 为了处理没有任何区域级标签的数据集,需要开发一种新的方法。在我们的方法中,我们不是直接监督权重向量at,而是提出通过利用全局平均池化[40]的隐式类特定本地化属性来解决这个问题,以支持图像语言对齐。总的来说,zt可以计算如下:at=softmax(Watttanh(Wh ht−1+c)),图3:原始方法(中间)和我们的方法(右)的注意力图。我们的方法产生更多的关注信息(尿路上皮)区域。输入x0.然后,使用特殊的START令牌作为x1来通知预测的开始。生成有效梯度w.r.tF(I)是图像模型优化的关键完整的医疗诊断报告描述了观察图像的多种症状,随后是关于一种或多种类型疾病的诊断结论。 例如,放射学图像具有多个疾病标签[25]。每个症状描述具体描述一种类型的图像(症状)特征。有效地利用不同描述中的语义信息对于通过LSTM生成有效的梯度w.r.tF(I)在我们的方法中,我们让一个LSTM专注于从特定描述中挖掘识别信息。所有描述建模都共享LSTM。以这种方式,每个图像特征描述的建模成为完整报告生成的函数。我们将函数的个数记为K。在训练阶段,给定一个包含B对图像和报告的小批量,在将小批量转发到图像模型之后,我们复制内部的每个样本,重新c=( wc)TC(I),(九)从而产生一个K×B的minibatch作为LSTM的输入每个zt= at C(I)T,复制需要共享的图像特征和K类型之一从报告中提取的特定功能描述(请参见其中Watt和Wh是学习的嵌入矩阵。C(I)图2)。xe和xe的LSTM输入定义为:0 1表示维数为512×(14·14)的C_n_v特征映射由图像模型生成。 c表示196维xe=WF F(I),xe=ES(e),(10)通过wc转换特征嵌入。0 1原来注意力机制学wc里面LSTM隐式。相比之下,AAS增加了一个额外的监督(在4.2节中定义),以明确地学习提供更有效的注意力模型训练。 特别是,The这种监督的制定是对Eq.(4)(C(I)代表yL;为了保持一致,我们使用不同的符号wc是一个512维向量,对应于全连接权重矩阵的第c列,由指定的类c选择(见图2);当应用于C(I)时,所获得的携带类特定和局部区域信息的c用于学习与ht−1的对齐,并计算(14×14)维at和512维上下文向量zt。图3比较了定性结果原始方法和我们提出的方法之间的差异4.2. 有效梯度流在众所周知的图像字幕方案[14,13]中,CNN提供编码的图像特征F(I)作为LSTM64331其中WF是学习的图像特征嵌入矩阵。S(e),e={1,...,K}是第e个图像特征类型的独热表示。通过这种方式,我们使用特定的xe来通知LSTM目标任务的开始在反向传播期间,来自重复的梯度w.r.tF(I)被合并。所有操作都是端到端可训练的。为了训练AAS,我们使用诊断结论作为标签。动机是双重的。首先,AAS生成的Conv特征嵌入特定于结论标签。由于所有症状描述都支持结论标签的推断,因此它本质上包含必要的视觉信息以支持不同类型的症状描述,从而可以促进与注意力模型中的描述词更好地对齐。其次,AAS作为对图像模型的额外监督,确保图像模型训练朝向最佳诊断结论。6434测试错误:EcNet56-12测试错误:pre-act-ResNet164训练损失:EcNet56-12训练损失:pre-act-ResNet164θD4.3. 网络优化整个模型有三组参数:图像模型D中的θ D,语言模型L中的θ L,以及AAS模块M中的θ M。MDNet中的总体优化问题定义为100 21800六十比一40-2MaxθL,θD,θ MLM(lc,M(D(I;θD);θM))+LL(ls,L(D(I;θD);θL)),(十一)-320-40 - 50 50 100 150 200其中{I,lc,ls}是训练元组:输入图像I,标签lc和groundtruth报告句子ls。模块M和L分别由两个负对数似然损失LM和LL监督θM和θL的更新过程是相互独立的使用梯度下降法很简单。更新θD涉及来自两个模块的梯度。我们开发了一个反向传播计划,让他们的复合梯度相互适应。与[5]相比,我们的方法中的梯度是基于递归生成网络和多层感知器的混合计算的。具体而言,θD更新如下:图4:CIFAR-100的训练曲线。方法D-WParamsC-10C-100NIN [19]--8.8135.67机场班车[29]--7.7232.39ResNet [6]1101.7M6.4325.16ResNet+ [7]1641.7M5.4624.33ResNet+ [7]100110.2M4.9222.71WRN [39]40-48.7M4.5321.18EcNet110-41.8M4.9122.53EcNet56-128.0M4.4319.94表1:CIFAR-10(C-10)的错误率(%)和θD←θD −λ·.(1−β)·Mr.MθD刘伟+β·η θD、(十二)CIFAR-100(C-100)。ResNet+表示预作用ResNet。第二列指示网络深度-宽度。我们其中λ是学习率,β在训练过程中动态调节两个梯度我们还引入了另一个因子η来控制矩阵L的尺度,因为矩阵L结果是在一次试验中测试的。设计压缩了特征图的信息,集成连接(由于其级联操作),θD它的大小通常小于M。我们将分析这两个超参数的详细配置,并证明我们提出的策略的优点。5. 实验结果在本节中,我们首先在两个专门用于图像识别的CIFAR数据集上验证MDNet的拟议图像模型(表示为EcNet,并在第3节中进行了解释),目的是显示其优于其他几个CNN的性能。然后,我们进行了足够的实验来验证所提出的完整MDNet在BCIDR数据集上的医学图像和诊断报告建模。我们的实现基于Torch7 [3]。完整详情请参阅附录。5.1. CIFAR图像识别我们使用著名的CIFAR-10和CIFAR-100 [18]来验证我们提出的EcNet。我们遵循共同的方式[7]处理数据并采用wide-ResNet(WRN)建议的学习策略[39]。为了选择基线ResNet架构,我们考虑深度和宽度来权衡内存使用和训练效率[39]。我们采用瓶颈剩余区组设计代替“tubby”-like block with two证明我们假设这是因为瓶颈这促进了更有效的特征使用。详细的架构图见附录A。由于这个实验不是本文的主要重点,我们留下了完整的架构探索为未来的工作。我们提出了两个具有类似数量的参数的变体,与ResNet和WRN的变体进行比较。第一个具有深度110和宽度4,第二个具有深度56和宽度12。表1比较了两个数据集的错误率,图4比较了训练曲线。我们的EcNet-56 - 12实现了明显更好的错误率(4。在CIFAR-10和19中占43%。CIFAR-100中为94%),仅8个M参数与WRN- 40 - 4中的8个M参数一致。7 M参数或ResNet +-1001与10. 2M参数。结果表明,我们的集成连接,使分类模块分配独立的权重到网络集成输出,大大提高了网络集成的效率,因此,导致更高的效率的特征和参数的利用。如第1节所述,这些特性对医学图像有利。5.2. 基于BCIDR的图像语言评价我们评估MDNet的两个任务:报告生成和基于症状的图像检索。我们遵循常见的评估方法[22],但也建议专门为医学图像设计的补充评估指标。为了验证我们的方法,我们使用5折交叉验证。Ap-测试误差训练损失6435高级高级低级正常图5:图像模型预测与脑电引导注意力图相关的诊断报告(左上角)。语言模型关注每个预测单词的特定区域。其中尤以尿路上皮细胞增生最为突出,它可用于诊断膀胱癌的类型附录B讨论培训细节。膀胱癌图像和诊断报告(BCIDR)数据集是与病理学家合作收集的。使用20倍物镜从苏木精和伊红(HE)染色的膀胱组织切片中拍摄全载玻片图像,所述膀胱组织切片从32名有乳头状尿路上皮肿瘤风险的患者的队列中提取。从这些载玻片中,随机提取靠近尿路上皮肿瘤的1000张500x500 RGB图像(每张载玻片产生的图像数量略有不同)。我们使用网络界面显示每张图像(不含患者载玻片的诊断信息),然后病理学家提供一段描述观察结果的段落,以说明五种类型的细胞外观特征(图2显示了一个示例),即核多形性状态、细胞拥挤、细胞极性、线粒体和核仁突出,然后给出诊断结论。结论由四类组成,即,正常、低恶性潜能乳头状尿路上皮肿瘤(PUNLMP)/低级别癌、高级别癌和信息不足。在这篇文章之后,四位医生(非膀胱癌专家)用他们自己的自由语言写了另外四篇描述,但参考了病理学家的描述,以保证准确性。因此,每幅图像总共有五份地面实况报告。每份报告的长度在30到59个字之间。我们随机选择20%(6/32)的患者(包括200张图像)作为测试数据,其余80%的患者(包括800张图像)用于训练和交叉验证。对于数据处理,输入图像的大小调整为224×224。我们从每个图像中减去RGB均值,通过剪切、镜像和旋转操作训练数据。根据该数据集,五个描述和一个结论被视为K=6个独立的任务(定义为第二个)。图6:特定类别注意力的图示。从上到下,测试图像,病理学家注释和班级注意力地图。 与病理学家的注释一样,注意力地图在尿路上皮区域中最活跃,在很大程度上忽略了基质或背景区域。最好用彩色观看。第4.2节)用于LSTM培训,以支持完整的报告生成。结论在所有比较实验中用作CNN训练的(4路)标签。基线我们选择众所周知的图像字幕方案[14,33]([14]的源代码)作为基线,首先训练CNN来表示图像,然后训练LSTM来生成描述。我们使用GoogLeNet而不是最初使用的VGG [28],因为前者在BCIDR上表现更好。我们还训练了一个小版本的EcNet,它的深度为38,宽度为8,包括2。3M参数(我们这里的目的不是比较EcNet和GoogLeNet)。每个验证折叠的预训练GoogleNet和EcNet由所有比较模型共享。在训练LSTM时,我们测试了使用和不使用微调CNN的情况。消融研究MDNet经过联合训练,无需预训练或微调。为了与基线进行详细的比较,我们还测试了两个使用基线策略训练MDNet的案例。在这些情况下,我们的优化没有应用,因此与基线的差异是任务分离的LSTM和集成的注意力模型。5.2.1解释模型预测我们从定性地演示MDNet的诊断过程开始:生成报告并显示图像注意力,以解释网络如何使用可视信息来支持其诊断预测。两种类型的注意力地图演示。句子引导的注意力是由我们的注意力模型计算的,其中每个注意力图对应于一个预测的单词,以显示网络关注的图像的相关部分。根据病理学家6436模型CNNP吗?福什?J?B1B2B3B4MRCDCA(%)±标准差GNC90.681.873.966.639.369.52.0572.6±1.8基线GNENCc C90.790.182.081.174.373.266.965.839.539.369.969.72.092.0174.2±3.873.7±2.4ENC C90.381.974.166.839.669.82.0274.4±4.8ENC90.481.974.166.639.369.81.9572.7±4.2我们嗯嗯C CC90.491.281.582.973.475.065.967.739.039.669.570.11.922.0471.6±4.278.4±1.5表2:生成的描述质量和DCA评分的定量评估。 参见文本中的公制符号。 P、F和J表示是否使用预训练的CNN,是否在训练LSTM时微调预训练的CNN,以及是否使用我们提出的联合训练方法(即,我们提出的MDNet)。第5行和第6行用于消融研究。GN和EN表示GoolgeNet和EcNet。CNNP吗?福什?J?Cr@1Cr@5Cr@10基线GNC71.7±2。571.9±5。272.9±4。1GNCC70.1±8。372.5±5。972.8±5。3ENC64.4±2。470.8± 0.972.5±1。6ENCC68.3±2。071.8±1。573.4±1。9我们ENC68.7±5。573.1±2。874.3±1。7ENCC71.6±5。575.7±3。975.8±2。7ENC78.6±4。079.5±3。679.4±3。1表3:报告到图像检索的定量评价(平均值±标准差)。有关指标Cr@ k的解释,请参见文本。最后一行是我们提出的MDNet。gions。图5显示了示例结果。请参阅补充材料了解更多结果。结论特定注意力地图由AAS计算(即,14 ×14 Conv特征嵌入)。回想一下,它对与预测标签相关的图像部分具有隐式定位能力。为了评估这种关注品质-另外,我们要求病理学家画出一些测试图像的感兴趣区域,这是根据他的经验推断结论所必需的。图6显示了结果。病理学家的注释与最受关注的区域之间存在相当强的对应关系。回想一下,训练阶段没有区域级别的注释。这些结果表明,MDNet已经学会了发现有用的信息来支持其预测。5.2.2诊断报告生成评估指标我们报告了常用的图像字幕评估指标分数[31],包括BLEU(B)、METEOR(M)、Rouge-L(R)和CIDER(C)。诊断报告的语言结构比自然图像标题更规则。我们的实验表明,标准LSTM可以捕获一般结构,从而获得相似的度量分数。然而,我们更关心的是训练的模型是否准确地表达了具有病理意义的关键词。为了进行更明确的评估,我们报告了从生成的报告句子中提取的预测诊断结论准确度(DCA)。结果示于表2中。我们建议的MD-6437Net(最后一行)通过展示显著改进的DCA(也是较小的std)和大多数其他指标,优于所有比较基线模型。 对于基线方法,在表的第一个块中,使用EcNet的模型(第3行和第4行)比使用GoogLeNet的模型取得了稍好的结果。我们还观察到,微调预训练的CNN(EcNet和GoogleNet)通常是有益的,但更不稳定(即,更高标准)。下面的图像检索实验提供了更多的定量评价的图像映射质量。5.2.3基于症状描述的图像检索我们评估了表2中的所有训练模型,用于表3所示的基于症状描述的图像检索任务。评估度量自然图像字幕方法基于给定查询语句的图像排名来评估前k个位置处的地面实况图像召回率[9,22]。怎么-在医学图像领域中,由于具有相近症状的图像可能共享相似的描述,因此该度量不是必要有效的。因此,低召回率并不完全表明模型不好。相反,我们评估的能力,该模型检索图像与正确的诊断结论给定的查询报告。但是对于所有的查询报告,我们删除了与结论相关的词,只保留图像特征描述。该指标背后的直觉是,医生有临床需求来查询具有特定症状的图像。给定一些患病图像描述,如果模型检索到健康图像,则应该是失败的。该度量是对脑电图像映射质量的精确测量,因为单个症状描述中的错误可能导致检索错误。我们报告正确的骗局-最高的排除召回率,表示为Cr@k,k={1,5,10},k个检索到的图像对应于所述查询报告。表3显示了5倍以上的平均(标准)评分。正如可以观察到的那样,微调EcNet通常会导致明显的改善,特别是对于我们网络上的两个实验案例(第5行和第6行),尽管它们没有达到我们提出的MDNet的结果(最后一行)。根据目前的结果,我们观察到:1. 一般来说,微调预训练的EcNet比微调GoogLeNet带来更大的改进。6438AAS模块LSTM平均幅度(10−4)DCA(%)θDθDθDθDθD21.510.5×10- 3×10-43802.52751.51700.500电话:+86-0512 - 8888888传真:+86-0512 - 88888888×104651 357 9 η图7:左:平均梯度幅度。中间:MDNet中图像模型和语言模型的DCA分数相对于x轴上的不同η。右:EcNet(代表MDNet的图像模型)和预训练的EcNet和GoogLeNet的DCA(超过5倍)分数。2. MDNet将整体报告的建模分离为独立图像描述的函数,更准确地捕捉描述中的细微差别,而微调(第6行对第5行)则进一步提高了映射质量,这要归功于第4.2节中的设计。3. 我们提出的MDNet显著优于基线模型,这表明句子-图像映射质量要好得多。其中一个原因是我们的联合训练方法有效地防止了过度拟合6. 讨论优化复合梯度的权重在训练过程中发生变化。基本规则是分配较大的权重MDNet的年龄模型(即,AAS输出)预测诊断结论标签。我们可以利用这个明确的DCA评分进行更详细的分析和比较。对于所有训练模型,我们观察到语言模型的DCA强烈依赖于相应图像模型的DCA(见图7(中)),这促使我们更多地分析CNN训练本身。根据等式在公式(12)中,模块M提供标准CNN损失。如果我们把模L中的L解释为加到梯度上的“噪声”,因此,这种“噪声”干扰了模块M的丢失和所有CNN训练。事实上,损失层上的适度扰动具有正则化效应[34]。因此,我们的优化在CNN上表现出特定的正则化以克服拟合。 与图7(右)相比,Mr.MθD让原子吸收光谱法主导图像模型训练使用我们的优化方法训练的MDNet模型一段时间后,逐步扩大规模,引入语义知识,使两种模型相互适应。在整个训练过程中,我们使用一个类似S形的函数来逐渐将β从0改变为1平衡两个梯度的规模至关重要。我们我们观察到, 无结垢在我们的实践中,移除1− β会产生负面影响,这可能是因为总和梯度w.r.t θ D会变大,增加模型训练的不稳定性。我们观察到语言模型的DCA分数下降了0.4%,而没有进行平均。 我们认为,用一个有价值的方法,因此,过渡是必要的。然而,简单地平均两个梯度(使用β)将使 超白葡萄酒 自从优于使用随机梯度下降(SGD)的预训练CNN模型。诊断报告中的图像特征描述为诊断结论的推理提供了强有力的支持。 根据我们的研究结果,我们提出的用于多模态映射学习的MDNet有效地利用了这些语义信息,以鼓励图像和语言模型之间充分的多模态知识共享,从而获得更好的映射质量和更准确的预测。7. 结论和未来工作θD有不同的大小。观察这一事实的启发式方法是可视化它们的平均梯度幅度。如图7(左)所示,阿罗勒 远小于M. 我们交叉验证了本文提出了一种新的统一网络,即MDNet,从医学图像和诊断报告中建立直接的多模态映射。我们的方法提供了一个新的视角来进行医学图像诊断,θDη(参见图7(中间)),并始终设置η= 5小数据集和正则化BCIDR的大小比常见的自然图像数据集小得多。这尽管我们使用了正则化技术和交叉验证,但这种情况下产生过度拟合模型的可能性更高。然而,小数据集大小是医学图像领域中的常见问题;这些大型网络仍然被广泛使用[25,26]。找出有效的正则化是非常必要的。 预训练的CNN和IM-诊断:生成诊断报告和相应的网络工作注意力,使网络诊断和决策过程具有语义和可视化的可解释性。大量的实验验证了我们提出的方法。基于这项工作,提出了限制和开放性问题:建立和测试大规模病理图像报告数据集;[27]注意小生物标志物的定位;适用于全切片诊断。我们希望在今后的工作中解决这些问题。图像模型语言模型AAS平均星等(10−3)到6439引用[1] S.贝尔角L. Zitnick,K. Bala和R.娘娘腔。内外网:用跳跃池和递归神经网络检测上下文中的对象。在CVPR,2016年。二、三[2] D. C. Cires an,A.朱斯蒂湖M. Gambardella和J.施密德-胡贝尔。用深度神经网络检测乳腺癌组织学图像中的有丝分裂。在MICCAI,2013年。1[3] R. Collobert,K. Kavukcuoglu和C.法拉比特Torch7:类似matlab的机器学习环境在BigLearn中,NIPS研讨会,2011年。5[4] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR,2015。一、二[5] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自ICML,2015。5[6] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残差在CVPR,2016年。二、五[7] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV,2016年。二三五[8] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):17353[9] M. Hodosh,P.杨和J。霍肯迈尔 将图像描述成帧作为排 名 任 务 : 数 据 、 模 型 和 评 估 指 标 。 Journal ofArtificial Intelligence Research,47:8537[10] G. Huang,Z.Liu和K.Q. 温伯格密集连接的卷积网络。CVPR,2017年。二、三[11] G. Huang,Y.黄氏Y.太阳,Z.Liu,L.Sedra和K.温伯格深度随机的深度网络。在ECCV,2016年。2[12] S. Ioffe和C.赛格迪批量归一化:通过减少内部协变量偏移来加速深度网络训练ICML,2015。2[13] J. Johnson,A. Karpathy和L.飞飞Densecap:用于密集字幕的全卷积定位网络在CVPR,2016年。二、四[14] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。CVPR,2015。一、二、四、六[15] A. 卡帕西A.Joulin和F.-F. 李用于双向图像句子映射的深度片段在NIPS,2014。2[16] R.基罗斯河Salakhutdinov和R. S.泽梅尔多模态神经语言模型。InICML,2014. 2[17] P. Kisilev,E.Walach,S.Hashoul,E.巴尔坎湾俄斐金三千S.阿尔伯特 医学图像发现的语义描述:结构化学习方法。在BMVC中。2[18] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。2009. 二、五[19] M. 林角,澳-地Chen和S.燕. 网络中的网络见ICLR,2014年。二、五[20] C. 刘,J.毛氏F.Sha,和A.尤尔。神经图像字幕的注意力AAAI,2017。4[21] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。26440[22] J. 毛,W。Xu,Y.杨,J.Wang,Z.Huang和A.尤尔。使用多模态递归神经网络(m-rnn)的深度字幕2015年,国际会议。一、二、五、七[23] R. Pascanu,T.Mikolov和Y.本吉奥。关于训练递归神经网络的困难2013年,《国际反洗钱法》。2[24] S. Reed,Z.Akata和H.李你学习细粒度视觉描述的深度在CVPR,2016年。2[25] H.- C. Shin,K.罗伯茨湖Lu,L.Demner-Fushman,J.Yao,和R. M.萨默斯学习阅读胸部X光片:用于自动图像标注的递归神经级联模型。在CVPR,2016年。二四八[26] H.- C. 申,H.R. 罗斯,M。高湖,加-地Lu,Z.徐岛诺格斯,J. Yao,L.Mollura和R.M. 萨默斯用于计算机辅助检测的深度卷积神经网络:Cnn架构、资料集特性与迁移学习。IEEE transactions on medical imaging,35(5):12858[27] K. Simonyan、A. Vedaldi和A.齐瑟曼。深层卷积网络:可视化图像分类模型和显着图。见ICLR,2014年。二、八[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度 卷 积 网 络 。 arXiv 预 印 本 arXiv : 1409.1556 ,2014。二、六[29] R. K. Srivastava,K. Greff和J.施密特胡博高速公路网。arXiv预印本arXiv:1505.00387,2015。二、五[30] C. 塞格迪W. 刘先生,Y. 贾,P. Sermanet,S.里德D. 安格洛夫,D。Erhan,V.Vanhoucke和A.拉比诺维奇。更深的回旋。CVPR,2015。2[31] R.韦丹坦角Lawrence Zitnick和D.帕里克Cider:基于共识的图像描述评估。CVPR,2015。7[32] A. 韦伊特,M。Wilber和S.贝隆吉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功