深度学习解释性：医疗保健中的黑盒模型解释和可解释性

132 浏览量更新于2023-10-15 收藏 931KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1461学习如何模仿：使用模型解释指导深度学习训练Matthew Watson，Bashar Awwad Shiekh Hasan，Noura AlMinghayed Durham大学英国达勒姆{matthew.s.watson，bashar.awwad-shiekh-hasan，noura.al-moubayed} @durham.ac.uk摘要医疗保健被视为深度学习（DL）最具影响力的应用之一。越来越多的研究表明，深度学习模型在医疗诊断任务中实现了高水平的性能，在某些情况下，其性能水平与医学专家不相上下然而，很少有人被部署到现实生活中。其中一个主要原因是医学专业人员对这些模型缺乏信任，这是由所部署模型的黑盒性质驱动的许多可解释性技术已经被开发出来，以减轻这个问题，提供了一个关于模型如何达到一个给定的决定。最近的研究表明，这些解释可能会暴露出模型对特征空间中没有合理医学解释的在本文中，我们评估了DL分类模型在研究MIMIC-CXR-EGD图像时从放射科医生的眼睛注视中产生的显着性图的偏差而不是在推理期间），以提高模型推理的整体可解释性。我们大大提高了模型的解释和放射科医生的眼睛凝视数据之间的相似性我们认为，这一重大改进是在医疗保健领域建立更强大和可解释的DL解决方案的重要一步1. 介绍深度学习（DL）在医疗保健领域的应用在广泛的医疗场景中迅速增长;从重症监护[24]和糖尿病风险预测[1]胸部X光片（CXR）的诊断[28]。这在一定程度上是由于这些模型的准确性不断提高，其中一些模型的性能开始与（或）甚至超过）的医疗专业人员[22]。然而，尽管有这些发展，我们还没有看到部署到现实世界医疗场景中的DL模型数量的类似增长[2]。这是由许多限制因素造成的;最值得注意的是，在这些技术能够在医学领域建立起来之前，它们必须在其决策中是合乎伦理的、值得信赖的、透明的和可解释的[5，12]。正是在这些领域，许多DL模型可能表现不佳。特别是，许多模型无法准确捕捉输入特征和输出分类之间的因果关系，而是依赖于任务无关的特征。例如，一项关于使用机器学习（ML）和DL技术从胸部X射线（CXR）[17]预测COVID-19的广泛研究表明，许多模型都存在虚假相关性，导致模型无法准确概括。此外，最近关于DL模型鲁棒性的研究表明，训练超参数的变化会极大地影响学习的特征[26] -这损害了临床医生和DL技术之间的信任，因为它突出了模型对微小变化的敏感性，即使这些变化与模型试图回答的医学问题无关因此，任何ML模型的黄金标准都是能够实现高水平的性能，同时学习数据中存在的具体因果关系。不幸的是，由于缺乏支持该任务的有用数据，学习的因果特征的存在极难验证按照教学实践，专家MIMIC-CXR-EGD数据集[15]的发布和初步分析表明，即使是当前最先进的CXR分类模型也无法学习与放射科医生在诊断中使用的相同的特征集。在本文中，我们提出了一种新的深度学习架构，它可以学习比以前的技术更一致的特征集。使用MIMIC-CXR-EGD数据集，据我们所知，这是唯一的大规模图像1462∈X →Y XYSEE → S数据集与伴随的专家眼睛凝视数据，我们比较了从DL模型计算的解释与来自放射科医生的EGD之间的相似性我们报告说，有一个显着增加的重叠（从-0.4634增加到0.5410时，测量归一化扫描路径显着性和提高从9.1233到0.8398时，测量Kullback-Leibler分歧）之间的解释，从我们提出的技术和EGD比有任何其他模型架构测试;包括专门设计用于解决该问题的当前最先进的方法。我们还表明，我们提出的架构比以前的模型产生2. 相关工作为了解释深度学习模型所做的决策，人们开发了大量的可解释性技术，目的是在本文中，我们关注两种事后技术[13]，它们被设计用于解释深度学习模型;我们的目标是从各种已建立的体系结构（以及我们的新颖模型）中获得解释，因此所使用的技术必须是模型不可知的并且易于应用。SHAP[16]是一种基于置换的方法，在博弈论中具有理论基础。Grad-CAM [18]是一种基于梯度的方法，它使用流入网络最终卷积层的任何目标概念的梯度来生成显着图。我们在本文中关注这两种技术，因为它们不仅是当前事实上的标准，而且它们也可以应用于广泛的模型架构，从而可以轻松比较不同模型类型的解释。以前的工作已经使用这些可解释性技术来研究DL模型的鲁棒性和适应性这些结果，加上许多网络类似的技术在放射学等领域的教学中使用 [25]。MIMIC-CXR-EGD数据集[15]是MIMIC-CXR [14]的子集，包含来自三个类别（肺炎，充血性心力衰竭和正常）的1，083张CXR伴随图像的是来自训练有素的放射科医师的对准EGD。原始眼睛注视信息和计算的注视点均可用于此EGD -我们将对EGD收集过程感兴趣的读者推荐给[15]。除了数据集的发布，作者还表明，传统分类模型的解释与放射科医生的EGD没有明显重叠他们提出了一种多任务UNet模型，该模型在训练时使用EGD来学习对CXR图像进行分类并重新生成地面实况EGD，以提高模型解释和EGD之间的相似然而，研究结果并不十分令人信服，并且缺乏一种可验证的方法来比较他们的模型解释和EGD。此外，这种技术需要在训练期间使用专家EGD，这是昂贵的并且难以收集，特别是在医学领域。我们使用[15]中提出的静态EGD热图将我们的方法与基线模型和改进的UNet架构进行比较，结果在所有测试指标中，模型解释和EGD之间的相似度显著更高。3. 方法我们提出的体系结构包括一个由S个子模型（任何体系结构）组成的总体体系结构M和一个子模型D。我们首先描述了我们的模型的架构，然后详细介绍了它的训练过程。我们将解释系综模型定义为M：，其中是输入和输出的集合。M由S个子模型m0，...，m S，其中SN，其中每一个都具有适合于该任务的相同架构在在我们提出的网络中，每个m i都是用不同的超参数设置来训练的，即，使用不同的随机种子或训练数据顺序。架构超参数，如层大小和学习率，保持不变。解释集合的最终输出是所有子模型的平均输出：n∈[0，S]mi（x）为了实现高性能，可能依赖于spuri-相关性。很难证实M（x）=S（一）所学习的特征确实是因果关系的--只有有限数量的大多数玩具数据集包括它们的因果关系的描述[3]。在缺乏此类数据的情况下，最近的工作使用专家对视觉任务做出决策的EGD作为具体因果关系的代理[15]。这些数据可用于确定模型是否正在学习功能-主要专家将在评估数据时使用-此用例基于真实世界的应用程序，该网络还添加了一个参数 D ：，其中是模型解释的集合（通过任何特征重要性归因方法计算），并且=[0，S]。我们将子模型mi在输入x上的解释表示为Ei（x）。训练的解释上产生的每个S子模型，与学习，以确定哪个子模型的一个给定的解释起源的目的。由于已经证明，学习D的任务很容易[26]，因此D的体系结构应该1463··∈∞Σ仔细选择，确保M不是太复杂，是极度过度拟合的S子模型和β_D都被一起训练，从而优化等式2中的损失函数，其中CELoss（0）是交叉熵损失，并且β[0，1]是在训练时期期间对D在等式中减去损耗。2确保子模型miloss=CELoss（mi（x），y）−β·CELoss（D（Ei（x）），i）我（二）每个αepoch（其中α是另一个可调超参数），相对于损失函数CELoss（D（Ei（x）），i）更新CRDD，而不通过子模型反向传播，允许D学习如何有效地对解释进行分类。由于任务的简单性，这只需要在每个α时期完成[26]。这相当于在一个两人极大极小博弈中更新S子模型和D--D的目标是学习分离子模型m0，...，我在下游任务上。结果是一组S产生类似解释的子模型假设-这里的问题是，这种学习的解释更接近于表示因果关系，并且更少地依赖于虚假的相关性。该模型的训练可能是不稳定的-这是具有相反目标的子模型和集成例如，如果每个子模型给予输入的每个特征相等的权重，则将最大化输入的损失，从而减少等式（1）。2.然而，这也会导致子模型为每个输入预测相同的类。训练稳定性与α的这可以像任何超参数（例如，通过网格搜索或随机搜索），尽管我们通过实验经验性地发现α=2提供稳定的训练。总而言之，我们架构背后的直觉是训练一个CNOD，它鼓励集合中的S个子模型中的每一个由于每个子模型都是用不同的超参数设置训练的，因此它们将各自学习一组略有不同的特征。随着训练的进行，D将学习使用每个子模型的噪声特征来（正确地）分类子模型解释的来源-反过来，子模型将学习使用不同的特征进行分类，以欺骗D。最终的结果是一个集成模型，它学会了为多模型必须同意任何给定的特征对于它的使用是重要的，这些特征更有可能与目标有因果关系，因此更有可能被包括在专家的眼睛注视数据中4. 实验装置所有实验 1均在MIMIC-CXR- EGD数据集上进行[15]。模型在相同的3标签分类任务上进行训练：给出CXR图像，预测其诊断（肺炎、充血性心力衰竭或正常）。我们训练三个架构来比较我们的集成：1）基线：一个标准的UNet架构，以0.003的学习率（LR）训练，Adam opti- miser，批量大小32，和预训练的EfficientNet-b 0 [21]作为编码器和瓶颈层; 2）改进的UNet：修改的UNet架构[15]，在训练期间使用静态热图，以使用相同的超参数在给定CXR的情况下对EGD进行分类和再现;以及3）标准增强器：由与2）相同的10个UNet架构组成的集成架构，使用Adam优化器和批量大小4以LR=0.003进行训练[15]。由于内存限制，使用了减少的批次每个实验都允许我们将结果与不同标准的模型进行比较1) 是一个标准的分类模型，并用作基线，2) 是模型解释和EGD之间相似性的SOTA，3）证实了我们的结果不仅仅是利用集成架构的结果（而是我们提出的架构和训练过程所固有的）。选择UNet是为了与[15]中MIMIC-CXR-EGD数据集上的当前最先进模型进行直接比较我们还试验了视觉转换器[7]，但由于MIMIC-CXR- EGD尺寸较小，它们无法获得与我们的基线相匹配的性能水平，因此我们未将其结果纳入本文。在所有实验中，MIMIC-CXR-EGD数据集使用相同我们训练我们提出的解释合奏使用标准UNet与分类头作为我们的子模型。使用Adam optimiser的批量大小为4，学习率为0.00001。我们使用CNN作为我们的判别器，有两个卷积层。在每个卷积层之后使用最大池化（内核大小和步幅为2）和ReLU激活。我们设置β=0。2保证主损失函数的两部分在同一数量级。每个解释汇编使用10个子模型（不同数量的子模型的结果见补充材料）。我们报告所有模型的准确性（所有三个标签）作为性能指标。为了与[15]进行直接比较，我们使用Grad-CAM1 可以在以下网址找到重现这些实验的代码：https://github.com/mattswatson/learning-to-mimic1464[18]在最后的卷积层上。我们从测试集中抽取样本进行检查。我们将这些解释的相似性与从眼睛注视注视生成的EGD热图进行比较，这基于放射科医生的眼睛注视为我们提供了每个像素的重要性的标量值[15]。为了测量与EGD热图的相似性，我们遵循比较显着图的标准实践[4];我们报告了作为基于分布的度量的Kullback-Leibler发散（KLD）和作为基于位置的度量的归一化显著性扫描路径（NSS）。KLD是一个概率分布与另一个概率分布之间差异的信息论度量;重要的是，注意它是一个发散度量，意味着较小的值表示更好的相似性。NSS被设计用于将显著性图与地面实况进行比较，并且是固定位置处的归一化显著性。我们注意到，诸如交集对并集（IoU）的度量不适合比较EGD和显着性热图[4]，因为必须考虑每个像素的重要性（由模型和专家），而不是将解释/EGD视为二进制热图。众所周知，NSS对假阳性敏感，然而-尽管这在这里是期望的-我们假设（非解释集合）模型正在学习许多不一定与输出有因果关系的噪声负NSS值突出显示负相关，机会为0，正值表示正相关。解释一致性[26]测量了在垂直于任务的不同超参数设置下模型解释更高的一致性与对虚假相关性更稳健的解释有关[26]。我们希望我们的解释集成模型比其他测试模型实现更高的解释一致性。对于每个架构，使用不同的随机种子训练10个模型。Grad-CAM解释在这10个模型的测试集上生成，这些解释也用于计算每个架构的解释一致性C。遵循[26]的方法，我们使用二元逻辑回归分类器来测量两组解释的可分离性。此外，我们通过使用SHAP重复这些实验来这证实了我们的结果并不局限于一种解释技术;如果两种可解释性方法的结果一致，那么我们可以更加肯定地得出结论，模型确实学习得“更好”（即，相似的，因果的）特征。5. 结果和讨论表1报告了最佳模型性能以及KLD和NSS指标的汇总统计量，用于比较模型的Grad-CAM之间的相似性解释和EGD。补充材料中的表1报告了所使用的每个训练超参数设置的结果。基线和改进的UNet模型的性能与[15]中报告的结果相同，证实这些模型的行为符合预期。此外，这两种集成技术的性能优于这两种模型;这是可以预期的，因为它们是集成架构[6]。重要的是，我们的解释Ensemble架构被证明可以将基线模型的性能提高3.39%，这表明模型不会为了改进解释而牺牲模型性能。考虑到来自解释集合的解释被示出为与放射科医师EGD更好地对准，这也表明放射科医师使用的特征比通过基线模型学习的特征更好地用于疾病分类表1和图1均报告了来自每个模型架构的Grad-CAM解释与放射科医生的EGD热图之间的Kullback-Leibler发散和归一化扫描路径显著性（有关EGD热图生成的详细信息，请参见[15]）。从图1中，我们可以看到，当通过基于分布的度量（KLD）和基于位置的度量（NSS）进行测量时，我们的解释包围模型产生的解释比所有其他测试的架构更类似于EGD。为了证实这些结论在统计学上是正确的，我们在α = 0时进行了配对t检验。05的显著性水平之间的相似性度量从基线和解释包围模型。我们的无效和替代的hy-KLD和NSS的假设相同：H0：µ d=0，H1：µ d0，其中µd是差异的平均值-两种体系结构的KLD/NSS值之间的差值。的在进行t检验之前，确认差异的分布是正态的。表2报告了每个假设检验的检验统计量和p值。鉴于所有p值均显著小于α，我们可以得出结论，我们的解释集成架构产生的解释在统计学上比基线和当前最先进技术更类似于放射科医生EGD。值得注意的是，除解释系综外的所有模型都获得了负NSS分数，显示出与EGD的反对应性[4]，并使我们的解释系综架构成为唯一一种测试使用与专家使用的特征正相关的特征的这是进一步强调了大幅度减少KLD从我们的方法相比，基线模型测试;这强调了当前最先进的模型和医学专家所使用的特征是多么显著不同（并且遵循表明许多网络遭受捷径学习[9]和虚假相关[27]的结果），并且表明我们提出的方法是显著的改进。虽然我们在本文中关注大小为10的解释集合，1465表1.该表报告了每个架构的最佳性能模型的性能，以及模型Grad-CAM解释和EGD之间的相似性。请注意，KLD是一个发散度量，因此越小越好。在每个架构的所有10个训练超参数设置中计算Grad-CAM解释KLDNSS模型精度平均值（±标准值）dev）中位数（±IQR）平均值（±标准值）dev）中位数（±IQR）一致性基线75.55%十四岁4041 ±7。68869 .第九条。九千三百七十一±六。41793 .第三章。8839±3。25100的情况。8196 ±0。1273十三岁4535 ±10。52409 .第九条。1221±8。4260二、7740 ±4。07990的情况。8398 ±0。1658-0。8579 ±1。2345-0。3244 ±1。5237-0。1646 ±1。57210的情况。6757 ±1。1178-1。0391 ±1。4737-0。4634 ±1。9781-0。一千三百零七±二。08400的情况。5410 ±1。56530.1785改进UNet76.51%0.1596正常包围79.86%0.3042解释包围（我们的）78.94%0.5333图1.模型Grad-CAM解释和放射科医师EGD之间的平均值（a）NSS和（b）KLD的箱形图，在测试的10个训练随机种子中。请注意，KLD是一个发散度量，意味着值越小越好。在补充材料的图1中探讨了改变子模型数量的方法。这些实验表明，随着子模型数量的增加，模型解释和EGD之间的一致性也会增加，但是，重要的是要注意随着解释集合大小的增加，训练成本和提高的性能之间的权衡。除了改进与专家EGD的相似性外，解释一致性（表1）在我们的解释集合模型中也得到了显著改善。这也可以通过与测试的其他体系结构相比时，来自解释集合的解释的NSS和KLD的范围显著较小（如图1中所报告的）来看出。这本质上增加了对模型的信任，因为它表明我们的架构比其他测试的架构更健壮。它还进一步强调了我们的网络如何“更好地”学习（即，与EGD中的那些相似）特征相比，基线模型-我们的模型正在学习更少的噪声/虚假特征，而是将更多的重要性放在具有与任务因果相关的更高概率的特征上。我们还研究了SHAP值和EGD数据之间的相似性;如图2所示类似于从Grad-CAM的结果中，我们看到我们提出的模型增强结构提高了所有其他模型测试结构的相似性在Grad-CAM和SHAP结果的KLD和NSS值上测试的所有4个架构之间可以看到类似的模式，箱形图突出显示我们的解释集成架构的改进水平处于相同的规模，而不考虑所使用的可解释性技术。由于Grad-CAM和SHAP的结果一致，我们可以得出结论，我们提出的模型正在学习使用与放射科医生相似的特征。这些结果也可以从解释的视觉比较中看出：图3显示了示例CXR及其相应的EGD和来自所有测试模型的解释，表明我们的解释更加重视与放射科专家相似的区域（即，在肺和心脏周围）比基线和现有技术的模型都好。注意图3中的第2列（基线Grad-CAM）和第3列（改进的UNet Grad-CAM）如何另一方面，我们的解释集成架构学习了一组显著不同的特征（使用周围的特征）。1466×图2.箱形图显示了模型SHAP解释和放射科医师EGD之间的平均（a）NSS和（b）KLD，跨测试的10个训练随机种子中的每一个。请注意，KLD是一个发散度量，意味着值越小越好。肺和心脏，这些区域与第一列中EGD热图中显示的区域更加匹配），进一步表明我们的训练技术对模型学习的表示有显着影响。这是可取的，因为它突出了我们的模型如何学习使用与专家使用的特征相似的特征，使我们的模型不太可能过度依赖虚假特征。图4显示了我们的学习集成模型的学习特征如何随着训练的进行而变化。请注意，此图仅显示每个模型中最重要的像素-当显示所有像素的重要性时，热图变得难以用肉眼分析。特别是，图4突出了我们的训练过程（即公式2）中的损失函数和损失函数鼓励我们的集合的子模型随着训练的进行学习类似的特征，尽管子模型以非常不同的解释集合开始。这验证了我们对解释集合体系结构的直观理解，最重要的是我们对为什么它产生更接近专家表2.在解释集合和基线（顶部）以及解释集合和改进的UNet（底部）模型之间执行的配对t检验的检验统计量t和p值。检验统计量p值KLD18.005六、8698 10−34NSS-9.91375. 7567−17检验统计量p值KLD14.46177 .第一次会议。5950×10−27NSS-5.80583 .第三章。5764 ×10−86. 结论通过使用两种可解释性技术以及基于分布和位置的度量，我们已经证明，我们的解释Entrance技术在MIMIC-CXR-EGD数据集上与EGD的性能和解释相似性方面都优于基线模型。此外，我们已经表明，解释Ensemble架构还改进了当前最先进的模型，这些模型与放射学家的EGD共享学习特征除了提高模型解释和专家EGD之间的协议，我们提出的模型架构也提高了分类性能和解释的一致性相比，目前最先进的技术。我们的结果的定性分析表明，我们提出的架构是一个非常显着的改进，目前的模型，虽然我们不声称我们的结果是完美的，他们是一个巨大的改进，在什么是一个非常困难的任务。此外，与先前的最新技术[15]不同，我们提出的架构在训练期间不需要EGD热图-由于收集EGD的成本（特别是在诸如医学等需要专业知识的领域中），我们相信这是优于先前提出的方法的显著优点。在未来的工作中，对我们模型的学习特征进行深入的因果分析并将其与基线模型的学习特征的因果分析进行比较将是有趣的。改进的性能、增加的解释一致性以及与专家EGD更好的一致性表明，我们的架构可能比基线模型学习更多的因果特征，1467图3.来自MIMIC-CXR-EGD数据集的3个样本，与来自基线的放射科医生的EGD和Grad-CAM解释重叠基线模型可能更多地依赖于虚假特征。我们假设这是因为人们只期望因果特征是那些在表现良好的模型的多个变体中一致学习的特征此外，与放射科专家（您希望他们在诊断中使用因果特征）的一致性增加进一步支持了这一结论。然而，为了充分验证这一假设，必须对训练模型及其学习特征进行广泛的因果分析（使用[20]和[11]中使用的技术），因此我们将其留给未来的工作。由于其与医学专业决策过程的相似性增加我们希望这些结果能够鼓励我们的架构在其他医疗实践领域的使用以及其他敏感领域，以及发布类似于MIMIC-CXR-EGD的进一步数据集，以促进此类研究。确认这项工作得到了欧洲区域发展基金和Cievert有限公司的资助25R17P01847的支持。引用[1] Zakhovah Alhassan，Matthew Watson，David Budgen，RiyadAlshammari ， AliAlessa ， andNouraAlMamarayed.改善成人当前糖化血红蛋白预测：将机器学习算法用于电子健康记录。 JMIR Med Inform ， 9（5）：e25237，May 2021.[2] Stan Benjamens，Pranavsingh Dhunnoo和Bertalan Mesko'。基于人工智能的fda-1468图4.随着训练的进行，我们的Explanation Enlightenment模型的每个子模型的平均GradCAM值（跨验证分割）。为了帮助可视化，仅显示最重要的50%像素。子模型开始训练时具有非常不同的学习特征，随着训练的进行，我们的训练过程鼓励子模型学习类似的特征。一个完整的动画版本，这个数字，和代码，以复制它在其他模型，将被释放后出版。1469获批的医疗器械和算法：在线数据库。npj DigitalMedicine，3（1）：118，2020年9月。[3] 作者声明： Vincent S. 放大图片作者： ChristopherRobinson ， Jeremy Reffin ， Sema K. Sgaier ， GraceCharles，and Novi Quadrianto.数据集的因果关系检验：使用贝叶斯网络进行真实世界数据分析和数据收集设计的评估指南。人工智能前沿，2021年4月。[4] Zoya Bylinskii，Tilke Judd，Aude Oliva，等.不同的评估指标告诉我们什么显着性模型？IEEE Transactions onPattern Analysis and Machine Intelligence，41（3 ）：740[5] D. S. Cha r，M. D. Ab ra`mo f f和C. 弗厄特内河确定机器学习医疗保健应用的伦理考虑因素Am J Bioeth，20（11）：7[6] Xibin Dong，Zhiwen Yu，Wenming Cao，Yifan Shi，Qianli Ma.集成学习综述。计算机科学前沿，14（2）：241[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，et al.一张图片相当于16x16个单词：大规模图像识别的变形金刚。 arXiv 预印本 arXiv ：2010.11929，2020。[8] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096[9] 放大图片作者： RobertGeirhos ， J ？ henrikJacobsen ，ClaudioMichaelis，Richard S.Zemel，Wieland Brendel，Matthias Bethge，and Felix A. Wichmann深度神经网络中的学习。CoRR，abs/2004.07780，2020。[10] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。在Yoelvic Bengio和YannLeCun，编辑，第三届国际学习表征会议，ICLR 2015年，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪会议记录，2015年。[11] Yash Goyal，Amir Feder，Uri Shalit，and Been Kim.用因果概念效应解释分类器。 arXiv 预印本 arXiv ：1907.07165，2019。[12] 约书亚·詹姆斯·哈瑟利医疗人工智能的信任限度。医学伦理学杂志，46（7）：478[13] 放大图片作者：Andreas Holzinger，Chris Biemann，Constantinos S. Pat- tichis，and Douglas B.凯尔我们需要为医疗领域构建可解释的 AI 系统吗？ CoRR ，abs/1712.09923，2017。[14] 阿利斯泰尔·E. W.作者声明：Tom J.作者：Seth J.作者声明：Berkowitz，Nathaniel R.作者声明：Greenbaum，Matthew P.放大图片作者：Lungren，Deng Chih-ying，Roger G.马克和史蒂文·洪Mimic-cxr，一个公开可用的带有自由文本报告的胸片数据库科学数据，6（1）：317，2019年12月。[15] Alexandros Karargyris ， Satyananda Kashyap ， IsminiLourentzou，et al.用于人工智能开发的具有眼动跟踪和报告听写的胸部x光数据集的创建和验证。科学数据，8（1）：92，2021年3月。[16] 斯科特·M Lundberg和Su-In Lee。解释模型预测的统一方法。在Isabelle Guyon，Ulrike1470放大图片作者：David M.放大图片作者：S. V. N.Vishwanathan和Roman Garnett，编辑，神经信息处理系统进展30：神经信息处理系统年度会议2017，2017年12月4日至9日，美国加利福尼亚州长滩，第页4765[17] Michael Roberts ， Derek Driggs ， Matthew Thorpe ，Julian Gilbey ， Michael Yeung ， Stephan Ursprung ，Angelica I. 放大图片作者： Aviles-Rivero ， ChristianEtmann ， Cathal McCague ， Lucian Beer ， JonathanR.Weir-McCall ， Zhongzhao Teng ， Effrossyni Gkrania-Klotsas，Alessandro Ruggiero，Anna Korhonen，EmilyJefferson ， Emmanuel Ako ， Georg Langs ， GhassemGozaliasl ， Guang Yang ， Helmut Prosch ， AlberbusPreller ， JanStanczuk ， JingTang ， JohannesHofmanninger ， JudithBabar ， LorenaEscuderoSa'nchez ， MuhunthanThillai ， PaulaMar-tin Gonzalez ，Philip Teare ， Xiaoxang Zhu ， Mishal Patel ， ConorCafolla，Hojjat Azadbakht，Joseph Jacob，Josh Lowe，Kang Zhang，Kyle Bradley，Marcel Wassin，MarkusHolzer ，Kangyu Ji ，Maria Delgado Ortet， Tao Ai ，Nicholas Walton，Pietro Lio ，Samuel Stranks，TolouShadbahr，Weizhe Lin，Yunfei Zha，Zhangming Niu，James H. F. Rudd，Evis Sala，Al-BibianeSchoénlieb和AIX-C OVNET。使用机器学习来检测和预测使用胸部X光片和 CT 扫描的 COVID-19 的常见 Nature MachineIntelligence，3（3）：199[18] 兰普拉萨河 Selvaraju ， Michael Cogswell ， AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBatra. Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。 2017 年 IEEE 国际计算机视觉会议（ICCV），第618-626页，2017年。[19] ShyamliSindhwani ， GregoryMinissale ， GeraldWeber ， Christof Lutteroth ， Anthony Lambert ， NealCurtis，and Eliz-abeth Broadbent.眼动追踪技术在视觉智能中的多学科研究。教育科学，10（8），2020年。[20] SumedhaSingla，StephenWallace，SofiaTriantafillou，and Kayhan Batmanghelich.使用因果分析进行概念性深度学习解释。医学图像计算和计算机辅助干预，第519-528页。斯普林格，2021年。[21] Mingxing Tan and Quoc Le.效率网：重新思考卷积神经网络的模型缩放。国际机器学习，第6105PMLR，2019年。[22] 埃里克·J·托波尔。高效药剂：人类与人工智能的融合。Nature Medicine，25（1）：44[23] A van der Gijp，C J Renghloot，H Jarodzka，M F vander Schaaf，I C van der Schaaf，J P J van Schaik和Th JTen Cate。视觉搜索与视觉诊断性能的关系：对放射学中眼动追踪研究的叙述性系统综述。高级健康科学教育理论与实践，22（3）：765-787，Aug. 2017年。[24] Alfredo Vellido，Vicent Ribas，Carles Morales，AdolfoRuiz Sanmart'ın和Juan Carlos Ruiz Rodr'ıguez。重症监护中的机器学习：最新技术和败血症病例1471study. 生物医学工程在线，17（1）：135，2018年11月。[25] 放大图片作者：Robert G.作者：Alexander，Stephen L放大图片作者： David J. Heeger 和 Susana Martinez-Conde。放射学中的感性专门知识分析Fron- tiers inHuman Neuroscience，13，2019。[26] Matthew Watson ， Bashar Awwad Shiekh Hasan ， andNoura Al Mackayed.求同存异：当具有相同架构的深度学习模型产生不同的解释时。CoRR，abs/2105.06791，2021。[27] Yao-Yuan Yang和Kamalika Chaudhuri。理解神经网络中罕见的虚假相关，2022年。[28] 埃尔迪 ·C· 卡马尔，EcemSogancioglu ，BramvanGinneken，Kicky G.范·列文和基琳·墨菲用于胸部X射线分析的深度学习：一个调查。医学图像分析，72：102125，2021。

下载后可阅读完整内容，剩余1页未读，立即下载