没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学4(2020)122用于临床数据预测的多模型比较的可视化分析系统李一然,藤原孝则,杨K.作者:Katherine K.Kimb,c,Kwan-Liu Maaa美国加州大学戴维斯分校计算机科学系b美国加州大学戴维斯分校贝蒂·艾琳·摩尔护理学院c美国加州大学戴维斯分校医学院ar t i cl e i nf o文章历史记录:在线预订2020年4月6日保留字:临床数据XAI基于树的机器学习模型视觉分析a b st ra ct将机器学习方法应用于医疗数据集以预测患者的未来状态的趋势越来越明显虽然这些方法中的一些实现了高性能,但在通过其可解释的信息来比较和评估不同模型方面仍然存在挑战这种分析可以帮助临床医生改善循证医学决策。在这项工作中,我们开发了一个可视化分析系统,比较多个模型通过我们的系统,用户可以生成关于不同模型的内部标准的知识通过一个公开的临床数据集的案例研究,我们展示了我们的可视化分析系统的有效性,以帮助临床医生和研究人员比较和定量评估不同的机器学习方法。©2020作者(S)。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍全面的健康数据在提供高质量的医疗保健和决策方面发挥着重要作用。例如,对医疗数据集的预测分析可以帮助临床医生了解具有特定特征的患者的手术的潜在风险(Kawaler et al. ,2012)或在不同的治疗期间识别健康状况的潜在恶化(Koyner et al. ,2018年)。为了开发有用的预测,机器学习(ML)方法已被用于医学数据集。对于临床预测任务,当临床医生依赖预测结果进行决策时,ML方法必须满足高准确性(Shortliffe和Sepúlveda,2018)。然而,准确性可能是必要的,但还不够。的ML方法的黑盒性质在关键医疗决策方面引起了关注例如,Caruana et al. (2015)训练了一个神经网络(NN),以根据他们的风险状况识别应该住院而不是在门诊接受治疗的肺炎患者。尽管该NN模型具有很高的准确率,但该模型确定不应收治患有哮喘的肺炎患者,认为这些患者的死亡风险较低这一令人怀疑的预测是由于这些严重的*通讯作者。电子邮件地址:ranli@ucdavis.edu(Y. Li)。https://doi.org/10.1016/j.visinf.2020.04.005患者在重症监护室接受了积极治疗,因此,他们的存活率很高(Caruana et al. ,2015;Adadi and Berrada,2018)。如本例所示,依赖于ML模型的医疗诊断或决策中对错误的容忍度很低可解释人工智能(XAI)在验证和推理结果预测方面至关重要。为了解决这个问题,数据科学家开发了几种XAI方法来提供ML模型的可解释信息(Adadi和Berrada,2018)。例如,这些方法可以显示患者记录的哪些特征对ML模型的决策有很大影响(称为局部特征贡献)。,2014年)。这些信息对于临床医生和研究人员都很有用,可以利用他们的医学知识来判断他们是否可以信任模型的决定。然而,当他们想从各种选项中选择最好的ML模型时(Kawaler et al. ,2012; Zheng et al. ,2017),检查每个ML模型的所有患者记录上的每个模型因此,临床医生和研究人员需要分析方法,以促进各种ML模型和不同患者之间可解释结果的全面比较。尽管ML模型可能具有类似的性能(例如,在预测中,模型可能会在算法或从数据集学习的见解方面有所不同。为了理解这种变化,第一步是获得模型内部预测原理的概述那么2468- 502 X/©2020作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinfY. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122123评估每个模型的可靠性,重点是内部标准的一致性,模型需要进一步与另一组相似患者进行比较。为了满足上述需求,我们开发了一个可视化分析系统,用于基于可解释信息的多模型比较。我们专注于分析基于树的ML方法的模型(例如,随机森林(Tin Kam Ho,1995)和梯度增强(Friedman,2001)),因为这些模型广泛用于临床数据集的预测(Shaikhina etal. , 2017; Goldfarb-Rumyantzev et al. , 2003; Fouad et al. ,2015)。我们使用模型不可知解释方法(Adadi和Berrada,2018)与几种无监督方法结合进行系统比较。具体来说,在模型中,我们可视化的相似性的局部特征的贡献,为每个病人的降维方法。该可视化可以提供模型对每个患者的结果的预测有多不同的概述。此外,我们的系统提供了一个定量的方法来评估每个模型的一致性,利用“依赖性的措施”(Reshef等人。,2016),用于统计。通过直观地比较各模型推理的一致性,用户可以了解模型的可靠性。此外,一致性的信息可以帮助用户基于哪些特征或特征值的哪个范围对模型的预测做出贡献来判断是否应该依赖预测结果。我们证明了我们的系统的实用性,通过比较使用不同的基于树的ML方法调整的六个模型通过演示,我们讨论了在可解释的结果上应用可视化分析来帮助临床医生选择模型和特征的可行性2. 相关工作我们综述了基于ML的临床数据预测的相关工作,ML模型的解释方法,XAI的可视化以及预测模型的一致性度量2.1. 基于机器学习的临床数据对于临床数据的医学预测,通常使用两大类ML方法:基于树和递归神经网络(RNN)的方法。基于树的方法适用于医疗预测任务,因为它们在遇到每个患者的不同属性值后表征决策。除了大自然在预测任务中,许多临床数据集都是时间序列的形式。在这个意义上,基于树的方法用于基于过去时间步中的结果来预测某个未来时间步的结果。自从有了决策树(Quin-lan,1983)之后,人们进行了大量的研究来改进这种方法.随机森林(Tin Kam Ho,1995)利用树的集合来消除过拟合问题。Gradient boosting(Friedman,2001)扩展了随机森林的概念,试图提升弱学习器的集合。此外,一系列变化(Chen和Guestrin,2016; Ke et al. ,2017; Dorogush et al. ,2018年),以提供更有效的计算和更好的性能。基于RNN的方法被设计用于时间分类因此可以用于对临床数据进行预测。例如,Lipton等人(2016)使用具有长短期记忆的RNN对患者的时间序列进行分类诊断。Che et al.(2018)进一步增强了RNN,以解决缺失值的数据问题。虽然深度学习方法能够提供高预测性能,但这些方法通常需要大的数据集(例如,超过10000个记录),用于培训。2.2. 基于树和深度学习的模型已经开发了各种可解释的ML和事后分析方法Adadi和Berrada(2018)对解释方法进行了全面调查在这里,我们只描述与基于树或基于深度学习的模型相关的方法对于基于树的模型,解释方法可以分为全局尺度和局部或实例尺度,全局尺度试图调查每个特征有几种方法可以计算特征贡献。例如,Palczewska et al.(2014)介绍了一种计算从父节点到对应于一个特征的子节点。另一个例子是TreeInterpreter(Saabas,2019),它通过叶至其根。至于深度学习用于医学预测,Choi et al. (2016)构建了RNN的一个变体,称为RETAIN。通过在RNN中集成注意力机制,RETAIN在保持RNN预测性能的同时提供可解释的结果另外,Kwonet al. (2018)修改了RETAIN,使其也为每个时间步的每个特征提供关注值。除了特定模型的解释方法外,还有模型不可知论方法。模型不可知方法使用不同模型的共同组件执行通用模型解释。石灰(Ribeiro et al. ,2016)是用于任何类型的模型的解释器的示例。另一个例子是SHAP(Lund-berg和Lee,2017),它呈现了每个特征值对预测的影响。有关模型不可知论方法的更全面列表,请参阅Adadi和Berrada(2018)的调查。2.3. XAI可视化Liu等人(2017a)调查了为理解、诊断和优化ML模型而开发的可视化的最新进展。例如,Wang et al. (2019)开发了一种解释方法来审查复杂的深度神经网络的内部机制。歧管(Zhang etal. ,2018年)是一个用于可视化解释,调试和比较ML模型的框架。RuleMatrix(Ming et al. ,2019年)提供基于规则的解释,允许几乎没有ML知识的用户导航和验证ML模型。如Liu et al.(2017 a),虽然有更多的相关工作,但在下文中,我们将重点关注基于树和RNN的模型,这些模型通常用于临床数据。一些工作提供了基于树的模型的可视化分析方法。例如,Zhaoet al.(2019)开发了一个解释随机森林的综合界面。他们的可视化分析系统专注于模型简化和选定患者组的决策路径提取。另一个例子是TreePOD(Mühlbacher et al. ,2018),其被开发用于通过视觉探索候选树来辅助决策树选择Collaris等人(2018)对欺诈检测场景中随机森林的实例级视觉推理进行了案例研究。至于基于RNN的方法,例如,Jin et al. (2019)使用RETAIN构建了临床决策辅助系统。对于一个选定的患者,他们的系统提供了哪些过去的事件对ML决策有很大的影响,潜在的治疗结果,以及类似患者的健康记录摘要这些信息有助于临床医生自信地做出决定。Guo等人(2019)创建了一个可扩展的接口,以基于他们设计的RNN 模型聚合 患者的事件序列记 录。 Wang 等人(2018)产生了一个小倍数矩阵124Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122为了可视地推理特征属性(即, 注意值的RNN模型)以及时间序列视图进行比较。尽管已经开发了许多视觉分析方法(Liu et al. ,2017 a),基于树的模型的方法仍然没有得到充分的研究。更具体地,用于基于多个模型的可解释信息(例如,局部特征贡献)仍然缺失。2.4. 模型解释在最一般的层面上,机器学习算法的一致性可以定义为当输入数据存在小扰动时的稳定性。Devroye和Wagner(1979)首先研究了学习算法从那时起,许多工作已经完成了学习算法的稳定性的概率分析然后,Bousquet和Elisseeff(2002)定义了一致假设稳定性的概念,以推导推广误差界。除了稳定性的概率分析外,统计学家还发展了学习算法根据Kearns和Vazi-rani(1994)的定义,如果算法总是返回与给定示例一致的结果,则该算法是一致的。然后介绍了PAC (ProbablyApproximately Correct)学习算法(Haus-sler,1995)的定义,它是相容算法的一种推广。在我们的可视化分析场景中,我们感兴趣的是每个ML方法内部原理的一致性因此,除了学习算法的稳定性或一致性之外,我们还调查了两个随机变量之间的依赖性度量,这表征了ML模型的基本原理的依赖性局部特征贡献)对实际特征值的影响。首先,皮尔逊后来,Spearman(1987)将Pearson相关性扩展然而,斯皮尔曼相关系数仅限于变量之间的单调依赖关系.的发展在信息论中,有文献对两个随机变量之间的共享信息进行了总结。例如 , 互 信 息 ( Cover and Thomas , 2006 ) 、 最 大 信 息 系 数(Reshef et al. ,2011)和总信息系数(Reshef et al. ,2016年)已经推出。这些测度都没有对随机变量的分布作任何假设3. 分析问题(AQ)如前所述,本研究的总体目标是在推理和比较时利用视觉分析,多个模型的解释。在这里,我们列出了更详细的分析问题,我们要回答我们的可视化分析系统。这些问题使我们设计了第4节中描述的方法。AQ1多个模型(即使是用类似的ML方法训练的)是否有不同的内部预测标准,它们有多大不同?对这个问题的回答将表明多个模型的解释和比较的重要性。例如,梯度提升方法及其变体具有相同的理论背景。我们首先想知道这些方法在预测标准上是否有显著差异。然后,我们可以进入下一个层次的分析。AQ2哪种模型在其预测标准中可能具有更高的一致性,因此应该更值得信赖?此外,在模型的预测标准中,哪些特征的哪个范围更可靠在获得不同模型的一致性的概述此外,即使在一个特征内,一致性也可以在每个特征值范围内变化。例如,一个模型在预测60岁以上的患者时可能具有高一致性,而对年轻患者的预测则具有低一致性。因此,我们的系统也应该支持这些分析。4. 方法我们描述了我们的数据集,预测任务,ML方法,解释措施和一致性措施的解释。如第5节所述,这些都用于我们的可视化分析系统。4.1. 数据和预测任务我们使用MIMIC-III数据集(Johnson et al. ,2016年),这是一个大型的开放式临床数据库,由超过40,000名患者的去识别重症监护病房入院记录组成。数据集包括人口统计学、生命体征测量、入院信息、测试结果、药物、程序和死亡率。从这个数据集,我们的预测任务是预测住院死亡率的机会,给定患者的当前和以前的入院记录。这个庞大的数据库由超过14,000种诊断类型的患者组成,因此是不合理的以预测具有显著不同诊断的患者的状态。为了使我们的预测任务具体化,并使ML模型然后,我们将数据库处理成表格数据集,包含提取的相关特征。因此,我们从12,886名AF患者中获得了8个特征这些特征包括人口统计信息、入院状态和住院期间的信息(例如ICU住院次数、icustays_num)。虽然我们使用特定的数据集来开发我们的可视化界面,但我们的分析方法和可视化设计适用于其他临床数据集。4.2. 机器学习方法对于我们的分析,我们使用六种不同的基于树的方法:决策树(DT)(Quinlan,1983),随机森林(RF)(Tin Kam Ho,1995),梯度提升决策树(GBDT)(Friedman,2001),光梯度 提 升 机 ( LightGB ) ( Ke et al. , 2017 ) 、 Cat- Boost(Dorogush et al. ,2018)和XGBoost(Chen and Guestrin,2016)。选择这六种方法是因为它们广泛用于临床预测,并且通常提供令人满意的性能。如第4.3节所述,我们使用模型不可知论解释方法来理解模型的基本原理。因此,尽管我们在本文的其余内容中使用了这六种方法,但我们在随后小节中的方法足够通用,可以应用于不同的ML方法,包括深度学习模型。Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)1221251===×× ===-4.3. 理解模型预测的内部准则的分析方法我们测量特征贡献,以比较多个ML模型 给定ML模型和预测目标的类,特征贡献表示每个特征对预测结果的影响程度。通常,对于二进制预测任务,特征贡献可以是正值(贡献于正类)、零值(中性)或负值(贡献于负类)。在粒度方面,有全局和局部特征贡献。全局特征贡献表示该特征对所有记录的总体预测的一般影响,局部特征贡献示出了特征的每个单独记录对相应预测的影响。为了回答AQ 1的第一部分-概述多模型的内部标准-采用全局或局部特征贡献应该足够了。然而,对于AQ1和AQ2的第二部分,我们应该提供更详细的比较。因此,不是获得每个特征对预测的影响的概述(即,全局贡献),我们决定测量局部特征贡献。为了获得局部特征贡献,对于DT和RF,我们使用Palczewska等人中描述的方法。(2014),对于其他方法,我们采用SHAP值(Lundberg和Lee,2017)。在这两种方法之间,SHAP值是与模型无关的,因此可以适用于测量任何其他模型的特征贡献尽管我们在本研究的实验中使用了基于树的ML模型,但出于两个原因,我们仍然采用了模型不可知的解释方法。首先,虽然基于树的模型的理论背景是相似的,但它们中的每一个仍然采用不同的技术,并提供不同的解释方法。使用与模型无关的方法提供了跨模型的公平比较其次,采用这种解释方法可以帮助我们的方法更适用于其他潜在的ML模型。设vi是第i个数据记录(i)的特征值的向量,的。. .,n)。Vi可以表示为Vi(Vi,1,. . . ,vi,j,. . . 其中m是特征的数量,Vi,j是第i个数据记录的第j个特征值。我们获得了每个数据记录的所有特征的局部特征贡献。具体地,φi(φi,1,. . . ,φi,j,. . . 其中φi是Vi的局部特征贡献,φi,j是第i个数据记录的第j个特征的贡献。因为有k个模型,对于每个模型,我们计算一组这样的局部特征贡献对于N个数据记录中的每一个具有M个特征因此,总共有n k个长度为m的特征贡献向量。例如,我们在4.1节中描述的数据集有n12,886和m8。此外,我们还比较了k6在第4.2节中描述的模型。因此,在我们的例子中,我们将得到12,886677,316个长度为8的向量。然而,很难查看大量的特征组成(例如,77,316个向量)。因此,为了有效地获得AQ1的答案,我们提供了不同模型中特征贡献可视化的例子可以在图中找到。五、我们采用降维(DR)方法,如t-SNE(van derMaaten和Hinton,2008),将这些维度为m的向量投影到2D图上。通过使用DR方法,具有相似特征贡献的数据点将彼此靠近放置。此外,数据点可以通过其对应的预测模型进行颜色编码。因此,通过结合预测模型的颜色信息查看DR结果中视觉上出现的聚类的分布,用户可以探索多个模型之间的局部特征贡献如何变化详细分析示例参见第6Fig. 1. 两个ML模型的局部特征贡献(y方向)和输入特征值(x方向)的散点图。模型B4.4. 模型决策准则与解释信息的一致性度量在我们使用第4.3节中描述的方法比较每个模型的内部预测标准之后如AQ2中所述,我们认为当模型的预测标准对于输入特征值中的小扰动是鲁棒的时,模型具有高一致性。由于局部特征贡献表征了每个特征值如何对预测做出贡献,因此我们将一致性的定义具体化如下。模型内部标准的一致性另一方面,当局部特征贡献对输入特征值具有更高的依赖性(特征贡献基于特征值更具决定性)时,准则具有更高的一致性例如,图中的两个散点图。图1(b)针对两个不同ML模型的特征值(x方向)可视化局部特征贡献(y方向)。在这里,我们为每个模型提供了相同数量的样本(每个模型12,886个样本)。 我们认为对应于图1(a)的模型A具有比图1(b)的模型B更低的一致性。例如,对于从0到25的范围内的输入值,模型A具有随机特征分布。因此,对于这样的输入值,模型A不断改变它应该依赖于相应特征的程度。这表明模型A有了上面的定义,我们可以获得与“依赖性度量”的一致性(Reshef et al. ,2016)在输入特征值和局部特征贡献之间进行比较。依赖性度量捕捉两个变量相互依赖的程度。例如,皮尔逊相关系数是最流行的依赖性度量之一。正如我们可以看到图中的例子。1(b)中,特征值和局部特征分布往往形成非线性依赖。因此,我们决定使用可用于捕获线性和非线性依赖关系的度量。此外,理想的情况是使用没有任何变量分布假设的度量。最近发展的度量,如互信息(MI)(Cover和Thomas,2006),最大信息系数(MIC e)(Reshef et al. ,2011)和总信息系数(TIC e)(Reshef et al. 2016)满足上述要求。126Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122图二. 我们的可视化分析系统的屏幕截图,其中包含接纳概述(a),特征贡献视图(b),模型摘要视图(c)和一致性图表视图(d)。在这些度量中,TIC e是已知的用于各种数据集的最佳度量(Reshef et al. ,2018; Romano et al. ,2018年)。 我们还在我们的数据集上测试了这三个指标,TICe得出了最合理的结论。因此,我们决定使用TICe来测量一致性。第7节讨论了这些措施的比较。5. 视觉分析系统我们使用第4节中描述的方法来描述我们的可视化分析系统。如图2、该系统由四个主要视图组成。 左边两个视图,图。图2a和图2b是为了全面比较不同模型预测的内部标准(AQ 1)而开发的;而图2a和图2b是为了全面比较不同模型预测的内部标准(AQ 1)而开发的。 2 c和d,可用于详细比较模型的一致性(AQ2)。我们提供了一个用户界面的演示作为补充视频。15.1. 模型解释的总体比较使用第4.3节中描述的方法,在图中。在图2a中,我们可视化每个模型的局部特征贡献的相似性的概述我们采用t-SNE(vanderMaaten和Hinton,2008)作为降维(DR)方法,因为它适合于找到模式(例如,集群)中一个大型数据集(图中的77,316个数据点)2a)。具体来说,我们使用openTSNE(Policar etal. ,2019)实现的快速计算和精确控制的t-SNE的参数。我们根据每个点所属的模型对其进行着色。我们使用具有足够色调差异的分类颜色来区分彼此。此外,我们设置颜色透明度,以便能够看到重叠的点。通过查看同一模型的点1 的示范的我们UI,https://www.youtube.com/watch?v=KBZYcwEo43Q。图3.第三章。 功能贡献视图的 组 织 的 图 示 。用户可以验证不同模型的原理的多样性。例如,如果两个模型仅具有少量重叠,则它们具有不同的预测机制(例如,图中的绿色和青色点。 2 a)。准入概述提供了一个套索选择与鼠标拖动。套索选择允许用户选择一组点。此外,如图所示。2a,用户可以选择多个集群。所选择的聚类用具有识别数字的绘制套索形状来指示(例如,图中①和②。 2a)。基于该选择,用户可以查看所选聚类的局部特征贡献与特征贡献视图中的其他点的细节差异(图2b)。图中的特征贡献视图。图2B示出了一个表格,其中单元包含用于比较局部特征贡献的分布的直方图。如图在图2b和图3中,每行和列分别对应于特定特征和所选择的聚类之一。然后,每个单元格显示Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122127所选聚类的对应特征的局部特征贡献的分布如图3的图例所示,粉红色和灰色直方图分别对应于所选择的聚类和其他聚类,其中y坐标表示相对频率。我们决定使用这两种颜色来区分AdmissionOverview中用于表示模型的分类颜色我们应该注意到,由于所选点可能是来自多个不同模型的成员,因此我们不能指定使用的相同颜色而不是粉红色通过比较粉红色和灰色条的高度,我们可以了解所选聚类的预测标准与其他聚类的差异。例如图3,聚类2倾向于对特征1具有比其他点更高的特征贡献。因此,我们可以说聚类2高度依赖特征1进行预测。此外,通过比较每行的直方图,用户可以观察到哪个特征通过使用准入概述和特征贡献视图的分析,用户可以了解哪些特征对多个与所选择的点的模型的信息一起5.2. 模型的性能比较在理解了多个模型之间的一般差异或相似性之后,我们继续比较不同模型在其内部决策原理(AQ2)方面的差异我们首先将每个特征的贡献与模型摘要中的值之间的依赖关系可视化视图(图2c)。在该视图的散点图中,每个点 用户可以选择这些性能指标之一。每个点虽然ACC或AUC是每个模型的度量,但TICe是每个模型的每个特征的度量。因此,我们使用一条水平线来表示每个模型,然后在每条水平线内,每个圆圈点表示每个特征的TICe此外,我们使用矩形形状来表示所有特征的平均TICe,以显示模型的整体一致性。对于模型信息,我们使用与Admission Overview相同的分类颜色(图1)。(2)把两种观点联系起来。由于预测性能和一致性的度量分别在x和y坐标中编码,因此可以直观地观察到,矩形点更靠近图的右上角的模型产生更准确,更可信的结果。在每个模型的不同特征之间,当查看相应模型的基本原理时,高度依赖于具有高TICe的特征(圆圈点)的预测可以更可信通过将鼠标悬停在每个点上,用户可以查看其详细信息(功能名称、x和y值)。此外,与悬停特征对应的所有圆圈点将在其他模型的水平线中突出显示灰色外圈,以进行更清晰的比较。请注意,黑色外环显示选定的圆圈点,如下面的描述中所解释的。悬停的例子可以在图中看到。7 .第一次会议。通过此摘要视图,用户可以了解不同模型的不同特征如何在其预测性能和预测性能方面分布的概述。在获得每个模型和模型中每个特征的一致性摘要后,一致性图表(图1) 2 d)可用于验证模型摘要视图中的结果,图四、可 视 化 分 类 特 征 时 的一致性图表。以及比较不同范围的特征值的一致性。为了选择用户想要详细分析的特征和模型,用户可以选择对应于某个特征的一个或多个圈出的点(即,具有相同特征名称但颜色不同的点)。对于选定的点(S),一致性图表(图。2d)在模型摘要视图中提供计算一致性的可视化解释以及对特征值级别的更详细检查。由于我们从MIMIC-III数据集中提取的特征是连续的或分类的,因此我们为每种类型的特征提供了不同的可视化用户可以通过点击模型摘要视图中的点在不同的功能之间切换。对于连续的特征,在图1的俯视图中, 2 d,我们提供了特征贡献(y坐标)对特征值(x坐标)的散点图,与图2中的图类似。1(b). 为了了解所选模型的信息,我们在“接纳概述”和“模型摘要视图”中使用相同的分类颜色。对于每个模型由于特征贡献和特征值之间的关系通 常 是 非线 性 的 , 因 此 我 们 采用 LOESS 回 归 ( Cleveland ,1979),这是一种广泛使用的非线性回归方法。然后,在图2d的底部视图中,我们还使用y坐标绘制回归的残差。x坐标表示与顶视图类似的特征值。该图可以帮助用户定量测量特征贡献与特征值分布的关系。模型之间的比较可以通过重叠每个模型的散点图和残差图来完成。对于分类特征,我们提供了表示每个特征值的局部特征分布的平均值和误差条的点的图,如图4所示。为了使比较更容易,我们绘制了不同模型通过查看每个x坐标的点沿y方向分布的宽度,用户可以理解哪个模型和/或哪个特征值范围具有较高的一致性。例如,在图2d中,我们可以看到黄色模型通常比蓝色模型具有更高的一致性。此外,在黄色模型中,当特征值较小时,残差往往具有较高的绝对值。因此,当黄色模型预测具有该特征的低值的患者的结果时,模型6. 为例使用预处理的MIMIC-III数据集(参见第4.1节),我们比较了第4.2节中描述的六个ML模型的预测性能、预测的内部依据(AQ1)和预测的有效性(AQ 2)。128Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122表1不同的基于树的方法用于预测标签“院内存活”或“院内死亡”的性能方法AUCACCDT0.8459352820.846111720RF0.9081719500.907813070GBDT0.9024610790.901788974LightGBM0.8941148380.893391749CatBoost0.9055953690.905074845XGBoost0.9100456450.909638554图五. 六个基于树的模型的特征贡献6.1. 模型如 第 4.2 节 所 述 , 我 们 用 DT 、 RF 、 GBDT 、 LightGBM 、CatBoost和XGBoost训练了六个模型。然后,我们获得了每个模型的曲线下面积(AUC)和准确率(ACC),如表1所示。从表1中,在预测性能方面,我们可以说XGBoost具有最好的性能,而不包括DT的其他方法与XGBoost具有相似的性能6.2. 模型内部预测标准(AQ1)的总体比较在对每个患者的不同模型的局部特征贡献进行标准化之后,我们对这些特征贡献进行了t-SNE。然后对t-SNE图进行颜色编码,并显示在入院概述中,如图所示。 五、从局部特征贡献的相似性的概述中,我们可以观察到表示特征贡献的点的位置的发散,而对于相同模型的点倾向于更聚集在一起。见图6。 所选聚类的特征贡献不过,这种情况也有例外。例如,CatGB(黄色)和GradientBoosting(红色)模型的点有许多重叠,没有可区分的边界,尽管某些区域中一个模型的点比另一个模型的点更密集。这意味着,这两个模型似乎共享更多相似的预测标准相比,其他。然而,我们可以从图中发现两个总体趋势。五、首先,这六个模型中的大多数模型其次,即使在同一个例如,对于LightGB(绿色),虽然在图的左上角有几个集群。5,我们可以看到一个明显的集群周围的底部中心。然后,我们在概览中选择两个点簇以详细审查它们的局部特征贡献的差异。 参见图 5,群集1主要包含LightGB点,而群集2主要包含DT和RF点。特征贡献视图将这两组点的局部特征贡献分布可视化,如图所示。六、通过比较同一行中的每个特征,我们发现种族、年龄、诊断数、住院时间和入院地点等特征存在显著差异,如图所示。六、在下面的小节中,我们使用特性los作为示例来演示其余视图的用例6.3. 模型的性能比较然后,我们转到Model Summary视图,分析不同模型之间特性丢失在这里,我们关注局部特征贡献被包括在所选择的两个聚类中的三个模型集群1中的LightGB;集群2中的DT和RF)。如图7,突出显示的点对应于三个模型的特征L0 如图所示。7,LightGBY. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122129图7.第一次会议。每 个 模 型 的 每个特征的 一 致 性 值 的 概 述 。见图8。DT(蓝色)和LightGB(绿色)型号功能丢失RF的。因此,可以推断,当临床医生采用LightGB模型时,他们可以更多地依赖los,而当使用DT或RF时,他们不能那么依赖los以LightGB和DT的特征丢失点对应点为例,通过一致性图分析了两者的特征丢失点的详细差异,如图所示。8 .第八条。通过叠加散点图之间的比较,我们可以看到LightGB比DT具有更强的一致性,因为点往往更紧密地分布在回归线周围。此外,当查看残差图时,如图8所示,我们观察到DT通过这种观点,我们可以说LightGB通过这个案例研究,我们展示了如何有效地回答AQ1和AQ2与我们的视觉分析系统。在这里,我们只展示了一定的分析流程。然而,我们可以尝试各种不同的选择,并获得更多的启发性见解。例如,用户还希望选择和分析图1中的不同点。五、这种分析和探索可以通过我们系统中支持的灵活交互来执行。7. 讨论我们讨论了我们的算法选择和可视化设计,然后我们的方法和未来的工作的局限性见图9。 使用(a)MI和((b)中等收入国家e作为受扶养人衡量标准。在这两个图中,DT的特征损失具有比CatGB的相同特征更高的依赖性值7.1. 依赖性措施在算法的选择过程中,我们尝试了几种随机变量间依赖性的度量方法来保证算法的一致性。由于我们使用一致性图表来验证计算的依赖性值,因此我们还使用此视图执行了依赖性度量的比较如第4.4节所述,MI、MICe和TICe可用于测量特征贡献与特征值之间的依赖性。因此,我们尝试了所有这些措施,并在一致性图表中查看了计算的依赖关系和可视化结果之间的关系。通过这种比较,我们观察到,尽管这三种测量为大多数特征提供了合理的结果,但MI和MICe在评估依赖性时具有反复无常的行为,特别是当对于相同的特征值存在大范围的特征贡献时(即,在一致性特征中,相同的x坐标对应不同的y坐标)。另一方面,TICe对于任何类型的特征都更稳定,并产生更合理的结果。例如,如图9(b)所示,MI(图9(a))和MICe(图9(b))都指示模型DT的特征损失然而,如图10所示,通过查看详细的一致性信息,我们注意到CatGB(黄色)的依赖性值应该比DT(蓝色)高。这是因为它们在相似特征值上的特征贡献范围相对小于DT,并且它们的残差更接近于0。通过采用TIC e作为依赖性度量,已经解决了前两个度量的意外行为,如我们已经在图中所示。7 .第一次会议。因此,我们有cho-发送TICe作为一致性度量。这个例子从我们的实验表明,分析算法和相关的可视化可以通过相互耦合和比较来评估;因此,我们可以选择更好的算法和/或可视化。7.2. 分类要素的可视化与连续特征类似,对于分类特征,我们首先使用分布的散点图图10的顶视图)和示出在相同特征值处有多少局部特征贡献不同的辅助图表(例如,图1的底视图 10)。对于分类130Y. Li,T.Fujiwara,Y.K.Choi等人/视觉信息学4(2020)122图10个。 LightGB(黄色)和DT(蓝色)的一致性图表。见图11。我 们 尝试的另一种选择是将分类特征可视化,一致性图表。特征,连续特征的回归线的对应物是每个类别的平均值或中值;残差的等价性是围绕平均值或中值计算的误差条(例如,柱显示标准偏差)。然而,平均值或中位数和误差条通常一起绘制。因此,我们没有用两种不同的视角来展示它们,而是首先决定遵循这种常见的方式(即,在一个视图中显示两者)。然而,如图所示。11,通过遵循这种格式,可视化结果遭受遮挡和混乱。这是因为点(红色和青色点)和误差条共享相同的x坐标。因为分类值通常不会采用许多不同的值(例如,在图中约70。11),我们有足够的空间在每个对应的分类值周围使用稍微不同的x坐标 如图所示, 4,我们尝试了一个图,将不同模型的点和误差条放置在x坐标上有一个小的间隙。通过这种方式,我们能够更清楚地查看和比较不同模型的平均值和误差条。因此,我们决定将此设计用于我们的可视化。7.3. 限制特征和ML模型数量的可扩展性。我们的可视化为数据记录的数量提供了足够的可伸缩性(例如,患者)。例如,接纳概述采用t-SNE(van der Maaten和Hinton,2008)来进行维度缩减,并且即使对于数万个点也可以可视化局部特征贡献的相似性的概述。然而,对于特征的数量和ML模型的数量,我们的可视化具有有限的可扩展性。 我们可以支持的ML模型的数量是有限的,因为我们使用颜色来指示相应的ML模型。因此,我们的可视化可以处理不到10个模型。我们可以通过基于它们在某个方面的相似性聚合多个模型来解决这个问题。例如,如第6.2节所示,CatGB和梯度提升具有相似的局部特征分布因此,用户可能希望将它们作为一个聚合模型进行分析。对于特征的数量,如果数据包含许多特征,我们需要改进几个例如,图1中的特征贡献视图。图2b通过对齐每行显示所有特征这种方法对于我们由8个特征组成的数据集是然而,当存在多于10个特征时,显示和分析所有特征的信息是不现实的。在这种情况下,系统应自动建议用户应查看哪些功能,以了解“入院概述”中所选点之间的差异(图1)。(2)a)及其他。例如,我们可以通过使用Fujiwara等人介绍的方法来支持这种功能。 (2020年)。多种分析ML方法。在我们的临床数据预测的案例研究中,我们采用了基于树的ML方法。在泛化方面,未来的一个方向是为任何类型的ML方法(包括深度学习方法)开发例如,为了扩展我们对时间序列预测方法的分析,除了每个特征的可靠性之外,我们还想比较不同时间步长的可靠性。例如,对于深度学习方法,最后几层输出的可靠性也应该是我们比较的重点。支持分析。 我们的方法和可视化可以帮助理解ML模型预测原理的许多方面。但仍有一些观点是现行制度无法解释的。例如,虽然我们可以分析每个模型如何依赖于某些特征而不是其他特征作为其学习结果,但我们无法知道每个模型如何获得这些标准。更具 体地 说, 如第 6.2 节 所述 , 通 过分 析, 我 们 发现 CatGB 和Gradient
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功