没有合适的资源?快使用搜索试试~ 我知道了~
2511BSODA:一个双向可扩展的在线疾病诊断框架WeijieH e 人工智能学院计算机科学与技术系清华大学智能BNRist中国北京hwj19@mails.tsinghua.edu.cn御皇腾讯贾维斯实验室中国广东深圳yorkeyhuang@tencent.com毛晓豪计算机科学与技术系人工智能清华大学智能BNRist中国北京mxh19@mails.tsinghua.edu.cn剑桥大学工程系英国剑桥jmh233@cam.ac.uk潮妈剑桥大学工程系微软研究院英国剑桥剑桥cm905@cam.ac.ukTing Chen†计算机科学与技术系人工智能研究所清华大学智能BNRist中国北京tingchen@tsinghua.edu.cn摘要越来越多的人在网上寻求医疗建议通常,他们根据他们正在经历的症状来诊断他们的医疗状况,这也被称为自我诊断。从机器学习的角度来看,在线疾病诊断是一个顺序的特征(症状)选择和分类问题。强化学习(RL)方法是这类任务的标准方法一般来说,当特征空间较小时,它们表现良好,但在具有大量特征的任务中,例如自诊断,它们经常变得低效。 为了解决这一挑战, 我们提出了一个非 RL双向S 可扩展的框架, 称为BSODA。 BSODA由两个合作分支组成,分别处理查询和疾病诊断。查询分支通过信息论奖励来确定下一个要收集的症状 我们采用的产品的专家编码器,以显着提高处理大量的功能的部分意见。此外,我们提出了几种近似方法,以大大减少计算成本的奖励的水平,是可以接受的在线服务。此外,我们利用诊断模型来更精确地估计奖励对于诊断分支,我们使用知识引导的自我注意模型来执行预测。特别是,BSODA确定何时停止查询并使用查询和诊断模型输出预测。我们证明了BSODA优于最先进的方法两位作者都对本研究做出了同等的贡献。[2]通讯作者。本作品采用知识共享署名国际协议(Creative Commons AttributionInternational)授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512123几个公共数据集。此外,我们提出了一种新的评估方法来测试症状检查方法从合成到现实世界的任务的可移植性。与现有的RL基线相比,BSODA更有效地扩展到大搜索空间。CCS概念• 应用计算→健康信息学;·信息系统→网络应用。关键词在线疾病诊断,自我诊断,症状检查ACM参考格式:Weijie He , Xiaohao Mao , Chao Ma , Yu Huang , José MiguelHernández-Lobato,and Ting Chen.2022年BSODA:一个用于在线疾病诊断的双向可扩展框架在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,美国纽约州纽约市,11页。https://doi.org/10.1145/3485447.35121231介绍移动网络的爆炸性发展增加了在线疾病诊断的可行性和潜力。越来越多的成年人现在试图在看医生之前通过在线服务更好地了解自己的健康状况根据美国的一项全国性调查[10],35%的美国成年人经常使用互联网进行自我诊断。长期以来,许多人都依赖搜索引擎来获取在线健康信息[10]。然而,目前的搜索技术往往是无效的自我诊断[50]。事实上,大多数用户缺乏足够的医学知识[18]对健康查询的质量有影响[12,30,37]。近年来,许多症状检查工具已被开发为在线自我诊断的替代方案[38],例如来自Mayo Clinic [1]和WebMD [3]的知名症状检查器症状检查器模拟疾病诊断过程,Ledley和Lusted[25]将其总结为三个步骤:2512WWWWeijie He,Xiaohao Mao,Chao Ma,Yu Huang,José Miguel Hernánáng-Lobato,and TingChen患者自我报告初始症状; 2)医生询问患者一系列关于其他症状、病史和其他相关信息的问题;以及3)医生做出最终诊断。当涉及到在线自我诊断时,问题将涉及患者与搜索引擎相比,症状检查器的优势在于不需要用户制定适当的健康查询,这是他们无法实现的[49,50]。此外,症状检查器在疾病诊断中更准确,并且需要更少的精力和时间。尽管通过症状检查器的自我诊断相对于患者导向的互联网搜索是一个实质性的进步,但应该强调的是,症状检查器不能替代医生的医学调查身体检查和诊断测试,如X光和实验室测试,这是诊断许多疾病的关键,不能由症状检查。然而,在医疗保健领域确实存在开发用户友好、高效和准确的症状检查器的真正需求[8]。从医疗保健的角度来看,症状检查的主要目标是诊断准确性。症状检查器顺序地获取多个症状值,以便做出准确的诊断。当然,更多关于可能症状的信息可能会导致更准确的诊断;例如,大多数现有的问卷系统通过详尽的询问从患者那里获得大量的症状值[26,39]。不幸的是,患者和专家都发现它效率低下,耗时而且难以忍受。症状检查的实际目标是在实现高诊断准确性的同时最大限度地减少查询次数。从机器学习的角度来看,症状检查可以被视为一个成本敏感的顺序特征选择和分类任务。获取症状强化学习(RL)方法在这种具有少量特征的任务中表现出良好的性能[16,17,27然而,它们经常在具有大特征空间的任务中受到影响,因为它们很难训练模型。EDDI [31]是一种基于实例的主动特征获取框架,提出了一种通过最大化所有特征的定义信息奖励来选择下一个特征的方法它使用部分变分自动编码器(VAE)[19]来处理缺失值的数据。 该模型可以处理Agent在查询时只知道患者部分信息的情况。虽然有前途,EDDI是有限的,其高计算成本处理大量的症状。为了解决上述问题,我们提出了BSODA,用于在线诊断的双向可扩展框架。 与以往的方法不同,BSODA是一种新的非强化学习的疾病自动查询和诊断方法。同时执行查询和疾病诊断的RL方法必须处理大型异构动作空间,这对高效学习提出了挑战[29]。 然而,BSODA将这项任务分为两个合作分支:调查和诊断。查询分支使用生成模型来产生查询,而诊断分支使用监督分类模型来预测疾病。 BSODA利用了这两种模型的特点,使它们在决策过程中相互协作。具体地说,查询分支基于信息论奖励函数来确定接下来收集哪个症状这是在EDDI中使用的[31]。BSODA没有使用部分VAE,而是采用专家产品编码器来更好地处理症状的部分观察结果,这在缺失多模态数据的情况下表现出良好的性能[44]。此外,为了更精确地估计奖励,提出了一种新的两步抽样策略,利用诊断模型的预测概率分布来逼近联合后验。为了加速BSODA的计算,设计了特殊的策略。对于诊断分支,BSODA返回预测疾病分布-通过知识引导的自我注意力模型,该模型已被证明在学习电子健康记录的图形结构方面是有效的[7]。BSODA利用该模型嵌入疾病和症状之间的关系,以纳入先验知识。特别地,BSODA从生成模型中对未观察到的特征进行采样,以对由特征的部分观察引起的不确定性进行建模,这有助于诊断模型对诊断结果进行预测并确定何时在统计上终止查询过程。与大多数先前的RL基线不同,这些基线已被证明仅对合成或真实世界的数据集有效,BSODA在这两种类型的评估中都表现良好。由于难以获得大量真实世界的医疗数据进行训练,因此开发了合成数据集然而,现有的合成数据集和真实世界的数据集之间存在着巨大的差距在合成数据集上的良好性能并不能保证可移植到现实世界。 因此,我们提出了一种新的方法来评估模型的可移植性,使用合成和现实世界的任务。 由数千个特征组成的合成数据用于模型训练,以评估模型应对大搜索空间的能力,而真实世界的数据仅用于测试,以评估训练模型的可移植性。总之,我们的主要贡献是突出的:1)我们提出了BSODA,一个非RL的二分在线疾病诊断框架 它可以以较低的计算成本扩展到大的特征空间,而RL方法通常很难做到这一点。 它在各种环境中表现出高度的通用性; 2)在技术上,我们设计了BSODA的模型和工作流程,以促进疾病查询和疾病诊断分支之间的协作。我们还开发了几种加速技术,使BSODA实用的在线服务;3)我们提出了一种新的评估方法和新的数据集,以评估症状检查方法在大搜索空间上的性能和可移植性。2相关工作有大量的作品涉及自我诊断。贝叶斯推理和基于树的方法[21,23,24,47]的一个大家族使用熵函数来基于信息增益理论例如,Nan et al.[32,33]和Zakim et al. [48]提出通过使用决策树和随机森林方法来解决特征获取的成本。Hayashi[11]试图从医学数据和人类知识中提取基于规则的表示来进行诊断。Early等人[9]Kachuee et al.[15]建议对训练好的预测器进行敏感性分析,以衡量每个特征在给定背景下的重要性Wang等人[42]第四十二话BSODA:一个双向可扩展的在线疾病诊断框架WWW2513./∈/∪ ∪∪/(·)(一)|)的方式()下一页(一)|)的方式( |)( |)()(| ) ()(一)|)\⊂∈1998年,|)基于症状嵌入的框架,其中图表示表1:符号。感知学习是为疾病诊断量身定制的 由于由于信息增益的全局最大化或全局灵敏度的难以处理的性质,这些方法通常采用导致低精度的贪婪或近似算法。最近,Janisch et al.[13,14]表明,强化学习(RL)方法在具有特定成本函数的顺序特征获取任务中优于基于树的方法。特别地,Tang et al.[40]首先将查询和诊断过程公式化为马尔可夫决策过程,然后使用RL在模拟环境中执行症状检查Kao等人[17]和Peng等人[36]证明了即使在中等搜索空间中也可以获得竞争性结果。Kachuee等人[16]提出了一种基于深度Q学习的方法,以模型不确定性的变化作为奖励函数。Xia等人。[45]使用生成对抗网络(GAN)和策略梯度方法实现了一个用于症状检查的RL代理,该代理在两个分别包含四种和五种疾病实例的公共数据集然而,这样少量的疾病在大多数现实世界的情况下是不切实际的。Lin等人[28]提出将Q网络的查询分支与涉及生成采样器的诊断分支相结合。 它只对前面提到的两个小数据集有效。Liao等人[27]提出了一个分层的RL框架,其中一个主用于工人任命,几个工人用于症状查询,一个单独的工人用于筛查疾病。Liu等人[29]通过使用预训练策略来克服收敛困难,改进了它。然而,他们的最大可管理疾病数量是90,并且该模型在当前数据集中表现不佳。3方法在本节中,我们首先介绍BSODA的技术背景,然后介绍查询分支,包括PoE编码器,新的采样方案和奖励估计的加速方法。接下来,我们在诊断分支中开发了一个知识引导的自我注意模型。 最后,我们提出了结合这两个分支的诊断方法以及查询和诊断过程的终止准则。图1显示了单轮查询和诊断期间的BSODA过程3.1背景3.1.1问题表述。 在本文中,我们制定症状检查作为一个连续的特征选择和分类问题。设S表示所有可能症状的集合,D表示符号描述SD一组症状/疾病。通过过滤的候选症状的集合xs是否存在症状s(s S)。x D有无疾病。x O x U观察到/未观察到的症状。x完整数据(x = xSxD = xOxUxD)。NT最大查询次数。NC候选症状的数量。Monte Carlo模拟的最大值VAE编码器/解码器的参数。pD诊断模型的预测分布。M掩码矩阵。P条件概率矩阵注意力矩阵e/E特征的嵌入向量。3.1.2艾迪变分自动编码器(VAE)[19]定义了一个形式为px,z=ipθxizpz的生成模型,其中数据x是从潜变量z生成的,p z是先验,例如,球面高斯,并且pθx z被呈现为具有参数θ的神经网络解码器,以指定简单的似然,例如,伯努利 VAE使用另一个具有参数Φ的神经网络作为编码器来产生后验的变分近似,即qΦ z x。通过最大化证据下限来训练VAE(ELBO):EqΦ(z |x)[logpθ(x|z)]−β·DK L[qΦ(z)|其中 β 是 平 衡 表达式中两 项 的权重, DKL 是 两个分布之间的Kullback-Leibler(KL)散度。 ELBO通常使用随机梯度下降和重新参数化技巧进行优化[19]。[31]这是一个很好的例子。最近提出的基于VAE的特征获取问题的框架。EDDI通过最大化信息奖励来选择下一个要获取的特征xsRs=Exsp ( xs|xO ) DKL[p (xD|xs,xO ) p ( xD|x0) ]。(2)VAE用于表示条件概率p xs xO,pxDxs,xO,和pxDxO。不幸的是,估计价值在Eqn中的这些量二是价格昂贵。为了解决这个问题,Ma等人[31]演示了Eqn.2可以使用VAE编码分布有效地近似:Rs= Exsp(xs|xO)DK L[qΦ(z|xs,xO)<$qΦ(z|xO)]−可能的疾病。假设xs表示存在或不存在症状s∈S:xs=1,如果患者实际患有θE xD,xs <$pθ(xD,xs |xO)DKL[qΦ(z|xD,xs,xO)<$qΦ(z|xD,xO)]。(三)症状,即,阳性症状,否则xs=0。类似地,xD表示独热分类向量,其每个维度指示疾病是否存在(= 1)或不存在(= 0)。然后,我们感兴趣的是预测目标变量xD,给定相应的观察到的特征xO,其中O S是当前观察到的症状集,U=S O表示未观察到的症状集。更具体地说,我们选择接下来要询问的症状xsxU,以便我们关于xD的信念可以得到最佳改善。表1中总结了符号。Eqn的第一个期望3量化了多少信息,xs提供了关于z的信息,而第二个期望量化了xs提供了关于z的多少信息加上xD。如果特征xs提供关于z的信息,但不提供关于x D的信息,则它将被第二项惩罚。上述KL发散中的所有量都Eqn中的期望3可以通过蒙特卡罗近似process,a veragingacr osssamplesxx xD,xspxD,xsxO 这两个期望之间可以共享。WWWWeijie He,Xiaohao Mao,Chao Ma,Yu Huang,José Miguel Hernánáng-Lobato,andTing Chen2514()下一页.(·)()下一页(·)(·)(一)|)的方式(·)()(|) 的情况)|||(·)()下一页[客户端](|)的方式(··)1998年,|)1998年,|)1998年,|)()1998年,|)平均值µ=(µ0V0−1+µiVi−1)V对于qΦ(z|x0)在Eqn. 四、德-编码器,pθ(x|z)由伯努利分布的乘积给出,诊断模型的分布。图1:BSODA一轮询问和诊断的总体流程图。3.2查询部门我们采用EDDI [31]作为查询分支的骨干VAE的编码器用于在主动特征选择期间处理特征的部分观测。令h表示神经网络,<$表示求和或最大池化操作,ei表示第i个特征的嵌入向量,并且yi表示携带第i个观察特征的信息的输入,其通过级联构造:yi=xi,ei。EDDI提出了一个per-mutation不变集函数作为编码器,由c xO给出:1,2,.,黄澳 ,其中O表示ob的数量。服务特色最后,将代码c x O输入神经网络,并将其转换为多元高斯分布的统计量,以近似p(z|x 0)。3.2.1专家产品(PoE)编码器。 一个简单的函数不能处理大量的特征。在BSODA中,我们建议使用PoE编码器[44]来近似潜在变量的联合后验它假设特征之间的条件独立性近似后验,包括具有均值向量μ0和方差向量V0的先验高斯专家p z,由下式给出:qΦ(z|xO)n(z).qΦ(z|(i)、(4)其中qΦzxi是表示与第i个观察到的特征xi相关联的专家的推理网络。图1示出了PoE编码器的架构。ei由诊断模型预训练,并在训练期间固定(请参见第3.4.1)。然后,我们使用多层感知器(MLP)作为h,将输入y i映射到具有均值向量μi和方差向量Vi的潜在空间中的高斯分布。h在所有特征之间共享参数。因为高斯专家的乘积本身就是高斯的[6],我们可以快速地进行操作。计算方差V=(V0−1+Vi−1)−1,其概率由接受z作为输入的MLP指定如果我们在没有缺失特征的数据集的所有可用数据上训练PoE编码器,则当输入包含缺失条目时,其性能将受到影响,因为PoE编码器在训练期间从未遇到过这种情况为了解决这个问题,我们在训练过程中为每个数据点丢弃了一个完全观察到的特征x的随机分数,其中包括xS和xD3.2.2两步抽样策略。 为了估计信息奖励,我们通过蒙特卡罗抽样来近似期望,平均通过样本xD,xsp×D,xs×O。这可以通过首先对z进行采样来实现。qΦzxO,然后是ed,xD,xspθxD,xsz <$。然而,我们提出了一种更准确的方法,BSODA,其中xs和xD分两步采样。以来p(xD,xs|xO)=p(xD|xs,xO)·p(xs|xO), (5)我们建议通过对z <$qΦz x O进行采样,从VAE中对x <$s进行采样,然后x<$spθxsz<$。Ne xtwesamplefromr omxDpDxs,xOproduced by a diagnosis model.这样,我们使用两个网络,VAE和诊断模型,以近似关节后部。通过结合生成模型和分类模型,我们可以提高奖励估计的性能。3.3奖励估计的加速EDDI [31]估计奖励的计算成本为O NTNCNM,其中NT表示最大查询次数,NC表示候选症状的总数,NM表示蒙特卡罗过程中所需的样本数量由于NC可以解释数千种症状,因此支持在线疾病诊断服务将过于昂贵。本节说明我们如何显著降低成本查询部门FOR的平均对称性∈Sc,R的估计PoE编码器y1解码器t =argma xR^ttμp(x D,���s| x O)= p���s X Op(xD|���s,x O)Poe查询症状x0x0 Ut������^sp���sxOx^Dp(xD|���s,xO)近似RewardR^sX阿克斯UU\{t}y| 0|V两步采样诊断科诊断方法和终止标准x0的x^Up(xU|xO)诊断模型自我注意模型知识j G d,μp (d)> μp (j)+3ap(j)μpD=[pD(x0Ux^U)]apD=Var[pD(x0Ux^U)]自我注意J自我注意模块1疾病E(JE(JE(0指导D d dd = argmax μp(d)(J)D一(JPD症状1症状2症状3报告疾病d…………通过利用特征稀疏性和预测概率BSODA:一个双向可扩展的在线疾病诊断框架WWW2515)(|(一)|)的方式(|)(|)(·|)的方式(|)· ||| || |.(||)[]i/||(·)m=1【详细】m=1(||||)×(||| |)pD我S我Var [p(1),.,P(|D|)]。BSODA将停止调查报告3.3.1根据先验知识筛选候选症状在每一轮中,模型从xU中选择一个特征xs,以最大化奖励。在故障查询的设置下,我们可以过滤掉不相关的症状,以减少需要查询的候选项的数量对于每个症状s,我们基于先验知识或训练数据统计来计算可能与一个患者中具有高概率的症状s共同发生的附加更具体地说,我们将症状j如果P数据xj= 1 xs =1大于预定义的阈值,我们可以简单地设置默认设置为0在查询过程开始时,当症状i存在时,候选症状集Sc被初始化为Si。每当框架选择新的积极症状j时,我们将候选症状的集合更新为当前集合和Sj的交集。从而减少了计算量O(NT·NC·NM)。3.3.2R ewa rd的一个缩写。 在Eqn. 3是通过对NM个蒙特卡罗样本xD,xs进行平均来估计的 ∼具体而言,在M中,仅不考虑疾病-疾病关系。P是矩阵,其中每个条目Pij表示条件概率P j i,其根据先验知识或训练数据统计通过i和j之间的同现来计算,并且被归一化使得每行总和为1,即,P i=1。同样,仅计算P症状疾病和P症状症状,并且所有其他概率被设置为零。自我注意力模型由几个堆叠的自我注意力块组成。每个块接受来自前一个块的输出,包括所有特征的嵌入和表示特征之间关系的权重的注意矩阵,并为下一个块计算新的嵌入和注意注意力函数的输出可以被描述为值的加权和,其中权重由具有相应Key的查询计算[41]。对于自我关注,Q,K和V都来自同一个来源。定义A(j)为注意力矩阵和E(j)作为由第j个块(j≥1)计算的嵌入向量,自注意块由下式给出:p(xD,xs|x0)。应该注意的是,xs是二进制的,xD是二进制的。A(j)SoftmaxQ(j)K(j)M混凝土之间|D|疾病的症状检查任务。我确=(c+)的情况下,只需要计算奖励为2D不同的组合xs和xD,每个都有一个权重pxD,xsxO,使用第2节中描述的两步采样策略第3.2.2条。 则E(j)=MLP(j)(A(j)V(j)),Q(j)=E(j−1)W(j),K(j)=E(j−1)W(j),V(j)=E(j−1)W(j),(六)计算时间复杂度为O(NT·NC·(2|D|))。在下面的翼,我们Q K V演示如何通过减少2D来加速它。首先,考虑到一个人所经历的症状的数量其中c是WK的列大小。所有W都是可训练的参数。E(0)是通过连接构造的:如果i∈S,E(0)=[x,e];如果i∈D,疾病的可能症状的数量,这比症状的总数S小得多。有了这样一个稀疏的特征空间,查询过程应该优先获得积极的症状[36]。出于这一动机,我们鼓励BSODA通过在xs=0时丢弃xs和xD的组合来关注阳性症状,即,将奖励设置为0。因此,要计算的xs和xD的组合被重新定义为|D|.二是|D|是巨大的,几乎所有的预测差异-E(0)=0,ei.当计算注意力矩阵A时,未被考虑的关系的注意力权重被M中的负无穷大固定为0。 为了结合先验知识P,我们用P初始化A(0),然后依次惩罚注意力如果第j个块偏离前一个块太多正则化训练损失项jDKLA(j-1)A(j),则计算第j个块的第j个块。最后,从最后一个嵌入向量中获得预测分布xD的tors:pD(·)=Softmax(ML PD(E(J)。我们训练模型分布pD(·)为长尾分布。因此,我们对所有可能的疾病进行排名,完整数据x,它接受x作为D输入并预测x。的值xD的概率pD(xs,xO),使用两步S D学习嵌入E第二节抽样策略3.2.2,我们丢弃那些低于90%的最高概率或小于1D的。然后,要计算的组合的平均数量可以进一步减少到小于10实验。3.4诊断科应该注意的是,我们可能希望在任何一轮症状检查过程中进行诊断最近,越来越多的RL方法[27在BSODA中,我们将pD表示为由诊断模型返回的疾病预测分布。3.4.1知识引导的自我注意模型。 BSODA使用自-用于初始化VAE模型。3.4.2诊断方法和终止标准。由特征的部分观察引起的不确定性将使得难以执行准确的诊断。因此,为了模拟不确定性,我们通过绘制NM来估算输入中的缺失变量xU来自xmU的样本|xO),其采样率与x s p(xs |x O)根据两步抽样战略在S EC。第3.2.2条。 这NM个样本xU,xONM那么,被馈送到诊断模型中,产生关于xD的一组预测分布,由{(p( 1 ) , . . , p ( |D| ) m}NM. 然后, 我 们 计 算 exp,方 程sµpD=E[p(1),. . ,p(|D|)]和标准差σpD=由先验知识引导的注意机制,在所有特征之间嵌入关系,包括疾病和症状。 我们使用两个矩阵M和P来表示先验知识,它们的大小相同 S+D S+DM是掩码矩阵其中每个条目M ij = 0表示考虑了特征i和特征j之间的关系,否则为负无穷大。选择的疾病,如果这种疾病的概率是如此之高,询问更多症状不会推翻诊断结果[28]。也就是说,当所选疾病的概率超过其他疾病概率的6 σ区间[34,35]的上限时,查询过程将停止。 当选择单一疾病d时,其中d= argmax dµ(d),终止标准患有某种疾病的患者通常小于WWWWeijie He,Xiaohao Mao,Chao Ma,Yu Huang,José Miguel Hernánáng-Lobato,andTing Chen2516pDpDpD表2:实验数据集的基本特征。数据集类型数据大小#疾病#症状使用SymCAT合成-801474列车试验牧之真实世界710466列车试验DXY真实世界527541列车试验HPO-合成合成-11,44113,032列车试验HPO-HMS真实世界8337747测试HPO-MME真实世界4318559测试可以用公式表示为:j(七)4实验表2总结了实验数据集的基本特征。 BSODA在三个类别的实验数据集上进行评价,包括合成数据集、两个真实世界常见疾病数据集和三个罕见疾病数据集,包括一个来自知识库的合成数据集和两个真实世界数据集。它们都是公开的,不包含个人身份信息。我们使用合成数据集来生成几个具有不同数量的可能疾病的合成任务4.1现有数据集4.1.1SymCAT。 SymCAT是一个疾病数据库[4]。对于每种疾病,都有关于其症状及其边际概率的信息使用疾病控制和预防中心(CDC)数据库中的发生率进行筛选Following Peng etal.[36],我们使用SymCAT构建一个合成数据集。我们首先从所有疾病中随机抽取一种疾病及其相关症状然后,我们根据其相关概率对每个提取的症状进行伯努利试验,以形成症状集。例如,如果我们对一种疾病“鼻脓肿”进行采样,我们将获得其相关症状:“咳嗽”和“发烧”,其发生概率分别为73%和62%。然后,我们根据这些概率通过对伯努利随机变量进行采样来生成一个数据实例。 我们分别对106、105和10 4条记录进行了样本训练、验证和测试。4.1.2两个真实世界的数据集。Wei等人[43]构建了MuZhiMedical Dialogue数据集,该数据集收集自中国在线医疗网站(https://muzhi.baidu.com/)儿科的对话数据。 MuZhi数据集包括4种疾病的66个症状:儿童支气管炎,儿童功能性消化不良,婴儿腹泻感染和上呼吸道感染。Dxy Medical Dialogue数据集[46]包含来自另一个流行的中国在线医疗保健网站(https://dxy.com/)的数据,用户经常从专科医生那里寻求专业的医疗建议。Dxy数据集包括5种疾病的41种症状:过敏性鼻炎、上呼吸道感染、肺炎、儿童手足口病和小儿腹泻。这两个数据集以疾病-症状对的形式结构化,并分为训练集和测试集。4.2拟议的基于HPO的罕见疾病数据集人类表型本体(HPO)[22]提供了与人类疾病相关的表型异常的标准化词汇表HPO最初的应用领域是罕见疾病。有123,724个HPO术语注释用于罕见疾病,132,620个用于常见疾病。这些数据来 自 多 个 来 源 , 包 括 医 学 文 献 、 Orphanet ( https ://www.orpha.net/ )、OMIM (https ://omim.org/ )和DECI-PHER(https://decipher.sanger.ac.uk/)。我们从公共罕见病词典中选择疾病和相关症状,以及它们的边际概率,以构建新的数据集。HMS数据集由Knitza等人收集[20],包括来自原始真实世界健康记录的93例罕见疾病病例Matchmaker Exchange API [5]提供了一种共享语言,数据库可以使用它来相互查询以找到相似的患者。API是围绕标准化的患者资料构建的,包括表型和基因型信息。MME数据集是API的标准化罕见病检测集,包含从出版物中选择的50例去识别患者。我们分别从HMS和MME数据集中选择83例和43例病例,以形成新的HPO-HMS和HPO-MME数据集。他们每个人都有至少一个症状匹配一个特定的HPO术语。我们提出了一种新的基于HPO的评估方法,使用合成和真实世界的数据集。HPO数据库用于创建合成数据集,作为SymCAT的模拟过程。真实世界的数据集,HPO-HMS和HPO-MME,被用来测试从基于知识的模拟环境到真实世界的场景的可移植性。具体来说,我们通过上述SymCAT过程构建了一个合成训练数据集,利用HPO-HMS和HPO-MME中与症状和疾病相匹配的HPO条目,这是真实世界的测试数据集。这种评估方法可以评估症状检查方法在仅基于合成数据进行训练时的泛化程度,因为难以获得大量的真实训练数据4.3实验方案4.3.1基 线 。 我 们为每个数据集选择了 最 合 适的RL 基 线 。GAMP[45]使用GAN来实现用于症状检查的RL代理,这已被证明仅在微小的特征空间(MuZhi和Dxy)上是最REFUEL [36]是一种竞争性RL方法,旨在对中等大小的搜索空间进行症状检查。4.3.2实验设计。 BSODA首先在诊断分支中训练知识引导的自注意模型,然后在查询分支中随机丢弃一小部分特征来训练VAE模型。与RL相比,BSODA自然地处理这种对于合成数据集和两个罕见疾病数据集,HPO-HMS和HPO-MME,在询问过程开始时均匀随机选择阳性症状作为患者自我报告。穆智和Dxy已经有了自我报告。对于所有真实世界的数据集,不应用过滤加速技术,因为它们的候选症状数量已经很小。我们分别针对合成数据集和真实数据集显示了BSODA:一个双向可扩展的在线疾病诊断框架WWW2517表3:REFUEL[36]和BSODA在合成SymCAT数据集和基于HPO的罕见疾病数据集上的性能数据集编号-疾病[36]第36话四十八。23± 0。2573. 82± 0。3284. 21± 0。十七十三10± 0。05806040200 5 10 1520轮67岁。03±0. 29 七十五。94±0。53 79. 27 ±0。58六十70 ± 1。28 79. 53 ± 1。40 83. 37 ±0。86表4:REFUEL[36]、 GAMP[45]和BSODA在两个医学对话数据集上的疾病预测准确度(%)。加油[36]美国[45][43]第七十三章. 1± 0。5[46]第80话. 2 ±0。3在Top3和Top5曲线上的表现总是优于Refuel虽然Top1曲线相交,但BSODA在开始和结束时都优于当认为有足够的证据时,REFUEL停止查询并进行预测;然而,BSODA证明该决策可能不是最佳的:通过一些额外的查询,BSODA可以提供明显更好的疾病预测,这在医学领域是至关重要的在图2:准确性与最大查询次数BSODA和REFUEL [36]在SymCAT 200疾病任务中。4.4结果4.4.1SymCAT。我们综合了三个诊断任务,分别包含200,300和400种疾病。对于BSODA,我们将NM设置为100,对于BSODA和REFUEL,这三个任务的最大查询次数分别为15、16和17。 结果报告于表3中。 我们观察到,平均而言,BSODA比REFUEL进行更多的查询,因此,它对Top1预测的准确性略高,对Top3和Top5预测的准确性明显更高。在图2中,我们展示了在200种疾病的任务中,随着最大查询次数的增加,准确率如何变化REFUEL接受的培训是最多进行20次询问。我们选择在学习策略下具有最高动作值的预测疾病。 在图2中,我们观察到,在最初的几次查询中,REFUEL的准确度曲线明显低于BSODA的准确度曲线。它揭示了,由于患者的部分观察信息,REFUEL可能很难做出准确的预测,这就是BSODA当REFUEL的精确度曲线接近其最佳查询次数时,曲线会达到一个平台。相比之下,BSODA的准确率曲线继续以相对更快的速度增长。BSODA结论,使用相同的最大查询次数,RL代理会更快地收敛并做出较差的预测。这很可能是由于难以确定勘探,即,所收集的信息足以为RL代理提供“成熟”诊断相比之下,BSODA的启发式停止准则具有优势。4.4.2真实世界常见疾病数据集。 表4显示了MuZhi和Dxy数据集上的REFUEL、GAMP和BSODA的结果。对于BSODA,我们将NM设置为100,对于MuZhi和Dxy,分别将最大查询次数设置为16和 20对于GAMP和REFUEL,我们将最大查询数量限制为20。表4中的结果表明,在这三种方法中,BSODA在MuZhi上具有竞争力的性能,并且在Dxy上实现了最高的准确性。从Dxy数据集,我们进行了一个案例研究,以调查实际询问的症状的REFUEL,BSODA和医生。患者为21个月大的婴儿,最初报告咳嗽痰,容易被误诊为上呼吸道感染。结果如表5所示,阳性询问症状以粗体突出显示关键的隐性症状是湿罗音和呼吸困难。我们观察到,REFUEL提供了一个草率和错误的诊断,而没有询问关键症状。 BSODA倾向于通过首先询问鼻摩和过敏症状以排除过敏性鼻炎,然后询问关键症状以提供正确诊断来进行鉴别诊断。BSODA-Top1BSODA-Top3BSODA-Top5REFEUL-Top1REFEUL-Top3REFEUL-Top5任务Top1Top3Top5回合数Top1Top3Top5回合数SymCAT-200合成30040032834935553.7647.6543.0173.1266.2259.6579.5371.7968.898.248.398.92五十五65±0。2544. 63± 0。29八十。71±0。2669岁22±0。1189岁32±0。2979. 54± 0。1512个。02±0. 0614个。42±0。03HPO-合成50010001901359964.3340.0873.1462.6775.3467.428.0914.1976岁23±0。4784. 17± 0。5386岁。99±0。41五、34 ±0。0410. 62± 0。08准确度(%)WWWWeijie He,Xiaohao Mao,Chao Ma,Yu Huang,José Miguel Hernánáng-Lobato,andTing Chen2518表5:Dxy数据集上实际查询症状的案例研究。患者是一名21个月大的婴儿,最初报告咳嗽痰。症状诊断补充营养流鼻涕,绿便,发烧,上呼吸道感染[36]第三十六话发烧,揉鼻子,表6:BSODA在SymCAT 200疾病任务上的各种加速设置下每次查询的平均CPU时间设置时间(s)BSODA0. 45BSODAw/o近似值20.47BSODAw/o近似滤波32.52BSODA过敏症状,湿罗音,呼吸困难,流鼻涕肺炎医生湿罗音,呼吸困难肺炎4.4.3推荐的基于HPO的罕见病数据集。 我们利用HPO生成具有数千个特征的合成任务,以评估症状检查方法的性能。生成了两个合成任务,分别包含500种和1,000种疾病。我们的目标是在现实世界的场景中评估模型,其症状计数是之前最大的数据集SymCAT的六倍对于BSODA,我们分别为500和1,000种疾病的任务设置最大查询次数为10和18,并将NM固定为20。在训练REFUEL时,我们将这两个任务的最大查询次数分别设置为14和18表3中的HPO-synthetic结果显示,BSODA的性能大大优于REFUEL,准确率高出11至27个百分点,同时查询次数更少当疾病数量从500增加到1,000时,REFUEL的Top1准确率下降了24%,而BSODA的准确率仅下降了9%。因此,BSODA在处理大特征空间时比RL具有更明显的优势对于HPO-HMS和HPO-MME数据集,我们将REFUEL和BSODA的最大查询次数设置为15,并将BSODA的NM固定为100。如表3所示,BSODA的表现比Refuel高出12至21个百分点。然而,HPO-HMS数据集上的结果并不令人满意,因为BSODA的Top1精度仅为34。事实上,由于知识库和真实世界数据之间的症状分布的差异,症状检查方法的可移植性仍然是一个挑战。4.5加速技术我们进行了烧蚀研究,以显示所提出的加速方案的各个组件 我们在合成的SymCAT 200疾病任务上运行BSODA,并计算了各种加速设置下每次查询的平均CPU时间。我们将NM设置为100,最大查询次数设置为15。在表6中,我们展示了使用NVIDIA GeForceGTX 1080Ti GPU产生的结果。结果表
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功