医疗器械临床研究报告：利用数据挖掘技术预测医生前瞻性诊断

130 浏览量更新于2023-12-26 收藏 765KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i本文的最新情况见最后《医疗器械临床研究报告》第1卷第2期（2018年）120-127页利用数据挖掘技术预测好医生的前瞻性诊断Nfongourain Mougnutou Rémya， Tekinzang Tedondjio Martiala，Tayou Djamegni Clémentinba喀麦隆恩冈代雷恩冈代雷大学数学和计算机科学系b喀麦隆Dschang Dschang大学数学和计算机科学系A R T I C L E I N F O保留字：数据挖掘开放数据多学科诊断A B S T R A C T这项工作提供了一个预测模型，选择最合适的医疗保健从业人员，特别是医生，诊断病人。在多学科诊断的背景下，本文提供了一个数据挖掘模型，以确定一个专家医师谁可以参与这样的诊断，从而降低风险的错误。首先，该模型确定了可以诊断患者的专家。其次，该模型使用计算出的概率来提供能够做出良好诊断的专科医生的排名。该排名可用于构建一组可以参与多学科诊断的专家。从SPARCS数据库中提取了11位不同医学专家咨询的58177例患者（52%为女性）的样本。这项工作是基于对开放健康数据的分析，特别是那些能让病人保持稳定的疾病。数据挖掘的结果是一个多项逻辑回归模型。10倍交叉验证结果表明，该模型对所选数据具有良好的预测能力，平均准确度、灵敏度、特异性和精密度分别为80%、79%、97.3%和82.8%。我们的研究结果表明，病人的特点，在acquireence选择医生。总之，我们断言，所有选定的专家都能够诊断病人，有些专家比其他人更有能力诊断疾病。1. 介绍随着科学的快速进步和医生的新方法，医学发生了变化尽管有这些进步，但医学上的诊断错误仍然存在[27]。为了降低单一医生诊断错误的风险，可以考虑采用多学科诊断方法[7]。在多学科诊断的情况下，来自不同领域的多个参与者合作提供单一诊断。多学科诊断所需的小组工作不仅可以获得价值，而且可以促进对患者问题原因的识别和分析。然而，专家的意见可被视为仅与其专业领域相关。换句话说，一个医生对病人问题的意见可能比另一个医生的意见更受欢迎。这就提出了选择医生参与多学科诊断的问题，如图1所示。这项工作的目的是构建一个模型，可以描述医生提供的良好诊断的角度和患者的个人资料之间的关系。为实现这一目标，对卫生数据进行了分析，并对医患关系得到发展。本文提出了一种基于患者特征的医学专家选择模型。因此，选定的专家可以参与多学科诊断。据我们所知，这是第一次使用数据挖掘基于患者的个人资料进行医生预测的研究。2. 背景2.1. 数据挖掘数据挖掘是在大量数据中发现信息或知识的艺术与统计学一样，数据挖掘在希望从数据库中提取相关信息的公司和组织中变得越来越普遍，这些信息可以用于自己的需求[31]。数据挖掘任务通常可以分为描述和预测任务[30]，[24]。为了理解发现的目标，理解描述性任务和预测性任务之间的区别至关重要。数据挖掘技术应用于越来越多的领域。在描述性数据挖掘中，目标是产生一个描述性的*通讯作者。电子邮件地址：nfongourain@yahoo.fr（新墨西哥州）Rémy），tekinzang@yahoo.fr（T.T. Martial），dtayou@yahoo.com（T.D. Clémentin）.https://doi.org/10.1016/j.imu.2018.07.005接收日期：2018年3月2日;接收日期：2018年7月13日;接受日期：2018年7月29日2018年2月2日的一份声明2352-9148/©2018PublisheddbyElsevierLtd.这是一个不可避免的问题，因为CCBY-NC-NDLicense（http：//creativecommons.org/licenses/BY-NC-ND/4。0/）。可在ScienceDirect上获得目录列表医学信息学杂志主页：www.elsevier.com/locate/imu《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人121Fig. 1.选择医生的问题。生成数据的过程的近似或模型预测的目标是找到一个模型来估计未来案例的价值。医学数据挖掘是临床决策支持系统的重要组成部分。数据挖掘可以提取医学领域数据中隐藏的信息，并将其作为临床诊断的模式[14]，[33]。与[14]和[33]类似，文献中的大多数工作都集中在患者的疾病上，而忽视了医生。这项工作的目的是提出一个模型的概率，病人的个人资料，适合模态的医生，换句话说，预测医生谁可以提供一个良好的诊断的基础上，病人的特色2.2. 预测数据挖掘在大多数数据挖掘应用中，我们将学习的目标变量是必要的[25]。预测模型可以理解为数据学习。在这种情况下，我们还需要知道一组示例的目标变量的值（即，患者记录）。2.3. 算法访问电子病历（EHR）为医疗数据挖掘开辟了新的可能性。许多不同的监督机器学习算法可用于分析数据集。一些成功用于医疗保健的数据挖掘技术是决策树（DT），人工神经网络和逻辑回归。DT是最强大和最流行的信息提取工具之一。它也有许多优点[4]。DT的一个重要优点是它是一个高度可解释的模型，代表了一组规则。然而，其他机器学习算法，如支持向量机（SVM）[19]，可能提供更好的准确性，但构建的模型可解释性较低人工神经网络[16]来源于人脑的分析和信息处理。它们将知识表示为存在于大脑中的单元或神经元的网络。人工神经网络已成功应用于临床医学，如医学图像诊断[8]。该方法已经在几个问题上进行了测试，并与现有的几种方法进行了比较，它获得了与支持向量机相当的性能。然而，与SVM相比，人工神经网络的执行时间要长得多，并且无法解释其结果。逻辑回归（LR）是最广泛使用的二元响应变量的统计建模方法之一LR预测目标变量的概率，用p表示。目标变量的值可以是1（成功）或0（失败，1-p）。LR已广泛用于医学和社会科学[20]。多项逻辑回归（MLR）是二项逻辑回归的替代方法[15]。多项逻辑回归有一个优点，它不假设因变量和每个自变量之间存在线性关系MLR用于因变量的K值没有排序的情况，这是我们研究的情况在这项工作中，因变量是名义型的，由超过02个类别组成我们专注于多项式回归，估计选择每个类别的概率和独立变量对结果的影响。2.4. 开放数据从数量、种类和价值方面来看，数据世界的竞争日益激烈。开放数据为数据仓库和分析增加了丰富性和新的维度，以解锁新的创新形式[3]。数据的共享和开放使得在线提供基本数据成为可能，并改善了许多决策者的分析，从而提高了在包括医学在内的各个部门做出更明智决策的能力。因此，这意味着创建由所有利益相关者共享的大量参考数据，并鼓励开发几项高附加值服务。开放数据意味着这些数据可供任何有关方面（公司、科学家等）访问、利用和再利用。这项工作是使用来自卫生全州规划和研究合作系统（SPARCS）数据库的医疗信息进行的。SPARCS是患者特征、诊断、治疗和服务的数据库，其病变和/或功能状态被认为是稳定的（例如，心绞痛）。法国急诊患者临床分类（CCMU）[32]通常用于从1级到5级的护理优先级：1级：认为临床状况稳定。简单的临床检查。不进行补充诊断或治疗程序。2级：1级和附加诊断程序的决定（例如，血液测试）。3级：临床状况可能恶化，但无任何危及生命的预后。4级：在不立即开始复苏程序的情况下存在危及生命的风险。5级：涉及开始复苏程序的重要预后。在这项工作中，所有选定的疾病都有一个共同点，它们使患者的临床状况和/或功能预后保持稳定。3. 预测模型3.1. 数据理解和数据准备3.1.1. 患者问题明确病人的问题需要了解病人的病史。收集患者的人口统计数据是患者病史的起点。下一步是发展病人的个人资料和病人的主诉[29]。人口统计数据和患者个人资料很重要，因为它们代表了患者及其状况，包括年龄和性别。这些信息还可以帮助确定其他医疗问题。患者的个人资料是患者的特征和导致患者当前状况的问题的总结。在本文中，我们希望找到合适的医生谁可以一起工作，以解决病人的问题。选择物理学家的过程如图2所示。该过程的核心是预测模型，该模型必须能够预测哪些医生可以根据患者的个人资料提供良好的诊断。3.1.2. 预处理在这项工作中使用的SPARCS 2014数据库在其原始状态下有超过1，000，000个观测值和39个变量，其中包括许多缺失，冗余和不相关的值。删除与研究目的无关的所有变量没有分组·····《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人122J0 1p12便士图二.选择医生参与多学科诊断的过程。根据输入变量的测量间隔或尺度进行。这一分组已经完成，患者的年龄范围也是如此。为了解决缺失值的问题，我们使用了简单而直接的方法，包括完全消除具有缺失值的条目。死亡率，即轻微或中度死亡率。仅应保留09个候选变量中的重要变量[2]。此外，我们希望减少要保留的解释变量的数量，以使模型更容易解释和更鲁棒。ICD-09变量描述了与患者疾病相关的诊断。然而，我们试图预测能够进行诊断的适当专家，这使得模型中包含变量ICD-09不一致。同样，死亡风险和疾病严重程度只能由医生确定最后，模型中包含的候选变量只有：年龄、性别、症状1、症状2、症状3和症状4。3.2. 预测模型目标是根据患者的个人资料预测哪些医生可能为患者提供适当的诊断。目标是预测变量Y={y1，y2，.，其中，K是能够进行适当诊断的医师的数量。患者的特征包括p描述符{X1，X2，对于每个患者，预测变量，即医学专家或医生Y，可以通过Ref.【九】：所研究的数据涉及更多的Yk=β（k）+β（k）X1+β（k）Xp超过5万名患者。这些信息包括患者的个人资料，（二）诊断和提供护理的服务该数据集是由-其中β0、β（k）、β 2、β（k）是待确定的参数。1个p分为两类：学习集和测试集。学习集是用于估计和验证，代表总数据集的约90%测试集用于评价，代表0%的数据集。具有K个无序模态的变量Y必须从P个解释变量{X1，X2，.，Xp}中预测有几个独立的意见指出：3.2.1. 的假设在医学研究中，数据挖掘从假设开始[5]。在现代医学中，通常可以观察到疾病的许多症状[18]。出于一般性和简单性的原因，仅选择04个主要症状。为开发模型，作出以下假设：1，1Obs=0...xp，1，y1⎟HM1. 一个病人一次只能患一种病。1，n...xp，n，yn（一）H M2. 一组04症状足以描述疾病的表现。共选择了17种疾病。这些疾病没有先前的联系，如偏头痛，哮喘，过敏反应，营养不良，腹疝和脊髓灰质炎。这些疾病彼此之间没有联系。然而，所有这些疾病都属于法国急诊患者临床分类（CCMU）的1级或2级。与上述疾病诊断相对应的医生有11类，即全科医生、耳鼻喉科医生、肺病科医生、儿科医生、风湿病科医生、胃肠病科医生、泌尿科医生、心脏病科医生、皮肤科医生、神经科医生和过敏症科医生。3.1.3. 变量预选预处理后，每个患者记录包含09个特征。为了描述患者的特征，预先选择了09个候选变量患者的年龄范围。该变量描述了诊断时患者的年龄范围。有5个范围：0至17岁、18至29岁、30至49岁、50至69岁和70岁及以上。性别. 该变量表示患者的性别，男性或女性。为了简化，我们使用Sex变量而不是gender变量。代码ICD-09 该变量指定了根据国际疾病分类ICD-9定义的疾病代码[12]。症状. 描述疾病表现的一组04变量。每个变量Symptom1、Symptom2、Symptom3和Symptom4包含一组临床体征。疾病的严重程度。该变量描述了疾病的严重程度，无论是轻微还是中度。死亡风险。该变量表示与疾病相关这项研究的重点是低风险的疾病，3.3. 模型变量我们想测试所有候选变量相对于待预测变量的作用为验证候选变量的相关性，进行了显著自变量检验目的是研究解释变量和研究变量之间的联系，以消除不太能区分的变量[1]。考虑了以下假设H0：对于所有k ∈ {1，.，K }，β（k）=β（k）= β（k）=0.H1：<$j∈{1，<$，J}/β（k）<$0，则至少存在一个非零系数。该检验基于完整模型和H 0下模型的似然比的差异。重要解释变量检验的结果见表1。p值可用于量化证据的统计学显著性，并用于零假设检验。设x是一个观察到的实例; p值记为p=P（xH0）。3.4. 模型的参数目标是使用选定的数据子集开发适当的预测器。独立患者观察的数量为n=58177。目标是根据年龄、性别和症状预测能够为患者提供正确诊断的医生。在某种程度上，这是一个强调医生之间存在潜在功能联系的问题，可以提供良好的诊断和一组特定于患者的特征，即患者的······《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人12310p（x）10p表1显著解释变量检验的结果：卡方检验的值及其P值。在区间[30; 49]内，30.41%的年龄在区间[50; 69]内，20.55%的年龄在区间[70;更大]内。此外，52%的患者是女性，48%是男性，所有患者都患有一种使他们处于稳定状态的疾病。对于任何病人x，他的个人资料可以用06特征来定义。该模型可以写成：logit（p（x））β（k）β（k）β（k）β（k）β（k）k=0+1年龄+2 性别+3症状1+4 症状2（k）5 症状（k）6 症状4（八）β参数的最大似然估计值为ob-c。使用所有重要独立变量的数据得出[13]和R年龄和性别变量的p值低于0.05阈值。我们可以得出结论，这些变量是有区别的;因此，这些变量包括在模型中。关于症状1、症状2、症状3和症状4变量，所获得的值不允许我们对辨别能力做出假设。然而，这些变量是表征患者特征的变量（根据假设H M2）;因此，它们也必须包括在模型中。最后，假设H0被拒绝，所以所有的候选变量都包含在模型中。profile.这个问题可以表示为：医生=f（年龄、性别、症状1、症状2、症状3、症状4）（三）设（y，n，y）为Y（医生变量）采用的K种模态统计软件。多项逻辑回归的工作原理是选择一个类作为参考类别。在我们的模型中，医生类别过敏被用作参考类别。其他变量的结果应根据参考类别进行理解。该模型的系数见表2。Sx代表解释变量Symptomx。表3列出了本工作中使用的症状列表。考虑表4中列出的患者。公式（4）和（6）是本研究中概率计算的基础。对于xi的不同值，预测概率Pk（x）可以用来解释自变量Xp对属于类别k的概率的影响。因此，对于患者x，具有最高概率的专家是最终预测，也就是说，最有能力的专家1K提供了一个很好的诊断。患者的估计概率来预测。对于所有k∈{1，n，K}，基于数据集，我们希望估计每个i∈{1，n，n}的未知概率。我们有：所考虑的情况见表5。表5中带下划线的值表示模型预测的专家与pk（xi）=P（{Yi=yk} {（X1，Xp）=xi}），xi=（x1，i，n，xp，i）（四）真正诊断病人的专家基于所计算的多项逻辑回归模型可以写为：logit（pk（x））=logpk（x）=β（k）+β（k）x1++β（k）xp，x=（x1，，xp）概率，可以在医生之间建立秩序。概率最低的医生不适合诊断患者。相反，概率最高的医生根据模型放置以诊断患者。⎝1⎠（五）我们将多项逻辑回归模型应用于数据集。获得的最终模型为χ 2 =10.82，P值= 2.2 e−16。那个...其中β（k），β（k），β（k），β（k）是未知实系数。因此，对于所有最终模型的值低于0.05的显著性水平0 1pk∈{2，k，K}，我们有：exp<$β（k）+β（k）x+<$+β（k）x<$从而支持患者特征（06参数）和医师专业（依赖于变量）。独立变量的比值比（OR）可以是⎜011pppk（x）=01个以上Kexp<$β（k）+β（k）x+<$+β（k）x<$翻译。当比值比大于1时，处于一个类别中的可能性高于处于参考组中的可能性。∑k=2<$011⎝pp⎠（六）当比值比小于1时，与参照组相比，属于一个类别例如或我们估计了一个多项logistic模型来预测概率11种结果中的每一种。由于有11个不同类别的医生，该模型估计每个解释变量的10个参数。还计算了解释这些系数的比值比（OR）。比值比可以以多种方式使用;例如，比值比可以衡量输入变量的效果[11]。设xa和xb是两类变量X1.优势比为：（S1=咳嗽）= 7.19（Y =肺科医生）意味着咳嗽为S1的患者被肺科医生诊断的可能性大约高7倍。其他OR也具有高值和类似的解释。例如，Y=全科医生时，OR（S1=咳嗽）=5.26。对OR的另一种解释是可能的。对于Y=yk，其中k∈{2，n，11}，或（S3=Itching）1。<这些比值比的解释意味着任何瘙痒为S3的患者都可能被过敏症医生诊断。OR（xa，xb）=赔率（xa）赔率（xb）P（xa）=1−P（xb）P（xb））1−P（xb）（七）4.2. 统计分析为了避免过度拟合，并确保重新拟合的统计有效性与P（xa）=P（{Y=1} {（X1=xa，x，Xp））。我们使用比值比来结果，使用10倍交叉验证进行实验评价测量输入的患者特征对医生的影响。4. 结果4.1. 预测结果以下结果是根据STARD 2015声明[21]的说明列出的。在我们研究中保留的58177例患者中，22.62%的年龄在区间[0; 17]内，07.92%的年龄在区间[18; 29]内，8.5%的年龄在区间[18; 29]内。dation [6].许多不同的参数已被用于估计性能指标[23]，并已报告的模型。这些性能指标见表6。报告的结果包括总体准确度（正确预测数除以测试序列总数）、每个医学专家类别的准确度（正确预测数除以该类别中的序列数）和每个医学专家类别的马修斯相关系数（MCC）。如果预测的专家和实际专家之间没有关系，MCC应该很低。通过对比，MCC值将随着预测专家与实际专家之间的关系的强度的增加而增加。+β3+β单个变量Xp奇斯克LRDFp值重要性年龄24756.340<2e−16***性163.910<2e−16***症状1-1.51501症状2-1.51601症状3−21601症状4-2.81501《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人124p表2多项logistic回归模型的参数β（k）。a）参数β（k）、β（k）、β（k）和β（k）0 1 2 3变种Yk拦截年龄=[18; 29]年龄=[30; 49]年龄=[50; 69]年龄=[70;更大]性别=男S1= 1S1= 16S1= 4有氧运动-1.2713.752-2.3120.721-0.112-0.138-0.169-0.026-0.105皮马托-0.651-0.105-0.179-0.192-0.226-0.225-0.133-0.042-0.206基因3.8711.520-2.7401.856-0.473-0.5663.108-0.418-0.240肠胃0.1901.228-1.9260.896-0.355-0.608-0.027毫米-0.058-0.133神经科-0.9531.062-0.8090.324-0.148-0.344-0.109-0.017-0.089奥托-0.1691.631-2.2241.173-0.079-0.670-0.146-0.066-0.092阿瓜迪亚-2.531-8.3287.201-3.4201.538-0.041-1.292-0.001-1.174普尔莫2.0802.533-1.020-0.2560.325-0.163-0.641-0.3682.714风湿病-0.4871.523−0.0560.497-0.1270.025-0.1631.157-0.130乌罗-1.3761.525-0.8760.175-1.1721.394-0.218-0.080-0.119变种YkS1= 5S1= 10S1= 15S1= 3S1= 9S1= 13S1= 14S1= 12S1= 6S1= 2S1= 8S1= 11有氧运动-0.596-0.131-0.143-0.3182.617-0.057-0.121-0.630-0.048-0.437-0.064-0.111皮马托-0.462-0.075-0.945-0.243-0.276-0.0870.004-0.203-0.059-0.288-0.0622.839基因1.661-0.920-1.223-0.285-1.0400.704-1.3731.399-0.6421.923-0.483-0.327肠胃-0.529-0.382-0.664-0.2732.596-0.080-0.362-0.862-0.071-0.276-0.116-0.937神经科-0.423-0.083-0.673-0.324-0.281-0.0302.377-0.106-0.063-0.121-0.0840.006奥托-0.581-0.145-0.514-0.296-0.433-0.126-0.097-0.134-0.1203.463-0.065-0.035阿瓜迪亚2.0480.542-2.804-0.593-0.9970.4880.4671.2110.012-2.236-0.794-0.794普尔莫1.973-1.216-1.0473.249-0.398-0.231-0.512-0.505-1.016-0.3091.820-0.327风湿病-0.554-0.118-0.773-0.311-0.344-0.095-0.090-0.1942.312-0.313-0.050-0.063乌罗-0.6312.704-0.678-0.318-0.448-0.221-0.0870.104-0.103-0.202-0.043-0.092b）参数β（k）et β（k）4 5变种YkS2= 30S2= 25S2= 33S2= 26S2= 19S2= 32S2= 24S2= 29S2= 31S2= 27S2= 23S2= 20有氧运动-0.0572.617-0.026-0.131-0.318-0.143-0.064-0.630-0.121-0.111-0.446-0.105皮马托-0.087-0.276-0.042-0.075-0.243-0.945-0.062-0.2030.0042.839-0.276-0.206基因0.704-1.040-0.418-0.920-0.285-1.223-0.4831.399-1.373-0.327-1.517-0.240肠胃-0.0802.596-0.058-0.382-0.273-0.664-0.116-0.862-0.362-0.9373.190-0.133神经科-0.030-0.281-0.017-0.083-0.324-0.673-0.084-0.1062.3770.006-0.234-0.089奥托-0.126-0.433-0.066-0.145-0.296-0.514-0.065-0.134-0.097-0.035-0.449-0.092阿瓜迪亚0.488-0.997-0.0010.542-0.593-2.804-0.7941.2110.467-0.7942.249-1.174普尔莫-0.231-0.398-0.368-1.2163.249-1.0471.820-0.505-0.512-0.327-0.3022.714风湿病-0.095-0.3441.157-0.118-0.311-0.773-0.050-0.194-0.090-0.063-0.359-0.130乌罗-0.221-0.448-0.0802.704-0.318-0.678-0.0430.104-0.087-0.092-0.581-0.119变种YkS2= 17S2= 18S2= 22S2= 21S3= 30S3= 48S3= 50S3= 35S3= 54S3= 52S3= 3S3= 55有氧运动-0.169-0.437-0.048-0.596-0.057-0.108-0.382-0.131-0.1112.617-0.488-0.143皮马托-0.133-0.288-0.059-0.462-0.087-0.135-0.305-0.0752.839-0.276-0.138-0.945基因3.1081.923-0.6421.6610.7042.463-0.768-0.920-0.327-1.0403.544-1.223肠胃-0.027毫米-0.276-0.071-0.529-0.080-0.108-0.388-0.382-0.9372.596-0.829-0.664神经科-0.109-0.121-0.063-0.423-0.030-0.108-0.408-0.0830.006-0.281-0.697-0.673奥托-0.1463.463-0.120-0.581-0.126-0.107-0.361-0.145-0.035-0.433-0.334-0.514阿瓜迪亚-1.292-2.2360.0122.0480.488-1.285-1.3870.542-0.794-0.9971.137-2.804普尔莫-0.641-0.309-1.0161.973-0.231-0.2425.069-1.216-0.327-0.398-0.804-1.047风湿病-0.163-0.3132.312-0.554-0.095-0.108-0.361-0.118-0.063-0.344-0.399-0.773乌罗-0.218-0.202-0.103-0.631-0.221-0.107-0.3602.704-0.092-0.448-0.364-0.678c）参数β（k）和β（k）5 6变种YkS3= 23S3= 56S3= 51S3= 8S3= 53S3= 18S3= 44S3= 21S4= 40S4= 35S4= 36S4= 41有氧运动-0.630-0.026-0.048-0.596-0.061-0.121-0.446-0.105-0.446-0.437-0.318-0.064皮马托-0.203-0.042-0.059-0.4620.0020.004-0.276-0.206-0.276-0.288-0.243-0.062基因1.399-0.418-0.6421.6610.645-1.373-1.517-0.240-1.5171.923-0.285-0.483肠胃-0.862-0.058-0.071-0.5290.082-0.3623.190-0.1333.190-0.276-0.273-0.116神经科-0.106-0.017-0.063-0.423-0.0012.377-0.234-0.089-0.234-0.121-0.324-0.084奥托-0.134-0.066-0.120-0.581-0.040-0.097-0.449-0.092-0.4493.463-0.296-0.065阿瓜迪亚1.211-0.0010.0122.048-0.0070.4672.249-1.1742.249-2.236-0.593-0.794普尔莫-0.505-0.368-1.0161.973-0.399-0.512-0.3022.714-0.302-0.3093.2491.820风湿病-0.1941.1572.312-0.554−0.055-0.090-0.359-0.130-0.359-0.313-0.311-0.050乌罗0.104-0.080-0.103-0.631-0.111-0.087-0.581-0.119-0.581-0.202-0.318-0.043变种YkS4= 23S4= 42S4= 34S4= 43S4= 17S4= 46S4= 47S4= 37S4= 44S4= 39S4= 45有氧运动-0.1312.617-0.108-0.061-0.111-0.143-0.026-0.105-0.608-0.048-0.687皮马托-0.075-0.276-0.1350.0022.839-0.945-0.042-0.206-0.134-0.059-0.290基因-0.920-1.0402.4630.645-0.327-1.223-0.418-0.2402.171-0.6422.103（接下页）《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人125表2（续）变种YkS4= 23S4= 42S4= 34S4= 43S4= 17S4= 46S4= 47S4= 37S4= 44S4= 39S4= 45肠胃-0.3822.596-0.1080.082-0.937-0.664-0.058-0.133-1.191-0.071-0.942神经科-0.083-0.281-0.108-0.0010.006-0.673-0.017-0.0891.680-0.063-0.137奥托-0.145-0.433-0.107-0.040-0.035-0.514-0.066-0.092-0.431-0.120-0.260阿瓜迪亚0.542-0.997-1.285-0.007-0.794-2.804-0.001-1.1741.6040.0121.698普尔莫-1.216-0.398-0.242-0.399-0.327-1.047-0.3682.714-1.316-1.016-0.736风湿病-0.118-0.344-0.108−0.055-0.063-0.7731.157-0.130-0.4892.312-0.289乌罗2.704-0.448-0.107-0.111-0.092-0.678-0.080-0.119-0.451-0.103-0.116表3与本工作中使用的疾病相关的症状和代码列表症状号症状号症状号症状号脓肿1消化问题15前额头痛29皮肤疖子43流鼻涕2大脚趾疼痛16失忆30呕吐44发烧3皮疹17头痛31弱点45感冒样症状4喉咙痛18腹泻32喷嚏46咳嗽5寒战19大脚趾肿胀33足旋球47疼痛6痛咳20皮肤愈合34脚气48腹痛7喘息21咳嗽35筋骨酸痛49呼吸短促8肿胀22干咳36胸痛50心脏病发作9恶心23咽喉疼痛37发红51尿量减少10呼吸困难24胸闷38食管炎52皮肤问题11心绞痛25温暖39皮肤溃疡53单侧头痛12呼吸困难26便秘40湿疹54食欲不振13荨麻疹27疲劳41瘙痒55轻度发热14腹部肿胀28惊恐发作42足球疼痛56表4一些患者的特征使他们保持稳定的疾病。患者编号年龄性症状1症状2症状3症状41[0; 17]M消化问题腹泻瘙痒喷嚏2[50; 69]M心脏病发作心绞痛食管炎惊恐发作3[30; 49]F皮肤问题荨麻疹湿疹皮疹4[50; 69]F单侧头痛前额头痛恶心弱点5[0; 17]F脓肿皮疹运动员脚皮肤愈合6[18、29]M腹痛恶心呕吐便秘7[30; 49]F轻度发热头痛喉咙痛呕吐8[50; 69]F咳嗽喘息呼吸短促胸部肿胀9[30; 49]M发烧寒战胸痛干咳10[30; 49]F流鼻涕喉咙痛筋骨酸痛咳嗽11[0; 17]M腹痛恶心呕吐便秘12[70;年长者]F疼痛肿胀发红温暖13[50; 69]M尿减少呼吸困难咳嗽恶心似然比检验发现，最终模型与零模型存在显著偏差（偏差=21445.18，p值0.005）。该模型显示出良好的区分结果（表7），总体准确度为80%（95%CI：73.82%-85.45%）。多项模型正确预测了80%的医生。评价和为了在全局上比较模型的行为，我们评估了ROC曲线下方的面积（AUC ROC = 0.88）。该模型具有良好的协议（Kappa = 0.77）和预测和观察到的医生（MCC= 0.78）类之间的高度相关性。表5每个专家的估计概率的角度来看，一个良好的诊断使用建议的模型。患者编号真实质量标准PAller。P心脏。皮马托。P吉恩。P胃。P神经科。我是奥托印度PPulmo。PRheumato。PUro.预测1艾尔0.7110.50.5020.5020.5010.5010.50.5070.5030.5020.503阿勒2有氧运动0.50.6210.50.50.6230.50.50.50.50.50.5肠胃3皮马托0.50.50.730.5010.50.50.50.50.50.50.5皮马托4基因0.50.50.50.7310.50.50.50.50.50.50.5基因5基因0.50.50.50.7310.50.50.50.50.50.50.5基因6肠胃0.50.50.550.550.730.50.50.50.50.50.5肠胃7神经科0.50.50.50.5010.50.7290.50.50.50.50.5神经科8普尔莫0.5.0.50.50.6240.50.50.50.50.6190.50.5基因9普尔莫0.50.50.50.50.50.50.50.50.7310.50.5普尔莫10奥托0.50.50.50.5880.50.50.6550.50.50.50.5奥托11阿瓜迪亚0.50.50.50.50.50.50.50.730.50.50.5阿瓜迪亚12风湿病0.50.50.50.50.50.50.50.50.50.730.503风湿病13乌罗0.50.50.50.50.50.50.50.50.50.50.731乌罗《医疗器械临床研究报告》第1卷第2期（2018年）120-127页新墨西哥州Rémy等人126K=K==2K=K=表6我们研究中使用的模型性能指标SeRlTPkTPk + FN k加速度TPk+TNkTPk+TNk+FPk+FNkPrTPkTPk+FPkAUCk=Sek+SpkSPTNkTNk+FPkMCCk=TPk×TNk−FPk×FNk（TPk+FPk）×（TPk+FNk）×（TNk+FPk）×（TNk+FNk）TP：真阳性; FP：假阳性; TN：真阴性; FN：假阴性; Se：灵敏度; Sp：特异性;RI：召回率; Acc：准确度; MCC：Matthews相关系数;Pr：精密度; AUC：受试者工作特征（ROC）曲线下面积表7提出的预测模型的结果Perf. 措施阿勒有氧运动皮马托基因肠胃神经科奥托阿瓜迪亚普尔莫风湿病乌罗精度0.860.770.930.820.920.940.890.900.870.890.92灵敏度0.750.540.860.740.900.880.780.820.770.800.85规格0.980.990.990.910.930.990.990.980.980.990.98MCC0.750.650.880.630.770.890.830.800.780.790.78PR0.810.850.920.670.730.940.930.820.850.800.75AUC0.850.9170.9040.8830.8930.9010.9060.8050.8270.9060.9135. 讨论对于某些疾病，有时很难由一位医生作出准确的诊断。在这种情况下，最好由一组异质医生或一组多学科医生进行诊断[22]，[28]。医生们不应该对病人做出单一的不准确的诊断，而应该共同努力提高诊断的准确性。在大多数针对特定疾病的多学科诊断的文献这是参考文献[ 28 ]中的情况，其重点是特发性肺纤维化。在这项工作中，专家小组由肺病学家、放射学家和病理学家组成。然而，专家或专家组可能无法使用[10]，[17]。在这种情况下，有必要使专家小组更加灵活。专家组必须灵活，并根据专家的可用性，由最佳的备选方案替代。在这项工作中，我们研究的可能性，形成一个团队的医生使用概率模型。正如本文所示，基于数据挖掘技术，可以开发模型来预测哪些医生可以提供良好的诊断。一个有趣的观察，从以前的结果是，一些独立变量的值在adjuence的选择医生。这种选择不是唯一的，因此可以根据回归模型估计的概率选择不同专业的几位医生。我们有k，P（Yk）≥0.5。这表明所有专家都能够诊断患者。然而，P（Y1）>P（Y2）和P（Y1）>P（Y3）意味着专家Y1

下载后可阅读完整内容，剩余1页未读，立即下载