没有合适的资源?快使用搜索试试~ 我知道了~
¼医学信息学解锁17(2019)100275MICE与PPCA:医疗保健中的Harshad Hegde,Neel Shimpi,Aloksagar Panny,Ingrid Glurich,Pamela Christie,Amit Acharya*口腔和全身健康中心,马什菲尔德临床研究所,美国A R T I C L EI N FO保留字:归责概率主成分分析使用链式方程MICE进行多重插补医疗牙科数据牙科信息A B S T R A C T由于缺乏一些数据元素,对真实世界临床数据的回顾性分析面临挑战。从历史上看,缺失数据首先通过将其存在分为三类之一来解决:完全随机缺失(MCAR),随机缺失(MAR)和非随机缺失(MNAR)。正在继续开发和测试插补技术,以衡量其减轻缺失数据类型对分析及其结果的负面影响的能力。本研究比较了两种数据填补技术:概率主成分分析法(PPCA)和链式方程多重填补法(MICE)。从机构研究数据仓库中挖掘了来自41,543名独特患者的回顾性数据,包括医疗和牙科变量(n 116),该数据仓库通过集成的医疗和牙科电子健康记录(iEHR)捕获数据。对具有所有相关变量完整数据的子集进行采样。“Missing data应用PPCA和MICE,测试了这两种技术创建准确插补数据集的能力。在插补数据集和采样子集之间进行比较,以研究哪种技术更接近真实数据。PPCA优于MICE,总体正确插补百分比(准确度)和均方根误差(RMSE)分别为约65%和0.29,而MICE的准确度为约38%,RMSE为0.83。总体而言,本研究得出结论,PPCA插补MCAR数据的能力高于MICE。1. 介绍临床采集数据在用于研究时的二次使用通常会带来缺失数据的挑战,导致可能引入偏倚或对分析结果产生负面影响[1数据缺失的原因有很多。示例可能包括1)工作人员未能在电子健康记录中的结构化数据元素下一致地记录值,或2)技术故障阻止了旨在跟踪特定数据的设备的数据捕获,或3)捕获的数据主要是非结构化格式,如果没有手动抽象或预处理,则无法以电子方式进行挖掘,从而使这些数据无法随时用于分析。未一致记录的数据会导致数据缺失,从而限制了特定数据元素相对影响的分析和系统可解释性[5]。识别缺失数据的类型对于找到解决方案至关重要。缺失数据分为三种不同类型,即:完全随机缺失(MCAR)、缺失随机(MAR)和非随机缺失(MNAR)[1,2,6,7]。 MCAR定义为不存在的数据,其不依赖于观察值和/或未观察值[1,2]。例如,没有记录个人的体重,因为用于记录体重的秤暂时停用。缺失数据减少了可用研究人群的样本量,随后降低了统计功效,尽管没有引入偏倚[8]。相比之下,当缺失数据点的原因仅可通过观察值推断且与未观察值无关时,发生MAR。例如,受过高等教育的人不太可能在调查中透露他们的工资,如果它是在较高的范围。如果数据点缺失有解释,则处理缺失数据的一种方法是简单地从进一步的分析中忽略这部分数据[9]。但排除缺失值的数据变量并不是处理缺失数据的好方法[10]。由于缺少几个变量而删除数据行会导致丢失观察到的有价值的信息,这些信息本来是有益的。* 通讯作者。马什菲尔德临床研究所,研究科学家,口腔和全身健康中心,1000北橡树大道,马什菲尔德,威斯康星州,54449。USA.电子邮件地址:acharya. marshfieldresearch.org(A.Acharya)。https://doi.org/10.1016/j.imu.2019.100275接收日期:2019年9月13日;接收日期:2019年11月21日;接受日期:2019年11月23日在线发售2019年2352-9148/© 2019由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuH. Hegde等人医学信息学解锁17(2019)1002752¼¼分析。这可能导致有偏差的估计。缺失的数据也可以通过使用自然语言处理技术(NLP)的临床记录来补充[11]。或者,试图通过基于数据上下文的接近估计来预测缺失值被称为数据插补[2,6]。已开发出估算缺失数据要素的技术。一个例子包括另一种单值技术涉及结转最后一次观察[6]。该技术用于处理在一段时间内从个体收集的数据的研究[6]。这些技术可能会导致偏倚结果,因此被视为次优[6,12]。此外,这些技术不直接使用从观测值获得的信息[6]。还在继续开发其他技术,有些技术已证明更适合估算数据。这些方法包括:基于最大似然法(ML)的方法、Hot Deck插补和多重插补(MI)[6]。建议使用MI而不是单值技术来处理缺失数据[9,12]。MI通过几次迭代后的逐步替换来处理缺失数据[1,2,6]。它采用对已知信息的统计分析,并处理由于缺失数据的存在而引起的不确定性,估计[9]。 ‘M我们研究中采用的MI技术[13]的一个例子。我们将MICE与基于ML的称为概率主成分分析(PPCA)的技术进行了比较,该技术采用EX期望最大化(EM)算法来估计缺失数据点的值[4,14]。PPCA是主成分分析(PCA)的一种衍生,用于降维当原始数据从其降维形式恢复时,PPCA估计缺失值 [14]。过去的各种研究[15然而,使用PPCA的数据插补在使用交通和运输数据的研究中更为普遍[4,20-22 ]。我们工作的目的是比较MICE和PPCA的数据填补效率,从一个完整的基线数据集,包括医疗和牙科变量,然后模拟缺失数据及其填补。本研究的数据来源于一项更大规模的研究,该研究涉及数据的系统采集和建模,以实现预测模型的开发,估计患者被诊断为糖尿病(DM)的相对风险[ 23 ]。2. 材料和方法2.1. 基线数据从Marshfield诊所卫生系统(MCHS)企业数据仓库中追溯检索了1979年至2018年的基线数据(D基线)。本研究由Marshfield临床研究所的机构审查委员会(IRB)审查,并根据45 CFR 46.101(b)(2)归类为“豁免“。MCHS的综合电子健康记录(iEHR)[24]便于检索41,543名患者的医疗和牙科变量。研究小组成员进行了一项系统回顾,以获得候选医学和牙科变量的列表,这些变量可能有助于建立一个预测模型,用于评估Fig. 1. 数据估算过程。牙科设置与未确诊的精神障碍。该数据集由116个变量组成,包括18个人口统计学变量,12个医学变量和86个牙科变量,诊断为糖尿病患者(病例5,286)(基于ICD-9/10诊断代码),与非糖尿病患者(对照组36,257)中围绕这些变量的观察结果进行比较。图1显示了数据插补过程。在D基线中组合的所有特征中,缺失数据的平均比例约为30%。缺失数据的概率不受任何观察到或未观察到的变量的影响,因此可归类为MCAR。在116个变量中,46个变量始终在iEHR中收集,因此没有缺失数据(F完整),而其余70个变量有缺失值(F插补)。表1显示了变量列表以及每个变量的类型和插补状态以及缺失记录的百分比。2.2. 基线数据对基线进行采样,以确保所有116个变量均无缺失数据点。样本数据子集(Dsampled)包括696例患者(126例病例和570例对照)116个变量。2.3. 分类变量的标签编码和特征缩放D样本包括87个转换为数值的分类变量和29个连续变量,如表1所示。为了避免在开发预测模型时变量的偏倚权重分布,进行特征缩放,其中使用以下公式在0和1的范围之间缩放特征变量。n¼max原始值-变量的最小可能值(一)变量的最小可能值-变量的最小可能值H. Hegde等人医学信息学解锁17(2019)1002753表1变量列表以及类型和插补状态以及每个变量缺失记录的百分比号变量标签可能值插补状态每个变量1年龄a1 21-3414515616717802BMIa c1体重不足:18.5插补0.93%2正常:18.5<3超重:25.04肥胖:>30.03每颗牙齿在6个部位进行探测出血与牙齿(第三磨牙除外)的六个探测表面中显示最深PPD的相应牙齿表面对齐1目前估算55.22%2缺席31皮质类固醇药物处方a1是插补0. 007%2个No32肌酐水平a c1低:女性:0.6 mg/dl;男性:0.7mg/dl<<2正常:女性:0.63高:女性:1.1毫克/分升;男性:1.3 mg/dl<估算15.63%33糖尿病药物处方a1是插补0. 007%2个No34种族a d1下降插补1.23%2西班牙裔或拉丁裔3非西班牙裔或拉美4患者不知道35糖尿病家族史a1是未插补0%2个No36性别a1男性未插补0%2只雌性正常:120 mm Hg,190 mg/dl47牙科就诊次数*(患者单独牙科就诊的总次数N/A最小值1/4未插补0%(测量年份)48最大值¼24牙周病a c1健康插补27.5%21型32型43型5类型465型49在六个部位探测每颗牙齿,并将最大PPD值指定为每颗牙齿的PPD。N/A最小值<$0插补58.28%最大值<$1677夏威夷土著或其他太平洋岛民;白人;患者不知道; 2拒绝和未知)人种(是)未插补0%人种(否)(接下页)37 HDL胆固醇a c(高密度脂蛋白水平)1差:40 mg/dl插补百分之二十九点五五2更好:4038例高血压a c31最佳:60毫克/分升-80插补百分之十二H. Hegde等人医学信息学解锁17(2019)1002754þ表1(续)号可变标签可能值插补状态每个变量85他汀类药物处方(他汀类药物的使用)a1是的插补0.007%2个No86烟草使用状况a d(烟草使用史)1当前插补25.39%2前3从未4失踪87-2颗牙齿缺失115总甘油三酯水平a c1正常值:150 mg/dl插补29. 72%<2临界高:150 mg/dl至199mg/dl3高:200 mg/dl至499 mg/dl4极高:>500 mg/dl116WBCa c(白细胞计数) 1白细胞减少症:小于4.0*109/L插补25.08%2正常:4.0*109/L至11.0*109/ L3白细胞增多:大于11.0*109/La类别。b连续。C 有序变量。d名义变量。其中n代表归一化值[25,26]。 数据变量的最大值和最小值从我们的数据仓库中获得。2.4. F插补中引入缺失数据我们使用MCAR机制将30%缺失数据引入F插补(如图1所示),以模拟D基线的缺失数据模式。缺失的数据是强加的。 这形成了插补数据集D插补。2.5. 插补方法我们采用PPCA和MICE技术对D插补中的缺失数据点进行插补,并将插补值与D 抽 样中的原始值进行比较。我们使用开源的R包(PPCA的pcaMethods和MICE的mice)来实现这些插补方法[27]。2.5.1. 概率主成分分析PPCA采用EX主成分分析(PCA)是一种用于降维的方法,首先由Pearson描述[28]由霍特林[29]开发。PCA通过在低维空间中线性呈现原始数据变量来降低数据维度[30]。它被认为是最可靠的降维技术之一,因为它通过减少原始数据点和投影/估计数据点(潜在数据点)之间的欧几里得距离,最大限度地减少了数据压缩期间的重建误差/方差损失[31]。PCA的这种特性可以用于通过首先基于非缺失数据估计压缩信息的分布来估算缺失数据点,然后从压缩信息重建缺失数据作为估计/投影数据点[32]。提出了几种用于处理缺失数据的PCA算法[33,34],它们在原始数据点和潜在数据点之间的关系的假设上有所不同。MLE是估计数据缺失/未知参数的众多方法之一[35]。数据插补过程中EM算法的每次迭代由两个步骤组成,包括:期望(E)步骤和最大化(M)步骤[36]。期望步骤从数据集中的观察值中插补所有缺失值[36,37]。的最大化步骤然后使用MLE更新插补参数,该MLE利用在期望步骤[ 36,37 ]中创建的完整数据集(观测值插补值)。这个由两个“EM“步骤组成的迭代过程&继续下去,直到可能性估计中没有进一步的改进[ 37 ]。该过程导致具有MLE的插补数据集,表明插补值的准确度更高。图2示出了如何使用PCA来通过将多变量数据集“压缩”到较低维度空间中来降低多变量数据集的维度在接下来的步骤中,将EM算法应用于压缩数据集,以使用MLE插补多变量数据集的缺失数据点。因此,PCA和EM的组合构成PPCA,其使用MLE插补缺失数据,如图2所示。我们使用了一个R函数(RPackage:'pcaMethods',v1.64.0)[38,39]来实现PPCA。2.5.1.1. 虚拟变量生成。 在进行插补过程之前,将所有名义变量(来自表1)转换为虚拟变量。Gujarati等人的一项研究说明了虚拟变量生成的过程[40].图二. 使用PPCA的数据插补过程。H. Hegde等人医学信息学解锁17(2019)1002755¼2.5.1.2. 四舍五入为标准化值。使用R,我们首先准备所有变量的列表以及归一化值。然后将分类变量的插补值四舍五入至相应变量的最接近的标准化值。例如,变量“血糖水平“具有三个类别/值,并表示为1(低)、2(正常)和3(高)。在D 样 本 中 ,这些值分别被特征标度为0.3333、0.6666和1.000。D插补中的插补值0.68四舍五入为0.6666,因为它是D样本中最接近的归一化值。该过程用于定义数据集D插补中的所有插补值。2.5.2. 使用链式方程的多重插补(MICE)在这种插补技术中,许多回归模型以这样的方式运行,即根据数据集中的其他变量对缺失数据的变量进行建模[13]。考虑到变量的类型,对每个变量进行建模例如,逻辑回归用于对二元变量进行建模,而预测均值匹配用于连续变量[13]。根据Melissa等人链式方程过程被分解为四个核心步骤,重复这些步骤直到获得最佳结果[13]。第一步是用变量的观测值的平均值替换每个缺失的数据,它充当占位符。第二步是将这些平均值插补设回“缺失”。在第三步中,变量的观测值(例如, 在目前的研究中,我们对二元变量(2个水平)使用逻辑回归名义分类变量(> 2个水平)采用多分类logistic回归,有序分类变量(>2个水平)和连续变量的预测均值匹配。第四步涉及用从回归模型导出的预测替换缺失值。然后,该插补值将与其他变量的观察值一起成为自变量的一部分。然后对每个有缺失值的变量重复步骤“2”到“4”,构成一次“迭代”。在一次迭代之后,所有缺失值被与观测数据相关的回归预测替换。每次迭代后,估算值都会被替换,迭代次数可能会有所不同[13]。在本研究中,我们研究了10,20和30次迭代的结果多次迭代理想地导致回归系数的收敛。这是一种通过保持所有变量的观察值不变,仅将缺失值更改为各自的插补预测值,进行几次插补。这导致根据插补数量(本研究中n 30)形成多个插补数据集。插补次数取决于缺失值[13]。我们选择了30个插补,因为缺失数据的比例约为30%,并且进一步基于White等人的先前出版物。[41]。我们使用R软件包“MICE”,v 3.3.0 [ 42 ]插补缺失值。MICE不需要对插补值进行标准化,因为它会按变量方式插补数据。2.6. 比较插补值(D插补)与原始值(D样本)我们计算了每个变量和跨D插补正确插补的值的百分比。我们还使用R函数“RMSE”(RPackage:“pcaMethods”,v1.64.0)[ 39 ]计算均方根误差(RMSE)表2插补技术性能比较。3. 结果表2显示了使用30次插补(10、20和30次迭代的组合)执行MICE和PPCA的比较结果。大约65%的数据变量被PPCA正确插补,38%被MICE正确插补。在RMSE方面,PPCA优于所有MICE迭代,最低值为0.29。表2显示了插补技术性能的比较图3显示了通过四种插补技术最准确地插补的变量以及所有变量组合的平均值和标准差。表3显示了所有特征的插补准确度。对于PPCA,高血压状态的插补准确率最低(14.96%),而对于MICE,最低的插补准确率是MICE10次迭代(7.41%)和30次迭代(7.69%)的糖尿病药物,而MICE20次迭代的BOP(8.61 - 2.5%)。.4. 讨论本研究证明了PPCA和MICE缺失数据填补的准确性和RMSE。总体而言,PPCA在处理医疗和牙科变量的缺失数据方面优于MICE。MICE通常假设基础数据为MAR [43],而在本研究中,通过MCAR引入缺失数据可能导致MICE表现不佳。值得注意的是,Ambler等人比较了对MAR和MCAR数据进行的MICE插补,两种方法产生了相似的RMSE [18]。同样,Baneshi等人也将MICE插补应用于MCAR数据,并报告了与完整病例分析相比插补后更好的结果[19]。未来的研究可能涉及调查在使用MICE进行插补之前通过MAR引入缺失数据的方法。PPCA可以对MAR和MCAR数据进行[22]。在各种不同的研究中,问题研究例如,Duan等人已经将深度学习方法用于车辆运输数据[44]。研究报告了RMSE,它表示插补值和原始值之间差异的样本标准差[45]。当前报告的RMSE测量PPCA MICE(10次迭代)会展(20)迭代)会展(30迭代)正确插补64.51%�0.26%37.82%�0.273%37.80%�0.27%38.11%,0.28%图3.第三章。每种插补技术的最佳插补变量以及平均值RMSE0.29 0.83 0.83 0.83和所有变量组合的准确度的标准差H. Hegde等人医学信息学解锁17(2019)1002756¼¼表3通过变量进行插补的准确性。介绍0.03%药物百分之零点零五研究(PPCA为0.050.050.45)。在他们的研究中,Ambler等人比较了用于处理具有二进制结果的风险模型中缺失预测值的插补技术,报告MICE的平均RMSE为0.66 [18],而本研究为0.83。同样,在非医学相关背景下,Qu等人报告缺失率为0.3时PPCA的RMSE约为0.8 [22],与当前研究中相同缺失率的0.29相当。在我们的方法中,我们仅将原始值与插补值进行比较,并计算RMSE以显示PPCA和MICE的性能,而研究报告了不同的插补方法评估技术[46很少有研究定义了牙科变量的插补技术。Pahel等人[49]采用零膨胀泊松(ZIP)回归模型来估算缺失的龋齿数据。White等人[50]的一项研究使用了单调多重插补技术来插补第三磨牙拔除后牙痛的缺失数据。本研究使用PPCA和MICE对医疗和牙科数据进行组合,以约65%的准确度估算缺失数据值。据我们所知,没有其他研究使用MICE或PPCA对组合的医学-牙科数据集进行数据插补。在这项研究中,30%的整体数据集被替换为如表3所示,每个变量约有50%的数据缺失。尽管如此高比例的数据缺失,PPCA正确插补31个70个变量(44.28%),准确率大于80% 。 另 一 方 面 , MICE 仅 正 确 地 估 算 了 两 个 变 量 ( Credibility 和Ethnicity),准确度超过80%。研究表明,当变量的缺失率在2.5%至30%之间时,MICE表现更好[51,52]。然而,在本研究中,所有变量都有大约50%的数据缺失,因此可能导致MICE的表现不佳。MI被认为是解决缺失数据的有效方法临床和流行病学研究。几项研究报告了应用足够数量的插补以避免大的Monte Carlo误差的重要性[53说明应用的插补数量可以帮助读者更好地判断插补方法,对定义结果的重现性很重要。因此,我们提供了在MICE实施期间进行的插补和迭代次数的信息,并列出了每个变量正确插补数据的百分比,各种数量的迭代(即,如图1所示的具有30次注入的10、20、30次迭代)。 3)。尽管它很受欢迎,但没有多少临床和流行病学研究报告了有关插补方法实施的详细信息[57]。Hayati等人对103篇关于MI的文章进行了系统性综述, 三分之一的研究提到使用了估算方法,但这些细节往往并不明确[57]。此外,作者指出,只有三分之一的文章明确说明了插补过程中使用的变量[57]。提供关于使用了哪些变量以及如何进行插补的详细信息对于结果的重现性非常重要。根据先前发布的关于记录插补方法重要性的指南[56,58],我们提供了有关数据预处理,所用插补技术以及验证我们采用的插补模型的方法的详细信息。值得注意的是,我们在表1和表2中列出了插补过程中使用的医学和牙科变量的详细信息。此外,我们在表3中列出了使用各种插补技术正确插补每个变量值的详细百分比。这项研究承认存在一些局限性。所使用的数据这项研究集中在与2型糖尿病相关的因素上,因此缺乏对与其他健康状况相关的其他变量的概括。使用的数据属于具有集成电子医疗牙科记录的单个医疗保健系统。将这些技术转化为外部数据集需要进一步验证。生成的数据集D采样(n 696)表示com。 从数据仓库中检索的完整数据点。由于缺失数据的模拟是MCAR,因此不能假设该数据集代表D基线中的缺失数据。没有真正的确定存在缺失数据的确切原因的方法;因此MCAR是首选方法。5. 结论我们的研究探讨了插补技术,可用于组合的医疗牙科数据集,以有效地预测缺失值。我们的分析结果表明,与MICE相比,PPCA是一种更有效的数据插补方法。此外,这种技术具有扩展到其他医疗保健相关的研究,其中包括综合医疗牙科数据集的潜力。基于表1的变量编号可变缺失值PPCAMICE(30-10)MICE(30-20)MICE(30-30)2BMI50.86%29.80%45.19%45.48%45.77%3–30探通出血(BOP)50.29 �0.02%84.92�2019 - 05 -0500:00:008.61 �0.025%2019 - 05 -2400:00:003132皮质类固醇处方肌酐水平50.58%51.15%39.77%91.38%百分之二十三点八二86.05%23.53%83.43%22.94%84.59%33糖尿病药物49.57%18.56%7.41%9.40%7.69%34族裔51.15%95.10�百分之八十点八五百分之八十点二八84.23%37HDL胆固醇50.43%52.17%39.88%45.16%37.83%38高血压50.00%百分之十四点九六百分之二十九点九一34.31%35.19%39高血压药物50.72%34.67%百分之十七点八九百分之十七点零七百分之十七点零七46LDL胆固醇54.17%36.66%35.88%37.85%33.33%48牙周病(PD)类型51.00%65.27%46.13%47.28%48.71%49–76牙周袋深度(PPD)50.18 �0.02%48.08�百分之零点零五63.97%�0.033%63.59%�0.04%64.51�0.044%85他汀类药物53.16%百分之十七点七五9.62%11.81%百分之十点九九86烟草使用状况50.58%65.48�39.46%31.89%36.76%H. Hegde等人医学信息学解锁17(2019)1002757伦理声明作者遵守作者伦理准则。本文的所有作者都直接参与了文章的策划、开发和撰写。所有作者都确认他们已经看到并批准了最终手稿,以提交给Informatics in Medicine Unlocked期刊。这篇文章没有在任何类型的其他出版物上发表,也没有被任何其他期刊考虑。也不会提交其他地方,除非和直到它被宣布为不可接受的出版杂志。竞合利益作者声明没有实际或潜在的利益冲突确认这项研究的部分资金来自威斯康星州的德尔塔牙科,马什菲尔德公司的家庭健康中心,和马什菲尔德临床研究所引用[1] Sterne JAC,White IR,Carlin JB,Spratt M,Royston P,Kenward MG,et al.流行 病 学 和 临 床 研 究 中 缺 失 数 据 的 多 重 插 补 : 潜 力 和 陷 阱 。 第 338 章 .https://doi.org/10.1136/BMJ.B2393网站。b2393。[2] Li P,Stuart EA,Allison DB.多重插补。美国医学会杂志2015;314:1966。https://doi.org/10.1001/jama.2015.15281网站。[3] Shah AD,Bartlett JW,CarpenterJ, Nicholas O,Hemingway H.随机森林模型和参数插补模型对小鼠缺失数据插补的比较:一项口径研究。美国流行病学杂志2014;179:764-74。https://doi.org/10.1093/aje/kwt312.[4] 柯军,张松,杨华,陈晓.不平衡数据下基于主成分分析的实时碰撞可能性预测的缺失信息填补。 2018年[5] Li T,Hutfless S,Scharfstein DO,Daniels MJ,Hogan JW,Little RJA,等.以患者为中心的结局研究在预防和处理缺失数据时应应用标准:系统综述和专家共识。临床流行病学杂志2014;67:15-32。https://doi.org/10.1016/j.jclinepi.2013.08.013网站。[6] Newgard CD,Lewis RJ.数据缺失美国医学会杂志2015;314:940。网址://doi. org/10.1001/jama.2015.10516。[7] 小RJ,鲁宾DB。通过潜在结果在临床和流行病学研究中的因果效应:概念和分析方法。Annu Rev Public Health2000;21:121-45.https://doi.org/10.1146/annurev.publhealth.21.1.121网站。[8] Mack C,Su Z,Westreich D.管理患者登记中的缺失数据。美国医疗保健研究和质量机构(2018年)。[9] Manly CA,Wells RS。报告高等教育研究中缺失数据的多重插补。高等教育研究2015;56:397-409。https://doi.org/10.1007/s11162-014-9344-9.[10] Masconi KL,Matsha TE,Erasmus RT,Kengne AP.不同缺失数据填补技术对南非混合血统人群中未确诊糖尿病风险预测模型性能PLoS One 2015;10:e0139210.https://doi.org/10.1371/journal.pone.0139210网站。[11] Hegde H,Shimpi N,Glurich I,Acharya A.使用自然语言处理和基于规则的算法从临床记录中获取烟草使用状况。Technol Health Care2018;1-12.https://doi.org/10.3233/THC-171127网站。[12] Eekhout I,de Vet HCW,Twisk JWR,Brand JPL,de Boer MR,HeymansMW. 多项目工具中的缺失数据最好通过项目评分水平的多重插补来处理临床流行病学杂志2014;67:335-42。https://doi.org//J.JCLINEPI.2013.09.009.[13] Azur MJ,Stuart EA,Frangakis C,Leaf PJ.多重插补的链式方程:它是什么,它是如何工作的?n.d,https://doi.org/10.1002/mpr。 329.[14] 给我小费,主教CM。概率主成分分析 J R Stat SocSer B Stat Methodol1999;61:611-22. https://doi.org/10.1111/1467-9868.00196。[15] Jerez JM,Molina I,García-Laencina PJ,Alba E,Ribelles N,Martín M等人,在真实的乳腺癌问题中使用统计和机器学习方法进行缺失数据填补。Artif IntellMed 2010;50:105-15. https://doi.org/10.1016/j的网站。artmed.2010.05.002。[16] Jolani S,Debray TPA,Koffijberg H,van Buuren S,Moons KGM.个体参与者数据荟萃分析中系统性缺失预测因子的插补:一种使用MICE的广义方法。Stat Med2015;34:1841-63. https://doi.org/10.1002/sim.6451。[17] Chowdhury MH,Islam MK,Khan SI.缺失医疗保健数据的插补。在:第20届国际会议计算。Inf. Technol. IEEE; 2017.第1-6页。https://doi.org/10.1109/ICCITECN.2017.8281805. 2017年。[18] Ambler G,Omar RZ,Royston P.在具有二元结果的风险模型中处理缺失预测值的插补技术比较。Stat MethodsMed Res 2007;16:277-98.https://doi.org/10.1177/0962280206074466网站。[19] Mr. Jasper MR,Jasper AR.缺失数据插补方法是否影响预后模型的组成和性能?伊朗红新月会医学杂志2012;14:31-6。[20] (Michael)KeJ, Zhang S,Yang H,Chen X.不平衡数据下基于主成分分析的实时碰撞可能性预测的缺失信息填补。TranspA Transp Sci 2019;15:872-95.https://doi.org/10.1080/23249935.2018.1542414网站。[21] Li L,Li Y,Li Z.考虑时空相关性的交通流缺失数据有效插补方法。Transp Res CEmerg Technol 2013;34:108-20. https://doi.org/10.1016/J.TRC.2013.05.008。[22] 曲丽,胡建明,李莉,张毅。基于PPCA的交通流量缺失数据填补:一种系统方法。IEEE TransIntell Transp Syst 2009;10:512-22.https://doi.org/10.1109/TITS.2009.2026312网站。[23] Hegde H,Shimpi N,Panny A,Glurich I,Christie P,Acharya A.开发非侵入性糖尿病风险预测模型作为牙科临床环境中应用的决策支持工具。信息学医学解锁2019. https://doi.org/10.1016/J.IMU.2019.100254网站。100254[24] Shimpi N,Glurich I,Acharya A.综合护理案例研究:马什菲尔德诊所卫生系统。2019.第315- 326页。https://doi.org/10.1007/978-3-319-98298-4_17网站。[25] Aksoy S,Haralick RM.图像检索中基于特征归一化和相似性度量的方法。PatternRecognit Lett 2001;22:563-82. 网址://doi. org/10.1016/S0167-8655(00)00112-4。[26] Kumar Jain Y,Kumar Bhandare S.隐私保护的最小最大归一化数据扰动方法。VIII; 2011年。[27] R核心团队R:统计计算的语言和环境 2018年[28] 皮尔逊湾线和计划。伦敦爱丁堡 都柏林Philos Mag J Sci 1901;2:559-72.https://doi.org/10.1080/14786440109462720网站。[29] 霍特林湾将一组统计变量分析成主成分。J Educ Psychol 1933;24:417-41.https://doi.org/10.1037/h0071325。[30] Kambhatla N,Leen TK.局部主成分分析降维。神经计算1997;9:1493-516. https://doi.org/10.1162/neco.1997.9.7.1493.[31] Mosci S,Rosasco L,Verri A.简化和泛化。2007. 科瓦利斯[32] 柯军,张松,杨华,陈晓.不平衡数据下基于主成分分析的实时碰撞可能性预测的缺失信息填补。 2018年[33] 基尔·哈尔。使用普通最小二乘算法进行加权最小二乘拟合。Psychometrika1997;62:251-66. https://doi.org/10.1007/BF02295279网站。[34] Grung B,Manne R.主成分分析中的缺失值。化学计量学实验室系统1998;42:125-39. https://doi.org/10.1016/S0169-7439(98)00031-8.[35] 安德森TW。某些观测缺失时多元正态分布的极大似然估计。《美国统计学杂志》,1957年;52:200-3。https://doi.org/10.1080/01621459.1957.10501379。[36] Dempster AP,Laird NM,Rubin DB.通过EM算法从不完整数据中获得最大似然JR Stat Soc Ser B 1977;39:1-38. https://doi.org/10.2307/2984875.[37] 作者:JosephJ,PagesJ,HussonF. 主成分分析中的多重插补。Adv Data AnalClassif 2011;5:231-46. https://doi.org/10.1007/s11634-011-0086-.[38] 放大图片作者:StackliesWolfram,Redestig H,Wright K. PCA方法的集合 2018年[39] 雷德斯蒂格·亨宁pcaMethods包|R文档。n. d. 1.640,www.rdocumentation.org/packages/pcaMethods/versions/1.64.0。2018年8月23日访问[40] 古吉拉特湾在两个线性回归系数集之间相等性检验中使用哑变量:注。《美国统计》1970年;24:50。https://doi.org/10.2307/2682300。[41] 白IR,Royston P,Wood AM,Simoneau G.使用链式方程的多重插补:问题和实践指南。n.d,https://doi.org/10.1002/sim.4067/full。[42] 布 伦 · 范 R 中 链 式 方 程 的 多 元 插 补 。 统 计 软 件 杂 志 2011;45 : 1-67.https://doi.org/10.18637/jss.v045.i03。[43] Mongin D,Lauper K,Turesson C,Hetland ML,Klami Kristianslund E,KvienTK,类风湿性关节炎登记册中功能和疾病活动的缺失数据:最佳技术是什么?RMD Open 2019;5:e000994. https://doi.org/10.1136/rmdopen-2019-000994。[44] 段毅,吕毅,刘永林,王飞英。深度学习在交通数据估算中的有效实现。TranspRes C Emerg Technol 2016.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功