基于机器学习的山西省脑卒中主要危险因素分析

105 浏览量更新于2024-01-09 1 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁26（2021）100712基于机器学习模型的山西省脑卒中主要危险因素分析刘俊杰a，1，孙一阳b，1，马晶c，d，涂佳晨a，邓玉辉a，何平a，李荣山g，胡风云，黄华雄，周晓霜，徐世新，周晓霜，徐世新，aBNU-香港浸会大学联合国际学院，中国b昆山杜克大学，中国江苏省昆山市杜克大道8号c北京师范大学数学科学学院数学与复杂系统教育部重点实验室，北京100875d北京师范大学数学研究中心珠海519087加拿大安大略省多伦多市约克大学数学与统计系f中国山西省太原市山西省人民医院神经内科g中国山西省太原市山西省人民医院肾内科A R T I C L E I N F O保留字：中风机器学习风险因素排名SHAP值A B S T R A C T研究背景：近年来，脑卒中已成为我国居民的第一大死因。这是一个主要原因，长期的身体和认知障碍，给国家公共卫生系统带来巨大压力。另一方面，中国是一个人口大国，脑卒中的危险性评估对中国的脑卒中方法：本研究分析了2018年2000例住院脑卒中患者和2017 - 2020年27583例居民的数据集利用清理后的数据，使用机器学习方法建立了三个中风风险水平模型。运用决策树和随机森林模型对中国脑卒中防治项目（CSPP）的“8 + 2”因子的重要性进行评价。更详细功能的重要性并通过随机森林模型对其SHAP2此外，应用逻辑回归模型来评估不同风险水平的中风概率结果：在脑卒中的“8 + 2”危险因素中除了“8 + 2”因素外，还通过随机森林模型评估了生活方式信息、人口统计信息和医疗测量的特征重要性。结果显示，前五位特征分别为收缩压（SBP）（0.3670）、舒张压（DBP）（0.1541）、体力不活动（0.0904）、体重指数（BMI）（0.0721）和空腹血糖（FBG）（0.0531）。SHAP值显示，DBP、体力活动减少、SBP、BMI、吸烟、FBG和甘油三酯（TG）与中风的风险高密度脂蛋白（HDL）与中风风险呈负相关。结合2000例住院脑卒中患者资料，Logistic回归模型显示，低危组、中危组和高危组患者发生脑卒中的平均概率分别为7.20% ± 0.55%、19.02% ± 0.94%和83.89% ± 0.97%。结论：基于山西省人口普查资料，对脑卒中危险因素及其排序进行了研究。结果表明，高血压、体力活动不足和超重是山西省脑卒中的前三位高危因素。中风的概率也通过我们的可解释机器学习方法来估计。北京师范大学数学研究中心，珠海，519087∗∗ 通讯作者。电子邮件地址：hhuang@uic.edu.cn（H. Huang），zhouxiaoshuang@sxmu.edu.cn（X. Zhou），shixin. dukekunshan.edu.cn（S.Xu）.1J. Liu和Y. 孙中山对这项工作也做出了同样的2SHAP：SHapley加法解释。3 重要性的价值4置信区间，置信水平为95%。https://doi.org/10.1016/j.imu.2021.100712接收日期：2021年6月20日;接收日期：2021年8月5日;接受日期：2021年8月19日2021年8月28日网上发售2352-9148/© 2021由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuJ. Liu等人医学信息学解锁26（2021）10071221. 介绍中风是一种急性脑血管疾病，是由于脑血管阻塞导致脑组织供血异常而造成的脑组织损伤。它包括出血性中风和缺血性中风。根据全球疾病负担、伤害和危险因素研究[1中国国家卒中流行病学调查（NESS-China）[4]的最新研究显示了2012-2013年中国卒中的患病率。在中国中部，（每10万人），发生率（每10万人）和死亡率（每10万人）分别为1549.5、326.1和153.7;中国东北地区的患病率（每10万人）、发病率（每10万人）和死亡率（每10万人）分别为1450.3、365.2和158.5;中国南方地区的患病率（每10万人）、发病率（每10万人）和死亡率（每10万人）分别为624.5、154.6和65。研究脑卒中的危险因素对预防脑卒中具有重要意义。研究表明，危险因素可分为两类：可逆因素和不可逆因素。可逆因素主要是指吸烟、过量饮酒和缺乏运动等不健康的生活方式;而不可逆因素主要是指高血压、糖尿病和高脂血症等慢性疾病已对欧洲和美国人群进行了卒中风险分析[5，6]。然而，由于种族差异，它们不能直接适用于中国人群。在我国，脑卒中的相关研究主要是基于致病因素的危险预测模型。最广泛使用的一种是利用心血管和脑血管疾病给出中风和冠心病发病概率的10年风险预测模型。ASCVD-PAR项目（ASCVD风险预测由顾东风团队[ 7 ]领导的中国科学院（中国科学院）通过分析中国34个省级地区中32个地区的脑卒中发病率数据，Xu等人[8]得出结论，中国存在一个脑卒中带，分布在中国的北部和西部近年来，机器学习方法已被应用于中风预测。2010年，Khosla等人提出了支持向量机和Cox比例风险模型的组合[9]。Benjamin [10]使用贝叶斯分析的决策列表实现了一种可解释的方法，以量化中风的概率。Chi-Chun Lee在他们的研究中，他们专注于患者的3年中风率和8年中风率。然而，这些研究很少模拟中风的早期筛查和预防。脑卒中危险度评估对我国脑卒中的中国国家脑卒中预防项目（CSPP）提出了1. 高血压2. 糖尿病3. 心脏病（包括房颤和心脏瓣膜病）4. 高血脂5. 脑卒中6. 超重7. 吸烟8. 体能怠惰a. 中风史b. 短暂性脑缺血发作（TIA）的历史根据以上提出的1. 高风险：至少有三个因素从因素1至8;或一个a和b;2. 中等风险：从因素1到因素2的风险因素少于3个。8，其中至少一个是因子1、2或3;3. 低风险：风险因素4 - 8中少于3然而，不同省份的风险因素排名可能不同。本文根据山西省社区和医院的普查资料，对不同脑卒中危险因素及其排序进行了研究。结果表明，高血压、缺乏运动和超重是山西省脑卒中的前三位高危因素。得到的概率还通过我们的可解释机器学习方法来估计中风。本研究为山西省脑卒中的预防和控制提供了2. 材料和方法2.1. 数据集和预处理我们的数据由2017年至2020年的两个调查数据集组成：数据集1：住院人口普查：2000名住院中风患者，二〇一八年;数据集2：社区人口普查：2017年至2020年期间的27583名居民。该数据集使用CSPP的分类法进行分类和标记：低风险（ 1173 9 ），中等风险（ 7630 ）和高风险（8214 ）。两个数据集中的每条记录包含177个特征，不仅提供了“8 +2”风险因素的信息，还提供了患者的其他信息：1. 人口统计信息：例如性别、种族2. 生活方式信息：吸烟，饮酒3. 医疗测量：例如血压、空腹血糖（FBG）4. 手术信息：手术史（经皮冠状动脉介入治疗（PCI）、冠状动脉旁路移植术（CABG）、颈动脉内膜切除术（CEA）、血管内支架成形术（CAS））5. 慢性病信息：诊断次数，治疗种类数据清理是数据分析中的一个准备过程，通过删除或纠正损坏或不准确的数据。上述数据集中的原始数据由于数据不完整、不一致和非结构化格式而需要清理，这可能导致特征工程的失败。缺失值用-1填充，作为异常类。如果列中有超过60%的数据缺失，我们将删除它，因为该列中的数据不能提供太多信息。发现不一致的值，并根据先前的医学知识进行纠正。例如，舒张压应低于收缩压。数据清理后，共有23289条记录（低：9718，中：6742，高：5610），剩余32个特征，如表5所示。2.2. 模型决策树是一种经典的非参数机器学习算法。通过学习从数据特征推断的决策规则来创建树。从最高根节点开始，数据按照一定的特征截断值分解到不同的内部节点，最后到达最终叶节点，得到最终的分类结果。ID3 [16]和CART [17]是经典的决策树算法，它们采用熵理论[18]中的信息增益和基尼杂质作为制定最佳分裂规则的度量J. Liu等人医学信息学解锁26（2021）1007123��−，��||�� ‖ ‖{∑1−��01 1��1 +（0+11++）��分割线（分割线）是指在节点B处的分割线。��因此，（）=表示��Random-Forest是Leo Breiman在2001年提出的一种机器学习算法。而不是使用一个决策树，这是不唯一的，可能会表现出高方差，随机森林生成了一些个人的决策树作为一个委员会。采用引导技术在不同的子数据集和特征上并行训练个体决策树，并采用随机抽样替换的方法。分类的最终决定是通过投票和平均来汇总的。随机森林利用群体的智慧，可以很容易地克服过拟合问题，减少由于数据不平衡引起的模型偏差，从而表现出良好的泛化能力。Logistic模型是一种广义线性模型，在数据挖掘中有着广泛的应用。它假设因变量ε遵循伯努利分布，并通过Sigmoid函数引入非线性因子：=11+1+ 2其中=0+11++，是特征的数量。��假设表示二元结果{0，1}，是其特征的数组，是特征的系数[20]。��逻辑回归中的系数称为对数比值，并用于逻辑回归方程中，用于从自变量预测因变量，设，，��Fig. 1. 多层感知器多层感知器是一种前馈神经网络[23，24]。神经网络实际上是对生物神经元的模拟和简化。生物神经元是由树突、细胞��（一）�� ）=的公司简介公司简介 ��⇒��= ��(��0+��1��1+ ⋯+��)尸体，轴突和其他零件. 同样地，的多层感知器在实践中，Logistics Regression可以用于多个方面，例如广告，疾病诊断，因为它可以提供用户购买某种产品的可能性和某个患者患有某种疾病的可能性。在我们的案例中，我们希望使用“8 +2”危险因素和居民的生活方式因素作为输入，并给出中风发病的概率，这可以提供前瞻性预测。支持向量机（Support Vector Machine，又称SVM）是由Boser在1992年提出的[21]，Corinna Cortes和Vapnik在1995年对其进行了改进并提出了软间隔SVM。它是一种监督学习方法，试图在高维空间中找到一个可以对数据进行分类的超平面。超平面是样本空间中的平面，记为并且超平面和数据点的距离（Δθθ）可以��写成（一））��=��+��. 假设超平面可以清楚地分离数据集，��所有标记为正的数据点的距离不小于1（��（<��$+）≥1），所有标记为负的数据点的距离不大于-1（��（��<$−）≤-1）。因此，数据点的标签（label）可以写为：• 输入层负责接收数据，并不计算数据，因此偏差（bias）和特征（feature��• 隐层包含多个隐层神经元，每个隐层神经元接收来自输入层的数据，经过线性变换的非线性激活后输出到下一层;• 在输出层从隐藏层接收到数据之后，它在激活函数计算之后输出结果。激活函数的计算原理与隐藏层的计算原理相同（见图1）。 ①的人）。2.3. 模型模型的可解释性和解释性对于医疗数据分析至关重要：医疗诊断系统必须是透明的、可理解的和可解释的。因此，医生和患者可以知道模型如何做出决策，哪些特征是重要的，以及这些特征如何影响模型在�� =⋅��⃗�� 公司简介=+1，-1，��⃗��⋅��⃗++��≥1��⃗��⋅��⃗−+��≤−1本节主要介绍了有助于解释模型的特征重要性、排列重要性和SHAP值。⇒��⋅(��⃗��⋅��⃗ ��+��)≥1, ��=1，2，��保证金如下所示：��（��+）−��（��−）=|��⃗��公司简介��|特征重要性，也称为基尼重要性或平均减少杂质（MDI）[19，27，28]，是节点杂质减少的平均值。每个变量，并通过样本达到−+��|=2个--一种|��⃗⋅��⃗‖��⃗‖到那个节点。对于随机森林模型，假设响应为并计算特征的平均变量重要性，��‖��⃗‖ ‖��⃗‖为了最大化裕度，it等价于最小��化最小化裕度2。茶树：��(��) =1∑∑（）（，）��利用拉格朗日乘子技术，我们可以解决以下优化问题，以获得优化器的最优解��=1�� ∈�� ∶�� (��)=��其中，（）（，）是特征的加权杂质减少��在所有节点n中，n（n）是样本读取到节点n的概率。min2（（）==到达节点的样本量��，��并且��‖ ‖S.T. ��（杂质M�� 不被吸收，而是被吸收。es（n）是用于并使用决策函数（）=（+）对新的��在节点n处，分裂标识符是变量n。��数据对于决策树模型，它只包含一棵树，即，��1，其特征重要性可以重写为：6是权重向量，是输入向量，是偏置��(��)=��（��（包括输入层、隐藏层和输出层;��J. Liu等人医学信息学解锁26（2021）1007124∑1��，��∑⋃Permutation Importance[19，28如果用完整数据集的模型精度来表示模型精度，则第k个特征的排列特征重要性为：�� （）=−，��1个��其中，R1表示在针对第11个特征的第11次混洗中的第11次重复��作为修改后的数据集中的模型精度，其中第二个特征被打乱。��利用混洗前后的平均准确率变化来评价特征的重要性��这两个重要性值可以显示哪个特征更重要，但是，我们无法知道该特征对于输出是具有正面还是负面影响SHAP（Shapley Additive Explanations）不仅可以提供特征的重要性，还可以显示每个特征对目标变量的贡献，无论是积极的还是消极的。这是一种解释每个预测的方法。SHAP值的概念来源于博弈论中的Shapley值。Shapley值告诉我们在特征之间公平地分配贡献，这是每个特征的边际贡献[31]。SHAP的目标是通过以下方式来解释实例预测计算每个特征对所述预测模型的贡献。 SHAP公式是一个附加的特征属性线性模型，如下图所示：表1主要风险因素暴露率和风险归因。特征暴露率风险归因高血压0.3765 0.5846缺乏身体超重吸烟中风家族史糖尿病中风史0.0483 NA心脏病TIA历史0.0023 NA表2决策树模型的结果。精确回忆f1分数支持低风险0.9707 0.9950 0.9827 1999中等风险0.9711 0.9411 0.9599 1313高风险精度0.9721宏平均值0.9794 0.9787 0.9789 4657加权平均值0.9799 0.9796 0.9795 4657第三步：最后，量化定性标签（脑卒中发生率的低风险、中风险和高风险）并估计概率脑卒中发病率的Logistic模型是基于生活方式和医疗测量构建的。��=我的天{\cH00FFFF}{\3cH000000}|��|!（��− |��|− 1)! [��（{}）−（）��]��3.1. 主要危险因素排序其中，{1，2，...，}，= {1，2，...��该方法计算特征对每个决策树模型的每个联盟的贡献，并将其相加得到整个预测模型的总贡献。在这个等式中，{}表示所有可能的没有特征的子集，表示不包含结果的子特征集，（{}）表示模型输出（精度、召回率或准确率等）。��在将特征ffx添加到子集fx之后，fx（fx）表示使用子集fx的模型输出。��通过将不具有该特征的每个子集的出现概率与具有和不具有该特征的输出不同相乘，计算每个特征的边际贡献��与置换特征重要性相比，SHAP更好地解释了每个样本的特征贡献以及每个特征的边际正负SHAP有三个属性：局部准确性、缺失性和一致性[32]。局部准确性意味着当对特定输入项的原始模型进行近似时，局部准确性要求解释模型至少与简化输入项的模型输出相“是的。”缺失意味着如果样本中缺少某个特征，不影响模型的输出。一致性意味着当当模型发生变化并且特征的边际贡献增加时，对应的Shapley值也将增加。因此，由于这三个特性，它在解释机器学习模型时更加准确和科学。3. 实验与结果本研究采用多种统计方法对陕西省Xi步骤1：首先使用非参数监督学习方法决策树（DT），通过计算特征重要性和排列重要性来评估特征步骤2：然后构建随机森林模型，以评估生活方式和医疗测量因素（28个因素），以避免过拟合问题并减小模型偏差。由于地理和文化的差异，同一种疾病在不同地区可能有不同的表现。我们希望能找到山西省最重要的影响因素。表1显示了基于我们的数据7的每个风险因素的暴露率和风险归因（RA）的比例为了评估主要风险因素的排名，在第一个实验中，我们使用具有“8 +2”因素的数据集2作为特征，并实现了决策树模型。表2显示了分类结果：图2显示了基于决策树模型的特征重要性和排列重要性，其显示了这些主要风险因素的排名：两种评估方法均确认高血压、缺乏运动和高脂血症被估计为决策树模型中的前三个信息特征3.2. 生活方式和医疗测量排名对于第二个实验，我们希望通过使用具有诸如生活习惯和医疗测量等特征的数据集2来识别除了“8 + 2”风险因素之外的山西省更多的风险因素。为了找到最合适的模型来预测中风的风险，基于特征在表2中，网格搜索被用来找到最合适的超参数的SVM，RF和MLP和平均加权平均精度，召回率和平均预测如表3所示。根据以下结果，我们可以我发现随机森林在这三个模型中表现最好表4显示了分类结果，图3显示了特征和排列重要性：7特定疾病的患者人数数据集中的总人数有脑卒中无卒中快！暴露率=风险归因=J. Liu等人医学信息学解锁26（2021）1007125图二. “8 +2”危险因素的特征及排列重要性表3不同模型的性能比较。平均准确率平均召回率平均准确率随机森林（标准：熵，树的最大深度：4，最小样本分割：12）SVM（内核：rbf，惩罚：l2，C = 1 e-1）MLP0.8435（±0.0123）0.8532（±0.0097）0.8503（±0.0130）0.7623（±0.0215）0.7538（±0.0263）0.7573（±0.0250）0.8124（±0.0351）0.8172（±0.0283）0.8146（±0.0294）（隐藏层=（150，100，50，1））表4随机森林模型的结果。精确回忆f1分数支持低风险0.8007（±0.0071）0.9531（±0.0044）0.8703（±0.0041）1962中等风险0.8213（±0.0082）0.7850（±0.0118）0.7901（±0.0064）1367高风险0.9124（±0.0131）0.7182（±0.0102）0.8026（±0.0076）1426精度0.8400（±0.0100）宏观平均值0.8421（±0.0081）0.8179（±0.011）0.8271（±0.0034）4755加权平均值0.8311（±0.0095）0.8400（±0.010）0.8344（±0.0062）4755结果显示在Fig. 3.在仅考虑生活习惯、人口统计学资料和医学测量的情况下，确定收缩压、舒张压、缺乏体力活动、BMI、吸烟、FBG、TG、HDL、脑卒中家族史和体重是影响脑卒中的十大因素。这些因素在医学上与慢性病高度对应[33为了给出每个特征对每个个体的贡献的具体细节，我们计算了随机森林模型中的SHAP值（SHAP值= 0，SHAP值=8，SHAP值=12），并使用摘要图来显示它们的重要性。��每个特征的有序平均样本SHAP值图如图所示。四、它显示各因素对中风病因的贡献分布。颜色表示特征值（红色表示高，蓝色表示低）。高特征值和低特征值之间的分布差异越大，越有利于区分不同风险水平的患者。图结果显示，舒张压、体力活动、收缩压、BMI、吸烟、FBG、TG与脑卒中发病风险呈正相关，HDL与脑卒中发病风险呈负相关。3.3. 脑卒中发病率的定量预测对于第三个实验，建立逻辑斯蒂模型（罚分：l2，C：1）以量化中风发病率的概率为了实现这一目标，我们将数据集1和2合并，重新标记数据：原来的低风险和中风险现在是0类，高风险和中风是1类，0类和1类的数量是19，369和10，214，分别这些特征包括生活方式信息、人口统计信息和Logistic回归是特征敏感的。特征选择在建模前完成。为了解决多重共线性问题[36]，首先删除高度相关的特征。例如，我们保留BMI，删除身高和体重。更重要的是，方差阈值[37]用于去除低方差特征。这是一种简单的特征选择方法，其中删除所有方差不满足的特征一定的门槛。例如，在我们的调查中，大多数受访者是汉族人，因此，我们删除了种族。逻辑模型结果如表6所示，包括特征系数、标准误和置信区间。根据相关系数，脑卒中史、缺乏运动、高血压、高血压、吸烟、糖尿病、BMI、脑卒中家族史、心脏病与脑卒中发病率呈正相关，文化程度、蔬菜摄入频率、职业与脑卒中发病率呈负相关在测试集上实现训练的模型，以估计每个类别的中风发生率的概率。该模型经过100次训练和测试（分流比= 4：1），每次都进行洗牌。根据该模型计算出的各危险水平的平均脑卒中概率，低危组为0.0720（95%可信区间∶（0.0665，0.0774）），中危组为0.1902（95%可信区间∶（0.1808，0.1996）），高危组为0.8389（95%可信区间∶（0.8293，0.8486））。与定性排序方法相比，我们将脑卒中的危险因素量化，并将评分等级转化为概率，使脑卒中风险的预测更加直观。另外，我们的逻辑斯谛模型是根据病人J. Liu等人医学信息学解锁26（2021）1007126图3.第三章。特征（左）和排列（右）生活方式和医疗测量因素的重要性。4. 讨论4.1. 山西省危险因素分析见图4。顶级生活方式和医疗测量因素的TreeSHAP值。2. 身体不活动;3. 超重（BMI）;4. 高血压（主要根据HDL和TC）;5. 糖尿病（根据FBG）;为了找出山西省脑卒中的危险因素，我们采用多种不同的机器学习方法，并通过特征重要性和排列重要性对特征进行评价。对于决策树模型，我们专注于两个主要的危险因素排名，特征重要性和排列重要性都表明，在决策树模型中的前三个信息特征是高血压，缺乏运动和高脂血症。对于随机森林模型，研究结果表明，血压、血脂指标、血糖水平指标、吸烟、BMI和脑卒中家族史对模型推断有重要影响重要性方法只能告诉我们哪些特征是重要的，而不能说明特征影响的方向。为了更详细地研究危险因素如何影响脑卒中的风险，我们尝试SHAP值来进一步解释模型。基于treeSHAP值，生活方式和医疗测量的特征和排列重要性，我们发现了导致中风的最重要因素：1. 高血压（舒张压和收缩压）;6. 吸烟习惯。应用treeSHAP依赖图来比较两个特征之间的贡献。图5示出了舒张压（> 140 mmHg）比收缩压（> 90 mmHg）更适合于诊断患者患中风的风险。同样，基于在HDL和LDL之间的比较（见图）。（5）高密度脂蛋白对非脑卒中患者的诊断有较好的诊断价值。4.2. 特征效度由于技术错误（如错别字和设施错误）造成的数据缺失是人口普查分析中常见的问题。找出数据集中的这些错误数据可能会如何影响，我们进行了一个实验，以找出特征中的缺失数据及其对最终结果的影响。采用随机森林分类器用不同比例的单一缺失特征预测中风风险，并在随机位置循环100次。另外，为了防止由于强相关性导致的精度分数没有变化J. Liu等人医学信息学解锁26（2021）1007127图五、左：收缩压和舒张压的依赖性图;右：HDL 和 LD L 的依赖性图。见图6。左侧：特征中缺失数据比例与加权精度分数的关系;右：特征数量与精度变化的关系。在特征的集合中，一些特定的特征对被清理。结果是示于图六、图在图6中，每个特征的曲线表示特征的平均权重精度分数如何随着特征缺失比例的增加而变化，并且阴影是每个特征的95%置信区域100倍。结果表明，舒张压、缺乏体力活动、BMI、吸烟、饮酒、高密度脂蛋白（HDL）、空腹血糖（FBG）是影响脑卒中病因的重要因素，而其他因素对模型的影响不大。一个有趣的事实是，HDL似乎与大多数影响因素相比，当HDL的比例较小时，这是一个很大的影响因素。在我们的过程中，特征的所有缺失值都用-1作为异常类填充，这可能会在模型构建和预测过程中引入偏差。然而，基于图6，医生可以预测具有不同缺失值比例此外，还进行了递归特征消除（RFE）过程，以评估用于分析患者中风风险水平的因素的具体数量。RFE的程序如下。基于图6，我们发现大约7个特征可以帮助随机森林模型通过针对不同风险水平的5倍交叉验证获得1000次洗牌的平均精度得分。从而证明了这些特征的有效性5. 结论根据以上结果，我们发现高血压、缺乏体育锻炼、超重、高脂血症、糖尿病是引起脑卒中的重要因素。与中国的高血压、吸烟和饮酒[4]相比，中国各省的脑卒中危险因素为缺乏运动、超重、高血脂、糖尿病。这些因素在中国是合理的，因为与中国其他省份相比，山西省正陷入经济困境，公民收入有限[38]。由于该省的贫困，公民更容易患上超重，高脂血症，糖尿病等疾病，并且摄入热食，腌制食品或腌制食品也会加剧这些疾病的发生[39]。此外，通过SHAP值与收缩压、舒张压的比较，和LDL，我们可以发现舒张压和HDL可以更好地算法1：递归特征消除（RFE）1：INPUT：训练模型：m，数据集：m个特征，目标特征数n;对于i从0到n-m，计算训练模型中每个特征的重要性;使用数据集权重;找出模型中重要性最小的特征k;从数据集中移除特征k端帮助医生评估非中风患者的风险致谢本研究得到了国家自然科学基金项目12071190（S.X）、山西省人民医院（J.L）、北京师范大学（J.M，H. H）的部分资助附录见表5和表6。J. Liu等人医学信息学解锁26（2021）1007128| |表5数据清理后的剩余要素。类功能名称数据类型生活方式信息生活方式信息酒精分类生活方式信息蔬菜的频率分类生活方式信息水果的频率生活方式信息肉类和蔬菜分类生活方式信息医疗支付方式分类人口统计资料年龄人口统计信息人口统计资料人口统计资料人口统计资料人口统计资料人口统计信息婚姻状况教育程度医疗测量TC数值医疗测量TG数值医疗测量HDL数值医疗测量LDL数值医疗测量HCY数值医疗测量FBG数值医疗测量脉冲数字医疗测量血压数字心脏舒张压数字‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and‘‘8+2" Factor and引用表6特征系数和置信区间。y=1系数标准误差z≥95% CI [0.025，0.975]中风史缺乏身体高血压1.0875 0.025 43.210 0.000 1.038烟雾1.0455 0.031 33.892 0.000 0.985 1.106糖尿病体重指数0.7897 0.026 30.635 0.000 0.739 0.840中风家族史心脏病果率酒精0.1325 0.025 5.198 0.000 0.083 0.182脉冲0.1279 0.023 5.606 0.000 0.083 0.173（a）在2004年1月1日至2005年3月31日期间，退休年龄0.0548 0.026 2.084 0.037 0.003 0.106蔬菜的频率−0.2262 0.025 −9.118 0.000 −0.275 −0.178职业教育水平常数−0.7868 0.068 −11.545 0.000 −0.920 −0.653来自全国480687名成年人的调查。循环2017;135（8）：759-71。[1]刘明，吴波，王文智，李黎明，张世宏，孔令智。中国卒中：流行病学、预防和管理策略。《柳叶刀神经病学》 2007;6（5）：456-64。[2]Roth Gregory A ， Abate Degu ， Abate Kalkidan Hassen ， Abay Solomon M ，Abbafati Cristiana，Abbasi Nooshin等人，1980-2017年195个国家和地区282种死亡原因的全球，区域和国家年龄-性别特异性死亡率：2017年全球疾病负担研究的系统分析。柳叶刀2018;392（10159）：1736-88。[3]周迈耕，王海东，曾欣颖，尹鹏，朱军，陈万庆，中国及其省份的死亡率，发病率和风险因素，1990 - 2017：2017年全球疾病负担研究的系统分析。柳叶刀2019;394（10204）：1145-58。[4]王文志，姜斌，孙海新，茹小娟，孙冬玲，王林红，等. 中国脑卒中的患病率、发病率和死亡率：结果[5]Vartiainen Erkki，Laatikainen Tiina，Peltonen Markku，Puska Pekka. 预测冠心病和中风：FINRISK计算器。球。心脏2016;11（2）：213-6。[6]鲁姆利·托马斯，克朗马尔·理查德A，库什曼·玛丽，马诺利奥·泰瑞A，戈尔德斯坦·史蒂文.老年人中风预测评分：验证和基于Web的应用临床流行病学杂志2002;55（2）：129[7]杨学礼、李建新、胡东升、陈继春、李颖、黄剑锋，预测中国人群中动脉粥样硬化性心血管疾病的10年风险：中国PAR项目（中国ASCVD风险预测）。循环2016;134（19）：1430-40。[8]徐格林，马敏敏，刘新峰，汉基·格雷姆·J。中国有中风带吗？为什么？中风2013;44（7）：1775[9]科斯拉·阿迪亚、曹禺、林崖琼玉、 Chiu 徐光，胡君凌：李洪乐中风预测的集成机器学习方法于：J. Liu等人医学信息学解锁26（2021）1007129第16届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2010年，p. 183比92[10] Letham Benjamin，Rudin Cynthia，McCormick Tyler H，Madigan David，等. 使用规则和贝叶斯分析的可解释分类器：构建更好的中风预测模型。Ann Appl Stat2015;9（3）：1350-71.[11] 洪振英，陈伟珍，赖柏村，林庆亨，李继俊。在基于大规模人群的电子医疗索赔数据库中比较深度神经网络和其他机器学习算法用于中风预测。在：2017年第39届IEEE医学和生物学工程学会年度国际会议。IEEE; 2017，p. 3110-3[12] 洪振英，林景恒，蓝作雄，彭嘉顺，李志俊。基于人群电子健康记录数据库的缺血性卒中风险评估智能决策支持系统的开发。 PLoSOne2019;14 （ 3 ）：e0213007.[13] 于景辉，毛华健，李梅，叶丹，赵东升。CSDC-A中国卒中预防控制全国筛查平台。在：2016年第38届IEEE医学和生物学工程学会年度国际会议。IEEE; 2016，p. 2974-7[14] 李雪萌，卞迪，于景辉，李梅，赵东升。利用机器学习模型改进中国脑卒中筛查的脑卒中危险水平分类方法。BMC Med Inf Decis Mak 2019;19（1）：1[15] 赵宝华，严锋，杨华，刘建民，杨毅，纪训明，等。中国脑卒中预防与控制系统：中国卒中预防与控制中心。国际中风杂志2021;16（3）：265-72。[16] 昆兰·J·罗斯决策树的归纳。Mach Learn 1986;1（1）：81[17] 作者：Breiman Leo，Friedman Jerome，Stone CharlesJ，Olshen Richard A.分类和回归树CRC Press; 1984.[18] 2004年10月27日，熵的新定义及其应用。IEEETransSyst Man Cybern1991;21（5）：1260-70.[19] 布莱曼·里奥随机森林Mach Learn 2001;45（1）：5[20] 作者：陈文辉，陈文辉. Logistic回归分析中每个变量事件数的模拟研究。临床流行病学杂志1996;49（12）：1373[21] 放大图片作者：J. 一种最优间隔分类器的训练算法。在：计算学习理论第五届年度研讨会论文集。1992年，p. 144比52[22] 科尔特斯·科琳娜瓦普尼克 ·弗拉基米尔支持向量网络。 Mach Learn1995;20（3）：273-97.[23] 罗森布拉特·弗兰克。神经动力学原理。感知器和大脑机制理论。技术报告，Cornell Aeronautical Lab Inc Buffalo NY;1961年。[24] Rumelhart David E，Hinton Geoffrey E，Williams RonaldJ.通过错误传播学习内部表示。技术报告，加利福尼亚大学圣地亚哥拉霍亚认知科学研究所，1985年。[25] Ahmad Muhammad Aurangzeb，Eckert Carly，Teredesai Ankur.医疗保健中的可解释机器学习2018年ACM生物信息学，计算生物学和健康信息学国际会议论文集。2018，p. 559比60[26] 莫尔纳·克里斯托夫可解释的机器学习。璐璐 2020.[27] Archer KellieJ，Kimes Ryan V.随机森林变量重要性度量的经验表征。ComputStatistist Data Anal 2008;52（4）：2249[28] Pedregosa F，Varoquaux G，Gramfort A，Michel V，Thirion B，Grisel O，等.S c i k i t - l e a r n ：Python中的机器学习JMach Learn Res 2011;12：2825[29] 阿尔特曼·安德烈，托洛尼·劳拉，桑德·奥利弗，伦高尔·托马斯。置换- 特征重要性：一个修正的特征重要性度量。Bioinformatics2010;26（10）：1340-7.[30] 费希尔·亚伦，鲁丁·辛西娅，多米尼克·弗朗西斯卡。所有的模型都是错误的，但许多是有用的：通过同时研究整个类别的预测模型来学习变量的重要性。JMachLearn Res 2019;20（177）：1[31] 沙普利·劳埃德N人博弈的一个值。对博弈论的贡献; 1953年，第100页。307-17[32] 伦德伯格·斯科特李秀仁解释模型预测的统一方法。2017年，arXiv预印本arXiv：1705.07874。[33] 征收丹尼尔，EhretGeorg乙、水稻肯尼斯韦尔沃特杰曼C、对Launer LenoreJ，Dehghan Abbas，et al. Geno

下载后可阅读完整内容，剩余1页未读，立即下载