医疗大数据分析中的信息学与脑损伤存活率

187 浏览量更新于2024-01-02 收藏 1.04MB PDF 举报

医疗大数据分析

数据挖掘

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

信息学在医学解锁1（2015）17医疗大数据分析的发现：通过数据挖掘提高创伤性脑损伤存活率患者信息处理软件混合Hadoop HiveJames A.罗杰1，2，3信息系统和决策科学，埃伯利商业信息技术学院，宾夕法尼亚州印第安纳大学，印第安纳州，PA 15705，美国ART I C L EI N F O文章历史：2015年11月18日收到2016年1月12016年1月13日接受2016年2月23日在线发布保留字：创伤性脑损伤Apache hive符号数据分析数据挖掘A B S T R A C T手动输入医疗遭遇数据非常耗时。此外，数据往往没有及时输入数据库，无法用于随后的特派团规划。患者信息处理软件实现了船上数据收集过程的半自动化。然后捕获这些图像中的数据并用于填充数据库，之后使用多个船舶数据库进行报告和分析。在本文中，我们使用患者信息处理软件Hybrid Hadoop Hive通过各种船舶编排数据库处理，通过编组分布式服务器，并行运行各种任务，管理系统各部分之间的所有通信和数据传输，并提供冗余和容错。然后，我们采用Apache Hive作为构建在Hadoop之上的数据仓库基础设施，用于数据汇总、查询和分析，以识别创伤性脑损伤（TBI）以及其他损伤病例。最后，提出了一种误诊最小化方法用于数据分析。我们收集了三个船舶变量（Byrd、Boxer、Kearsage）和四个身体部位（头部、躯干、四肢和擦伤）损伤的数据，以确定所收集的变量集与身体损伤的关系。两个维度或典型变量（生存率与死亡率）对于理解两组变量之间的关联是必要的。我们的方法改进了数据分类，并表明生存率，死亡率和发病率可以从医疗运营数据的超集中获得，并用于未来的决策和规划。我们建议，程序错误的意识以及减少错误分类的方法应纳入所有TBI临床试验。&2016由Elsevier Ltd.出版这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍1.1.误诊最小化方法对医学疾病和伤害的研究通常会产生大量的数据[1]。Hughes[1]指出，大数据不仅仅是数量、速度和种类电子邮件地址：jrodger@iup.edu1电话：电话：+724357 5944;传真：+724 357 4831提交给：IIMU。3詹姆斯·A.罗杰是宾夕法尼亚州印第安纳大学（IUP）管理信息系统教授。他于1997年在卡本代尔的南伊利诺伊大学博士罗杰发表了几篇与这些主题相关的期刊文章。他的工作已经出现在运筹学年鉴，ACM通信，计算机运筹学，决策支持系统，应用专家系统，计算机科学讲义，人机研究国际杂志以及其他几个期刊。此外，它还涉及到那些已经存在但协调不力的数据的潜在价值，这些数据在通常不公开共享数据的行业中以各种不同的格式存储。虽然这一过程的结果有很好的记录，但关于这些数据的收集和传播及其正确分类的记载很少。为了填补这一空白，我们研究了医院船，这是一种支持全球军事行动的医疗资产。这要求医院船在不同的医疗条件下为各种军事人群提供医疗护理。从多个来源收集信息学数据或用多个视图表示信息学数据变得越来越普遍，其中不同的视图描述数据的不同视角。军事行动医务人员每年从特派团收集数十万份填写完整的医疗报告表。以前，这些数据是手工输入数据库进行报告和分析的。美国军方应用通过使用患者信息处理软件（PIPS）数据开发的发现，为未来任务的规划活动提供后勤支持，因为它们可以帮助节省http://dx.doi.org/10.1016/j.imu.2016.01.0022352-9148/&2016由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。目录可在ScienceDirect医学信息学杂志主页：www.elsevier.com/locate/imu218J.A. 罗杰/信息学在医学解锁1（2015）17 - 26P PP- -一种资金，减少浪费，提高未来任务的准备水平，并拯救生命。在医学诊断中，重要的是不仅要最大限度地正确分类，而且要最大限度地减少I型假阳性和II型假阴性错误。虽然这些错误与分类密切相关，但它们并不相等。传统的分类系统，如线性判别分析和神经网络，没有考虑误诊影响的所有分支[2]。在我们的研究中，我们认为，预测一个没有创伤性脑损伤（TBI）的病人会活下来，而事实上病人确实有TBI，这比误诊TBI病人更错误。虽然传统的系统不包括误诊对TBI生存率的影响，但我们的方法最大限度地减少了这些医疗错误分类。2. 文献综述2.1.大数据分析、信息学和数据挖掘、判别分析和典型相关在本节中，我们将讨论基本概念、广泛使用的算法以及医疗保健大数据分析中的一些实际应用。我们还展示了研究的多样性和质量如何由于这些因素而发生变化[3，4]。此外，我们还介绍了大数据如何以跨学科的方式影响信息系统，以及信息学如何为研究这一概念提供了机会[5]。Liang等人[6]提出了一种新的视觉分析方法来研究大脑纤维路径，允许用户探索纤维束，揭示了纤维路径使用新的视觉分类方法的可能性。以类似的方式，我们的论文说明了如何分析大量不同的用户生成的内容，在医疗媒体平台上，可以用来做出明智的决定。各种可扩展的机器学习算法已成功部署在许多领域，特别是在商业领域。与我们利用符号数据访问（SDA），典型相关和判别分析的模型类似，Seng和Chen[7]假设数据挖掘是一种通过处理所有格式的各种数据类型来从数据中提取知识的强大方法，以增强商业智能[8，9]。这篇论文也是相关的，因为它强调了数据挖掘在从医疗数据中提取知识的背景下工作的事实反犯罪分析是我们知识提取的核心。Fisher[10]首先使用线性判别分析（LDA），在两种情况下，我们都可以使用这种方法来解决问题。0;μ！1and协方差0;1.典型相关也是一个有价值的工具，我们的知识提取。霍特林[11]提出，给定两个r和d的columnvecorsX¼x1;U U U;xn'andY¼y1;U U U;ym'创伤性脑损伤作者得出结论，“医院医疗器械维护服务外包的研究仍处于起步阶段，该领域的进一步进展将受益于基于管理理论的额外实证研究。” Yang等人[14]报告指出，医疗资源（主要是床位）短缺是影响医院的一个严重和日益普遍的问题。在我们的船舶医院研究中也是如此。作者发现，导致这些短缺的因素，包括用于确定住院患者是否应该出院的标准的模糊性和不充分性，是最有害的因素之一。为了解决这个问题，本研究应用数据包络分析（DEA）和分类的动态模型住院病人的出院状态为拒绝，观察，或批准。他们的研究结果提供了对医疗资源短缺的潜在原因的深入了解。与我们的TBI研究非常相似，他们的方法允许临床医生根据出院类别更有效地治疗住院患者。Kunene和Weistroffer[15]证明，每个阶段的因素和事件都可以建模为多标准问题，其目标是优化患者结果;此外，更全面的模型可以体现所有三个阶段的相互作用。他们的研究重点是以一种明确的方式对影响患者预后的因素进行建模，以便使用数据挖掘工具更好地描述或预测这些因素。Lin和Blüml [16]提出，细胞水平的急性和慢性损伤有时难以通过解剖成像与正常特征区分开来，这通常会导致错误分类，与我们的发现类似。作者认为，磁共振波谱（MRS）提供了一种独特的非侵入性方法，通过定量细胞代谢物来评估微观水平的损伤。脑震荡和更严重的头部创伤的MRS结果是异质的，反映了不同的时间后，损伤程度，以及不同的生理和病理反应的大脑损伤。Langlois等人[17]估计有530万患有TBI相关残疾的美国人在努力恢复完整和富有成效的生活方面面临着许多挑战。作者还提供了支持我们的发现的证据;即，常规报告的数据低估了在TBI未被诊断时接受医疗护理的人数，或者低估了TBI但不寻求护理的人数。在他们对TBI的研究中，Hoge et al.[18]报道，TBI、中风、获得性脑损伤、缺氧性脑损伤和其他头颈部损伤的诊断之间的差异需要澄清。他们进一步指出，战斗的流行病学与轻度TBI相关的疾病知之甚少就像我们的变量与数字把十字架钉好，研究中，作者报告了TBI的错误分类，并得出结论一个人可能在夜晚的第二个时刻C ovari anceXYlc ovx;Yl cot onm at ri c e x i ; y l cov a r i c ex i ; y l co v i; y l c o v i c e x; y l c o vi; y l c o v i c o v i; y l c o v i; ylc o v icov i; y l c ov i c ovi; y l c o v i c o v i ; y l c o v i c o v i ;ylc o v i c o v i;2.2.创伤性脑损伤Griffiths等人[12]研究了专科神经康复单位的排队模型，并采用了治疗强度影响患者住院时间将Coxian阶段型分布拟合到从入院到出院准备就绪的时间长度，并考虑了一些假设情景，并根据一些性能指标和成本影响进行了比较。Cruz和Rincon [13]检查了大量关于外包的现有研究，并评估了关于外包医疗设备维护的研究现状，例如用于诊断的磁共振成像（MRI）轻度TBI，如脑震荡，是轻度TBI和身体健康问题之间关系的重要介质。陆等人[19]研究了使用格拉斯哥结局量表（GOS）作为分析TBI临床试验有效性的主要终点的结果。他们假设，准确和一致的TBI后结局评估对于治疗结果的评价至关重要，特别是在船上发现的多中心研究和试验的背景下。他们进一步推测，不一致的测量或观察者间差异对GOS结局的影响，或就此而言，对任何结局量表的影响，可能对临床试验中检测治疗效果的灵敏度产生不利影响。他们的研究得出结论，非差异性错误分类直接降低了发现真实治疗效果的能力，并且应该意识到这种程序错误以及减少错误分类的方法J.A. 罗杰/信息学在医学解锁1（2015）17 - 2619þþXhi22创伤性脑损伤的临床试验在他们的随访研究中，Lu等人[20]将他们之前关于TBI临床试验中非差异二分GOS错误分类影响的研究扩展到TBI临床试验中GOS错误分类对顺序分析的影响。他们的结果显示，鉴于特定的错误分类分布，随机或向上模式的错误分类会导致观察数据的结果略有低估。然而，向下模式的错误分类将导致估计错误。因此，敏感性分析表明，非差异性错误分类可能导致TBI试验中主要结局估计的不确定性。这种不确定性也通过来自其他社交媒体大数据场景的证据得到了证明[21]。Sohlberg和Mateer[22]以及Kowalczyk等人[23]还研究了用于在组织中构建数据驱动决策模型的数据挖掘技术，类似于我们的TBI模型中提出的类似于我们的典型病例研究，32例不同年龄和性别的TBI患者进行了研究。作者发现神经科医生的发现与正常、轻度、中度和重度脑电图描记数据的系统输出之间存在显著关系2.3.K-means聚类K-means聚类是我们知识提取核心的另一个组成部分，MacKay[24]为我们提供了该算法的示例。Pimentel和de Souza[25]证明，聚类是将对象组织成组的过程，这些组的成员在某种程度上是相似的，并且只涉及数字数据。然而，为了对可能是直方图的复杂信息进行建模，必须采用与我们研究中使用的分布或间隔类似的分布或间隔。SDA的开发，它提供聚类质量的结果，提供更高的准确性时，变量具有不同的变异性。Krishnasamy等人[26]提出聚类是数据挖掘中一种重要而流行的技术。在他们的论文中，他们提出了一种有效的混合进化数据聚类算法，类似于我们的方法，他们将K均值与改进的队列智能（MCI）相结合。他们提出的算法已经比较了其他著名的算法，如K-均值，K-均值，队列智能（CI），MCI，遗传算法（GA），模拟退火（SA），禁忌搜索（TS），蚁群优化（ACO），蜜蜂交配优化（HBMO），粒子群优化（PSO）。Elango等人。[27]试图解决多机器人任务分配问题，并重视机器人之间的工作负载平衡，类似于我们在船上的医疗工作负载分配。本文提出了一种算法，试图最大限度地减少移动的距离由'm'机器人和平衡它们之间的工作量相等，使用K-均值聚类技术的目标是最小化的距离，在一个具有成本效益的方式。Yin等人[28]使用聚类将数据对象分组到称为聚类的不相交类的集合中，因此同一类中的对象彼此高度相似，并且与其他类中的对象不同。K-harmonic means（KHM）是最流行的聚类技术之一，已被广泛且成功地应用于包括医学在内的许多领域。Hadavand等人[29]指出，成功地预测和分析特定商品或服务的销售可能意味着一个会计期间的利润和亏损之间的差异，最终，企业本身的成功或失败可靠的销售预测本文提出了一种新的销售预测方法，将遗传模糊系统（GFS）和数据聚类相结合，构建了一个销售预测专家系统。结果表明，该方法优于以往的方法。Dimoulas等人[30]专注于实施管理，通过模式分析。他们提出的方法结合了音频检测分割、运动检测监视和分层音频模式识别，使用神经网络、统计聚类和句法模式分类，为无创胃肠道运动（GIM）监测提供了新的潜力。他们目前的工作为医疗应用中的内容分析引入了新的混合技术，与我们的TBI研究相似Celebi等人[31]声称K- means无疑是最广泛使用的分区聚类算法。他们概述了这种方法，重点是计算效率，然后在大量不同的数据集上比较了八种常用的线性时间复杂度初始化方法，使用与我们研究类似的各种性能标准。Higuera等人[32]提供了一个研究微生物物种群落的医学例子，通过寻找共同的代谢特征，可以发现描述整个生物体或物种生活方式的共同功能特性。这种方法将TBI分类的共同特性与我们船上损伤的大数据汇编的功能集群进行了对比。Bir- tolo和Ronca [33]研究了基于模型的协同过滤（CF）技术的应用，并提出了一个聚类CF框架和两个聚类CF算法。与我们的研究类似，他们使用多个数据集与真实客户比较了多种方法。Lin等人。[34]研究了图像检索数据库，其中颜色是最重要的特征，并且最常使用K-means算法。为了创建本研究的K均值算法，首先制作图像数据库的统计水平直方图，类似于我们研究中他们的结果表明，K-means算法是一种更有效，更快速，更方便的方法，可以克服由于不断向图像数据库添加图像而导致的重新训练花费过多时间的问题这种方法可以应用于我们的医疗数据，因为战场上的受伤会转移到船上。Bai等人[35]介绍了一种用于评估组织绩效的多方法多标准方法他们的论文介绍了模糊c均值（FCM）的使用，并使用真实的公司数据来评估该技术的预测能力，其方式与我们评估TBI死亡率的方式相似Sancho-Asensio等人[36]指出，数据挖掘技术传统上分为两个不同的学科，监督和无监督学习，这取决于算法要执行的任务后一种方法的目的是发现数据背后的规律性模式，而不对数据的核心结构进行任何先验假设。我们的研究使用无监督学习原理来提高船舶损伤数据库中数据存储的性能，这与智能电网研究中使用的方法类似。2.4.最近邻最近邻（NN）是我们的知识提取过程中的一个重要角色所提出的模型提供了一组过去的情况下，类似于目前的情况下设置的参数范围内的预测。过去类似情况的数量直接反映了当前情况的性质（独特或共同）。该模型采用以下方法。在n维参数空间P中，参数Pi（i^l，2，…,模型选择一个过去记录Xi（i<$1，2，nXi用于视听内容描述和I/V1的20J.A. 罗杰/信息学在医学解锁1（2015）17 - 26尺寸xY¼¼¼þ其中xi（i<$1，2，最近邻搜索（Nearest Neighbor Search，简称NNS），也被称为邻近搜索、相似性搜索或最近点搜索，是一种在度量空间中寻找最近点的优化问题问题如下：给定度量空间M中的一个点集S和一个查询点qAM，找出S中最接近q的点。在许多情况下，M被认为是d维欧几里德空间，距离由欧几里德距离或曼哈顿距离测量[37]。在聚类分析中，单链接，NN或最短距离是计算层次聚类中聚类之间距离的在单链接中，两个聚类之间的距离计算为两个聚类中两个最近元素之间的距离在数学上，关联函数调查我们的船舶伤害数据库的方法Govindarajan和Govinrasekaran[41]利用文本数据挖掘作为探索性数据分析的过程。以类似的方式，我们利用Hive和Hadoop来帮助将数据分类到预定义的组或类中，例如头部、躯干、四肢和胸部。这通常被称为监督学习，因为类是在检查数据和补充之前确定的。我们的分析的这一部分支持我们的无监督学习纪律，这是在我们的算法的聚类组件。作者的论文描述了拟议的KNN分类器，该分类器测试了执行比较交叉验证的可行性。使用数据挖掘问题证明了拟议方法的好处，类似于我们的医疗伤害死亡率研究。Aci等人[42]使用五个UCI机器学习数据集形成了混合方法：虹膜，乳腺癌，玻璃，酵母和葡萄酒数据集。在我们的研究中，我们还提出了一个混合的方法在多个船舶数据库。Li等人[第四十三章]D X;YminAX;y A dx;y;承认部分缺失的数据集是一个普遍的亲，聚类分析中的问题在他们的论文中，缺失的属性被表示为区间，并提出了一种新的FCM算法，其中X和Y是被视为簇的任何两组元素，并且d（x，y）表示两个元素x和y之间的距离。这种方法的缺点是所谓的链接现象，其中由于单个元素彼此靠近，聚类可能被迫在一起，尽管每个聚类中的许多元素可能彼此非常远。下面的算法是一个聚合算法，当旧的聚类被合并到新的聚类中时，它会删除邻近矩阵中的行和列。N-N邻近矩阵D包含所有距离d（i，j）。聚类被分配序列号（0，1，......，[ n -1]），并且L（k）是第k个聚类的级别。序列数为m的聚类表示为（m），聚类（r）和（s）之间的接近度表示为d[（r），（s）]。该算法由以下步骤组成：1. 从级别L（0）1/40和序列号m 1/40处的不相交聚类开始。2. 在当前聚类中找到最相似的聚类对;比如对（r），（s），根据d[（r），（s）] mind [（i），（j）]，其中最小值是在当前聚类中的所有聚类对3. 递增序列号：m M 1.合并群集（r）和（s）合并成单个簇以形成下一个簇M。将此聚类的级别设置为L（m）d[（r），（s）]4. 通过删除对应于集群（r）和（s）的行和列，并添加对应于新形成的集群的行和列，来更新邻近度矩阵D。新簇（表示为（r，s））和旧簇（ k ）之间的接近度定义为 d[ （ k ），（ r ，s）]/4mind[（k），（r）]，d[（k），（s）]。5. 如果所有对象都在一个簇中，则停止。否则，请转到步骤2。Qi等人[38]指出，适应阶段对于良好和合理的基于实例的设计（CBD）过程至关重要，该过程负责在k-最近邻（KNN）原则下找到解决新问题的解决方案。他们的论文提出了一种新的自适应方法，用于解决检索案例的特征值，该方法可以适应我们的伤害数据集。Chen等人[39]提出了一种使用模糊k-最近邻（FKNN）诊断帕金森病的有效和高效的诊断系统建议FKNN为基础的系统进行了比较，支持向量机（SVM）为基础的方法。该算法与我们的研究尝试相对应，以进一步提高TBI和其他头部伤口的医疗诊断准确性。García-Pedrajas和Ortiz-Boyer[40]坚持KNN分类器是最广泛使用的分类方法之一的原则，因为它具有一些有趣的特性，例如良好的泛化和易于实现。虽然简单，但它通常能够匹配，甚至击败更复杂和复杂的方法，因此对困难实例的准确分类是有利的。这也是我们选择神经网络的原因之一提出了一种基于NN区间的数据挖掘方法关于未来的问题，我们的研究可以很容易地采用这种方法来处理我们的医疗TBI数据中发现的缺失值。Lee等人[44]最近研究了微阵列技术，以研究癌症诊断中的基因表达。在过去，研究人员总是使用参数统计方法来寻找重要的基因。然而，微阵列数据通常不遵循参数统计方法的一些假设，或者I型错误可能过度扩展。他们建立了一种没有假设限制的基因选择方法，以减少数据集的维数，并确保所有测试样本都能正确分类。这与我们的TBI头部损伤错误分类中关于死亡率的I型和II型错误的问题相似。Jiang等人[45]认识到文本分类是管理和组织激增的文本数据的重要工具。许多文本分类算法已经在以前的研究中进行了探索，如KNN，朴素贝叶斯和SVM。他们提出了一种改进的KNN文本分类算法，该算法将约束单遍聚类算法与KNN文本分类相结合，建立分类模型。该算法构建的分类模型可以增量式更新，在Hive Hadoop数据库的文本损伤挖掘等实际应用中具有很好的可扩展性。Castillo et al.[46]描述了一种用于心律失常分类的混合智能系统混合方法与MIT-BIH心律失常数据库的ECG记录进行了测试考虑用于分类的样本包含四种类型的心律失常。对心律失常信号进行分段和变换，以改善分类结果。本集团采用三种分类方法将个别分类器的输出合并，分类率达98%。在我们的研究中，这种方法可能有助于减少TBI发病率和生存率的错误分类。Muthukaruppan和Er [47]提出了一种用于诊断冠状动脉疾病的基于PSO的模糊专家系统，该系统基于克利夫兰和匈牙利心脏病数据集，分类准确率为93.27%。由于数据集由许多输入属性组成，因此使用决策树来解开有助于诊断的属性。我们使用Hive Hadoop和SDA来挖掘我们的船舶TBI损伤研究中的属性。2.5.符号数据分析Yang等人[48]指出Kohonen的自组织映射（SOM）是一种竞争性学习神经网络，它使用邻域横向相互作用函数来发现隐藏在数据集中的拓扑结构。无监督学习具有可视化和聚类特性。虽然有不同J.A. 罗杰/信息学在医学解锁1（2015）17 - 2621在数值型数据的SOM聚类方法与实际应用的文献中，较少考虑符号型数据的SOM聚类。他们的实验结果表明了他们提出的算法在这些实际应用中的可行性和有效性，并提供了证据表明这种方法可以应用于我们研究中的符号损伤数据。Cury等人[49]承认结构健康监测是一个可以在多个层次上解决的问题，并且在损伤评估问题中使用的更有前途的方法之一是基于模式识别。这种方法的思想是从数据中提取仅表征正常条件的特征，并将其用作模板或参考。在结构监测过程中，测量数据，提取适当的特征并与参考进行比较。与参考值的任何重大偏差均被视为信号新奇或损坏。一些SDA技术被应用于数据分类：一方面，SDA的主体被应用于对不同的结构行为进行分类，另一方面，当新数据可用时，将任何结构行为与先前的分类进行比较。他们的研究结果是基于实验测试每-在法国的铁路桥上形成，以证明所述方法的有效性。作者发现，考虑到振动数据或模态参数，SDA方法可以有效地对结构修改进行分类和区分。我们将类似的SDA技术应用于我们的损伤数据集，以显示TBI死亡率的错误分类。Evsukoff等人[50]提出了模糊符号建模作为智能数据分析和模型解释的框架，用于分类和回归问题。基于一组用于分类和回归问题的基准数据集对他们的模型进行了评估。非参数表1按特派团分列的专科诊断总数。对基准结果进行了统计检验。这些测试显示了规则权重如何提供额外的信息来帮助理解数据和模型，从而可以将其用作预测新数据的决策支持工具。Le-Rademacher和Billard[51]声称，似然函数是经典数据分析中许多统计方法的基础，并认为对于符号数据，必须在经典方法扩展到数据分析之前引入这些函数。他们提出了符号数据的似然函数，并通过寻找三种常见类型的符号值随机变量的均值和方差的最大似然估计来说明其应用：区间值，直方图值和三角分布值变量。Fagundes等人。[52]提出了一个稳健的回归模型，该模型处理输入数据集中具有区间值离群值的情况。考虑了两个具有真实区间数据集的通过测试数据集计算的平均相对误差大小来评估预测质量Baumert等人[53]研究了心血管变量的动力学如何受到呼吸的调节，目的是基于心率、血压和呼吸的联合符号动力学评估正常受试者的压力传导功能。符号分析表明，呼吸相位对出现气压波动模式有显著影响。符号动力学提供了一个简单的心血管动力学的代表，并可能是有用的评估压力波功能。Suyal等人[54]利用秩序统计量分析了时间序列数据对慢太阳风速度波动的影响。首先，他们将秩序统计应用于已知非线性系统的时间序列，然后将分析扩展到太阳风数据。他们发现，在一个活动周期中，控制太阳风速度的基本动力学几乎保持不变。De Carvalho[55]提出了用于划分符号区间数据的自适应和非自适应FCM聚类方法。他提出的方法提供了一个模糊分区和原型为每个集群优化，美国海军罗伯特·E.伯德科萨奇号驱逐舰充分性准则基于适当的平方欧几里德距离之间的向量的间隔。在当前的研究中，真实数据集和合成数据集的实验表明了这些FCM聚类方法的有效性和聚类解释工具的优点。2.6.结果表1提供了三艘船上的患者接触总数。Kearsarge号遭遇最多，共有62，738名患者，而Boxer号遭遇最少，有27，314名患者。虽然大多数患者就诊是常规的，但创伤分别占Byrd、Boxer和Kearsarge上就诊的0.15%、0.30%和0.27%。我们从这些数据集中挖掘TBI死亡率，以确定错误分类错误。表2提供了一些相关的运输和损伤描述性统计数据，如患者遭遇的平均值、标准差和范围在这个过程的这一步中，我们使用了信息学船舶数据库对重大创伤数据的挖掘表2船舶和伤害的描述性统计。伯德拳击手凯尔萨热头躯干末端最小死有效数量160160160160160160160160失踪1818181818181818是说788.17600.481180.35203.15146.56188.53147.1968.73STD. 偏差3316.2652315.5045228.439469.598320.137638.409307.691287.951方差10997610.7075361558.51527336573.147220522.493102487.544407565.96194673.77682915.505范围36994273146273827071873711416942581最小00000000最大36994273146273827071873711416942581N%N%N%HEENT1012927.3825279.2527384.36验光822122.22479017.54836813.34牙科711419.2300.0014332.28肺18034.8725139.20643110.25有氧4781.292310.8513312.12胃肠8262.23300811.0149537.89妇科2380.6411304.1423723.78肌肉骨骼33409.03317811.64752211.99皮肤26067.0421117.7339156.24神经2510.687712.8232285.15创伤560.15810.301670.27传染病1870.514381.6025554.07眼科00.00372213.63830313.23肾脏病00.0000.0015712.50一般15194.1119046.97718611.45杂项2260.619103.336651.06总数36994100.0027314100.0062738100.0022J.A. 罗杰/信息学在医学解锁1（2015）17 - 26头部、躯干和四肢的生理区域，以及最小损伤率和死亡率。我们发现了错误分类错误的情况，例如错误分类的死亡率，头部受伤被列为牙科或神经系统，躯干受伤被列为心脏病，四肢受伤被归类为肌肉骨骼。通过使用Apache Hadoop Hive进行广泛的数据分析和知识发现，我们能够获得更多关于伤害的见解，特别是关于TBI伤害和死亡率的见解。重要的补充数据，如唯一的患者识别号、日期、时间、视野、车辆型号、单位、国家、船员、受伤情况、职位和服务部门，允许对运输记录进行交叉验证。这种大数据分析方法对信息学数据库进行数据挖掘，在发现损伤的错误分类以及评估TBI生存率与死亡率方面非常有用。具体而言，我们使用Hadoop连接医疗数据的节点，然后使用各种算法、方法和方法对TBI死亡率进行数据挖掘，以发现错误分类。该数据集是从三艘船中提取、清理和验证相关信息的最终结果。该提取排除了与TBI无关的所有其他数据以及用于研究错误分类现象的变量。这两个主要的数据库为我们提供了实施算法的基础，以分析由此产生的转录错误以及错误分类中存在的I型和II型错误。表3显示了数据库信息不仅存在于数字数据中，而且存在于定性的Word和PDF文件中。Hadoop用于将各种医疗节点连接在一起，而Hive提供了数据挖掘工具，将产生的混合TBI信息收集在一起。图1说明了我们如何使用SODAS规范链来深入了解TBI错误分类。到目前为止，我们已经收集了三个船舶变量（伯德，拳击手，Kearsage）和四个生理身体部位损伤（头部，躯干，四肢和擦伤）的数据。由于我们对收集变量集与身体伤害的关系感兴趣，因此我们使用典型相关分析进行了进一步的分析。两个维度或典型变量对于理解两组变量之间的关联是必要的（生存率vs.死亡率）。对于船舶变量，生存率的第一典型维度受到Byrd（0.086），Boxer（0.108）和Kersarge（0.125）的影响最大，死亡率的第二维度分别为（-0.046），（-0.052）和（-0.045）。对于生理变量（第一维度），生存率由头部（0.266）、躯干（0.308）和四肢（0.453）组成。对于第二个维度，死亡率分别为（0.307）、（0.209）和（0.115）。我们的结论是，这些船只在确保正存活率方面做得很好，因此它们的死亡率也都是负的。对于头部、躯干和四肢，第一维度的存活率为正。然而，第二维死亡率也是正的，表明由于TBI、脑震荡和其他头部、躯干和四肢伤口的误诊，这三个变量的分类和死亡率可能存在一些差异。因为我们怀疑不同的分类存在差异，由于TBI、脑震荡和其他头部、躯干和四肢创伤的误诊，我们决定进一步调查SDA。在图2中，SDA被用来比较三个象征性的船舶尺寸与17个损伤，这些损伤分为四类：头部/颈部，躯干腹部，四肢和擦伤/烧伤，如图3所示。如图3所示，SDA确认TBI（大脑）被分为部分躯干和部分四肢。判别结果证实了这种错误分类，并可能对TBI报告的发病率和生存率结果产生影响。表3简易爆炸装置爆炸数据的蜂巢选择示例DTG-日期内部IDFOVDTG-时间模型车辆ID国家单元受伤船员ID位置BR服务器3042191/1/10八点五十五分MRAP目标MRAP_FPI_COUGAR_4X4302341US PMT DEFI-ANCE WHITE 6300871AFG根据CIDNE：根据EOD头部受伤：断裂根据DCIPS进行腕关节检查，该事件无医疗记录。手可能骨折，头晕目眩。根据情况，手臂受伤炮手军队3042191/1/10八点五十五分MRAP目标MRAP_FPI_COUGAR_4X4302341US PMT DEFI-ANCE白色6 B/1-7 CAVB/1-7CAV30872AFG1/5/101/5/10304326304326M1114M111417点32分17点32M1151M1151302403302403300897300898IRQPT诊断腿部损伤首次报告，未指明伤口，医疗后送报告称：PT诊断可能是腿部截肢。-MDC根据DCIPS和医疗记录。膝上创伤性LLE截肢和伴有开放性骨折和粉碎性损伤的混杂性RLE。根据JTAPIC 1X铜碎片最初报告有不明伤口。医疗后送报告称：患者诊断为头部和眼部损伤-MDC根据DCIPS和医疗记录。右眼球S/P摘除术破裂，右拇指ID，掌骨中段创伤性截肢翻修，多个PW R下颌区域;根据JTAPIC划痕和磨损-根据DCIPS初次，病历他脸上有轻微的撕裂伤脸颊表面有烧伤。根据JTAPIC乘客枪ISN1461CBC0966翻译大军1/4/10304236M111417点32分M1151302403B/1-7CAVIRQ司机300899CBL2410军队1/5/10304327M1114十一点五十四分M1151302404第17届FIBIRQ炮手300902军队J.A. 罗杰/信息学在医学解锁1（2015）17 - 2623图1. SODAS链接。图2. 符号数据分析。从表4中可以看出，头部和躯干在集群2上的负载更重，而四肢和最小负载在集群1上以及船舶上更重。这提供了证据，证明良好的医疗护理和较少的极端伤害是生存因素的负荷，而躯干和头部的更严重的伤害是死亡因素的负荷。简单地说，集群负载之间有一个明确的划分，更重要的死亡率因素与不太重要的死亡率身体部位集群分开加载。表5显示了船舶和水头之间的高度相关性受伤，虽然躯干，四肢和轻微的相关性并不显著。这可能表明，无论是TBI还是不太严重的情况，脑震荡换句话说，士兵被转移到的特定船只并不影响错误分类或生存率。表6对死亡和幸存者进行了它在150，000例患者中，2707例最初被归类为头部损伤，138例TBI病例（仅为原始分组病例的50%）被正确归类为TBI死亡。只有35%的交叉验证分组病例被正确分类。大量未分组病例可能是由于TBI病例的错误分类。值得注意的是，13例被归类为死亡，而实际上他们幸存下来，7例被归类为幸存，而实际上他们死亡了。这就提出了一个问题，即采用什么标准来确定TBI与头部或颈部损伤。相比之下，请注意，24J.A. 罗杰/信息学在医学解锁1（2015）17 - 26图三. 生理变量。表4最后的集群中心。表6TBI死亡率分类结果a，c。集群存活率Byrd Dead预测组成员拳击手1 2总伯德集群误差FSig.245.554.5100.0仅对分析中的那些情况进行均方df均方df交叉验证在交叉验证中，每个case是通过从除该case以外的所有case导出的函数来分类的。a50%的原始分组案件得到正确分类。c35%的交叉验证分组病例得到正确分类。表7所有专科死亡率分类结果a。死亡率预测群体成员与最初的TBI死亡率分类不同，表7所示的死亡率分类结果没有I型或II型错误。这可能提供证据表明，我们的PIPSH 3数据挖掘和我们的MMA算法相结合，导致改进的方法，更少的转录错误和TBI的误诊，比那些在原始数据集中报告。原始TBI死亡率分类结果的平均百分比（50%）与所有专业死亡率分类结果的平均百分比（100%）之间的差异显著，t值为12.838，p值小于0.000。简单地说，原始结果和专业结果之间存在显著差异，置信度为95%。I型和II型错误是假阳性和假阳性。a百分之百的原始分组病例得到正确分类。负错误，分别从正确的分类减损。进行了与其他算法的比较研究（即，NN空间）。这两种算法的结果表明，确实存在分别将TBI和脑震荡的头部损伤错误分类为假阳性和假阴性的情况。拳击手1319106632.95912718439.680158485.244.000凯尔萨热718100546.3401850552.263158844.276.000头3813176627.44413375560.1451581129.643.000躯干1063120.1231215189.5971584.940.028末端21613.8211102999.403158.210.648最小20425.0011410016.221158.050.824322157.268193234.0071583.455.065伯德369940拳击手273140Kersage头躯干计数151318凯尔萨热627380末端271522头12312707未分组33105138躯干0145例末端331163%127.872.2100.0最小71375231.868.2100.0未分组23.976.1100.0例表5伯德·博克瑟计数121618方差分析。%211011.11288.922100

下载后可阅读完整内容，剩余1页未读，立即下载