没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报知识提取可视化的数据挖掘建模的体系结构和优化:患者安全护理Gebeyehu Belay Gebremeskel,Birhanu Hailu,Belete Biazen埃塞俄比亚,巴赫达尔大学,巴赫达尔理工学院:计算机系阿提奇莱因福奥文章历史记录:收到2019年2019年12月1日修订2019年12月1日接受在线预订2019年关键词:体系结构临床数据集数据挖掘决策树知识提取模式分析数据可视化A B S T R A C T知识抽取过程的可视化是揭示知识抽取过程细节和数据结构的前沿技术,是数据建模的一种先进表现手段。然而,医疗保健的机制是具有挑战性的动态过程,以获得对患者护理的清晰洞察或理解。本文提出了一种新的数据挖掘建模的体系结构和优化方法,通过分析临床数据集,通过建模技术定义确定性属性,实现知识提取的可视化。因此,知识提取过程的可视化架构是一种系统的方法,以支持用户最好地了解问题,克服可视化技术的挑战。所提出的方法能够动态地处理和分析大规模数据的维度和上下文。这样的变量被定义为使用各种技术来表征它们朝向检测决定性变量作为其影响环境。重点研究了基于模型的可视化技术,包括模型表示、要素交互和集成。检测过程以不同的方法和理由进行了实验,如前所述在第五区这一发现表明,一个先进的和动态的数据挖掘建模技术,以集成应用程序与领域的背景下,最佳的和可理解的决策过程是深刻的理解。这种方法的优势在于知识提取过程的可视化深度以及用户根据其背景和情况的可理解性。对于基于体系结构的建模推理和大规模数据的可视化也是必不可少的。研究人员、医生、专家和其他用户都有可能参考这些新的想法和发现。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍可视化知识抽取是一项基于模型的数据挖掘任务。它使用不同的建模技术来处理可理解和可解释的数据作为域的上下文建模技术在可视化从简单的散点图和直方图到复杂的多维知识表示的过程中发挥着重要作 用( Zhu et al. , 2015;Shneiderman , 1996; Jiawei andMicheline,2006).图形表示是对数据集的交互式探索,*通讯作者。电子邮件地址:gebeyehu. bdu.edu.et(G. Belay Gebremeskel)。沙特国王大学负责同行审查制作和主办:Elsevier严重依赖于先入为主的假设和模型,这有助于识别有趣的和以前未知的即时模式。该建模方法充分利用了研究人员和用户强大的可视化能力,能够定义实例的相似性和相似性情况。然而,为了最大限度地获取可操作的知识和支持决策,可视化大规模数据集挖掘过程面临着许多挑战-例如,医疗机构记录。挑战包括:(i)组织和注释来自联合日志文件和/或电子记录的患者记录。(ii)利用影响因素信息做出正确的决策,顺利完成任务。(iii)可视化因素最优性和相互关系以获得对变量依赖性的清晰洞察的挑战(Arno等人,2016; Compieta等人, 2007年)。因此,我们提出了知识提取过程可视化的数据挖掘技术的体系结构和优化。架构技术是图形表示的范例,是理解挖掘过程中变量之间关系的https://doi.org/10.1016/j.jksuci.2019.12.0011319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comG. Belay Gebremeskel等人/Journal of King Saud University469体系结构和优化是多学科和动态的数据分析方法,用于可扩展和可适应的数据建模(Ioannis和Babis,2003),以构建和优化知识提取过程(Carsten,2006; Charles和Charles,2001)。此外,数据建模代表了两个或多个维度(多变量)可视化(Thomas,2017),重点关注数据量,多样性和速度,其中要求,复杂的界面来定义因变量和自变量的决定因素。这也是如何将数据融入系统以提出最佳工具的问题。特征包括模式可视化、描述和建模过程,其需要足以表示可能被发现的各种数据结构(Thanuja等人, 2011年)。此外,有趣但也具有挑战性的问题是在我们拥有的数据和我们在模型开发中使用的系统之间取得平衡。这意味着概念和实现问题与知识提取可视化的驱动关注一起进行。面向架构实例的交互挖掘过程,涉及到当前内部流程清晰有效的图形算法。为了优化建模技术,步骤和过程需要关注建模架构,因为要考虑和理解领域上下文(Janos和Ajith,2005)。例如,单个数据集或二维数据的可视化过程相当简单,而在多个数据集或多维数据中,它将更加复杂,需要集成和动态的方法。处理计算复杂性和可理解性过程的挑战是困难的(Anastasia等人, 2010年)。1.1. 数据可理解性和提取过程可视化数据建模与优化数据可理解性和知识提取过程的深度可视化有关。在一个定义良好的数据结构中,通过建模知道其组件和架构中的相互关系,这支持其样式中的各种组件,以便最好地规则模型中元素的集成(Shaik等人,2019年)。因此,基于数据结构和模式可视化的体系结构和建模技术是分析不同数据集的面向任务的有效途径。从现有的数据库中理解并行开采过程的相关数据是一项战术性和动态性的任务。这是一个交互式的概念学习,以揭开计算分析和图形表示的因变量和自变量对有影响力的实例检测的挑战。此外,作为通用建模描述,数据准备和预处理阶段是数据模式开发的核心任务(Thanuja等人,2011年)。发现模式的任务和模型开发的任务之间的区别通常是数据挖掘建模基础的数据结构和组件的全局表示。相反,模式是一种局部结构,可能与少数变量和少数情况有关(Gautam和Stephen,2000)。1.2. 可视化数据模型步骤和流程数据体系结构或建模是数据集的全局摘要。为了更好地进行数据表示,需要对数据和领域上下文有深入的理解,从而揭开数据模型步骤和过程的独特特征。数据架构可视化是数据模式的抽象和简短的表述。这意味着知识挖掘过程遵循定义良好的数据模型表示寻求数据选择和评分函数。该过程能够有效地优化各种情况下的可视化(Uthayasankar等人,2017年)。此外,用于可视化大规模数据的体系结构-患者记录的特征在于巨大的体积和动态变化,可能是无限的并且包含多维特征。在这种情况下,定义建模组件和架构元素,以在其各自的相互作用中考虑每个属性,从而确定患者安全护理的决定性因素。这种方法提供了一个很大的机会来简化可视化过程的挑战,作为域和数据行为的上下文。因此,可视化数据模型的步骤和过程是支持优化数据挖掘建模性能的框架和工具。1.3. 可视化数据挖掘过程的复杂性为了优化数据挖掘建模的功能和可理解性,这种架构设计使得可视化映射技术和挖掘算法标准变得简单和相关。它是一种系统的方法,可以清楚地了解最终用户的情况,并探索大规模数据集的交互和数据模式的可视化表示(Edward,2003)。该算法和建模过程反映了广泛的应用。它是一系列关于目标问题和描述变量之间关系的过程,包括规则、概念学习、建模过程等。基于模型处理的方法通过图形化的隐喻描述实例或变量之间的关系。数据挖掘技术中的可视化隐喻是工作定义和视图,作为将抽象数据转换为用户可以理解和使用结果的有意义的视觉形式的过程(Thomas,2017; Gebeyehu等人,2016年)。一个架构启发隐喻分类重要的可视化技术,通过探索如何进一步开发模型对变量的选择,来检查在数据密集型中检测决定性变量的挑战。该过程集成了计算机图形学、图像处理、图形用户界面和其他相关领域的挖掘技术。在数据挖掘中,可视化过程考虑了人类的认知能力,变化和任务特征(Luminita和Catalina,2007)。因此,基于架构和优化的参数化建模与数字描绘有关在考虑域上下文的变量。数据医学数据具有敏感性强、数据量大、时间长、变量多等特点,有其独特的数据查询类型和查询结果,以显示图形隐喻。我们将多个查询结果合并在一起,以突出显示数据中的变化,并将多个结果叠加在一起进行分析。我们提出的方法是增强数据挖掘建模技术的可视化知识提取对病人的安全护理,重点是定义的决定因素。此外,根据其影响了解患者致病因素与有效和高效的诊断和药物治疗有关。本研究的意义可以概括为:在这项研究中,我们提出了一个架构和优化方法,以增强数据挖掘建模的可视化知识提取,体系结构或建模方法能够并且表示根据患者情况的大量临床数据的可扩展过程,该方法在医疗保健中的应用是动态的,通过了解重点变量,架构和优化是一种将知识提取可视化为用户上下文(如医生,专家,研究人员等)的有效方法●●●●470G. Belay Gebremeskel等人/Journal of King Saud UniversityRX1电子 邮件; ¼;:电子邮件i所提出的方法使用真实的患者记录进行了测试和验证,并且能够为医疗保健问题提供清晰的见解。本文的其余部分是在第2节中组织的,我们讨论了该领域现有文献的相关作品(最新技术水平)。在第3节中,我们讨论了挖掘过程中模型的体系结构和优化。在第4节中,我们将可视化技术解释为知识提取过程。第五部分是基于患者安全护理真实数据集的可视化实证研究,最后是结论与建议,并对参考文献进行了总结。2. 文献综述从数据挖掘技术的角度来看,知识搜索的工作表现在数据驱动的研究。 以及大多数医疗保健和/或医学研究人员(Tamra等人,2017;Luminita和Catalina,2007;Yoon-Joo等人,2006; Charles和Charles,2001)专注于患者问题和相应的诊断过程。然而,患者安全护理需要从这些记录的病例中优化相关任务中的症状、诊断和用药。在这项研究中,该方法提出了一种架构,该架构整合了患者护理中可用的不同异质性来源,以选择决定性因素,该决定性因素定义了影响力的程度。数据挖掘建模是一种优化知识提取过程可视化的体系结构设计,它扩展了各个用户可以理解的模型范围。它支持各种技术(Jean,2010;Luminita和Catalina,2007; Ullas等人,2006年; Xidong和Robert,2000年),从而简化了采矿过程的准确性和可靠性。可视化的交互性是知识映射属性的连贯性,通过预测详细的知识抽取过程,投影和过滤显示子集,链接和刷取。它是复杂和动态的任务,可以通过架构和数据结构或模型的优化来支持。数据挖掘建模体系结构是一种有效的、最优化的可视化技术.它可以应用于各种领域和问题,包括医疗安全,这是一种系统的方式来阐明合适的可视化技术作为域和数据集行为的上下文。此外,建模是在数据模式和建模概念中理解特征可视化的一种策略.例如,数据挖掘方法的业务环境需要协调各种技术、域和过程的建模任务,以理解数据和域上下文,例如CRISP(交叉关系行业标准流程)(Goran和Sven,2010;Janusz,2003)。可视化是一种详细显示数据和知识的技术,具有探索性数据分析的逻辑意义(Dursun和David,2008;Xiao,1999)。它是一种可扩展和动态的系统技术,它考虑了模型的预先选择,这些模型涉及找到数据集特征之间的关系的度量和用户可理解性的平衡。此外,基于架构和优化的数据挖掘建模是通过可视化地将自己定位到数据中的模式来探索数据体中的趋势的更好方法。由于数据挖掘建模可以支持数据模式并将其转换为基于洞察和建模的可视化,这可 以 是 一 种 非 常 有 效 的 决 策 工 具 ( Marcello 等 人 , 2005;Hampapuram等人, 2004年)。它可以以图形格式或在正在处理的提取的上下文中有意义3. 方法:采矿过程该方法重点研究了基于聚类、分类、规则等的知识抽取方法。讨论在不同形式的数据(关系,序列等)中数据模式和模型的概率性质这种方法的意义是必不可少的,通过建模过程中增加数据挖掘技术它是知识可视化的指导性和迭代可理解性(Gebeyehu et al., 2015年)。这样的架构是连接和流程的过程,以优化可视化在一个透明的和一个单一的迷人的发现模型。在这项研究中,体系结构提出了建模组件,以便更好地理解,并提供了一个清晰的洞察到最佳的数据挖掘建模技术。知识抽取过程可视化优化是一个系统而深入的关注点,本文对数据建模的最新进展进行了全面的回顾因此,架构和优化的新颖性是通过患者安全护理记录从给定变量在我们的方法中,架构是在更高层次的可视化中定义模型它包括使用各种算法的理论和随机(统计和经验)分析(Emilio和álvaro,2011; John等人,2005年; Ioannis和Babis,2003年)。理论上关注的是(数据)挖掘建模的清晰呈现,这是一种获得参数选择和识别的最佳结果的技术(Jerzy和Dariusz,2015; Johann等人,2003年)。而随机分析则是为保障患者安全而进行的病历系统化。由于给定情况下每个变量的权重值使变量的值发生变化,这导致定义影响一个变量的决定性因素。这意味着了解元素的细节是一个制定、分析和实施归纳过程的过程,该过程可视化从非结构化数据-临床数据集中提取有意义的信息和知识3.1. 方法学数据表示在这种研究方法中,随机建模技术取决于我们从真实健康机构收集和处理的数据 数据噪声太大,相关输入变量的集合需要对所提出的实证分析进行广泛的数据预处理,这支持优化和潜在的输出可视化(Güliz等人,2019; Jean,2010)。假设对于统计模型,考虑作为输入(自变量)特征向量“x”和目标值“y”(因变量)给出的示例向量一个模型在“x”上运行dictts f(x; a)。如果我们统计概率对于分类误差,如果y = f(x; a),则损失函数Q(z; a)= 0,1否则。如果只知道数据向量“z”是根据F(z)的某个给定概率度量生成的,则最佳模型将是a:R a <$<$Q z ; a dF z。为了实用,F(z)的值应该根据经验计算为集合zi; i = 1,. . 、m,假设它们是i.i.d(随机变量)生成的:MRa mQ z a3 1mi¼1●G. Belay Gebremeskel等人/Journal of King Saud University4713.2. 拟议办法概念框架患者记录是以数据量、变量和上下文为特征的大规模数据,其是复杂的,并且需要用于不同分析技术的基于计算机的挖掘方法,其涉及将面向代理的模型与基于捕获观察之间的依赖性的定义的脚本的状态表示相结合(Erika等人,2015年)。对于医疗保健或患者安全护理,信息可视化技术是一种情境建模活动,涉及两个方面来开发并发模型。(i)与解释情况有关的分析是指人类(医生)软代理和患者情况的依赖性(ii)该罪行─事件和数据中语义上重要的结构因此,挖掘技术的架构和优化是一个揭开大规模数据集模式发展神秘面纱的过程。它是一种语义方法,用于从给定数据集的庞大架构组件中可视化新想法或概念的最佳提取。4.1. 符号在本文中,我们使用以下符号进行最佳计算建模和表格标签。术语用作所选变量的符号,其根据其表示和域上下文进行定义。Agent的互补性结构是建模的支撑交互式情景模型中的元素,该模型设计了挖掘过程中组件的清晰洞察和可视化的架构(Kotagiri和Hongjian,2007)。它是一种用于最佳计算算法的分析建模技术(Yoon-Joo等人,2006),它支持描述历史数据集中变量之间的关系,以估计和分类数据值。计算过程需要用户干预,以可视化采矿过程并预测预期结果。表1中所示的算法用于创建分离数据值的公式(Ana等人, 2015年)。D_T:诊断类型:诊断的患者病例类型F_C:频次计数:医生P_ID:患者ID:D_C:诊断计数:诊断出多少例患者病例F_I:频繁间隔:患者预约检查的间隔时间4. 用于使用临床数据集的面向数据建模的体系结构设计是一项明确描述(数据)挖掘过程的任务,以根据领域上下文可视化多个数据集。为了转移这些多数据集,架构和优化技术对于分析和获得有用的模式是重要的(Thanuja等人,2011年)。数据挖掘建模是可视化过程的基本组成部分,用于半自动地发现模式、关联、变化、异常,4.2. 体系结构概念及其应用体系结构是知识抽取过程可视化的数据挖掘建模的基础技术。它是一种动态的方法,可以轻松地找到模式并探索数据集之间的关系。在可视化技术中,从体系结构组件及其与整个数据集的关系中提取有用的信息。由于可视化技术是一种协作活动,可以应用于许多领域,包括医学,地理和天文数据集(Xiao,表1数据挖掘分析技术可视化知识提取。技术主要任务应用/使用神经网络分类将新记录分配给预定义的类,特征,用于预测结果:是/否,高/中/低预测,预测连续数值结果的技术使用估计或分类来预测未来行为或价值观决策树分类将新记录分配给预定义的类,特征,用于预测结果:是/否,高/中/低使用估计或分类来预测未来行为或价值观聚类发现事物的自然分组,这些分组彼此之间比另一个聚类的成员更遗传算法预测使用估计或分类来预测未来行为或价值观预测连续数值结果的技术使用估计或分类来预测未来行为或价值观聚类发现事物的自然分组,这些分组彼此之间比另一个聚类的成员更将新记录分配给预定义的类,特征,用于预测结果:是/否,高/中/低使用估计或分类来预测未来行为或价值观预测连续数值结果的技术模型不容易解释,所有值必须在0和1之间,没有空值。对于分类变量或大量变量来说不是很好模型可以得到不考虑分类不是预测●●472G. Belay Gebremeskel等人/Journal of King Saud University1999年)。它获得了一个全面的概念建模和执行整体采矿过程可视化。这是一项非常直观和重要的任务,对科学和工程的知识提取方法有着深刻和广泛的影响(Yogesh et al., 2005年)。 架构和可视化技术的基本方面是定义不同模型元素的路线图,这些元素与评估和理解问题解决者(用户)、技术(数据挖掘)和可视化(搜索知识)的模型有关。1.一、架构和可视化技术应用是一种先进的通用方法,用于获 取 从 存 储 库 获 得 的 体 积 数据 集 并 对 其 进 行 重 建 以 进 行 渲 染(Gautam和Stephen,2000)。如图1所示,各种可视化技术用于捕获、表示和维护知识提取模型。每个组件都与一组与基本架构相关的规则相关联,这些规则包括各种标准,这些标准将变量的上下文揭示为问题的环境4.3. 可视化技术可视化是指设计和交互数据的可视化外观及其关系,根据领域上下文构建和架构数据建模。基于体系结构的数据建模方法实现了交互式的可视化,提供了理解大规模数据的能力。重要的是减少视觉搜索时间,例如利用低层次的视觉感知。它还提供了一个更好的理解一个复杂的数据集的数据建模和景观隐喻。建模的重要性是了解数据交互,并深入了解可视化的最佳效果,并有效地由用户进行探索。数据挖掘建模的体系结构是一个坚实的和基本的研究问题,具有突出的应用(John等人,2005; Jinyan等人,2004)以在可视化的实质性归纳过程中处理、公式化、分析和实现大规模数据。这些过程有助于从结构化和非结构化数据中提取有意义的信息和知识。分析上下文的范围从理论和数学表示(Edward,2003)到构建高级挖掘数据建模,其执行信息过滤(Ullas等人,2006;Xidong and Robert,2000).数据挖掘建模的体系结构的连续性成为一种非常有趣的方法,对知识提取过程的可视化具有重要意义。它也是一个迭代过程,扩展到知识人框架(William,2002; Robert and William,1993)。可视化架构是一个动态的活动使用不同的技术,通过数学、逻辑和描述类型提取和掌握更复杂的结果,包括:面向像素的技术:它的思想是将每个属性值映射为一个彩色像素,该属性映射到一个固定的颜色映射。每个属性的值在单独的子窗口中显示。因此,模型映射的体系结构使用聚类机制来将变量表示为嵌套的象限图(图1)。 2)的情况。它是一个集成的可视化环境,结合了单视图和多视图技术来支持挖掘过程(Jobin和Varghese,2019)。如图2所示,每个数据值一个像素允许在当前显示器上映射大规模数据。基于图标的技术:它是一种基于图标或图标显示来可视化数据挖掘建模的映射元素的符号表示的技术。其思想是将每个多维数据项映射到图形、颜色或其他图标,以改进数据模式和模型背后的变量的表示,这允许大规模数据并且更足以优化数据挖掘建模技术。分层和基于图形的技术:分层技术的指导性是维度堆叠技术,其细分多维空间并以分层方式呈现子空间。然而,基于图的技术是分层技术的公知代表,其通过应用特定的布局算法、查询语言和抽象来有效地将数据集呈现为图,诸如系列图、神经网络和其他类型。4.4. 病历最优挖掘过程的建模技术及可视化基于体系结构的建模技术是数据挖掘和数据集可视化的最佳表现。体系结构是创建一个适当的度量定义的元素和知识提取过程的建设。建模技术是图形或数据集的映射或公式化的计算过程,或者是以清晰和可理解的方式对输入和输出过程进行建模。该方法有效地优化了大规模数据模式开发的数据挖掘建模技术(Paolo和Maria,2005)的可扩展性。它能够显示内部的关联和交互流程,并以一种抽象的方式表示,用户可以很容易地理解。作为建模输出的模式是通过挖掘过程对数据集功能进行选择和评分的顺序表示和突出属性,通过挖掘算法的指定技术来提高知识提取。该模式还用于优化各种情况下的可视化(Compieta等人,2007年)。用于与最终结果相关联的数学和统计公式的技术(Marcello等人, 2005年)。因此,在本发明中,Fig. 1. 知识提取过程可视化工具的组成部分。图二.像素属于属性窗口安排。G. Belay Gebremeskel等人/Journal of King Saud University473基于架构的数据挖掘建模是指一个4.4.1. 投入产出映射过程输入-输出映射是最佳大规模数据建模的架构数据由一万条记录和五个属性组成(表2)。输入空间就是所选属性的数据集的笛卡尔积。除了这些属性之外,我们还为集群活动添加了平衡属性。新属性被标记为“是”和“否”类因此,本质问题是我们可以以一致的方式定义输出空间,以导出输入到输出的映射。如图3所示,属性通过着色来索引,以将它们的相关性可视化为“D_T”的推断。该模型揭示了属性“D_C”、“F_C”和“F_I”如何偏离“D_T”,这是定义输入输出结构的清晰表示。4.4.2. 作为可视化算法的模型模型表示是一种表示定义的可视化的体系结构算法.给定的临床数据集,其中有五个属性合成使用人工神经网络的相关性。算法测试结果如下(图4和表3)。它是一种自适应的非线性布尔模型,用于知识抽取的可视化。该模型显示输入数据流到隐藏层,然后是输出。模型的每一层都可以通过标准的前馈神经网络算法进行分析,以衡量数据的复杂性及其隐藏的相互作用(Janusz,2003)。图四、临床数据属性的神经网络可视化4.4.3. 作为可视化过程的建模作为一个可视化的过程是一项具有挑战性的任务。然而,可视化信息提取流程始终是相关的。因此,其纯粹的复杂性可能使可视化应用程序的最突出的观点,这是然后能够创建用户的信心和信任。由于该技术考虑了不同的相关因素,通过用户和数据集的属性。它支持资源和约束,如知识、时间和分析/实施(Goran和Sven,2010)。可视化意味着不同的建模过程涉及用户、数据集和知识的差异。此外,建模过程是基于一组度量进行的模型构建过程中有不同的度量方法,以在新情况表2临床数据集的输入。Clinical_data数据表示例数= 1106 6个属性:作用名称类型范围缺少注释F_C房=[1-6]=零IDF_ID_TD_CP_ID真实真实真实标称=[0-15]=[0-8]=[0-4]=[1,10,1.. . ]=零=零=零=零标签标签标称不,是=零图3.第三章。临床数据集输入的输出作为D_T分类器。474G. Belay Gebremeskel等人/Journal of King Saud University表3神经网络节点计算值F_I F_I:-0.081 F_I:-0.139 F_I:-0.125 F_I:-0.149节点2:5.786节点2:-5.796D_T D_T:5.383 D_T:5.319 D_T:5.283 D_T:5.139节点3:5.795节点3:-5.755D_C D_C:3.998 D_C:3.948 D_C:3.963 D_C:3.833节点4:5.523节点4:-5.585偏倚:6.199偏倚:6.064偏倚:6.050偏倚:5.798阈值:-6.592阈值:6.592建筑适合建模过程度量的属性有(i) 该模型通过知道组件来表达对用户的直接益处,(i i)动态的,(iii)关心评估输入和假设模型的灵敏度,以及(iv)能够感觉到整个地图。建模过程中的灵敏度对于数据集的微小变化也很重要。例如,在F_C和D_T分类器的建模过程中,模型由不同的轨迹显示,这是可审计的,意味着查询5. 使用临床数据集的实验和结果讨论在此主题下,我们讨论了数据来源,研究方法和实验和应用,并讨论。5.1. 数据源、类型和离散化数据收集自医院患者记录(2017年2月1日至28日)。该数据集包含超过5万条记录和10个属性,包括患者ID,它是名义型、有序型和整数数据类型的组合。利用缺失值填充技术和数据归一化技术对数据进行噪声消除。作为属性的选择,我们考虑了它们对患者安全护理的重要性和作用在本文中,我们遵循一种定性的方法来选择和可视化的数据集的关键属性(变量)。我们将80%的数据用于训练,20%用于测试目的。我们遵循这种方法以获得最佳的数据可理解性,并创建对可视化过程的简单洞察。分析中考虑了与患者情况相关的属性,以确定其与影响性属性或变量检测的相关性。所选属性在第4.1中列出并注释。5.2. 一种基于决策树的分类和聚类技术决策树是流程图或树结构的过程,可以从每个属性的相似性和关系中解释和推断。它是凝聚层次聚类标准决策树分类器使用真实的病人记录。用于分离数据的聚类树,其中每个分类器代表基于患者情况组合在一起的属性(Saravana,2018)。提取属性特征来度量属性间的相似性是一种系统的方法。根据其对患者安全护理的作用计算每个属性评分的影响。然后从每个共识聚类构建决策树,如图6a和b所示。决策树表示患者致病因素子集的不同所需标准集,其中它支持属性影响水平。聚类属性决策树的一致性与预测决定性因素有关,这可能对患者安全护理的属性具有很大的影响力(Farhad等人, 2012年)。因此,本文中的聚类分类集成了决策树,它是将大数据集划分为若干小属性集的树状结构,使结果具有可解释性。我们使用决策树来建立一个分类模型来预测对病人安全护理重要的属性。这样一个建议的架构和优化的数据挖掘建模应用于检测的决定因素,从病人的记录。这种方法的性能是根据动作相似性和与正常情况的偏差来测量的(Parvez等人, 2015年)。例如,这种检测到的属性有助于医疗再入院决策树或根据患者的情况的其他动作。此外,对于建立决策,领域知识不如基于其条件概率知道影响属性重要。它是患者状况和相应活动(包括诊断和用药)信息的详细表示5.3. 实验及结果讨论数据挖掘建模的体系结构是可视化隐藏的有价值的挖掘功能的基本技术。它提供了一个清晰的洞察力,以解释根据患者的情况和真实数据背后的逻辑变量因此,基于建模的临床数据可视化的架构是一种深入了解患者安全护理的策略,这取决于医生的专业,经验,挖掘过程和结果解释的设施。它是分析的细节和针对性,以加强有关病人的条件的决策过程此外,架构能够揭示诊断类型、持续时间和用药频率、通过何种药物、如何使用、持续多久等考虑的特征它还提供了一个清晰的见解和可能性,以理解和实施适当的分析工具,技术和算法的临床数据分析。基于临床数据建模的可视化和结果分析(知识提取过程)如图所示。 5建筑学。架构的应用是一种系统的方式,模型的可扩展性和能力,以表示大规模的数据在知识提取过程中。像病历这样的数据是巨大的,需要有能力的方法和基于上下文的解释。由于患者记录数据是文本、图像和实验室分析的组合,这些分析在相同意义上可视化,并且多维分析和表示中的问题涉及数据集的架构视图(Carsten,2006; Robert和William,1993)。患者数据也像一个流,需要深入了解关键分析步骤,以构建有用的模拟,从而清晰地了解患者用药情况。用于数据挖掘建模的体系结构被优化为连续结果,作为图形、网络、集成等的方法,以促进交互式患者护理有价值的信息搜索(Anastasia等人,2010; Julio和Alan,2007)。输入隐藏输出节点1(f)节点2(f)节点3(f)节点4(f)第1类(f)第2类(f)F_CF_C:0.179F_C:F_C:F_C:0.164节点1:5.916节点1:-5.885G. Belay Gebremeskel等人/Journal of King Saud University475图五. 知识提取过程的架构和可视化。见图6。基于决策树的属性分类器可视化。如图6所示,可视化知识提取依赖于作为人机交互的数据元素的架构。基于架构的交互算法是一种系统的组件设计,信息表示,查看变量关系,认知和建模的方式,以获得信任,在一个真正的和广泛的可视化提取过程。该应用程序还揭示了如何可视化的步骤和内部和外部环境的数据集的相互作用。这是一个增强数据挖掘建模技术的过程,用于分析患者安全护理的临床数据(Paolo和Maria,2005),提供了一个详细而清晰的知识可视化和提取过程的见解。在挖掘大规模、异构、复杂数据集的过程中,将变量划分为建模元素,有利于确定变量的选取。它的应用范围很广,从复杂临床数据集的结构说明到虚拟环境的创建,以获得更好的患者安全护理的清晰理解。此外,基于建模的可视化是挖掘临床数据的深度表示,涉及通过了解记录的隐藏知识来发现对患者用药的有用预测的整个过程。能够特定于特定步骤,应用用于临床数据模式开发的算法(Anastasia等人,2010年; Usama和Ramasamy,2002年)。这种临床数据模式揭示了详细的数据行为,以深入了解患者安全状况。因此,使用特征值,属性的显著性由它们的相关性定义,如表4所示。为了更好地进行性能评价,我们在属性中加入了类标记属性,以平衡数据的适应度和系统的要求,为后续的实证分析提供支持。基于模型和数值可视化,我们实现了不同的技术方法,支持定义所表示的模型的决定性变量在模型开发过程中,我们采用了一种简单的属性描述方法,然后根据属性的相关性权重选取属性,476G. Belay Gebremeskel等人/Journal of King Saud UniversityMAE1Xjy-xi j1Xjeij5: 6我它是一个重要的分类器。在这个过程中,我们使用的上限和下限加权值如表5所示。建模表示的各种特征与了解每个属性的行为有关,以根据它们的重要性和影响其他属性的能力来选择它们。确定关键属性的分析过程就是确定权重的过程根据患者安全护理,将其上下文可视化。将患者安全的原因因素与相似性度量或基于属性权重的分析相关联,属性的权重是表5的方阵“A”的特征向量轴角1/4 kx1/5 :1mm正方形或矩形矩阵“A”的奇异值和一对奇异向量可以对应于属性的频率或稳定性的临界值,这与用于寻找在特定类型和条件下不可避免地出现的属性的特征之间的包含关系的算法有关。奇异值也是非常必要的,其中矩阵是从一个向量空间到不同维度的不同向量空间的变换,如表6所示。特征向量kx k2 ¼ 15:3非对称矩阵的特征向量在不同的情况下往往具有延迟的正规化。奇异向量几乎总是被归一化为具有等于1的欧几里得长度kv k2 <$ku k2 <$15:4Av¼ru2015 -05- 25其中0;x-0意味着A-kI是奇异的ATürudetA-kI=1,其中AT和T上的上标代表实数转置,表示复矩阵的复共轭转置。这些是奇异值,它与矩阵和奇异矩阵集之间的距离有关。特征值的重要作用在矩阵是从一个向量空间到自身的变换的特定情况下竞争。k的值表4临床数据集属性的相关矩阵。属性F_C F_I D_T D_C F_C 1 0.458-0.0440.120电话:+86-0511-8888888传真:+86-0511 - 8888888粤ICP备 16044442号-1粤ICP备05016888号-1vTv<$1和uT u<$15:5可视化知识抽取的建模技术是一种理解和信任属性的“黑箱”,它支持定义重要因素。从所选的临床数据集中,使用决策树分类器,D_T和F_C比F_I和D_C更加偏离,如表7所示。D_T的相关性较低(0.3312),但其MAE(平均绝对误差)和RMSE(均方根误差)值较高(1.0488和1.6354),其次是F_C。这说明D_T和F_C是病人安全护理的重要决定因素从表7中可以看出,MAE是一个用于衡量预测或预测与最终结果的接近程度的量,计算公式如下:n n表5相关矩阵属性权重值。属性重量F_C0F_I0.134D_T1直流0.249ni¼1ni¼1其中Y i是x i的真值的预测。RMSE用于量化分类器隐含的值与估计量的真实值之间的差异。RMSE是一个风险函数,对应于方差的期望值作为D_T的最大值(1.6354)。它通过分类器所暗示的值与要估计的量不同的量来测量。RAE(根绝对误差)和RRSE类似于实际值平均值的简单预测值(误差为总绝对值表6将临床数据转换为属性选择。0.678- 0.135表7基于决策树的属性分类器分类器属性树的大小相关系数MAERMSERAE(%)RRSE(%)F_C370.69080.65920.789875.381172.3026F_I150.51090.30270.718562.669385.9614D_T250.33121.04881.635488.843294.3563直流230.55040.52150.691877.515683.4873特征值比例累积特征向量属性排名V1 V2V3V4计算值秩属性组合1.5031.2110.3760.3030.3760.6780.685-0.0740.1530.165-0.7090.7040.6240.322120.685F_C + 0.678F_I +0.265D_C-0.044D_T0.737D_T +0.658D_C-0.135F_I-0.074F_C0.7460.1860.865-0.044 0.7370.6740.0260.1353-0.704D_C + 0.674D_T + 0.165F_I +0.153F_C0.5410.13510.265 0.658-0.7040.03504-0.709F_C + 0.704F_I + 0.035D_C +0.026D_TG. Belay Gebremeskel等人/Journal of King Saud University477P. . y - -一种E¼1 .我.P.-我知道误差和总平方误差)。D_T的计算值很高,分别为88.84%和94.35%,并且必须可视化变量的重要性。相对绝对误差取总绝对误差,并将其归一化,除以简单预测器的总绝对误差。数学模型定义为:相关性是强的或正的。模型上F_C和D_T之间的模式是从左上到右下(这是负相关)。在D_T分类器上,多点散点图模型表明D_T在不同标量值下与所有其他属性都呈正相关。D_T和其他属性之间的模型模式是从左下到上,正确的方向。最佳拟合线(也称为n伊吉吉nxj..5: 7分可以绘制成可视化变量之间的相关性。可以确定变量之间的相关性方程xj-x第1页使用决策树分类器,我们还可以定义决定
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功