基于云的电子健康应用语义丰富本体构建和相似度计算

23 浏览量更新于2023-12-25 收藏 725KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

信息学在医学解锁8（2017）66基于云的电子健康应用语义丰富本体构建和相似度计算T. Muthamil Selvan，B.巴拉穆鲁甘VIT大学信息技术工程学院，Vellore，Tamilnadu 632014，印度A R T I C L E I N F O保留字：本体内隐知识条件依赖图导出表示并元道义逻辑余弦相似度A B S T R A C T本体结构是语义网的核心，是知识表示和语义可视化的优秀工具。此外，知识重用是可能的，通过两个本体之间的相似性度量估计，阈值估计和使用简单的if-then规则检查相关性和无关性措施。本体的减少的语义表示提供了减少的知识可视化，这对于电子健康数据处理和分析尤其重要。这通常是由于隐含知识和多态对象的存在而发生的，并且可以通过解析构造来使其语义丰富这种内隐知识以非显性词语和条件依赖行为的形式出现。本文介绍了工作的语义丰富的本体结构和存储库的建设自动化框架。该构造使用基于二元道义逻辑的图推导表示，以构造语义丰富的本体。此外，为了检索响应于云用户文档的一组相关文档，使用传统的余弦相似性度量来估计两个本体之间的相似度，并且使用简单的if-then规则来确定相关文档的数量并获得该文档的元数据以供进一步处理。这些工作模块将对认证云用户进行文档检索、信息提取和领域词典构建非常有益，尤其适用于电子健康应用。该框架使用糖尿病数据集实现，与其他图派生表示方法相比，实验结果的有效性较高。论文中显示的图形结果是一个额外的可视化，用于查看所提出的框架的性能。1. 介绍云计算服务是一种全新的模式，用于在基础设施、平台和软件的不同级别上提供各种服务。这是一个巨大的发展领域，因为它的主要好处是灵活性，按使用付费模式，从而大大降低了成本。如[23]所示，NIST提供了这种全面的定义和主要优势。因此，云计算是一种支付模式，其根据使用情况提供对关于网络、服务器、存储器能力、应用程序、软件服务的可配置计算资源的共享和分布式池的可用、方便、安全和按需网络访问。这种付费使用服务可以安全快速地部署和维护，只需最少的技术管理电子邮件或云服务提供商交互[23]。然而，云计算服务必须促进诸如可扩展性、按使用付费实用模型、分布式架构、安全要素和虚拟化概念等因素[24]。云计算服务本质上是一项新业务管理模式[25]，支持按需访问、弹性、按使用付费、持久连接、可用性、高度安全、共享资源池和虚拟化基础架构[26]。术语Ontology与语义结构密切相关，语义结构意味着“存在理论”。这种语义结构的主要优点是它们提供了一个知识共享框架，支持领域知识的表示，共享和随后的可重用性[1]。本体在知识管理、信息检索、语义Web、信息集成、语义搜索和推荐系统等领域有着广泛的应用。本文将云计算服务中的增值特性定义为本体即服务，并以基础设施即服务为主要内容。然而，本体作为服务的使用和基本概念最初是在[27]中提出的。Ontology as a Service（OaaS）是一种服务，云服务提供商根据用户的需求将本体论应用程序和基础设施部署在一起。本文针对文本通讯作者。http://dx.doi.org/10.1016/j.imu.2016.12.002接收日期：2016年11月19日;接收日期：2016年12月12日;接受日期：2016年12月13日2016年12月18日在线发布2352-9148/© 2016由Elsevier Ltd.发布这是CC BY-NC-ND许可下的开放获取文章（http：//creativecommons.org/licenses/BY-NC-ND/4.0/）。可在ScienceDirect上获得目录列表医学信息学杂志主页：www.elsevier.com/locate/imuT. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6667在云服务器中完成由认证的云用户发布的文档以及通过使用本体对齐过程对相关文档的估计。这一过程由以下方面推动：云服务提供商。目标输入文本文档的语法和语义知识可以使用人工智能中使用的几种知识表示语言来表达，如逻辑，脚本，框架等[19]。关于本体构建的第一个方面与结构的表达性密切相关。本体可以用不同的逻辑来表示，如谓词逻辑、模糊逻辑、时态逻辑、情景逻辑、描述逻辑和模态逻辑[3]。许多应用程序使用描述逻辑（DL）进行知识表示。然而，对于某些应用，由于目标数据集中存在非主导词，因此使用DL对于完美和表达结构是不可行的。相反，只有当结构是表达性的时，来自数据集的知识才会被完美地分派。在这种情况下，目标数据的表现力将降低，导致一些问题，如不稳定性和不完整性。此外，数据集中多态对象的存在是一个非常具有挑战性的问题，其中表达性是一个主要的关键问题[20]。因此，有必要通过揭示隐含的语义知识来提高表达能力，通过使用覆盖非优势词和条件概率事件的模态逻辑来提供表达能力。双元道义逻辑是模态逻辑的一种，非显性词在文档中的出现对逻辑产生了很大的影响。这是对义务、禁止、允许、有条件的义务和有条件的允许分句的形式研究。它可以处理包含否定词的句子，如 SHOULD_NOT ，MUST_NOT，SHALL_NOT，COULD_NOT，WILL_NOT和condi。逻辑依赖语句代替了其他逻辑语言中使用的传统否定符号。除此之外，它还包括描述逻辑中可用的其他符号。本体的第二个方面是重用构建的本体的能力，因为每次新生成的本体都是一个耗时的过程。这种再次使用语义的概念称为本体重用。在本体重用的过程中，即使在异构环境中，现有本体的语义知识也可以用于新构建的本体[21]。因此，可重用性估计是识别交集度的一个重要参数。为了促进这一点，可以使用相似性或相交计算的一些度量。在文献中用于相似性计算的几种方法中，各种距离度量可用于测量两个本体结构之间的相似度。1.1. 时间的需要-语义在万维网上自动交换、共享和重用数据或信息的过程是至关重要的，而且往往具有挑战性。随着信息技术的进步，由于信息资源中普遍存在的异构性问题以及HTML、XML及其底层URL的非语义性，上述问题在Web中的使用非常有限[2]。在文献中有许多技术可用于解决句法和结构异质性问题[21]。然而，语义异构问题一直是一个有待解决的巨大挑战。语义异质性是指两个上下文对信息的理解不同。一些语义异构问题是同义词集、概念格、特征和约束[6]。这些问题在一定程度上已经得到解决。然而，有效的技术是必要的，以彻底解决这个问题。1.2. 可重用性本体结构解决了语义异构问题语义网中的本体对齐过程旨在通过本体重用的方法来发现不同本体中相似元素之间的语义对应关系。本体和随后的本体对齐过程被广泛用于许多应用领域，例如知识管理[5]、电子商务、E-Learning和信息检索系统[8]、语义搜索和推荐系统[22]。随着本体结构的大小和复杂性的增加，手动本体对齐在手动执行时是非常关键和耗时的。因此，自动本体对齐在许多实际应用中成为众所周知的技术，包括信息转换和数据集成、查询处理、电子商务、E-Learning、信息检索和推荐系统[4]。文献中存在的本体对齐技术是基于字符串、语言、约束和语义的方法[7，9]。然而，文献中使用的大多数现有本体对齐技术存在两个主要限制：1. 降低了所构建的本体的语义表达性2. 基于输入文本文档中仅出现主导词的情况，检索现有框架中的概念、概念之间的关系、公理和路径链接。因此，有必要提供智能化的本体对齐技术，以实现本体重用。1.3. 目标在本文中，提出了一个自动化的框架，它提供了单独的工作模块的本体构建，测量本体的表达性和两个不同的本体之间的相似度的估计。这种相似度估计便于云服务提供商向经认证的云用户提供相关文档。这种检索是通过相似度中的阈值和使用普通的if-then规则进行相关文档检索来提供的。在本体构建模块中，采用基于二元道义逻辑的GDR（Graph Derivation Representation）技术构建语义丰富的表达本体。拟议的框架有四个不同的阶段。在初始阶段，使用传统的用户名-密码机制对云用户进行适当的身份验证。随后，经过身份验证的云用户将其未处理但相当有意义的文档提交给云服务提供商进行进一步处理。这些未处理的文档被转换成二元规则表示，构建高表达的本体结构。在第二阶段，GDR为每个概念，不同的关系和它们在一个给定的本体中的对应实例生成。这是通过图形推导的递归过程来促进的。之后，应用集成技术来合并多个图节点结构，以产生给定本体的初始集成GDR。其结果是，一个完整的GDR表示的给定的本体生成通过删除不稳定的关系进行语义测量。在第三阶段，本体的语义表达因子估计和两个不同的本体结构之间的相似度识别使用余弦相似性度量。在最后的第四阶段，检索相关文档并提供给经过身份验证的云用户。这是由阈值估计模块和普通的if-then规则构造来促进的。拟议框架的主要目标如下：• 方便通过认证的云用户将原始文本文档部署到云服务提供商• 提供一个语义稳定的本体结构，使用GDR的• 利用隐含知识、非优势词和条件概率，可视化表达语义的本体结构，事件的发生。T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6668• 估计语义丰富的本体结构的表达因子。• 计算两个不同本体之间的相似度结构使用余弦相似性度量。• 基于规则度量检索相关文档元数据并将其提供给已认证的云用户1.4. 快速分析目标拟议框架有六个显著目标。下面的讨论是一个快速的一步一步的目标分析使用一个例子。步骤1：由于本文中使用的数据集是糖尿病数据集，因此用户最好是在医院环境中工作的人。本文中的云用户可以是医生、护士、实验室技术人员、医院院长等，他们可以发布一些与医疗记录相关的文本文档。这些文档可以是任何格式，并由任何经过身份验证的云用户发布。例如，心脏病专家可以发布与疾病分析或手术相关第2步：发布的文件可能很大，而且文件的技术方面应该有助于任何阅读文件的人，即使他与医院领域无关。例如，文档可以包含与心脏病和手术相关的许多关键字。为了从文档中获得底层知识，必须开发语义知识表示。在本文中，本体结构的发展。步骤3：参考步骤2，为了构建本体结构，存在若干现有技术。然而，一些逻辑表示在出现诸如can、will、cannot、may not等非主导词以及其他条件概率事件的情况下将不准确。在建议的框架中，一个高度表达的本体结构的开发。第四步：为了比较表现力和尊重对于其他逻辑表示，一些因素被识别，如类，关系和实例的总数。与其他现有技术相比，这些数字在所提出的框架中非常高。步骤5：这是识别两个不同文档之间的相似性（差异）的下一步。如果许多心脏病专家可能在同一个域中发布不同的文档，则可以识别这两个发布文档之间的相似性。这将是非常必要的情况下，使用不同的技术称为本体合并。本体合并是知识表示的一个子领域，它可以用于合并由许多医生发布的两个相似文档。然而，本体合并在本文中没有讨论。所提出的框架仅限于计算两个文档之间的相似性。第六步：使用该框架的普通用户可以根据用户的输入文档获取许多相关文档。为了获得相关文档，相似度计算是非常必要的，对于检索，使用简单的if-then规则分类器。所有相关文档的元数据都被检索到经过身份验证的云用户。例如，医生可以发布单个文档，并且可以获得多个相关文档本文件其余部分的结构如下。第2节介绍了相关工作的快速调查。第3节详细介绍了拟议框架。第4节讨论拟议框架的业绩分析。最后一部分是结束语，并对今后的工作提出了几点建议。2. 文献综述目前有许多图形模型用于本体构建和相似性计算度量[3]。基于统一建模语言（UML）的对象约束语言（OCL）就是这样一种技术。OCL被用作本体表示的图形模型。UML适合于表示显式的分类信息，而不是隐式（隐藏）的非分类关系[12]。现有对象之间的语义关系描述可以使用语义链接网络（SLN）技术来识别。在SLN帮助中，语义丰富性的属性比语义正确性更重要[11]。基于本体度量的本体度量称为本体度量，现有的本体度量仅使用本体所展示的显式知识来比较本体实体和本体中显式表达的结构的相似性。在文献中使用了基于聚类的技术，该技术结合了最小路径长度和分类深度，并相对于根节点为层次结构中的每个分支定义聚类。在许多应用中提出了利用分类特征的基于本体的测量，而不使用调优参数来加权潜在稀缺语义特征的贡献[13]。从本体结构中提取两个不同概念的相关超概念和子概念，然后使用相似度函数通过基于语义的匹配过程确定相似的概念类[14]。在他们提出的工作中，基于图的本体术语被用来计算两个基因产物的相似性。引入质量度量来度量和评估某些本体质量属性，例如表达性，内聚性，复杂性，丰富性，相似度[14-18]。然而，大多数现有的系统框架，用于处理本体表示的多态对象是有限的，不准确的和低效的。本文在分析了现有文献的基础上，我们通过开发一个自动化框架来定义一个解决方案，该框架用于构建一个稳定且高度表达的本体结构，该结构可以有效地处理本体表示中的多态性。该框架还旨在估计两个不同的本体结构之间的相似度，为未来的本体重用。2.1. 早期作品图形模型形式的目标数据集必须提供以下功能：• 它应该具有明确表达语义知识的能力，包括概念的隐含亲属关系和非亲属关系。分类学关系现有的本体测量必须仍然适用于模型。• 本体构建框架必须能够处理非显性词和有条件发生的事件，条件概率事件。• 模型中必须解决本体表示中多态对象的问题，以保证模型的稳定性本体结构• 它必须满足用于估计本体结构的表达性的基本因素。• 相似度值的自动计算必须它是可行的，并集成在自动化框架中然而，在文献调查中讨论的大多数现有的图形模型不能满足用于表示语义的图形模型的上述特征。因此，有必要设计一种新的技术来生成一个GDR，它代表了隐含的知识隐藏和显式知识。此外，还必须设计一些算法来解决这种显式和隐式知识表示中的多态性问题[10]。一般来说，本体可以用不同的知识来T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6669图1. 自动化框架。现有的本体表示方法大多采用逻辑作为知识表示语言。内隐知识的存在归因于目标数据集中的非显性词的存在。此外，在某些情况下，语句不仅包含非显性词，而且还包含条件概率事件。本文旨在通过对显性词、非显性词和条件或然事件的识别和处理来提高表达能力。此外，在未来的本体重用的目的，一些措施的相似性计算是必不可少的。3. 拟议的系统框架经过身份验证的云用户可以根据他们发布的原始文档获取高度相关的文档。GDR提供了一个图形化的文本文档的语义描述模型，在这个建议的自动化框架。生成本体的GDR的目标是基于它们的底层GDR来测量和比较本体，以获得稳定的语义测量。它有助于导出和理解目标本体的完整结构语义。在使用GDR技术和二元规则生成成功地生成稳定且具有表达力的本体时，必须对这些构建的本体结构的表达性进行评估。这种表达性度量有助于识别文本文档的隐含知识的表示程度。为了增强表达能力，在转换为相应的GDR之前，使用二元道义逻辑进行知识表示。所提出的自动化框架也有助于估计不同本体之间的相似程度。这是通过使用余弦相似性度量来完成的。随后，在对底层数据集进行多次实验后估计阈值，并使用简单规则基于相似度值获得相关文档。因此，建议的自动化框架提供了可行的解决方案，构建语义丰富的本体结构，表达能力的测量，程度的相似性估计和检索的相关文件使用简单的规则度量。该自动化框架可用于文本信息检索、领域词典构建、信息抽取、推荐系统等应用。所提出的自动化框架如图所示。 1.3.1. 云用户为了享受云服务提供商为相关文本文档检索提供的设施，用户必须是经过身份验证的用户。这些用户通常被称为经过认证的云用户，因为这些用户从任何云服务提供商获得上述服务。为了进行身份验证，使用了使用相应用户名-密码组合的传统安全度量。该组合指标应便于用户持续、安全地从云服务提供商处获取服务。3.2. 并元道义逻辑表示对拟议框架的投入是来自知识库的一份文本文件。二元道义逻辑是一种强有力的知识表示工具，它处理强制性、禁止性、允许性、条件义务和条件允许性等语句。因此，通过识别添加到标准道义逻辑语句中的强制性、禁止性和允许性、条件性义务和条件性允许语句的分句，可以将文本文档中的语句转换为相应的二元道义逻辑格式。一旦这些语句被找到，它们就可以使用合适的构造函数在二元道义逻辑中表示。最后，使用诸如dad（可能）、□（必要）、（合取）、（析取）、否定（禁止）、if-then（条件）和A等运算符将格式转换为形式|条件概率（Conditional Probability）3.3. 检测二元道义关系规则1-如果X是一个名词，并且X通过属性或部分关系与Y相关，并且X和Y之间存在限定词关系，则OBLIGATORY（X HAS Y）。规则2-如果X是一个名词，X通过属性或部分关系与Y相关，并且X和Y之间存在情态关系，那么。规则2.1- 如果模态关系是必须或应该，则义务（X有Y）。T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6670规则2.2-如果模态关系是CAN或WILL，则允许（X有Y）。规则3-如果X是一个名词，X通过属性或部分关系与Y相关，并且X和Y第二个工作模块。在所提出的框架中，集成的GDR被发现是高度稳定的，通过避免多态对象。这一点从稳定性系数的估计中可以看出。稳定性系数定义为，那规则3.1- 如果模态关系是条件必须或S={G01， GO2，...，G开}（一）有条件的应然后有条件的义务（X| Y）。规则3.2-如果模态关系是条件可以或条件将，那么条件允许（X|Y）。规则4-如果X是一个名词，X和Y之间是部分或属性关系，并且是否定的情态关系。规则4.1-如果模态关系是MUST NOT或SHOULD NOT，则禁止（XHAS Y）。规则4.2-如果模态关系是CAN NOT或WILL NOT，则禁止（XHASY）。规则5-如果X和Y是名词，并且与关系OBLIGATORY的属性相关（X不为NULL）。规则6-如果X和Y是名词，并且通过isA关系OBLIGATORY（X具有属性TYPE）相关联。规则7-如果X和Y是名词，并且X通过关系OBLIGATORY的实例与Y相关（X具有实例Y）。规则8-如果X和Y是名词，并且X通过包含关系OBLIGATORY（XHAS Y）与Y相关。3.4. 数学谓词3.4.1. 道义规则规则1-> OBLIGATORY（x，y）.规则2.1必须（x，y）且应（x，y）->HAS_OBLIGATORY（x，y）.规则2.2 NOUN（x）NOUN（y）CAN（x，y）->HAS_PERMITTED（x，y）.规则3.1名词（x）名词（y）必须（x）|（x，y）-> CONDITIONAL_OBLIGATORY（x，y）.规则3.2NOUN（x） NOUN（y）应（x）|（x，y）-> CONDITIONAL_OBLIGATORY（x，y）.规则3.3 NOUN（x） NOUN（y）CAN（x| y）-> CONDITIONAL_PERMITTED（x，y）.规则3.4NOUN（x） NOUN（y）SHALL（x| y） -> CONDITIONAL_PERMITTED（x，y）.规则4NOUN（x）∧NOUN（y）∧MUST_NOT（x，y）∧SHOULD_NOT（x，y）- > HAS_FORBIDDEN（x，y）.规则5 NOUN（x）NOUN（y）NOUN（x）NOUN（y）NOUN C AN _ N O T（x，y）- > H A S _N O T_PERMITTED（x，y）.规则6 NOUN（x）NOUN（y）PROPERTY_OF（x，y）- >OBLIGATORY（x，NOTPORY）.规则7 NOUN（x）NOUN（y）NOUN（x）NOUN（y）O B L I GAT O RY（x，y）- > H AS使得G On ={V On，E On，ρ，λ，η，β}。— V O是顶点的有限集合，其中每个顶点是唯一的正整数。— E O<$V O × V O是一组边。— ρ：C→VO是一个映射函数，其中C是 O中定义的概念和单个例子— λ：A→EO<$ VO是一个映射函数，其中A是公理/断言在O.— η是一个标号函数，它为每个顶点i∈ VO分配一组文字名称η（i）<$ NL，为每个边（i，j）∈EO分配一组文字名称η（i，j）<$ NP，其中NL = NC <$NI，NC，NI和NP是概念、个体实例和角色关系的文字名称的集合，分别3.6. 表达率测量基于诸如细粒度实体和粗粒度实体的度量实体来选择本体度量。细粒度是本体的基本元素，例如概念/类、属性、二元关系、公理和示例。粗粒度的是其他本体元素，如Fanin和Fanout。然而，在所提出的框架中，只分析细粒度的本体元素。考虑到本体结构中的粗粒度元素，如扇入和扇出，在未来的工作进行了分析。下面的测量是为表达性估计计算的，它使用了一些测量实体，如概念、个体示例和角色关系。对于任何本体，Oi，其中i=1到n（并且Oi在存储库中），计算以下参数。NOC（类的数量）：NOC（O）=SC，其中SC =类的（2）NOP（示例数）：NOE（O）=SE，其中SP =示例集（三）NOA（公理数）：NOA（O）=SA，其中SA =公理（4）NOL（路径链路数）：NOL（O）=SL，其中SA =路径链路集（五）在成功计算的概念，例子，公理和路径链接的数量从方程。在公式（2_ATTRIBUTE（x，TYPE）.3.5. 图导出表示E（Oi）=Stat（Oi）其中，Stat（Oi）=Nosi（NOCiCNOEi∧ NOLi）。（六）第二个工作模块包括GDR和三个主要子模块，即GDR生成、集成和消除技术壁垒[22]。该模块通过识别二元道义逻辑中存在的公理来生成GDR。图形推导过程基于三个映射函数ρ、λ和η在三个阶段中进行。在第一阶段，每个公理和断言都是用正整数索引GO最初设置为空，此外，任何两个本体都可以通过使用这个E（O）度量进行比较，以找出它们的表达性因子。这种测量可以使用用户定义的函数或过程递归地估计。目标本体Oi的表达性（E）是布尔度量，并且将其与存储库中存在的所有其他本体结构进行比较。对于来自存储库的任何两个本体，Oi和Oj0，if Stat（Oi）Stat（Oj）没有顶点和关系。然后，检查每个公理/断言α，并为每个α生成GDR（表示为Gα ）。一旦每T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6671个公理/断言的GDR被生成，第二阶段开始，其通过集成操作将每个GDR集成到G O中。的E（Oi，Oj）=01、否则（七）在第二阶段结束时获得给定本体的集成（但未处理）GDR。在第三阶段，GO被视为通过消除类继承和非直接关系的传递性质的循环。最终完整的GDR从3.7. 相似度度量计算自动化框架中的这个模块集中于第二个目标，即估计重用度量[15]。此组件T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6672∑ni，j=1（Vi，aVj，a）2∑ni，j=1（Vi，bVj，b）2包括子本体检测、最大公共子图确定和余弦相似性度量三个子模块[16]。该模块的输入是一个本体库。GDR知识表示技术的有效性可以通过对齐构建的本体来计算。这种本体对齐基于两个方面，即子本体检测和测量两个本体之间的语义余弦相似度。3.7.1. 子本体检测子本体检测是确定一个本体是否是另一个本体的子本体的过程。从图的角度来看，本体Oi是O j i的子本体，GOi是G Oj的子图。高爱是GOj的一个子图，记为GOi<$GOj，i <$存在一个上图功能子：VOi→VOj使得：值，这有助于限制要检索的相关文档的数量。本文在基准医学数据集上进行各种实验后，确定阈值为0.85。由于本文所涉及的是领域本体的构建，因此相似度值非常高。本文对医学本体的构建进行了探讨和实验。随后，使用简单的if-then规则来确定要检索并发送回已验证的云用户的文档。然后，这些云用户可以使用所获得的文档来为他们自己的公司设计网站，或者构建域字典，即医学字典，或者从一组所获得的相关文档中提取信息，以便准备合并的信息丰富的文档。下面给出了这个模块的伪代码。— 对任意顶点m∈Voi— 对任意顶点n∈Voi，η1 （m）净2 （sub（m））。，η1 （n）第2条（sub（n））。伪代码：检索— 对于任意边（m，n）∈EOi，η1（m，n）π 2（sub（m），sub（n））。— 对于任何路径链路（m，n）∈EOi，η1（m，n）⊆ η2（sub（m），sub（n））。通过测试来自两个GDR的顶点和边的标签集合之间的包含关系，可以容易地得出结论，一个本体是另一个本体的子本体（即，一个图是另一个图的子图）。3.7.2. 距离相似度在该模块中，解决了相似度计算的最终目标。这通过使用余弦距离测量来促进。为了促进该计算，在GDR表示的顶点中存在的概念之间分配归一化的权重值。顶点之间的边中的这些权重值使用一些标准度量来分配[12]。根据权重分配，任意两个图Goa和Gob之间的余弦距离度量，通常用dSim表示。dSim（GOa，GOb）定义如下。∑nV V。∑nV V输入：Ontology A（称为基本本体）Ontology B（称为Repository Ontology）从已经存在的其他文本文档（其他用户）中构造输出量：检索到的相关文档的文档元数据N =存储库中存在的本体的数量C=计数器P= 0（相关文件索引）Q=0（不相关文件索引）本体A =经认证的云用户文档的输入本体Ontology B =其他现有文档的存储库本体（其他经过身份验证的云用户）B=1、2、3...... NdSim=i，j=1 i，a j，ai，j=1ibj，b其中Vi，a，Vj，a是图Goa中从顶点i到顶点j的权值，Vi，bVj，b是g∈Gob中从顶点i到顶点j的权重值，Vi，aVj，a=Vi，bVj，b（八）对于循环C= 1到N，其中N是存储库中存在的本体的数量如果本体A和本体B的相似度值在0.85 ~ 1.00之间，则返回本体B对应的文档B的元数据，并递增相关索引本体之间的相似度决定了本体对齐时的重用程度，并对相似度进行了规范化处理。相似度值介于0和1之间。可重用性是通过设定一个阈值来确定的。在本文中，重用的阈值被固定为0.6.然而，该值是在不同领域应用中进行多次重复实验后确定的，并非基准值。如果一个本体被检测为另一个本体的子本体，则它们表示相同的领域，但是它们在该领域中覆盖的知识范围可能不同。在分析子本体检测的基础上，对相似度计算进行了研究。通过子本体与本体之间的余弦距离相似度来估计子本体覆盖知识范围的程度。它们之间的相似性越大，它们覆盖的知识空间就越大。如果两个本体之间的余弦距离值为1.000，则它们表示相同的语义知识，反之亦然，相似度值为0.000。如果两个本体之间的距离相似度大于0.000但小于1.000，则它们携带的部分语义知识是重叠的。3.8. 使用规则度量进行一旦使用第3.7.2节估计了相似度分量，则检索相关文档并将其提供给经认证的云用户的最终阶段就更容易了。在本模块中，阈值P= P+1;其他不相关文档的元数据不返回，不相关索引递增;Q=Q+1;递增计数器C =C+1结束循环4. 业绩评价和结果讨论4.1. 实验方法学建议的框架进行了测试，在UCI存储库[http://archive.ics.uci.edu/ml/]中提供的各种领域本体。该框架初步测试了医疗领域。然而，这种自动化框架可以用于其他主要领域，如教育，商业，营销，军事和其他应用程序。在存储库中，底层文本文档被预处理以将语句转换为合适的格式[19，20]。一旦产生了一个表达本体，它与本体库中的本体进行比较，以确定本体的重用措施。糖尿病的本体论元素可以被一些其他的T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6673本体论这可以通过确定糖尿病与其他本体的相似性来实现，所述其他本体诸如乳腺癌（BC）、乳腺组织（BT）、乳腺摄影（CT）、心脏病（HD）、虹膜（IR）等。4.2. 稳定性测量对于给定的文本文档获得的GDR被认为是稳定的，当循环继承和非直接关系的问题由于传递属性解决方案，如第3.1节[17]中所讨论的。稳定性通过结合GDR的整合和处理来确定。GDR的积分（I）可以通过使用以下等式来完成：nGo=∑Gαii=1（9）表1提供了基于UML-GM（统一建模语言-图形模型）、使用DL（描述逻辑）的GDR-DL（图形推导表示-描述逻辑）、使用二元道义逻辑的GDR-DEOL（图形推导表示-道义逻辑）和GDR-DYDL（图形推导表示-DYaDic逻辑）的稳定性估计的本体测量值（建议）。表1的分析是，使用二元道义逻辑生成的GDR与其他三种模型（即UML-GM（统一建模语言-图形模型），使用DL的GDR-DL（图形推导表示-描述逻辑）和GDR-DEOL图形推导表示-道义逻辑）相比，产生更多数量的类，实例示例，公理和路径链接。产生更多类的原因是，由于二元道义逻辑在本质上是高度表达的，它不仅考虑了主导词和非主导词，而且还考虑了文档中发生的条件依赖事件。如果输入数据集包含更多的非主导词和条件依赖事件，则根据文献调查的其他模型不能产生更多数量的概念、实例示例、公理和路径链接。因此，建议的自动化框架组成的GDR使用二元道义逻辑是有用的确定稳定和语义丰富的本体。表1的相应图形结果如图2所示。上图表示基于使用UML-GM、GDR-DL、GDR-DEOL和建议的GDR-DYDL计算的结果的示例本体的表达性和稳定性。从图形结果可以看出，GDR-DYDL提供了基于目标本体中的类数量、实例示例数量、公理数量和有意义路径链接数量计算的最大表达能力[18]。4.3. 相似度测度糖尿病的本体元素可以被其他领域的本体重用。这可以通过确定糖尿病与其他本体的相似性来实现，所述其他本体诸如乳腺癌（BC）、乳腺癌（BM）和乳腺癌（BM）。图2. 性能评估-稳定性测量。表1本体比较-数据集实例数号类（NOC）路径链接数（NOP）公理数（NOA）GDR-DLUML-GM东德-DEOLGDR-DYDLUML-GMGDR-DL东德-DEOLGDR-DYDLUML-GMGDR-DL东德-DEOLGDR-DYDLUML-GMGDR-DLGDR-DYDL东德-DEOLBCBTCTDTHDIR2861062121023031503021702491964152723302102702604503009102320343422282832714663189102320341215272578151832281113250125230140219120280150260140396302283157280253467293128541085716479285159283260469297130551105916680132571126017082138651227017593T. Muthamil Selvan湾巴拉穆鲁甘信息学在医学解锁8（2017）6674组织（BT）、子宫颈动脉造影（CT）、心脏病（HD）、虹膜（IR）等。按照第3.6节所述估计相似度。表2确定了为各种本体计算的相似性结果。如果两个本体之间的距离相似性为零（即，0.000），那么它们表示相同的语义知识（图。 3）。上图显示了使用余弦相似性度量计算的相似性度量。从图形结果可以看出，所提出的框架使用二元道义逻辑的语义稳定性，表达测量和相似度计算的目标医学糖尿病数据集取得了更好的结果。5. 结论语义稳定的本体构建问题可以通过去除多态对象的技术来生成，两个本体之间的相似度计算以及用于信息检索、领域词典构建、信息抽取等各种目的的高度相关文档的检索一直是非常具有挑战性的问题。本文提出的组合本体框架用于生成语义稳定的本体，使用本体的统计数据和相似度计算来计算表达性，利用了一种高度表达性的知识表示语言，称为二元道义逻辑。在应用这种逻辑处理输入数据集时，除了显式知识之外，还识别了隐式和条件依赖知识。此外，本文还讨论了使用余弦距离相似性度量的相似程度。根据简单的if-then规则生成来检查相关性和不相关性。然而，在进一步的研究中，这已被扩展到使用模糊规则，而不是普通的简单的if-then规则。进一步的扩展也可以在表达性和可重用性的工作中完成，这将集中在使用基于不同逻辑的知识表示语言，即使是异构数据集。表2.基于GDR-DYDL的本体相似度比较。数据集BCBTCTDTHDIRBC10.9500.5280.3070.2870BT0.95010.6370.2080.3020CT0.5280.45710.3280.7480DT0.3070.2080.32810.3280HD0.2870.3020.7480. 32810IR000001图三. 性能评价引用[1] 芬塞尔湾基于本体的知识管理。IEEE Comput2002;35（11）：56-9，（November）.[2] Deborah LJegatha，Baskaran R，Kannan A.基于道义逻辑的网络学习本体对齐技术。 Int J Intell Inf Technol 2012;8（3）：56-78.[3] Chen L，Shadbolt NR，Goble CA.一种基于语义网的网格应用知识管理方法。IEEE Trans Knowl Data Eng2007;19（2）：283-96，（February）.[4] 拉兹梅丽塔湖以本体论为基础的使用者行为模型架构-知识管理的案例研究。IEEETrans Syst，Man Cybern A Syst，2011;41（4）：772-83，（7月）。[5] 杨伟杰，李伟杰.语义网重新审视。IEEE Intell Syst2006;21（3）：96-101，（January/February）.[6] Philippi S，Kohler J.使用XML技术实现基于本体的生命科学数据库语义集成。IEEE Trans Info Tech Biomed2004;8（2）：154-60，（6月）。[7] S. Kraines，W.郭湾，澳-地Kemper，Y. Nakamura，EKOSS：以知识用户为中心到语义Web上的知识共享、发现和集成。第五届ISWC会议记录，美国佐治亚州雅典;2006：833-846。[8] D.瓦莱湾Fernandez，P. Castells，基于本体的信息检索模型。载于第二届ESWC会议记录，希腊伊拉克利翁; 2005年：455-470。[9] 张文辉，张文辉，张文辉，张文辉.语义相似性的语义检测，在第14届国际会议的会议记录WWW，pp。107-116;2005年。[10] Deborah LJegatha，Karthika R，Audithan S，Bala BKiran，使用道义逻辑和本体重用度量在第十一届数据挖掘和仓库国际会议论文集，Elsevier- Pr o c e d i aCo m p u t e r Sc i e n c e ; 2 0 1 5 ： 8 4 ： 31 8 - 3 2 6 。[11] 曲英，程国。猎鹰概念搜索：一个实用的网络本体搜索引擎。 IEEE Trans SystMan Cybern A Syst 2011;41（4）：810-6，（July）.[12] Maedche A，Staab S.测量本体之间的相似性。《第13届 EK A W 国际会议论文集》，西班牙锡圭恩扎; 2002年：251-263。[13] Popescu M ， Keller JM ， Mitchell JA. 基因产物相似性的基因本体模糊度量。IEEE/ACMTrans Comput Bio Bioinfo 2006;3（3）：263-74，（7月/9月）。[14] Al-Mubaid H，Nguyen H.在多个本体中测量生物医学概念之间的语义相似性。IEEE Trans Syst，Man Cybern C Ap

下载后可阅读完整内容，剩余1页未读，立即下载