中文文本驱动的疾病领域本体学习模型及算法

需积分: 9 115 浏览量更新于2024-08-12 收藏 945KB PDF 举报

"这篇文章是2014年发表在吉林大学学报（信息科学版）上的科研论文，主要探讨了基于中文文本的疾病领域本体学习。研究旨在提高领域本体概念及其关系提取的效率和准确性，采用了关联规则、位图存储、领域相关度和一致度计算以及层次聚类等方法。实验结果证明了该模型的有效性，并且与基于互信息的本体学习方法相比，其在概念和关系提取的准确性上有优势。该论文由贺海涛、郑山红等人撰写，得到了吉林省科技厅自然科学基金的支持。" 本文是关于本体学习在疾病领域的应用，尤其是在中文文本环境下的研究。本体学习是语义网和知识工程中的关键技术，它涉及从非结构化数据中自动构建和更新本体，以描述特定领域的概念、属性和关系。在疾病领域，本体可以帮助医生、研究人员和患者更好地理解和交流疾病相关的知识。研究中提到的关键技术包括： 1. **关联规则频繁项计算**：这是一种数据挖掘方法，用于发现数据集中项集之间的频繁模式。在本研究中，被修改以处理合成词，即由两个或多个词组成的词汇单元，这对于中文文本特别重要，因为中文词汇经常可以通过组合形成新的意义。 2. **位图存储**：位图是一种高效的数据结构，用于表示分词处理后的术语间物理相邻关系。这种技术可以帮助识别词汇在文本中的共现情况，从而推断可能的概念关联。 3. **领域相关度和领域一致度**：这些是用于评估候选概念是否与目标领域相关和一致的指标。通过计算这些度量，可以过滤掉不相关或不一致的候选概念，提高提取的准确性。 4. **关联规则可信度**：这是评估规则可靠性的度量，用于确定概念间的非分类关系，如“症状”可能导致“疾病”。 5. **层次聚类**：这是一种无监督的机器学习方法，用于将概念分组到具有相似特征的类别中，从而发现概念的分类关系。通过这些方法，该模型在疾病领域本体学习上取得了良好的效果，实验结果显示其在概念和关系提取的准确性上优于基于互信息的本体学习方法。这表明，对于中文文本，这种方法可能更适合于疾病领域的知识抽取和本体构建，有助于提升疾病知识的管理和应用效率。

第  卷 第  期吉林大学学报(信息科学版)    

 年  月    (  )  

文章编号:()

基于中文文本的疾病领域本体学习的研究

收稿日期:

基金项目:吉林省科技厅自然科学基金资助项目()

作者简介:贺海涛(— ),男,湖南永州人,长春工业大学硕士研究生,主要从事本体、智能系统和语义网研究,( )

()  ;通讯作者:郑山红(— ),女( 朝鲜族),长春人,长春工业大学副教授,

博士,硕士生导师,主要从事智能系统与语义网研究,()()  。

贺海涛



,郑山红



,侯丽鑫



,王国春



,王 璐



(长春工业大学  计算机科学与工程学院; 软件职业技术学院,长春 )

摘要:为提高领域本体概念及概念之间关系提取效率和准确率,提出基于中文文本的领域本体学习模型。在提

取候选概念的过程中,采用修改后的关联规则频繁项计算方法对合成词进行处理,并结合位图存储分词处理后

术语间的物理相邻关系,再通过计算领域相关度和领域一致度对候选概念进行筛选,最后利用关联规则可信度

和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明,该模型对领域本体学习具有合

理性,提出的算法与基于互信息的本体学习相比较,在概念和关系的提取上具有较高的准确性。

关键词:本体学习;非结构化数据;关联规则;位图;层次聚类

中图分类号: 文献标识码:

       

 



, 



, 



, 



, 



(      ;     ,

   , ,)

Abstract:             ,

               

   ,         ,

               

             

             

               

               

Key words: ; ; ;; 

 引 言

本体是概念模型的明确规范说明

[,]

。自本体被引入计算机领域以来,在语义 、智能信息检索、

信息检索和数字图书馆等领域得到广泛应用。由于手工构建本体费时、费力,效率低,难以应用于复杂

的领域,因此,利用知识获取技术降低本体构建的开销成为一种新的本体构建技术,通常称为本体学习。

由于多数信息都是以文本的形式存储的,如网页、电子文档等,相对于其他的学习资源,文本具有容易

获取、信息量大等特点,因此,基于非结构化数据的本体学习研究近些年成为本体学习领域的一个研究

热点。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38665162

粉丝: 1
资源: 927

中文文本驱动的疾病领域本体学习模型及算法

基于文本的本体学习研究综述

基于深度学习的领域本体构建研究——以汽车领域为例.pdf

基于文本挖掘的领域本体半自动构建方法研究_以教学设计学科领域本体建设为例.pdf

基于网站结构的领域本体学习方法PPT学习教案.pptx

基于LDA的领域本体学习方法的研究与应用

基于领域本体学习资源库自动构建模型研究

基于循环进化的IETM领域本体构建研究

基于关系模式的本体学习研究 (2010年)

论文研究-基于Neo4j的领域本体存储方法研究.pdf

基于部件扩展的领域本体术语抽取研究

最新资源