没有合适的资源?快使用搜索试试~ 我知道了~
Lokahi原型:文本中实体关系模型的自动提取迈克尔·考夫曼卢塞恩应用科学与艺术大学信息技术Suurstoffi 41,6343 Rotkreuz,Switzerlandm.hslu.ch摘要实体关系提取设想通过实体的自动识别、通过实体的关联以形成关系、以及通过对这些实例进行分类以将它们分配给实体集(或类)和关系集(或关联)来从文本集合自动生成语义数据模型。作为该方向的第一步,Lokahi原型可以基于TF*IDF度量来提取实体,并且基于文档级共现统计(例如,利用似然比和逐点相互信息)来生成语义关系。本文介绍了一项探索性、原型性、定性和综合性的研究成果,总结了两个研究项目的成果,并在此基础上提出了文本实体关系抽取领域进一步研究的思路。介绍随着我们目前面临的数据爆炸,需要提供概述的工具。知识提取技术可以支持人类跟踪重要信息。如果一个知识管理系统能够自动地从文本中提取语义结构,那么数据和文档的分类和排序任务就可以自动化。例如,电子邮件的自动标记和标记的自动链接可以帮助减轻电子邮件泛滥的问题。此外,知识网络的自动提取可以帮助非结构化数据的探索性分析,例如在社交媒体挖掘领域为此,本文提出了一种基于简化实体关系模型的知识抽取框架描述了一种研究原型,其示例了在该方向上的第一步骤,并且解释了其用于实体提取和关系提取的方法。本文的结论与见解,从这个探索性的合成论文,并概述了研究问题,以实现自动派生实体关系模型的视觉从文本。背景网络作为一种知识表示的元结构已经提出了半个世纪 。 例 如 语 义 网 络 ( Quillian , 1967 ) 、 概 念 图(Sowa,1976)、实体关系模型(Chen,1976)、概念图(Novak Gowin,1984)、主题图(Rath Pepper,1999)和语义网,所有这些在基本原理上重叠,但在应用方向上不同。语义网络为人工智能的知识表示服务;已经开发了概念图,用于数据库系统;概念图被用于大学教学法;主题地图通过XML(XTM)提供元数据交换;语义网技术(RDF)是用于机器与机器之间的知识交换和推理代替手动编码和外化知识,本体学习是一种从数据自动推断知识网络的技术(Maedche Staab,2001,Alani et al. 2003)。存在从数据提取知识网络的方法。例如,(Böhm,Heyer,Quasthoff,Wolff,2002)生成主题版权归作者所有。以. Martin,K. Hinkelmann,A. 格柏学位Lenat,F.van Harmelen,P.Clark(Eds.),AAAI 2019春季研讨会将机器学习与知识工程相结合(AAAI-MAKE 2019)。斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年分类E实体集关系集实体关系(洛卡希)E协会R图1:愿景:知识抽取框架使用基于窗口的同现从文本映射。(Villalon Calvo,2009)使用句法方法,分析句子中的语法结构以归纳概念图。一个知识抽取图1给出了一个知识提取的抽象框架。我们的愿景是直接从文本中自动推断出(Chen,1976)意义上的实体关系模型。在Chen(1976)之后,简化的实体关系(ER)知识网络可以被定义为四元组ER =(E,R,1.)一组符号E*,它们是作为任意字符串子集的命名实体他说:一个特定的人、公司或事件就是一个实体的例子。2.)一个集合R E E的二元关系之间的实体,r。陈写道:“关系是实体之间的关联。”(Chen1976)3.)实体集合的类E相似实体。E’的元素是具有元素关系的类: EE'4.)对相似关系进行分组或聚类的关系集合的集合R’E。这将元素关系扩展到RER模型的这种定义在没有属性的意义上是简化的,实体用它们的名称来标识,并且关系只能是二进制的。此外,它是一种适合于从文本中提取的纯语法方法,其中所有标签,甚至实体集和关系集,都是命名实体,即,以其名称形式用其语法表示识别的实体这减少了图2:Lokahi原型:由提取的知识图支持的搜索引擎。实体和关系分类的任务是为命名实体的元素关系找到真值表。如图1所示,这意味着首先从文本中识别和提取实体。在第二步骤中,通过关联学习生成这些实体之间的关系。并且在第三步骤中,通过抽象,这些实体和关系通过分类被概括为实体集合和关系集合该过程的结果是基于可能大量的非结构化数据的自动提取的语义数据模型。该模型表示数据集合Lokahi 项 目 ( Kaufmann , Wilke , Portmann ,Hinkelmann,2014)(Wilke,Emmenegger,Lutz,Kaufmann,2016)通过提出一种方法并实现一种可以以第一种基本方式提取实体和关系的系统来实现这一愿景。XMAS项目扩展了这些想法,并进一步开发了概 念 识 别 和 n-gram 概 念 提 取 的 原 型 ( Waldis ,Mazzola,Kaufmann,2018)。提取,并讨论了进一步研究的见解,影响和点。概念浏览Lokahi是一个研究原型,原型探索知识网络的自动生成。使用Lokahi原型,可以搜索自动标记的文本,并在图形可视化的帮助下浏览相关术语和关键短语。基于术语统计信息自动标记文本文档。个体术语的关系由它们在语料库中的共同分布确定。然后,这些关系在Lokahi搜索引擎中可视化。如图2所示,用户可以输入搜索项来查找文档并浏览与搜索查询相关的知识网络。该界面被设计成使得用户可以点击与他们正在寻找的概念有关系的节点。 这允许用户探索相关的概念,在概念图中冲浪(Nilsson &Palmer,1999);并查找与概念相关的文档。在图2的示例中,存在两个搜索项“数据库”和“计算机科学”。向用户显示与该查询相关的文档的列表以及将语义上相关的概念可视化到搜索查询的概念图点击一个概念会改变搜索查询词。点击一个文件显示它的内容,连同提取的关键短语,也突出显示在文本中。基于TF*IDF为了从文本中提取实体,选择使用术语频率和逆文档频率TF*IDF(Lee Kim,2008)的关键字提取作为初始方法。对于每个文档d,使用如公式1所示的TF*IDF得分S(t,d)对术语t进行排名,其中TF(t,d)是t在d中出现的次数,并且IDF(t)是公式(2)中定义的逆文档频率,其中n是语料库中的文档数量,并且DF(t)是t的文档频率,t的文档频率被定义为索引中包含t的文档的数量S(t,d)= TF(t,d)* IDF(t)(1)IDF(t)= 1 + log(n /(DF(t)+1))(2)在后来的阶段,这个公式略有调整。首先,在公式(3)中定义的TF*IDF函数的变体显示出更好的结果。S’(t,d)=(TF(t,d)2 + IDF(t))/|会|(三)图3:维基百科文章“计算机科学”和“数据库”的关键词提取在公式3中,TF分量被平方,并且分数被除以|会|文档中的字数,以补偿大文档中的大TF值。此外,我们还实现了一种将关键字组合到n-gram的方法这种方法在Lokahi原型中通过扩展Lucene库源代码并通过索引500K质量级别为FA(特色文章),GA(好文章),A,B和C的维基百科文章来实现,以消除语料库中的噪音。在图3中,示出了我们的用于关键短语提取的原型实现的结果的两个屏幕截图。TF-IDF度量不仅可以基于关键词进行文档匹配,而且可以从文档中提取关键词。此外,很明显,具有高TF-IDF分数的关键字具有高的可能性是实际的语义实体。图4:使用似然比LR通过共现作为关系提取的第一步,选择了基于词共现统计的频率论方法,如(BullinariaLevy,2012)所建议的。基于术语A和B的文档级共现的联合概率p(A,B)使用频 繁 项 集 方 法 ( Agrawal , Imieliński , Swami ,1993),可以有效地计算索引中最频繁关键字基于这种方法,在Lokahi原型中,探索了几种措施。有两项措施最令人感兴趣:式4中定义的逐点互信息PMI和式5中的似然比LR。PMI(a,b)= log(p(a,b)/(p(a)* p(b)|b)/ p(a)|非b)(5)图5:使用逐点互信息PMI这种方法在GUI中实现和可视化,以便可以定性地比较不同的方法。在图5中,使用PMI度量提取的术语之间的关系针对两个术语(计算机科学和数据库)被可视化图中的相关术语被选择为根据PMI度量的术语对的排名列表中的前七个项目显然,这里提取了某种形式的语义关系,因为术语具有相似的相比之下,在图4中,相同基础项的相关项已经使用LR度量来计算。再次,似乎存在所提取的术语之间的语义相似性。然而,在这种情况下,LR应用程序提取与更具体的术语的关系。结论和前景Lokahi原型在技术上证明了提取某种形式的实体和从文本的关系。重要的是不要重新发明轮子,其他研究也已经证明了这项研究证实的这种潜力。然而,值得注意的是,Lokahi的纯统计的句法计算然而,这项研究也表明了艰巨的努力,需要解决的挑战,以实现完整的实体关系模型的自动提取的愿景。我们可以从中得出一些见解和经验教训。首先,提出的原型探索的研究方向,基于案例,定性和原型。Lokahi原型是朝着这个方向迈出的非常小的第一步。然而,它可能是有用的语义和探索性分析的非结构化数据,例如,在社交媒体挖掘,如果它被扩展,以便它可以很容易地可视化的语义结构的任何文档集合作为输入。其次,为了加强研究重点,需要对广泛的相关性和相关性排名措施进行定性和定量评估。重要的是要知道什么不同种类的语义不同的统计数据生成。第三,需要开发更多的研究方法,将单个术语组合成有意义的n元实体。也许可以比较基于窗口或句子的共现统计。第四,即使有实体和关系的最佳提取,也需要研究自动将实体分类到类和将关系分类到关联类型以形成实际实体关系模型的方法。考虑到这一点,我们离实体关系提取还有很长的路要走。第五,有可能纳入人类知识,如考夫曼等人所描述的。(2014)和Wilke et al.(2016),不仅以外在实体、关系、类和关联的形式,例如从DBpedia或语义域模型,而且POS标记,专家系统和其他形式的编码的描述性和过程性知识。确认本研究由瑞士技术与创新委员会(CTI)资助,作为研究项目LOKAHI Inside,CTI-No. 16152.1 PFES-ES和可行性研究X-MAS:跨平台调解、关联和搜索引擎,CTI-No. 26335.1 PFES-ES。引用阿格拉瓦尔河Imieliński,T.,&Swami,A.(1993)。大型数据库中项集间关联规则的挖掘在1993年ACM SIGMOD数据管理 国 际 会 议 上 , 207-216 ) 。 New York , NY , USA :ACM.https://doi.org/10.1145/170035.170072Alani,H.,Kim,S.,Millard,D.E.,Weal,M.J. Hall,W.Lewis,P.H.,&Shadbolt,N.室(2003)。基于本体的Web文档知识自动抽取智能系统,14Böhm , K. , Heyer , G. , Quasthoff , U. & 沃 尔 夫 角(2002)。基于文本挖掘的主题图生成Journal of UniversalComputing,8(6).检索自http://www.jucs.org/jucs_8_6/topic_map_generation_usingBullinaria,J. A. &Levy,J. P.(2012)。从词共现统计中提取语义表示:stop-lists、stem-ming和SVD。Behavior ResearchMethods,44(3),890-907. https://doi.org/10.3758/s13428-011-0183-8Chen,P.P. -美国(1976)。实体-关系模型-走向统一的数据视 图 。 ACM 事 务 数 据 库 系 统 1 ( 1 ) , 9-36.https://doi.org/10.1145/320434.320440Kaufmann,M.,Wilke,G.,Portmann,E.,&Hinkelmann,K.(2014)。结合自下而上和自上而下的交互式知识地图生成企业搜索。R中布克曼梭V. Kifor,J. Yu(编辑),知识科学,工程和管理(pp。186-197 ) 。 施 普 林 格 国 际 出 版 社 . 检 索 自http://link.springer.com/chapter/10.1007/978-3-319-12096-6_17Lee,S.,&Kim,H.(2008)。用于话题跟踪的新闻关键词提取。2008年第四届网络计算与高级信息管理国际会议(第四卷)2,pp.554-559)。https://doi.org/10.1109/NCM.2008.199Maedche,A.,&Staab,S.(2001)。语义网的本体学习。IEEE智能系统,16(2),72-79。https://doi.org/10.1109/5254.920602Nilsson,M.,&帕尔梅尔湾(1999)。Conzilla - Towards aConcept Browser(面向概念浏览器)CID-53,TRITA-NA-D9911)。斯德哥尔摩:面向用户的IT设计中心计算科学,皇家理工学院KTH。Novak,J. D.,&Gowin,D.芽孢(1984)。学习如何学习。北京:北京大学出版社.Quillian,M.室(1967)。词概念:一些基本语义能力的理论和 模 拟 Behavioral Science , 12 ( 5 ) , 410- 430.https://doi.org/10.1002/bs.3830120511Rath,H. H. &Pepper,S.(1999)。主题地图:介绍和快板。在标记技术会议99.关闭USA.Sowa,J. F.(1976)。数据库接口的概念图。IBM Journal ofResearchandDevelopment , 20 ( 4 ) , 336-357.https://doi.org/10.1147/rd.204.0336Villalon,J.,&卡尔沃河上午(2009)。从学生作文中提取概念,面向概念图挖掘. 2009年第九届IEEE国际先进学习技术会议(第10页)。221-225)。https://doi.org/10.1109/ICALT.2009.215Waldis , A. , 马 佐 拉 湖 Kaufmann , M. ( 2018 ) 。Convolutional Neural Networks(卷积神经网络)118-129)。出 席 第 七 届 数 据 科 学 、 技 术 与 应 用 国 际 会 议 。 检 索 自http://www.scite-press.org/PublicationsDetail.aspx?ID=N8Q5cEQ/jYE= t=1Wilke,G.,Emmenegger,S.,Lutz,J.,&Kaufmann,M.(2016)。合并自下而上和自上而下的知识图以进行直观知识浏览。木霉中Andreasen,H. Christiansen,J.卡克普日克拉森湾帕西岛O. Pivert,... S. Zadrožny(Eds.),灵活的查询应答 系 统 2015 ( pp. 445-459 ) 。 施 普 林 格 国 际 出 版 社 .https://doi.org/10.1007/978-3-319- 26154-6_34
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功