Lokahi原型：基于文本的实体关系提取和语义数据模型生成

179 浏览量更新于2023-12-04 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Lokahi原型：从文本中迈克尔·考夫曼卢塞恩应用科学与艺术大学信息技术Suurstoffi 41，6343 Rotkreuz，Switzerlandm.hslu.ch摘要实体关系提取设想通过实体的自动识别、通过实体的关联以形成关系、以及通过对这些实例进行分类以将它们分配给实体集（或类）和关系集（或关联）来从文本集合自动生成语义数据模型。作为这个方向的第一步，Lokahi原型可以基于TF*IDF度量来提取实体，并基于文档级共现统计来生成语义关系，例如使用似然比和逐点相互信息。本文介绍了一项探索性、原型性、定性和综合性的研究成果，总结了两个研究项目的成果，并在此基础上提出了文本实体关系抽取领域进一步研究的思路。介绍随着我们目前面临的数据爆炸，需要提供概述的工具。知识提取技术可以帮助人类跟踪重要信息。如果一个知识管理系统能够自动地从文本中提取语义结构，那么对数据和文档进行分类和排序的任务就可以自动化。例如，电子邮件的自动标记和标记的自动链接可以帮助缓解电子邮件泛滥的问题。此外，知识网络的自动提取可以帮助对非结构化数据的探索性分析，例如在社交媒体挖掘领域为此，本文提出了一种基于简化实体关系模型的知识抽取框架描述了一种研究原型，介绍了在此方向上的第一步，并说明了其实体提取和关系提取的方法。本文最后从这个探索性的合成的见解，并概述了研究问题，以实现从文本自动派生实体关系模型的愿景。背景网络作为一种知识表示的元结构，已经被提出了半个世纪。语义网络（ Quillian ， 1967 ），概念图（Sowa，1976），语义关系模型（Chen，1976），概念图（Novak Gowin，1984），主题图（Rath Pepper，1999）和语义网，所有这些都在基本原则上重叠，但在应用方向上有所不同。语义网络服务于人工智能的知识表示;概念图已被开发用于数据库系统;概念图用于大学教学;主题图通过XML（XTM）服务于元数据交换;语义网技术（RDF）用于机器对机器的知识交换和推理本体学习是一种从数据自动推断知识网络的技术，而不是手动编码和外化知识（Maedche Staab，2001，Alani et al.，2003年）。存在从数据提取知识网络的方法。例如，（ Böhm ， Heyer ， Quasthoff ， Wolff ，2002）生成的主题版权归作者所有。以.马丁，K. Hinkelmann，A. 戈伯，D. Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合（AAAI-MAKE 2019）。斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年分类E实体集关系集实体关系（Lokahi）E协会R图1：Vision：知识提取使用基于窗口的同现从文本映射。（Villalon Calvo，2009）使用了句法方法，分析句子中的语法结构以归纳概念图。一个知识抽取图1给出了一个知识提取的抽象框架。我们的愿景是直接从文本中自动推断（Chen，1976）意义上的实体关系模型。根据Chen （ 1976 ），简化的实体关系（ER）知识网络可以定义为四元组ER =（E，R，1.）的人。一组符号E*，它们是作为任意字符串子集的命名实体根据陈的说法，一个特定的人、公司或事件就是一个实体的例子。2.）的情况。一个集合R E E的二元关系之间的实体， r 。陈写道： “ 关系是实体之间的关联。（Chen1976）3.）第三章一个实体集合的类E实体。E'的元素4.）将相似关系分组或聚类的关系集合的集合R'EE。这将元素关系扩展到RRER模型的这种定义在某种意义上是简化的，没有属性，实体用它们的名字来标识，关系只能是二进制的。此外，它是一种适合从文本中提取的纯语法方法，其中所有标签，甚至实体集和关系集，都是命名实体，也就是说，实体以其名称的形式用其语法表示来标识这减少了图2：Lokahi原型：一个由经验知识图支持的搜索引擎。实体和关系分类的任务是为命名实体的元素关系找到真值表。如图1所示，这意味着首先从文本中识别和提取实体。在第二步中，通过关联学习生成这些实体之间的关系。第三步，通过抽象，这些实体和关系通过分类被概括为实体集和关系集此过程的结果是基于可能大量的非结构化数据自动提取的语义数据模型。该模型表示数据集合Lokahi 项目（ Kaufmann ， Wilke ， Portmann ，Hinkelmann，2014）（Wilke，Emmenegger，Lutz，Kaufmann，2016）通过提出一种方法并实现一种系统来实现这一愿景，该系统可以以第一种基本的方式提取实体和关系。XMAS项目扩展了这些想法，并进一步开发了概念识别和n-gram概念提取的原型（Waldis，Mazzola，Kaufmann，2018）。提取，并讨论了进一步研究的见解，影响和点。概念浏览Lokahi是一个研究原型，原型探索知识网络的自动生成。使用Lokahi原型，可以搜索自动标记的文本，并在图形可视化的帮助下浏览相关术语和关键短语。文本文档会根据术语统计信息自动标记。单个术语的关系由它们在语料库中的共同分布确定。然后，这些关系在Lokahi搜索引擎中可视化。如图2所示，用户可以输入搜索词来查找文档并浏览与搜索查询相关的知识网络。界面的设计使得用户可以点击与他们正在寻找的概念有关系的节点。这允许用户探索相关的概念，在概念图中冲浪（Nilsson Palmér，1999）;并找到与概念相关的文档。在图2中的示例中，有两个搜索项，“数据库”和“计算机科学”。向用户显示与该查询相关的文档的列表以及将语义上相关的概念可视化到搜索查询的概念图点击一个概念会改变搜索查询词。点击一个文档会显示它的内容，以及在文本中突出显示的前几个关键短语。使用TF*IDF为了从文本中提取实体，选择使用词频和逆文档频率TF*IDF（Lee Kim，2008）的关键字提取作为初始方法。对于每个文档d，使用如公式1所示的TF*IDF得分S（t，d）对术语t进行排名，其中TF（t，d）是d中t的出现次数，并且IDF（t）是公式（2）中定义的逆文档频率，其中n是语料库中文档的数量，并且DF（t）是t的文档频率，t被定义为索引中包含t的文档的数量S（t，d）= TF（t，d）* IDF（t）（1）IDF（t）= 1 + log（n /（DF（t）+1））（2）在后来的阶段，这个公式略有调整。首先，公式（3）中定义的TF*IDF函数的变体显示出更好的结果。S '（t，d）=（TF（t，d）2 + IDF（t））/|D|（三）图3：维基百科文章“计算机科学”和“数据库”的关键词提取在公式3中，TF分量平方，分数除以|D|文档中的字数，以补偿大文档中的大TF值。此外，我们实现了一种将关键字组合到n-gram的方法这种方法在Lokahi原型中实现，通过扩展Lucene库源代码，并通过索引50万质量级别为FA（特色文章），GA（好文章），A，B和C的维基百科文章来消除语料库中的噪音。在图3中，显示了我们的关键短语提取原型实现的结果的两个屏幕截图。实验表明，TF-IDF度量不仅可以实现基于关键词的文档匹配，而且可以从文档中提取关键词。此外，很明显，具有高TF-IDF分数的关键字具有高的可能性是实际的语义实体。图4：使用似然比LR通过共现作为关系提取的第一步，选择了基于词共现统计的频率论方法（BullinariaLevy，2012）。基于术语A和B的文档级共现的联合概率p（A，B）使用频繁项集方法（Agrawal，Imielioski，Swami，1993），可以有效地计算索引中最频繁的关键字基于这种方法，在Lokahi原型中，探索了几种措施。有两个指标最有意思：公式4中定义的逐点互信息PMI和公式5中的似然比LRPMI（a，b）= log（p（a，b）/（p（a）* p（b）|b）/ p（a）|非b）（5）图5：使用逐点互信息PMI这种方法在GUI中实现和可视化，以便可以定性地比较不同的方法。在图5中，使用PMI度量提取的术语之间的关系被可视化为两个术语，计算机科学和数据库。图中的相关术语被选为根据PMI度量的术语对排名列表中的前七个项目显然，这里提取了某种形式的语义关系，因为术语具有相似的相比之下，在图4中，相同基础项的相关项是使用LR度量计算的。再次，似乎有一个语义相似性之间提取的条款。然而，在这种情况下，LR应用程序提取与更具体术语的关系。结论和前景Lokahi原型在技术上证明了提取某种形式的实体是可行的，从文本的关系。重要的是不要重新发明轮子，其他研究也已经证明了这项研究证实的这种潜力。然而，值得注意的是，Lokahi的纯统计的句法计算然而，这项研究也表明，需要付出巨大的努力来应对挑战，以实现完整的实体关系模型的自动提取的愿景。我们可以从中得出一些见解和经验教训。首先，提出的原型探索的研究方向，基于案例，定性和原型。Lokahi原型是朝着这个方向迈出的非常小的第一步。然而，它可能是有用的语义和探索性分析的非结构化数据，例如，在社会媒体挖掘，如果它被扩展，使它可以很容易地可视化的语义结构的任何文档集合作为输入。第二，为了加强研究重点，需要从质量和数量上评估广泛的相关性和相关性排名措施。重要的是要知道不同种类的语义差异统计数据会产生什么。第三，需要对将单个术语组合成有意义的n-gram实体的方法进行更多的研究。也许可以比较基于窗口或时间间隔的共现统计。第四，即使有实体和关系的最佳提取，也需要研究将实体自动分类到类和将关系自动分类到关联类型以形成实际实体关系模型的方法。考虑到这一点，我们离实体关系提取还有很长的路要走。第五，如Kaufmann et al.（2014）和Wilke et al.（2016）所述，有可能整合人类知识，不仅以外部实体，关系，类和关联的形式，例如来自DBpedia或语义域模型，而且还包括POS标记，专家系统和其他形式的编码描述性和程序性知识。确认本研究由瑞士技术和创新委员会（CTI）资助，作为研究项目LOKAHI Inside，CTI编号16152.1 PFES-ES和可行性研究X-MAS：跨平台调解，关联和搜索引擎，CTI编号26335.1 PFES-ES的一部分。引用阿格拉瓦尔河Imielienski，T.，&Swami，A.（1993年）。大型数据库中项集间关联规则的挖掘1993年ACM SIGMOD国际数据管理会议论文集（第10页）。207-216）。New York，NY，USA：ACM.https://doi.org/10.1145/170035.170072Alani，H.，Kim，S.，Millard，D.E、Weal，M.J.，霍尔，W.，刘易斯，P.H.，&Shadbolt，N. R.（2003年）的报告。基于本体的Web文档知识自动抽取智能系统，14Böhm，K.，Heyer，G.，Quasthoff，U.，&沃尔夫角，澳-地（2002年）的报告。基于文本挖掘的主题图生成Journal ofUniversal Computing，8（6）.检索自http://www.jucs.org/jucs_8_6/topic_map_generation_usingBullinaria，J. A.，&Levy，J. P.（2012）.从词共现统计中提取语义表示：停止列表，词干挖掘和 SVD 。 BehaviorResearchMethods，44（3），890-907.https://doi.org/10.3758/s13428-011-0183-8Chen，P.P. - S.（1976年）。数据关系模型：走向统一的数据视图。美国计算机协会事务数据库系统，1（1），9-36.https://doi.org/10.1145/320434.320440Kaufmann，M.，Wilke，G.，Portmann，E.，&Hinkelmann，K.（2014年）。结合自下而上和自上而下的企业搜索交互式知识地图In R.布赫曼，C. V. Kifor，J. Yu（Eds.），知识科学，工程和管理（pp。186-197 ）。 SpringerInternationalPublishing. 检索自http://link.springer.com/chapter/10.1007/978-3-319-12096-6_17李，S.，&Kim，H.（2008年）。用于话题跟踪的新闻关键词提取。2008年第四届网络计算与先进信息管理国际会议（第2卷，第10页）。554-559）。https://doi.org/10.1109/NCM.2008.199Maedche，A.，&Staab，S.（2001年）的第10页。语义网的本体学习。 IEEE 智能系统， 16 （ 2 ）， 72-79 。https://doi.org/10.1109/5254.920602Nilsson，M.，&帕尔梅湾（1999年）。Conzilla - Towards aConcept Browser（面向概念浏览器）CID-53，TRITA-NA-D9911）。斯德哥尔摩：面向用户的信息技术设计中心计算科学，皇家理工学院KTH。诺瓦克，J.D.，&Gowin，D. B.（1984年）。学习如何学习。北京：清华大学出版社.Quillian，M.R. （1967年）。词概念：一些基本语义能力的理论和模拟 Behavioral Science ， 12 （ 5 ）， 410- 430.https://doi.org/10.1002/bs.3830120511Rath，H. H、&Pepper，S.（1999年）。主题地图：介绍和快板。在标记技术会议99.关闭USA.Sowa，J. F.（1976年）。数据库接口的概念图。IBM Journalof Research and Development ， 20 （ 4 ）， 336-357.https://doi.org/10.1147/rd.204.0336Villalon，J.，&卡尔沃河A.（2009年）。从学生作文中提取概念，面向概念图挖掘.在2009年第九届IEEE国际先进学习技术会议上，221-225）。https://doi.org/10.1109/ICALT.2009.215Waldis ， A. ，马佐拉湖 Kaufmann ， M. （ 2018 年）。Convolutional Neural Networks（卷积神经网络）118-129）。出席第七届数据科学、技术与应用国际会议。检索自http://www.scite-press.org/PublicationsDetail.aspx?ID=N8Q5cEQ/jYE= t=1Wilke，G.，Emmenegger，S.，Lutz，J.，&Kaufmann，M.（2016年）。合并自下而上和自上而下的知识图进行直观的知识浏览。于T.安德烈亚森，H。作者：J.拉森湾帕西岛Pivert，S. Zadrony（Eds.），2015年灵活查询查询系统（第445-459）。SpringerInternationalPublishing.https://doi.org/10.1007/978-3-319- 26154-6_34

下载后可阅读完整内容，剩余1页未读，立即下载