Web表格中自动提取上下文化数量事实的新方法

86 浏览量更新于2023-11-30 收藏 770KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4033·从Web表格中提取上下文化的数量事实永盛浩hvthinh@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯Koninikakpal@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯西蒙·拉兹涅夫斯基srazniew@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯摘要克劳斯·贝尔贝里希kberberi@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯格哈德·魏库姆weikum@mpi-inf.mpg.de马克斯·普朗克信息学研究所德国萨尔布吕肯表1：足球队的示例数量查询，与过滤条件的量化措施的实体，是超出了功能的搜索引擎和QA助理。为了使这样的查询Web内容，本文开发了一种新的方法，自动提取数量的事实，从特设的Web表格。这涉及到识别具有规范化值和单位的量，将它们与适当的实体对齐，并将这些对与信息线索结合起来，以匹配具有修饰符的复杂查询。我们的方法包括一个新的方法来对齐数量列实体列。以前的作品假设每个表只有一个主题列，而我们的方法适用于复杂的表，并利用外部语料库作为证据。对于语境化，我们从围绕表格的文本和结构标记对于查询时的事实排名，我们设计了一个新的评分技术，利用上下文相似性和事实间的一致性。我们的构建块对国家的最先进的基线和外部实验与两个查询基准的比较证明了我们的方法的好处。关键词信息提取，数量事实，Web表格ACM参考格式：何永成、柯尼尼卡、西蒙·拉兹涅夫斯基、克劳斯·伯贝里和格哈德·魏库姆.2021 年从Web表格中提取上下文化的数量事实。在网络会议2021（WWW '21）的会议记录，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。ACM，美国纽约州纽约市，10页。http：//doi.org/10.1145/3442381.34500721引言动机很大一部分Web查询都围绕着实体的数量：查找、过滤、比较和聚合定量属性，例如建筑物的高度、运动员的跑步时间、足球运动员的进球或得分率、电动汽车的能耗等。[4、7、16]。在本文中，我们重点关注数量本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450072团队体育场能力教练值（生物学中）拜仁安联球场约75000Hansi Flick2.549欧元房贝尔纳贝乌81,044齐达内3.649欧元曼城未知n/a瓜迪奥拉2.055英镑切尔西斯坦福桥40,834兰帕德1.958英镑利物浦安菲尔德53,394于尔根·克洛普约1.7英镑过滤器[16，17]，一类重要的查询，也是比较搜索的构建块例如：英国足球队价值超过15亿英镑的短跑运动员在9.9秒内跑完100米能效高于80 MPG-e的电动汽车请注意，这种查询比数量查询更困难，例如“曼城的价值”或“博尔特的个人100米记录”。查找得到搜索引擎和QA助手的良好支持另一方面，数量过滤器缺乏这种支持，因为“超过15亿磅”或“低于9.9秒”等条件大多在字符串匹配模式下解释。对于某些示例，搜索引擎返回良好的网页，例如关于“10秒障碍”或“100米”的维基百科文章，但这不是用户的查询意图，并且她必须乏味地筛选这些页面，而不是接收清晰的实体列表答案。此外，结果质量取决于查询中的值，因为某些（字符串解释的）值匹配良好的列表页面。例如，有一个10秒以下的100米比赛列表，但没有准备好9.9，9.8等。我们可以转向开放数据生态系统中的知识库（KB）和结构化资源，而不是利用网络然而，知识库几乎不涉及数量;例如，维基数据包含数千名短跑运动员，但只知道他们的个人记录的几个实例。要利用开放数据源，人们仍然需要在海量的数据源中找到相关的数据集，并评估它们的新鲜度和完整性。问题. 回答数量过滤查询的核心是从Web源中提取实体数量事实的问题。在[16]中，对于来自文本源的单句的情况，通过识别实体-数量对以及相关上下文单词，并在先前的工作基础上使用数值和单位[31- 33 ]识别数量，成功解决了这一问题。在本文中，我们的目标是挖掘到一种不同的数据源，即嵌入在HTML页面中的自组织Web表格，并解决准确提取实体数量的事实与相关的上下文的问题。··WWWVinh Thinh Ho，Koninika Razniewski，Simon Razniewski，Klaus Berberich，andGerhard Weikum4034{|联系我们X表1中显示了一个说明性的例子，它可以用来回答关于英国足球队的查询。从Web表格中提取以实体为中心的事实，包括调查[6，11，41]。输出通常是一组主谓宾（SPO）三元组，通过明智地选择与S和O相同的行中的两个单元格并从O的列标题中导出P来获得结合链接到KG的实体[34]，提取器可以产生例如（皇家马德里，hasCoach，Zinedine Zidane）。然而，由于以下几个原因，最先进的方法不能很好地用于数量事实：第一，量以非常多样和潜在的噪声形式出现例如，表1中的team值只是字符串，单位和范围以及缺失值（“unknown”，“n/a”）都不同。正确解释表格单元格可能需要理解周围的文本。其次，很难推断出哪个列对表示数量事实，也就是说，数量列引用哪个实体列。在示例表1中，我们需要确定Capacity指的是Stadium，Value to Team指的是Value to Team，但这对于机器来说并不明显。列标题更通用、信息量更少的常见情况进一步加剧了这一问题例如，而不是像球队，体育场，容量等标题我们可以有名称、站点、大小等，很难解释之前的web表工作似乎假设所有列（对于O的可能选择）都引用同一列（对于S），并且每行实体的列通常是最左边的一列[6，41]。然而，这些假设并不总是正确的。第三，单独提取实体-数量对对于查询应答是不够的，因为许多查询包括诸如“英国”的附加修饰符或诸如“能量效率”的感兴趣的度量的线索。为了能够将这些与存储库进行匹配，利用来自大型文本语料库的线索的技术（第3和4节）。我们引入了一种新的计算数量事实置信度的方法，通过将来自文本收集的证据与基于类型的推理相结合来克服稀疏性问题（第4节）。我们提出了一种新的方法，用于在查询时证实提取的事实，重新排序它们并基于一致性学习技术修剪误报（第5节）。实验包括我们的主要构建块对各种基线的比较评估，以及如何提取的事实支持数量查询的外在研究。后者基于[ 16 ]中的100个查询的基准和150个查询的新集合，这些查询具有基于列表的地面实况。实验数据和代码可在以下网址获得： https://www.mpi-inf.mpg.de/research/quantity-search/quantity-table-extraction。基于QuTE的搜索演示程序可在以下网址访问：https：//qsearch。mpi-inf.mpg.de/table/。2模型和系统概述2.1模型用于事实提取的输入是来自网络抓取、电子表格语料库或维基百科转储（例如，[13]）。定义[Web表]。具有r行和c列的web表是元组T =（H，B，X），其中：- H={hi |i ∈ {1.. c}}是c列的标题- B=bi，ji1. r，j1. C为表体单元格;-是表周围的上下文，通常包括网页标题、表标题、指向表的HTML路径的DOM树标题以及表附近的文本。记为Ck ={hk}<${bi k |i ∈ {1.. r}}且Rk ={bk j |j ∈ {1.. c}}对于数量事实，事实提取还需要捕获相关的上下文。以前的工作对三元组从web表忽略了这一点为、、、第k列和第k行。重要的问题;他们认为提取是与下游用例（如用户查询和问题）分离的。Approach. 本文解决了上述问题，并提出了一个完整的解决方案，称为QuTE（Qu antty T able E extraction），用于从Web表中提取上下文化的数量事实，以支持数量过滤查询。首先，为了处理表中的噪声量和不同的单位和尺度，我们采用基于模式的提取器和基于规则的规范化。其次，对于对齐正确的实体和数量列的问题，关键任务之一，我们设计了一个统计推断方法，利用外部文本语料库。第三，上下文提取的数量事实，我们利用文本和DOM树标记，围绕一个表，我们引入了一种新的方式来计算置信度分数的数量事实，基于证据的文本集合。最后，由于所得到的事实仍然可能在查询结果中产生许多误报，我们已经开发了基于一致性学习的查询时增强评分的其他方法[39]。贡献以下是新的贡献：我们提出了一个强大的解决方案，复杂的表格所带来的列对齐问题，利用外部文本语料库和联合推理与实体链接。这是第一种专门用于提取数量事实的方法，此定义适用于header和row-wise记录。对于具有行标题和每列数据记录的“垂直”表，我们可以使用[6]中的算法检测方向并应用转置操作。定义[E柱和Q柱]。对于给定的表，其单元格主要包含命名实体（可以链接到知识库）的所有列都称为E列。单元格主要包含数值量的所有列都表示为Q列。“主要”的实现基于以一种方式或另一种方式合格的细胞的分数的阈值（例如80%）。既没有标记E也没有标记Q的列（例如，许多单元格包含长文本）被忽略。在表1中，Team、Stadium和Coach列是E列，而Capacity和Value是Q列。从表中提取事实的输出以三元组的形式表示，称为数量事实，或简称为Qfacts（cf.[16]其中该术语是针对基于文本的提取定义的定义[Qfact]。从表T中提取的数量事实=（H，B，X）是形式F=（e，q，X）的三元组，其中：- e是E列Cj的表体单元bi，j中的实体，或者是实体提及的字符串形式，或者已经是在KB中唯一标识的链接实体·······从Web表格中提取上下文化的数量事实WWW4035Q（）≥ ≤F（）Q（）（）下一页.Σ--{}x文本语料库Qfact评分量查询联合CA EL情境化Web表格实体链接立柱定位Qfact匹配Qfact腐蚀实体答案QfactsQfact提取搜索排名图1：QuTE系统概述- q是在Q列Ck的单元bi，k中的适当归一化的具有适当单位的量;- X是Qfact上下文，从表中提取的一组（小）提示词（或短语）（包括上下文X），其对于对（e，q）是特别指示性的。作为示例，来自表1的完美提取器应当产生Qfacts，诸如（Estadio Santiago Bernabéu，81044，“stadium ，capacity ，seats，Madrid”），（Chelsea F.C.，1，958，000，000 GBP，“team，value，football，London”），假设表格周围有信息性文本。对于查询回答的下游用例，我们考虑一个简单的电报或问题式查询模型，包含单个数量过滤器，如下[16]：定义[Qquery]。数量查询是一个三元组= qt，qq，qX其中：- qt是答案实体的期望类型，例如足球队或短跑运动员;- qq是“θ值单位“形式的数量条件，其中θ可以是、、之间或（近似）相等，并且单位是可选的，因为某些度量没有单位，例如体育场容量或国家人口;- qX是一组附加的限定词，答案应该匹配这些限定词，例如Qquery的答案是匹配所有查询条件的Qfact，其中上下文项可以近似匹配（例如，部分地或通过基于嵌入的相似性）：定义[Qanswer]。对Qquery=qt，qq，qX的回答是Qfact= e，q，X，使得e是类型qt的实体，q满足过滤条件qq，并且X是与查询上下文qX的充分匹配。例如，Qfact（切尔西足球俱乐部， 1，958，000，000 GBP，“team，value，football，London”）将近似匹配关于“Britishfootballteamswithvalueabove1.5billionpounds”的查询（因为“British”和“London”通过词嵌入高度相关）。2.2系统QuTE的所有组件，即Qfact提取方法以及数量查询处理器和结果排名器，都在图1所示的管道中实现。管道从Q列的数量识别和标准化以及E列的实体链接到KB开始。然后，关键的一步是将Q列与其适当的E列链接起来的列对齐，以获得有效的Qfact。Qfacts的上下文化和评分涉及围绕表和来自外部语料库的统计数据分析上下文。最后，查询处理涉及匹配以及考虑事实间一致性的附加评分步骤。对于数量识别，我们采用了QEWT [33]和Illinois Quantifier[31]的先前工作的组合。后者用于从表格单元格中提取数值和单位QEWT应用于列标题，以发现有关单位和比例因子的其他信息。然后，检测到的数量被链接到QuTree目录[33]进行归一化，包括单位转换。对于实体识别，我们使用AIDA字典（github. com/ambiverse-nlu），它提供了一个大的实体名称集合，例如“Real”、“Bayern”等，候选实体。对于实体链接（EL）（即，消除对KB项目的识别提及的歧义），有大量专门针对Web表格的现有工作[3，14，19，23，29]。我们遵循[3]，在概率图模型上进行这考虑了实体流行度的先验、表格单元格中的提及与KB实体之间的上下文相似性、以及同一行（其应当是语义相关的实体）和同一列（其应当具有相同的语义类型）的实体候选之间的一致性。我们用Φ表示结果实体，其中Φbi，j是表体中输入提及bi，j的实体3立柱定位QuTE的一个主要构建块是列对齐，它将Q列与其正确的E列对齐，以便从正确的列对中提取Qfacts本节讨论了Web表处理的现有工作的局限性，并提出了一个鲁棒的方法来完成这项任务。我们的方法的关键新颖之处是利用外部文本语料库的线索，并耦合与实体链接器列对齐的推理定义[列对齐（CA）]。给定具有x个Q列Ck1，Ck2，.的预处理表T，Ck和y E列Cv1，Cv2，.，Cvy，列对齐是将每个Q列映射到一个E列的函数Λ：Λ=Cki→Cvj|i∈{1.. x}3.1启发式及其局限性列对齐已经在之前的工作[5，8，37]中在简化的假设下解决，例如将所有Q列映射到相同的E列，这归结为为为整个表识别单个主题列。我们克服了这一限制，但永远不要考虑从以前的作品中得到启发的化学定义[最左启发式]。每个Q列Ck被映射到最左边的E列Cv，即Cv有资格作为E列的最小vWWWVinh Thinh Ho，Koninika Razniewski，Simon Razniewski，Klaus Berberich，andGerhard Weikum4036−（一）|）的方式=Φ（b），q=bi，vi，k（F）（）下一页（）下一页定义（Closest-left Heuristic）每个Q列Ck被映射到Ck左边的最近的E列Cv，即v

下载后可阅读完整内容，剩余1页未读，立即下载