基于语义相似度的AdHoc表检索

3 浏览量更新于2023-10-15 收藏 1.3MB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1553基于语义相似度的Ad Hoc表检索摘要张硕斯塔万格大学zhang@uis.no斯塔万格大学krisztian.uis.no搜索我们介绍并解决了ad hoc表检索的问题：用排名的表列表回答关键字查询。这个任务不仅本身很有趣，而且还被用作许多其他基于表的信息访问场景（如表完成或表挖掘）的核心组件。这项工作的主要新的贡献是一种方法，用于执行查询和表之间的语义匹配具体而言，我们（i）表示查询和表在多个语义空间（离散稀疏和连续密集向量表示）和（ii）介绍了各种相似性措施，以匹配这些语义表示。我们考虑所有可能的语义表示和相似性度量的组合，并将其用作监督学习模型中的特征使用基于维基百科表格的专用测试集合，我们展示了在最先进的基线上的显着和实质性的改进CCS概念• 信息系统→相似性度量;特定环境检索;学习排序;关键词表检索，表搜索，语义匹配，语义表示，语义相似度ACM参考格式：张硕和克里斯蒂安·巴洛格。2018.使用语义相似度的Ad Hoc表检索。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM ， New York ， NY ， USA ， 10 页。https://doi.org/10 。1145/3178876.31860671介绍表格是一种功能强大、用途广泛且易于使用的工具，用于组织和处理数据。正因为如此，在Web或Wikipedia上可以“在那里”找到大量的表，表示结构化信息的巨大而丰富的最近，越来越多的工作开始利用表中包含的知识。（i）搜索表（响应于关键字查询[2，6，9，30，34，42]或种子表[12]），(ii) 从表中提取知识（例如RDF三元组[29]），以及（iii）扩充表（使用新的列[4，6，12，21，45，49]，行[12，45，49]，单元格值[1]或到实体的链接[5]）。本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186067新加坡-维基百科，自由的百科全书新加坡https://en.wikipedia.org/wiki/新加坡年GDP名义（10亿）GDP名义人均实际国内生产总值GNI名义（10亿）GNI名义人均2011346.353新元S$66，816S$342.371338.452新元S$65，2922012S$362.332S$68，205S$354.061S$351.765S$66，2162013S$378.20070，047新元S$324.592S$366.618S$67，902显示更多（共5行新加坡-维基百科，自由的百科全书新加坡https://en.wikipedia.org/wiki/新加坡语言图中的颜色百分英语蓝色百分之三十六点九普通话黄色百分之三十四点九马来红色百分之十点七显示更多（共6行图1：Ad hoc表检索：给定一个关键字查询，系统返回一个表的排名列表。搜索表本身就是一个重要的问题，而且是许多其他与表相关的任务的核心构建块。然而，它还没有得到应有的重视，特别是没有从信息检索的角度。本文旨在填补这一空白。我们将即席表检索任务定义如下：给定关键字查询，返回来自表语料库的与该查询相关的表的排名列表。见图1为例。应该承认，这个任务并不是全新的，事实上，它在数据库社区已经存在了一段时间（也称为关系排名）[4，6，9，42]。然而，除了需要更好的排名技术之外，还缺乏公共测试集合和适当的评估方法。表格可以像文档一样进行排名，通过考虑其中包含的单词[6，9，34]。可以通过并入与表质量相关的附加信号来直观地，高质量表是局部连贯的;其他指示符可以与包含它们的页面相关（例如，如果它们被其他页面链接[4]）。然而，现有方法的主要限制是它们仅考虑表和查询的内容之间的词法匹配。这就产生了我们的主要研究目标：我们可以超越词汇匹配，提高表检索性能，通过将语义匹配？我们考虑两种主要的语义表示。一种是基于概念，如实体和类别。另一种是基于词和实体的连续向量表示（即，字和图形嵌入）。我们引入了一个框架，处理匹配在不同的语义空间中的一个统一的方式，通过建模的表和查询的语义向量集我们提出了两个一般性的战略（早期和晚期融合），产生四种不同的措施计算之间的相似性查询和表的语义表示的基础上新加坡主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1554（）下一页（）下一页∑（）∈（）（）下一页正如我们上面提到的，先前工作不足的另一个关键领域是评估。首先，这个任务没有公开可用的测试集合第二，使用基于集合的度量（计算前k个结果中的相关表的数量）进行评估，这是测量检索有效性的我们通过开发一个专门构建的测试集合来解决这个问题，该集合包括来自维基百科的160万个表，以及一组具有分级相关性判断的查询我们建立了一个学习排名的基线，包括丰富的功能集从以前的工作，并优于文献中已知的最好的方法。我们表明，我们提出的语义匹配方法，可以大大提高检索性能在这个强大的基线。综上所述，本文做出了以下贡献：我们介绍和正式的特设表排名任务，并提出了无监督和监督的基线方法（节。2）的情况。我们提出了一套新的语义匹配方法，超越词汇相似性（节。（3）第三章。我们开发了一个标准的测试收集这项任务（节。4），并证明我们的方法（节的有效性。（五）。测试集合和所报告方法的输出可在www.example.com上https://github.com/iai-group/www2018-table。2临时表检索我们正式的特设表检索任务，解释什么信息，灰与表相关联，并引入基线方法。2.1问题陈述给定关键字查询q，自组织表检索是返回表的排名列表T1，. . .，Tk，从表C的集合中获得。作为自组织任务，独立于所有其他返回的表Ti来评估每个返回的表Ti的相关性，i辛j。因此，表的排名归结为向语料库中的每个表分配得分的问题：得分q，T。然后将表按其分数的降序排序。2.2桌子的解剖我们将假设以下信息可用于语料库中的每个表;字母参考图2。(a) 页标题，从中提取表。(b) 章节标题，即，嵌入表格的特定部分的标题(c) 表标题，提供简要说明。(d) 表格标题，即列标题标签列表(e) 表体，即所有表格单元格（包括列标题）。2.3无监督排序执行表排序任务的一种简单直接的方法是采用标准的文档排序方法。Cafarella等人。[6，9]利用网络搜索引擎检索相关文档;然后从排名最高的文档中提取表格而不是依赖于外部服务，我们表示为单字段或多字段的文档表，并应用标准的文档检索技术。一...BCDe图2：Wikipedia页面中嵌入的表格2.3.1单字段文档表示。在最简单的情况下，与给定表相关联的所有文本被用作表的表示。然后使用现有的检索方法，如BM25或语言模型，对这种表示进行评分。2.3.2多字段文档表示。不是将所有文本内容折叠到单个字段文档中，而是可以将其组织成多个字段，例如表标题、表头、表体等。（参见第2.2节）。对于多场排名，Pimplikar和Sarawagi [34]采用后期融合策略[48]。也就是说，每个字段针对查询独立地评分，然后取字段级相似性得分的加权和：score（q，T）=∑wi×score（q，fi），（1）我其中fi表示表T的第i个（文档）字段，并且wi是对应的字段权重（使得iwi=1）。可以使用任何标准的检索方法来计算得分q、fi我们使用我们实验中的语言模型2.4监督排名文档检索（以及许多其他检索任务）的最新技术是采用监督学习[23]。特征可以分为三组：（i）文档，（ii）查询，以及（iii）查询文档特征[35]。类似地，我们区分三种类型的特征：（i）表，（ii）查询，以及（iii）查询表特征。在表1中，我们总结了以前关于表搜索的工作[4，9]的特性。我们还包括一些额外的功能，已被用于其他检索任务，如文档和实体排名，我们不认为这些新的贡献。2.4.1查询功能。查询功能已被证明可以提高文档排名的检索性能[24]。我们从文档检索中采用了两个查询特征，即数字在查询[41]中的术语的集合，并且根据以下来查询IDF [35]：t qIDFft，其中IDFft是字段f中术语t的IDF得分。此功能是为以下字段计算的：页标题、节标题、表格主体和···∑主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1555（）/（）（））联系我们表1：表检索的基线特征查询特征源值QLEN查询词[41个]{1，…，n}IDFf字段f[35]第三十五届[0，∞）台特征行数表中的行数[4、9]{1，…，n}列数表中的列数[4、9]{1，…，n}表中的NULL空表格单元格[4、9]{0，…，n}PMI联系我们基于ACSDb的架构一致性得分嵌入表[9]第九届[4]美国（−∞，∞）{0，…，n}outLinkspageViews表Importance表PageFraction嵌入表格的页面的外链接数页面浏览页上表数的倒数表大小与页大小[4]美国[4]美国[4]美国[4]美国{0，…，n}{0，…，n}（0， 1]（0， 1]查询表特征#hitsLC最左侧列单元格[9]第九届{0，…，n}点击次数SLC最左侧第二列单元格[9]第九届{0，…，n}#hitsB表体总查询词频[9]第九届{0，…，n}qInPgTitleqInTableTitle在页标题中找到的查询标记数与标记总数的比率在表标题中找到的查询标记数与标记总数[4]美国[4]美国[0， 1]yRank表的Wikipedia页面在Web搜索引擎结果中的查询排名[4]美国[0， 1]{1，…，n}MLM相似性查询和多字段文档表示之间的语言建模得分。表[10]（−∞，0）2.4.2表功能。表功能仅依赖于表本身，旨在反映给定表的质量（与查询无关）。一些特征是简单的特征，如行数，列数和空单元格数[4，9]。一个重要的特征是点式互信息（PMI），其取自语言学研究，并且表示表的一致性。两个表标题单元格hi和hj之间的相关性为由下式给出：PMI hi，hj = log P hi，hjP hiP hj.表通过计算该表的所有列标题对之间的PMI值，然后取它们的平均值来计算。在[9]之后，我们通过从属性相关统计数据库（ACSDb）[ 8]中获取频率统计数据来计算PMI，该数据库包含从大型Web抓取中提取的数百万个表中导出的表标题信息。另一组特性与嵌入表的页面有关，通过考虑其连接性（inLinks和outLinks），流行度（pageViews）和表2.4.3查询表功能。最后一组中的特征表示查询与给定表之间的匹配程度。该匹配可以基于页面标题（qInPgTitle）或表标题（qInTableTitle）中的查询项的出现。或者，它可以基于表的特定部分，例如最左边的列（#hitsLC）、左起第二列（#hitsSLC）或表体（#hitsB）。表格通常嵌入在（web）页面中。表的父页面被外部搜索引擎检索的排名也被用作特征（yRank）。(In在我们的实验中，我们使用维基百科搜索API来获得此排名。）此外，我们将混合语言模型（MLM）相似性得分[31]作为一个特征，这实际上是性能四种基于文本的基线方法中的一种方法（参见第5节）。重要的是，所有这些特征都是基于词汇匹配的。我们在本文中的目标也是启用语义匹配;这就是我们将在下一节讨论的内容。3语义匹配本节介绍了我们的主要贡献，这是一组新颖的语义匹配方法的表检索。其主要思想是通过在一些语义空间中表示查询和表，并测量这些语义（向量）表示的相似性我们的方法包括三个主要步骤，如图3所示。它们如下（在图中从外到内移动）：(1) 查询/表的第3.1节）。(2) 每个原始术语被映射到语义向量表示（Sect.3.2）。(3) 查询-表对之间的语义相似性（匹配分数）基于它们的语义向量表示来计算（Sect. 3.3）。我们使用所有可能的语义表示和相似性度量的组合来计算查询表相似性，并使用由此产生的语义相似性得分作为学习排名方法中的特征。表2总结了这些特性。3.1内容提取我们将查询/表的“原始”内容表示为一组术语，其中术语可以是单词（字符串标记）或实体（来自知识库）。我们将这些表示为q1，. . .，qn和t1，. . .，t，m分别用于查询q和表T。主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1556--（[）]（）下一页{}∪（）∪（）→ →[]~q1...~qn~t1...~tm~q1...~qn......~t1...~tmAGGR原始查询表示（单词/实体集）语义向量表示（概念袋/嵌入）原始表表示（单词/实体集）查询~q1...~qn语义匹配~t1...~tm表早期融合匹配策略后期融合匹配策略图3：我们使用语义表示计算查询表相似度的方法3.1.1基于单词。简单地使用word to- kens来表示查询/表内容是很自然的选择。也就是说，q1，. . .，q，n由查询中的唯一字组成。至于桌子，我们让{t1，. . . ，tm}包含标题、说明和表2：语义相似性特征。每一行表示4个特征（每个相似性匹配方法一个，参见图1）。表3）。所有特征都在[-1，1]中。特点语义代表原始代表表的标题。在这个阶段我们只考虑-词的存在/不存在。在查询表相似性匹配期间，还将考虑单词的重要性（Sect. 3.3.1）。3.1.2基于实体。许多表格侧重于特定的条目[49]。因此，考虑表中包含的实体相当于对其内容的有意义的表示我们使用DBpedia知识库作为实体存储库。由于我们使用的是从Wikipedia中提取的表，因此实体注释很容易获得（否则，可以获得实体注释Entity_* Bag-of-entities实体类别_* Bag-of-categories实体词_* 词嵌入词图_* 图嵌入实体3.1.3核心柱检测。本文介绍一种简单有效的芯柱检测方法。它基于列实体率的概念，列实体率被定义为包含实体的列中的单元格的比率我们写cerTc j来表示表T中列j的列实体速率。然后，索引的核心col-自动地，参见，例如， [42]）。重要的是，不要盲目地把...在表中提到的所有实体中，我们希望集中于突出的实体。在以前的工作中已经观察到[5，42]，表经常umn变为：arg maxj =1.. T中列的T。|c| cer（Tc [j]），其中T |C|是数字有一个核心列，主要包含实体，而其余的列包含这些实体的属性（其中许多是en-自己）。我们写Ecc来表示包含在表的核心列中的实体集合，并在第节中描述我们的核心列检测方法。3.1.3. 除了直接从表的主体部分获取的实体之外，我们还包括与页面标题（Tpt）和表标题（Ttc）相关的实体。我们通过使用页面标题和表标题，分别从知识库中检索相关实体。我们写Rks来表示针对查询s检索的前k个实体的集合。我们详细的实体排名方法在节。3.1.4. 最后，该表表示为三组条目的并集，分别来自核心列、页面标题和表标题：t1，. . .，tm =EccRkT点RkTtc.为了获得查询的基于实体的表示，我们发出使用与上述相同的检索方法也就是说， {q1，. . . ，qn}= Rk（q）。3.1.4实体检索。我们采用了一个具有五个字段（名称、类别、属性、相似实体名称和相关实体名称）的现场实体表示，并使用混合语言模型方法[31]对实体进行排名。字段权重是统一设置的。这对应于[19]中的MLM-all模型，并且显示为坚实的基线。我们返回前k个实体，其中k被设置为10。3.2语义表示接下来，我们将查询/表项嵌入到语义空间中。也就是说，我们将每个表项ti映射到向量表示ti，其中tij是指该向量的第j个元素。对于查询，该过程类似。我们讨论了两种主要的语义空间，袋的概念和嵌入，在每一个有两种选择。前者使用稀疏和离散，而后者采用密集和连续值的向量。我们的语义匹配框架的一个特别好的属性是，它允许我们以统一的方式处理这两种不同类型的表示。t1...tm年q1...Qn主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1557→[]转→[]（）（）（）（）{→（→） ∈[]∈[]}i=1不C-q的计算类似地进行。i=1i我3.2.1概念袋从语法空间转移到语义空间的一种替代方法是使用spe-表3：相似性测量。测量方程cific概念在这项工作中，我们使用来自知识库这两个语义空间在过去已经被用于各种检索任务，与传统的词袋内容表示二重奏。例如，基于实体的表示已用于文档检索[36，44]，基于类别的表示已用于实体检索[3]。一个重要的区别，从以前的工作是，而不是表示整个查询/表使用一个单一的语义向量，我们映射到一个单独的语义向量每个单独的查询/表的条件。从而获得更丰富的表现。我们使用前面的基于实体的原始表示部分，即，ti和qj是特定实体。下面，我们解释一下早期cos（C→q，C→T）Late-maxmax（{cos（q-i，t-j）：i∈[1. . n]，j∈[1. . m]}）后和和（{cos（q→i，t→j）：i∈[1. . n]，j∈[1. . m]}）后期平均avg（{cos（q-i，t-j）：i∈[1. . n]，j∈[1. . m]}）然后通过取质心向量的余弦相似性来计算查询表相似性当查询/表的内容是表示在词方面，我们还利用词的重要性，采用标准的TF-IDF术语加权。注意，这仅适用于词嵌入（因为其他三种语义表示基于实体）。在字嵌入的情况表项tj表示为t→i，这是一个稀疏圆盘质心向量被计算为=∑mt→ × TFIDF（t）。t → i中的每个元素都对应于一个唯一的实体。因此，t-i的维度是知识库中的实体的数量我不是 j有一个值如果实体i和j是相关的，则为1（在实体i和j之间存在链接）。它们在知识库中），否则为0。Bag-of-categoriest→i中的每个元素都对应于一个Wikipedia类别。因此，ti的维数相当于维基百科类别的数量（大约数十万）。如果实体i被分配给维基百科类别j，则tij的值为1，否则为0。3.2.2嵌入。最近，已经提出了用于获得预测分布式上下文的嵌入的无监督表示学习方法，即，字嵌入[27，32]或图形嵌入[33，37，40]。这样的向量表示已成功地用于一系列IR任务，包括临时检索[15，28]，上下文建议[26]，跨语言IR [43]，社区问答[50]，短文本相似性[20]和赞助搜索[17]。我们考虑来自前一节的基于单词和基于实体的原始表示，并如下使用相应的（预训练的）嵌入。词嵌入我们将每个查询/表词映射到词嵌入。具体来说，我们使用300维的word2vec [27]，在Google News数据上训练。我们将每个查询/表实体映射到一个图嵌入。特别是，我们使用200维的RDF 2 vec [37]，在DBpedia 2015-10上训练。3.3相似度量最后一步是关注的查询表对之间的相似性的计算，基于语义向量表示，我们已经获得了他们。我们介绍了两个主要的策略，产生四个具体的相似性措施。这些总结见表3。3.3.1早期融合第一个想法是用单个向量表示查询和表。然后，它们的相似性可以简单地表示为对应向量的相似性我们3.3.2晚期融合。代替将所有语义向量qi和ti组合成单个语义向量，后期融合首先计算所有查询向量和表向量之间的成对相似性，然后聚合那些。我们让S是保持所有成对余弦相似性得分的集合：S= cos qi，tj：i1.. n，j1.. M. 查询表然后将相似性得分计算为aggrS，其中aggr是一个AG-分离功能具体来说，我们使用max、sum和avg作为聚合器;参见表3中最后三行的等式。4测试集我们介绍我们的测试集合，包括表语料库，测试和开发查询集，以及用于获得相关性评估的程序4.1表格语料库我们使用WikiTables语料库[5]，其中包括从维基百科提取的160万个表（转储日期：2015年10月）。为每个表提供以下信息：表标题、列标题、表体、（维基百科）页标题、节标题和表统计信息，如标题行数、列数和数据行数。我们进一步将表体中的所有链接替换为来自DBpedia知识库（版本2015-10）的实体标识符，如下所示。对于包含超链接的每个单元格，我们检查它是否指向DBpedia中存在的如果是，我们使用链接实体的DBpedia标识符作为单元格的内容;否则，我们用锚文本替换链接，即，把它当作一个字符串。4.2查询我们从两个独立的来源中抽取了总共60个测试查询（每个来源30个）：（1）查询子集1（QS-1）：Cafarella et al.[6]通过众包从网络用户那里收集了 51 个查询（使用 Ama-zon 的MechanicalTurk平台，用户被要求建议热门词或提供有用数据表的URL）。（2）查询子集2（QS-2）：Venetis等人[42]分析了来自Google Squared（用户搜索结构化数据的服务）的查询日志，并构造了100个查询，所有这些查询都是实例类（例如，[4]我们的设C→q为奇异项向量（C→q=∑n）的q→i/n）。将类字段和属性字段串联为单个查询字符串类似地，C-T表示表项向量的中心。的（例如，表4列出了一些示例。实体/类别空间中的向量;对于查询项，它以分析的方式跟随。主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1558†‡表4：来自我们的查询集的示例查询[6][42][43][44][45]电子游戏亚洲国家货币美国城市笔记本电脑CPUkings of africa食物卡路里经济gdp吉他制造商国际足联世界杯冠军服装品牌4.3相关性评估我们通过雇佣三个独立的（受过训练的）法官来收集分级的相关性评估。对于每个查询，我们汇集来自五种基线方法的前20个结果（参见第5.3节），使用默认参数设置。(Then，我们在获得的相关性标签的帮助下训练那些方法的参数。）每个查询-表对都以三分制进行判断：0（不相关）、1（稍微相关）和2（高度相关）。注释者位于一个场景中，他们需要创建一个关于查询主题的表，并希望找到可以帮助他们完成该任务的相关表。具体地，他们被给予以下标签指南：（i）如果不清楚表格是关于什么的，则该表格是不相关的（例如，缺少标题或说明）或关于不同的主题;（ii）如果某个表格中的某些单元格或数值可以使用，则该表格是相关的;以及(iii) 如果当创建关于查询主题的新表时可以从表中使用大块或几个值，则该表是高度相关的我们将多数投票作为相关性标签;如果没有达成多数协议，我们将得分的平均值作为最终标签。为了测量注释者之间的一致性，我们计算测试注释的Kappa检验统计量，其为0.47。根据[14]，这被认为是适度一致。总共有3120个查询表对被注释为测试数据。其中，377个标记为高度相关，474个标记为相关，2269个标记为不相关。5评价在本节中，我们列出了我们的研究问题（节。5.1），讨论我们的实验设置（节。5.2），介绍我们比较的基线（Sect.5.3），并提出我们的结果（节。5.4），然后进行进一步分析（Sect. 5.5）。5.1研究问题我们试图回答的研究问题如下。RQ1语义匹配可以提高检索性能吗？RQ2哪种语义表征最有效？RQ3哪种相似性度量的性能更好？5.2实验装置我们评估表检索性能的归一化贴现累积增益（NDCG）在截止点5，10，15和20。为了检验显著性，我们使用双尾配对t检验，并将/分别表示在0.05和0.005水平的显著性。我们的实现基于Nordlys [18]。我们的许多功能都涉及外部资源，我们将在下面解释为了计算实体相关特征（即，表1中的特征以及基于表2中的实体袋和类别袋表示的特征），我们使用来自DBpedia知识库的具有摘要的实体（总共4.6M）。该表基于ACSDb语料库[ 8]估计PMI特征。对于分布式表示，我们采用预训练的嵌入向量，如Sect. 第3.2.2条。5.3基线我们从文献中实现了四个基线方法。单字段文档排名在[6，9]表中表示并排名为普通文档。具体来说，我们使用Dirichlet平滑的语言模型，并使用参数扫描优化平滑参数。[34]第34话：我的世界使用五个字段将每个表重新发送为字段文档：Wikipedia页面标题、表节标题、表标题、表体和表标题。我们使用混合语言模型方法[31]进行排名。字段权重使用坐标上升算法进行优化;为每个场单独训练平滑参数。Cafarella等人的方法。[9]使用中的功能表1，以[9]作为源。在[9]之后，我们训练了一个具有5倍交叉验证的线性回归模型。Bhagavatula等人的方法”[4]《易经》云：[1][2][3][4][5][6][7]我们用坐标上升和5倍交叉验证训练Lasso模型。此外，我们引入了一个学习排名基线：LTR基线它使用表1中列出的全套功能。我们采用逐点回归使用随机森林算法。1我们将树的数量设置为1000，并且每个树中的特征的最大数量为3。我们使用5折交叉验证（w.r.t.）来训练模型。NDCG@20）;报告的结果是5次运行的平均值。基线结果见表5的顶部方框。从该表中可以看出，我们的LTR基线（第五行）优于文献中的所有现有方法;这些差异是实质性的并且具有统计学显著性。因此，在本文的剩余部分，我们将使用相同的学习算法（随机森林）和参数设置，与此强基线进行比较。我们注意到，我们的重点是语义匹配功能，而不是监督学习算法。5.4实验结果表5的最后一行显示了语义表检索（STR）方法的结果。它将基线特征集（表1）与新语义匹配特征集（来自表2，总共16个）组合。我们发现，这些语义特征带来了大量的和统计上显着的改进，超过LTR基线。因此，我们肯定地回答RQ1。相对改善范围为7.6%至15.3%，取决于等级截止值。为了回答RQ2和RQ3，我们在表6中报告了语义表示和相似性度量的所有组合。在1我们还试验了梯度提升回归和支持向量回归，并观察到关于特征重要性的相同的一般模式。然而，它们的整体性能低于随机森林。主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1559表5：表格检索评价结果。方法NDCG@5NDCG@10NDCG@15NDCG@20单字段文档排序0.43150.43440.45860.5254多字段文档排序0.47700.48600.51700.5473WebTable[9]0.28310.29920.33110.3726WikiTable [4]0.49030.47660.50620.5206LTR基线（本文）0.55270.54560.57380.6031STR（本文）0.59510.6293†0.6590‡0.6825†表6：就NDCG@20而言，与基线特征（来自表1）组合使用的语义特征的比较。相对改进情况列于括号内在表5中针对LTR基线检验统计学显著性。Sem等生殖毒性早期晚期最大值晚期总和晚期平均值ALLBag-of-entitiesBag-of-categories词嵌入图嵌入ALL0.6754（+11.99%）0.6287（+4.19%）0.6181（+2.49%）0.6326（+4.89%）0.6736（+11.69%）†0.6407（+6.23%）†0.6245（+3.55%）0.6328（+4.92%）0.6142（+1.84%）0.6631（+9.95%）†0.6697（+11.04%）‡0.6315（+4.71%）†0.6371（+5.64%）†0.6223（+3.18%）0.6831（+13.26%）‡0.6733（+11.64%）‡0.6240（+3.47%）0.6485（+7.53%）†0.6316（+4.73%）0.6809（+12.90%）‡0.6696（+11.03%）‡0.6149（+1.96%）0.6588（+9.24%）†0.6340（+5.12%）0.6825（13.17%）‡空间的兴趣，我们只报告NDCG@20;对其他国家主导的气候变化协商小组临界值也观察到了同样的趋势。当用单个特征扩展LTR基线时，具有白色背景的细胞显示检索性能。具有灰色背景的单元对应于使用具有不同相似性度量的给定语义表示（行）或使用具有不同语义表示的给定相似性度量（列）。第一个观察结果是所有特征都比基线有所改善，尽管并非所有这些改善都具有统计学显著性。关于不同语义表示的比较（RQ2），我们发现实体袋和词嵌入取得了显着的改善;参见表6的最右列。值得指出的是，对于词嵌入，这四种相似性度量似乎是相互补充的，因为它们的组合性能优于任何单独的方法。对于实体袋，情况并非如此，其中通过组合仅改善了相似性度量中的一个（Late-max）。总的来说，在回答RQ2时，我们发现实体袋表示是最有效的一种。这种稀疏表示优于单词嵌入的事实被认为是一个有点令人惊讶的发现，因为后者已经接受了大量（外部）数据的训练。至于相似性度量（RQ3）的选择，当使用单个语义表示时，很难命名一个明确的赢家相似性度量之间的相对差异一般较小（低于5%）。当使用所有四种语义表示时（表6中的底行），我们发现后期和和后期平均实现了最高的总体改进。重要的是，当使用所有语义表示时，所有四个相似性度量都显著且实质性地超过基线。我们还注意到，所有相似性度量的组合并不产生比后期和或后期平均更进一步的改进作为对RQ3的回答后期和或后期平均）作为优选的相似性方法。5.5分析我们继续对结果进行进一步分析5.5.1功能. 图4显示了表检索任务中个体特征的重要性，以基尼系数衡量。小说的特点是用颜色来区分的。我们观察到，前10个特征中有8个是本文介绍的语义特征。5.5.2语义表示。为了分析这四种语义表示如何影响个体查询级别的检索性能，我们在图5中绘制了LTR基线和每个语义表示之间的差异。直方图显示了根据NDCG@20评分差异（∆）的查询分布：中间的条表示没有变化（Δ< 0.05），而最左边和最右边的条分别表示实质上受到伤害和帮助的查询的数量（Δ> 0.25）。我们观察到类似的模式袋的实体和词嵌入表示;前者具有较少的查询，这些查询被显著地帮助或伤害，而总体改进（在所有主题上）较大。我们进一步注意到，对于范畴袋和图嵌入，分布的形状是相似的。5.5.3查询子集。在图6上，我们根据两个查询子集QS-1和QS-2，以NDCG@20绘制了LTR基线和我们的STR方法的结果。通常，两种方法在QS-1上的表现优于QS-2。这主要是因为QS-2查询更集中（每个查询针对特定类型的实例，具有所需的属性），因此被认为更困难。重要的是，STR在两个查询子集上实现了对LTR的一致5.5.4单个查询。我们在图7中绘制了两个查询子集的LTR基线和STR之间的差异。表7列出了我们下面讨论的查询。图7（a）中最左边的条对应于查询对于这个广泛的查询，有两个相关的表和一个高度相关的表。LTR不主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1560图4：归一化特征重要性（以Gini得分衡量）。(a) Bag-of-entities（b）Bag-of-categories（c）Word embeddings（d）Graph embeddings图5：LTR基线和给定语义表示之间的查询级别差异的分布检索前20个中的任何高度相关的表，而STR管理返回前10个中的一个高度相关的表图7（a）中最右边的条对应于查询对于该查询，有两个相关表和一个高度相关表。LTR为这个查询产生一个几乎完美的排名，返回排名最高的高度相关表，以及排名2和4的两个相关表STR在最高排名返回一个不相关的表，从而将相关结果在排名中向下推一个位置，导致NDCG@20减少0.29图7（b）中最左边的条对应于查询对于该查询，根据地面实况，仅存在两个相关表。STR设法将他们放在第一和第三排名的位置，而LTR只返回了其中一个在第13位。图7（b）中最右边的条是查询在这里，只有一个高度相关的结果。LTR设法把它放在排名第一，而它是排名第八的STR。另一个有趣的查询是“irishcountiesarea”（图7（b）中从左数第三条），根据地面事实具有三个高度相关的结果和三个相关的结果。LTR返回两个高度相关的结果和一个相关的结果，等级为1，2和4。另一方面，STR将三个高度相关的结果放置在前3个位置，并且还将三个相关的表返回到位置4、6和7。6相关工作关于表的工作量越来越多，涉及的任务范围很广，包括表搜索、表挖掘、表扩展、图6：表检索结果，LTR基线与STR，关于NDCG@20的两个查询子集和表格完成。表搜索本身就是一个基本问题，也经常被用作其他任务的核心组件。表搜索。当用户需要结构化或关系数据时，他们可能会搜索表。Cafarella等人[9]通过引入WebTables系统开创了表搜索任务其基本思想是获取Web搜索引擎响应查询返回的排名靠前的结果，然后从这些页面中提取前k 在[6]中介绍了对同一思想的进一步改进。 Venetis等人[42]利用从Web中提取的类标签和关系的数据库，这些标签和关系附加到表列，以恢复表语义。然后使用该信息 Pimplikar 和Sarawagi[34]使用列关键字搜索表，并将这些关键字与表的标题，主体和上下文相Google Web主题：Web Search andMiningWWW 2018，2018年4月23日至27日，法国里昂1561(a)QS-1（b）QS-2图7：LTR基线和STR之间的两个查询子集上的查询级别差异。正值表示由后者作出的改进。表7：来自我们的查询集的示例查询。Rel表示表相关性水平。LTR和STR是指相应方法返回表的位置查询Rel LTR STRQS-1-24：贮备液股票的长期/关键数据发现：年度实际回报2 - 6东证/东证新指数系列1 9 -恒生指数/恒指成分股的选择标准1 --[1]介绍了一种从相关表中提取表值和/或使用机器学习方法来预测它们的方法。表挖掘。表中丰富的信息引起了人们对表挖掘研究的极大兴趣[7，9，25，38，42，47]。Munoz等人[29]通过从Wikipedia表中提取RDF三元组来恢复表的语义。类似地，Cafarella etal.[9]从一个巨大的表语料库中挖掘表还可以搜索表格来回答问题或挖掘以扩展知识库。Yin等人[46]以表格作为知识库QS-2-27：棋盘游戏玩家人数日本棋类游戏1131使用深度神经网络执行查询Sekhavat等人[39]第三十九届用概率性知识授权Risk游戏板列表/Risk Legacy1-3方法通过使用表信息。类似的工作是汽车-表2提供了表搜索系统接口的示例;开发人员的经验总结在[ 2]中。为了丰富搜索结果的多样性，Nguyen et al.[30]设计用于表搜索和选择的优度度量。除了基于关键字的搜索之外，还可以使用给定的“本地”表作为查询来检索表[1，12，22]。我们不知道任何工作，执行语义匹配的表对查询。表扩展/完成。表扩展是指用额外的元素扩展表的任务，这些元素通常是新列[4，6，12，21，45]。这些方法通常使用表搜索作为第一步[4，21，45]。搜索相关表也用于行扩展。在[12]中，解决了实体补充和模式补充两个任务，以分别扩展实体行和列。Zhang和Balog[49]填充具有实体焦点的表的行和列标题。表格补全是在表格中填充空单元格的任务Ahmadov等人2https://research.google.com/tables在[13]中执行，其中表格信息用于知识库增强。另一项工作涉及表注释和分类。Z

下载后可阅读完整内容，剩余1页未读，立即下载