StruBERT：结构感知BERT用于表搜索和匹配

174 浏览量更新于2023-11-29 收藏 865KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

442→StruBERT：用于表搜索和匹配的结构感知BERTMohamedTrabelsimot218@lehigh.eduLehighUniversity伯利恒，宾夕法尼亚州，美国ZhiyuChenzhc415@lehigh.edu美国宾夕法尼亚州伯利恒利哈伊大学张硕szhang611@bloomberg.netBloomberg英国伦敦摘要布莱恩·D美国davison@cse.lehigh.edu宾夕法尼亚州伯利恒利哈伊大学heflin@cse.lehigh.edu美国宾夕法尼亚州伯利恒利哈伊大学1引言表由按行和列组织的数据值组成，提供隐式结构信息。表格通常伴随有次要信息，如标题、页面标题等，形成文本信息。理解文本和结构信息之间的联系是表格检索中一个重要但被忽视的方面，因为以前的方法独立地处理每个信息源。在本文中，我们提出了StruBERT，一个结构感知的BERT模型，融合了数据表的文本和结构信息，为数据表的文本和表格内容提供上下文感知的表示。我们引入了水平自我注意的概念，它扩展了TaBERT中引入的垂直自我注意的概念，并允许我们平等地对待表格的两个维度。StruBERT功能集成在一个新的端到端神经排名模型中，以解决三个与表相关的下游任务：基于关键字和内容的表检索以及表相似性。我们使用三个数据集来评估我们的方法，并且我们证明了在检索和分类指标方面比最先进的方法有了实质性的改进。CCS概念• 信息系统检索模型和等级;结构化文本检索。关键词表匹配，表搜索，表相似度ACM参考格式：陈志宇，张硕，Brian D.戴维森和杰夫·赫夫林。2022. StruBERT：结构感知BERT表搜索和匹配。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，10页。https://doi.org/10.1145/3485447.3511972允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511972研究人员专注于在多个任务中利用表格中包含的知识，包括扩充表格[2，6，49，54，56]，从表中提取知识[26]，表检索[4，5，7，10，27，33，36]，以及表类型分类[11，12]。用户可以使用基于关键字的查询来搜索数据表，就像在文档检索中一样。此外，用户可以在Web上查找与现有表相似的数据表。这可以看作是一个按示例查询的场景或基于内容的表检索。基于内容的表检索需要一个表匹配阶段来预测查询表与被查询表之间的语义相似度。另一个需要表匹配阶段的表相关任务是表相似性[19]，其目标是预测两个表之间的二元语义相似性。表相似性算法可以用作多个任务的核心组件，例如表分类和聚类[22，52]，表融合[17]和查找相关表[15]。我们认为基于内容的表检索和表相似性作为两个实例的表匹配。先前的方法[8，55]忽略了结构信息，因为数据值被线性化，并被视为单个文本。在表匹配中，Habibi et al.[19]将文本信息与数据表的结构信息分离。表由行和列定义的结构信息组成，因此我们基于两个表中行和列之间的语义匹配来估计表匹配分数。基于行的匹配主要选择可被视为查询表的附加记录的候选另一方面，基于列的匹配标识了可以通过联接操作潜在地用于表扩充的表在这两种情况下，我们都有一个与结构化表匹配的结构化查询。用户还可以搜索与由多个值、属性、元数据等组成的关键字序列相匹配的表。图1描述了表之间基于行/列的匹配和基于行/列的查询。在前一种情况下，图1显示了如何匹配列和行以捕获表之间的语义相似性。在后一种情况下，图1显示了基于关键字的表检索的两个示例，其中查询是一个简单的非结构化自然语言序列。基于行的查询与表中的多行相关，而基于列的查询包含与表中属性子集相关的关键字为了克服现有方法在表检索和相似性方面的局限性，我们提出了一种新的模型，称为结构感知BERT（StruBERT），该模型融合了数据表的文本和结构信息，为表的文本和表格内容一般来说，一张桌子WWW陈志宇，张硕，Brian D.杰夫？赫夫林443球员莱昂内尔·梅西…路易斯·苏亚雷斯更衣室国家队coach阿根廷巴黎葡萄牙曼联…西班牙皇家马德里乌拉圭竞技姓名团队国家塞尔吉奥·拉莫斯马德里西班牙…Mo Salah Liverpool Egypt球员国家列表关于罗纳尔多和梅西C{}基于行的查询：基于列的查询：图1：基于行的匹配（橙色）和基于列的匹配（绿色）可以发生在基于关键字的查询和表之间或两个表之间。可以被看作是基于行和列的结构，并且行和列应该有助于（1）在匹配表对的行和列的表匹配中的相关性得分，以及（2）在基于关键字的表检索中的检索得分，其中表内容被认为是与查询的关键字相关的字段。基于图1中匹配案例的观察，我们提出了一个统一的模型，该模型产生基于行和基于列的特征来预测结构化/非结构化查询与结构化表之间的语义匹配。受TaBERT[51]的启发，TaBERT使用垂直自注意力计算表列和话语标记的联合表示，我们提出了一种水平自注意力，它产生表行和查询标记的联合表示。我们提出的模型产生四个特征向量，对应于一个表的结构和文本信息的联合表示。两个细粒度特征表示行和列的上下文感知嵌入，其中水平和垂直关注分别应用于基于列和基于行的序列。两个粗粒度特性从数据表的基于行和基于列的视图中捕获文本信息。这些功能被整合到一个新的端到端排名模型中，称为miniBERT，该模型由一层Transformer [44]块组成，并直接对StruBERT功能形成的嵌入级序列进行操作，以捕获行和列的交叉匹配信号总之，我们做出了以下贡献：（1）我们提出了一个新的结构感知BERT模型StruBERT，它引入了水平自注意的思想，融合了数据表的结构和文本信息，产生了四个上下文感知特征：两个细粒度的结构和上下文感知的行和列的表示，以及两个粗粒度的表示，用于行和列引导的[CLS]嵌入。（2）我们提出了一种新的排序模型miniBERT，它直接对StruBERT特征形成的嵌入级序列进行操作，以解决三个与表相关的下游任务：基于关键字和内容的表检索，以及表相似性。（3）通过对三个数据集的测试，证明了新方法的性能优于现有的基线算法，并可推广到多个表相关的下游任务。2相关工作对于表的监督排序，文献[2，5]中提出了多个查询、表和查询-表特征Zhang和Bengyang[55]建议通过语义匹配在查询和表之间使用语义空间。最近的作品使用嵌入技术来学习表令牌的低维表示。Deng等人 [53]提出了一种基于自然语言建模的方法来创建表标记的嵌入。然后将训练的嵌入与来自知识库的实体相似性一起用于排名表。Trabelsi等人[43]提出了一种新的词嵌入模型，利用每个表的上下文信息对表属性的标记进行嵌入。深度语境化语言模型，如BERT [16]和Ro-BERTa [25]，最近被提出来解决多个任务[13，23，29，30，35，38，39，42，45，48，50]。基于BERT，Chen etal. [8]提出了一种基于BERT的排名模型，使用句子对设置来捕获查询和表字段之间的匹配信号他们首先选择表格中最显著的项目来构建BERT表示，其中测试不同类型的表格项目和显著信号。Trabelsi等人[40]已经表明，神经排序模型可以通过提出深度语义和相关性匹配模型（DSRMM）用于表检索。Shraga等人[37]使用神经网络来学习表格的单峰特征，这些特征被组合成多峰表示。表也可以表示为图来解决表检索[9，41，46]。表相似性包括预测表之间的语义相似性，然后将表对分类为相似或不相似。Das Sarma等人[15]提出了一种基于实体一致性和扩展性以及模式相似性的表相似性方法，用于在大型异构数据语料库中查找相关表。深度学习模型已经被用来预测表之间的相似性得分。TabSim [19]独立地处理数据表字段，其中一个Bi-LSTM模型用于将数据表的标题映射到嵌入向量，第二个基于注意力的模型用于计算数据表的列的嵌入。3问题陈述我们正式定义了三个表相关的下游任务，我们在本文中解决。3.1基于关键字的表格检索给定一个基于关键字的查询q=q1q2. . . 其中m是查询的长度，qi是q的第i个令牌，目标是从表语料库= T1，T2，.，找到相关的表集合。. . ，Tn，其中n是数据表的总数。我们的模型将查询表对（q，Tj），j = 1，2，. . . ，n，并产生一个实值StruBERT：用于表搜索和匹配的结构感知BERTWWW444结构化信息：数据表基于行的序列R1[CLS] query [SEP] metadata [SEP] player text Ronald [SEP]R1R2R3基于列的序列C1[CLS] query [SEP] metadata [SEP] player text Ronald [SEP]C1C2C3文本信息：元数据与查询BERT + Cell-wise合并（）下一页（−）−∈[]水平自我注意[CLS][CLS]Query查询…梅西巴黎[CLS]查询…垂直自我关注查询.[SEP]查询.[SEP]查询.[SEP][SEP][SEP][SEP]行引导CLS行嵌入柱引导CLS列嵌入拉莫斯皇家马德里足球俱乐部7304曼彻斯特联队巴黎皇马[CLS][CLS][CLS]球员团队Number罗纳德曼联7梅西巴黎30拉莫斯皇马4图2：基于列和基于行的序列由表的结构和文本信息组成使用BERT+细胞池对序列进行编码水平和垂直自关注分别应用于编码的基于列和基于行的序列，以获得四个特征向量：两个细粒度特征（行和列嵌入）和两个粗粒度特征（行和列引导的[CLS]嵌入）。每个对的相关性分数，其中这些分数用于针对用户的查询对数据表进行3.2基于内容的表格检索在基于内容的表检索中，用户在Web上搜索与现有表相似的数据表因此，查询q也是数据表Ti（q = Ti）。在此设置中，我们的模型采用查询表对Ti，Tj，j = 1，2，.. . . ，n作为输入，并为每一对产生实值相关性分数，其中这些分数用于对照基于表的用户的查询对数据表进行排名。3.3表相似性与基于内容的表检索类似，我们的模型将表对作为输入然而，为了将表对分类为相似或不相似，我们的模型为每个表对输出二进制标签，而不是实值相关性得分。我们认为基于内容的表检索和表相似性作为表匹配的两个实例，因为表应该被匹配以计算基于内容的表检索中的检索得分或表相似性中的分类得分4在本节中，我们将介绍StruBERT，我们提出的方法融合了数据表的结构和文本信息，结构和上下文感知功能。这些功能用于与数据表搜索和匹配相关的下游任务。4.1表视图我们模型的主要输入是一个表Tj，它有s行和l列。每个表都有两种形式的信息。第一种形式是结构信息，它由报头和数据值。表格可以被看作是单元格的2D矩阵，并且为了解释的目的，我们假设第一行对应于标题c1，c2，. . . 、C1，并且剩余的S1行是数据值。T j的第i列具有值v1 i、v2 i、. . . ，v s 1 i. 第二种形式的信息是对应于表的上下文字段的文本信息可以使用几个文本字段来描述表格，例如标题、包含表格的页面和部分的标题等。我们用元数据来表示这些上下文字段，元数据形成了表的文本信息在基于关键字的表检索的情况下，查询被认为是文本信息的附加形式，因为StruBERT的最终表示应该捕获表和查询之间的早期交互，如在基于交互的检索模型[18，20，31]中，其比基于表示的模型[28]获得了更好的结果。通过学习表和基于关键字的查询之间的早期交互，StruBERT生成结构和上下文感知功能，其中查询是上下文的一部分。如图2所示，我们建议形成两组序列，分别由基于列和基于行的序列表示，它们分别基于给定数据表的基于列和基于行的视图Yin等人[51]提出了一种行线性化来从数据表中形成序列，以解决表上的语义解析任务。受此启发，我们将行线性化形成基于行的序列，我们提出了一个列线性化形成基于列的序列。给定Tj有l列，我们形成基于l列的序列。第i个基于列的序列由下式给出：ci = ci tiv1 i [SEP]ci tiv2 i [SEP]。. . [SEP]ci tiv（s −1）i [SEP]（1）其中tireal，text是ci的类型。例如，图2所示的数据表中的第一列具有类型text，第三列具有类型WWW陈志宇，张硕，Brian D.杰夫？赫夫林445˜−˜˜CR˜C{}˜˜CRC RCRC−∈（）RW为w∈BertT ok（citivki）w;k=1，2，. . .，s − 1（7）行和列嵌入，表示为Er∈R（s−1）×d，∈Rl×d，以及两个粗粒度特征，kiEC列的类型为real。我们使用图2中的表的第一列来说明基于列的序列的示例player text Ronaldo [SEP] player text Messi [SEP]. . .我们将基于列的序列的集合表示为n = c1，c2，. . . ，c.类似地，我们形成基于s1行的序列。第i个基于行的序列由下式给出：ri = c1t1vi1[SEP]c2t2vi2[SEP] 。 . .[SEP]cl tlvil [SEP]（2）我们使用图2中数据表的第一行来说明基于行的序列的示例：player text Ronaldo [SEP] team text Manchester United[SEP]. . . 我们用R={r1，r2，. . . ，r（s <$−1）}。并且仅捕获Tj的结构信息。为公司-将文本信息评级为基于结构的序列，我们使用BERT的[CLS]和[SEP]标记将文本信息与来自基于结构的序列的每个序列连接起来假定Tj的文本信息Tej由p个场f1，f2，. . . ，fp，新的结构和上下文感知序列由下式给出：ci=[CLS]T ej[SEP]ci[SEP]（3）ri=[CLS]T ej[SEP]ri[SEP]（4）其中：Tej = f1[SEP]f2[SEP]。. . [SEP]fp（5）我们用C ={c1，c2，. . . ，cl}，并且R ={r1，r2，. . . ，r（s-1）}。4.2StruBERT模型图2展示了StruBERT，它由两个阶段组成：序列编码和编码序列上的自我关注。4.2.1序列编码。为了捕获每个序列中的文本信息和数据值之间的依赖关系，BERT被用作序列编码器，其使用BERT令牌化器为令牌化序列中的每个令牌产生上下文化嵌入。 BERT比递归架构更受欢迎，因为BERT由Transformer块组成，这些块比递归架构更好地捕获具有自注意力的长期依赖关系[44]，并且在大型文本数据上进行预训练。经过行（列）线性化和BERT标记化后，每个单元格都有多个标记。为了计算每个单元格的单个嵌入，我们在BERT编码步骤之后合并单元格平均池化 [51] ，以池化由 [header_name typecell_content]定义的每个单元格的上下文化令牌。 BERT 由L层Transformer块组成。在从最后一层获得的上下文化嵌入上应用逐单元平均池化基于列的序列ci的上下文化嵌入由下式给出：ci =[C LS]T ej [S E P]v1i [S E P]。. . [S E P]v（s −1）i [S E P]（6）其中：- 来自BERT的第L层的维度d的上下文化嵌入，用于令牌wBertTok citivki。类似地，逐单元平均池化用于计算基于行的序列ri的上下文化嵌入，由ri表示。我们表示基于列和行的上下文化嵌入，在BERT和逐单元平均池化之后通过C ={c1，c2，. . . ，cl}和R={r1，r2，. . . ，r（s-1）}。4.2.2水平和垂直的自我关注。自我关注被纳入St r uBERT有两个原因。首先，中的上下文化嵌入捕获独立的列级结构和文本信息，并忽略作为表格结构的结果的行级依赖性。同样的结论也适用于行级嵌入中没有捕获列级依赖的情况。其次，单元格值对于行和列的表示并不同等重要我们结合了垂直自注意力[51]来操作基于行的嵌入以产生列嵌入，并且我们提出了一种水平自注意力，其操作基于列的嵌入以形成行嵌入。这两种注意力都类似于Transformer [44]，水平和垂直注意力的命名来自输入序列对注意力块的方向。水平自注意：为了捕获的基于列的上下文化嵌入之间的行级依赖性，我们提出了一种多头水平自注意，其对来自基于列的嵌入的水平对齐的标记进行操作，如图2所示。水平自注意由H层Transformers组成，我们使用最后一层的输出作为行级自注意表示。在应用行级平均池化之后，我们从水平自注意步骤产生两种类型的特征首先，我们得到的S1行嵌入，可以被看作是细粒度的结构和上下文感知功能。其次，通过对每列的[CLS]嵌入求平均值，我们产生了一个行引导的[CLS]，它代表了一个粗粒度的结构和上下文感知的特征。总之，水平自注意特征基于将数据表解释为基于列的结构，然后是行级依赖。垂直自关注：类似地，数据表可以解释为基于行的结构，后面是列级依赖性。在这种情况下，垂直自我注意力的V层[51]对的基于行的上下文化嵌入。我们还得到了两种类型的特征，从垂直的自我注意。首先，我们通过对来自基于行的嵌入的垂直对齐的标记上的垂直自注意的最后输出进行平均来获得l个细粒度的列嵌入其次，我们获得了一个粗粒度的列引导[CLS]嵌入，它将数据表解释为基于行的结构，然后是列级依赖。总之，StruBERT生成了四个结构-和上下文-.hL感知功能：两个细粒度的功能，这是上下文-BertTok（citivki）表示在tok之后获得的令牌使用BERT令牌化器对序列citivki进行量化，并且hL∈Rd为是行和列引导的[CLS]嵌入，表示为[CLS]r ∈ Rd和[CLS]c ∈ Rd。v|BertTok（citivki）|StruBERT：用于表搜索和匹配的结构感知BERTWWW446输入到迷你BERT柱嵌入[详细]段嵌入768543210[详细]CK（）下一页[]（[]）[]∈[]∈ []∈J[客户端]（）下一页CRCRCRCRCRCRCI jCC每个向量的元素都是使用CC5赫伯特在下游任务我们将StruBERT作为特征提取器F集成到端到端AR中，解决与表相关的下游任务的架构在本节中，我们将讨论表搜索和表匹配的任务，并展示如何根据任务将StruBERT特征映射到分类或检索分数。5.1表匹配在表匹配任务中，查询和被查询对象都是数据表。神经排序模型应该捕获表的结构和文本信息之间的语义相似性位置嵌入图3：miniBERT的嵌入级序列输入，用于列的交叉匹配。miniBERT的输入是列、段和位置嵌入的总和。在这个例子中，Ei∈R3×d由ci∈Rd，k∈ [1， 2， 3]组成，并且对，以便预测相关性得分。为此，我们建议Ej ∈ R4×d由cj ∈ Rd，k ∈ [1，2，3，4]组成.基于Siamese [3]的模型，预测表对Ti，Tj的相关性得分。在表匹配中，每个表的文本信息仅包含元数据，因为基于关键字的查询Ck类似地，我们使用miniBERT来计算缺席。使用StruBERT从每个表中提取结构和上下文感知特征：REPr，由miniBERTREPr表示，来自嵌入级定义行的序列输入：Mr r =[REP]rEi[SEP]Ej（九）F（Ti，Tj）=（StruBERT（Ti），StruBERT（Tj））F（Ti，Tj）=（（Ei，Ei，[CLS]i，[CLS]i），（Ej，Ej，[CLS]j，[CLS]j））i jr r使用miniBERT作为排名模型有两个优点使用StruBERT从每个表中提取特征后，我们将获得每个表的细粒度和粗粒度特征我们提出了一个排序模型，该模型捕获细粒度特征（（Ei，Ei）和（Ej，Ej））和粗粒度特征（（E j，数据表的突变不会改变表的含义miniBERT中的Transformer块的自关注特别有用，其中每个嵌入都关注基于列和行的嵌入级序列中的所有嵌入，而不管特征（（[CLS]i，[CLS]i）和（[CLS]j，[CLS]j））。的位置信息。第二，评价语义相似性，公司简介表之间的冗余性不仅仅基于一对一的映射5.1.1细粒度特征的交叉匹配：为了捕获表对的行和列嵌入的交叉匹配信号，我们提出了一种称为miniBERT的模型，该模型直接对StruBERT的细粒度特征的嵌入级序列进行操作。miniBERT由三个可训练向量REPcRd组成，REPrRd和SEPRd，以及1层Transformer块，带4个注意头。图3显示了miniBERT对表对（Ti，Tj）进行基于列的交叉匹配的输入。 [REP]c被引入以聚合Ei和Ej。我们为列形成嵌入级序列在列或行之间。例如，来自Ti的一列可以汇总来自Tj的三列中存在的信息。miniBERT的attention heads中的attention权重对于通过聚合表列（行）内和表列（行）之间的信息来捕获表对的列（行）之间的多对多关系是5.1.2粗粒度特征的交叉匹配与细粒度特征类似，我们在Ti和Tj的粗粒度特征之间构建交叉匹配特征。我们定义c c相互作用矢量F={Fr r，Fc c}，其中Fr r，和Fc c去表对（Ti，Tj）的嵌入：i j i jJi j i j注意[CLS]i-[CLS]和[CLS]i-[CLS]j，re-MC C =[REP]2009年9月27日（八）公司简介其中[SEP]用于分离Ei和Ej。在BERT中，我们在相应的嵌入之间的逐点乘法三种不同的嵌入以获得miniBERT的输入嵌入如图3所示，除了列em-Fr r =[CLS]i[CLS];Fc c=[CLS]i[CLS]j（十）而《易经》中的“卦”，则是用来表示卦的。伊贾雷北京赛车pk10umn个嵌入，并且位置嵌入用于对Mcicj中的每个向量的位置进行编码。REP c的位置嵌入对于指示来自第一位置的最终隐藏状态聚集嵌入级序列Mcicj特别有用。因此，miniBERT将列、段和位置嵌入求和形成的嵌入级序列作为输入，然后miniBERT从捕获双向交叉注意的Transformer块输出[REP]c的隐藏状态，由miniBERT（[REP]c）表示5.1.3排名层：细粒度和粗粒度特征用作排名层的输入，以预测表对的相关性得分。表对Ti、Tj的最终特征向量由下式给出：Φ（Ti，Tj）=Frirj<$Fcicj<$mini BERT（[RE P]r）<$mini BERT（[RE P]c）（11）最终线性层用于使用Φ（Ti，T j）预测表对（Ti，Tj）的相关性分数。5.2基于关键字的表格检索在Ei和Ej之间。查询由几个关键词组成，和c cqq1q2。. . Qm1我们尝试增加层数和注意力头的数量，但我们没有注意到报告的评估指标有所改善查询对象是来自表语料库的数据表Ti。除了表的元数据之外在StruBERT功能之上首先，基于行或列的每-C响应行和列引导[CLS]：WWW陈志宇，张硕，Brian D.杰夫？赫夫林447RC（）下一页（）下一页[][]R（）下一页CRCRC查询q，以便StruBERT的输出捕获查询与数据表的结构和文本信息之间的早期交互。我们使用与表匹配情况相同的符号，并将给定查询表对（q，Ti）的StruBERT输出表示为：Ei，Ei，[CLS]i和[CLS]i。我们将miniBERT应用于table包含的内容与查询表有很大的重叠，0表示不相关。表对的总数为2850。6.2基线6.2.1基于关键字的表检索。对于关键字评估-单嵌入级序列定义如下：Mr q=[REP]rEi（q）[SEP]基于表检索，我们与以下基线进行比较MultiField-BM 25：在多字段排名场景中，入境事务处（12）使用多个字段定义MultiField-BM 25结合BM 25 [34]Mc q=[REP]cEi（q）[SEP]多字段表的分数IcSTR[55]：计算多个基于嵌入的特征，其中，Ei和Ei是q的函数，因为q∈Tei，一个表和一个查询，然后使用不同的匹配策略，基于关键字的表格检索。我们使用从miniBERT获得的REPr和REPc的最终隐藏状态分别作为查询表对q，Ti的基于行和基于列的聚合查询表对q，Ti使用四个特征向量表示：来自miniBERT的行和列输出以及行和列引导的[CLS]嵌入（[CLS]i，[CLS]i）。我们骗-从嵌入生成排名特征随机森林用于预测查询表对的相关性得分。BERT-Row-Max[8]：从查询和表形成的序列的[CLS]嵌入用于预测查询-表对的相关性得分。链接这些特征以获得q，Ti的最终表示，其用作线性层的输入以预测查询表对（q，Ti）的相关性得分。6评价6.1数据收集6.1.1WikiTables. 该数据集由WikiTables语料库[1]组成，其中包含超过1。600万张桌子。每个表都有五个可索引字段：表标题、属性、数据行、页标题和节标题。我们使用了与Zhang和Bennett [55]相同的测试查询对于查询表对的地面实况相关性得分，使用三个数字来评估每一对：0表示不相关，1表示部分相关，2表示相关。WikiTables集合中有60个查询，3117个查询表对。除了基于关键字的表检索，我们适应Wik-iTables的表相似性。与TabSim [19]一样，我们遍历WikiTables的所有查询，如果两个表与一个查询相关，则表对被赋予标签1。另一方面，与查询不相关的表被认为不类似于与查询相关的所有表，因此表对被赋予标签0。6.1.2PMC。 Habibi等人 [19]提出了一个表格语料库，该语料库由PubMed Central（PMC）开放获取子集形成，并用于评估表格相似性任务。该系列与生物医学和生命科学有关。每个表都包含标题和数据值。通过比较每个表的标题和数据值，对表对进行注释以进行二进制分类。如果标题和数据值都被标记为不相似，则表对被赋予不相似的标签，否则表对被赋予相似的标签。在PMC表语料库中，共有1391个表对，其中542个表对相似，849个表对不相似。6.1.3按示例数据查询 Zhang和Bethesda [57]提出了一个由表数据集组成的查询，该数据集由50个用作输入查询的维基百科表组成。查询表与多个主题相关，每个表至少有5行3列。对于表对的地面实况相关性得分，使用三个数字来评估每一对：2表示高度相关，并且它指示所查询的表与查询表的主题相同，以及来自查询表对的相关性匹配信号以预测实值相关性得分。TaBERT[51]：最初提出用于表的语义解析的模型我们使用来自垂直自我注意力的最后一层的[CLS]标记的嵌入作为MLP层的输入由于有限的计算资源，我们使用BERT-base- uncased用于我们的StruBERT方法，以及基于BERT的基线：BERT-Row-Max和TaBERT。我们注意到，BERT-Row-Max[8]使用BERT-large-cased。6.2.2表匹配。对于表匹配中的评估，我们对照以下基线进行比较：嵌入+MLP：一个表被扁平化，并与元数据连接，为每个表形成一个单独的文档然后，为每个表计算使用Glove [32]的单词嵌入的平均值。最后的排名功能计算使用逐点乘法之间的嵌入表，然后转发到一个MLP层预测的相关性得分。TF-IDF+MLP：TableRank [24]计算表格的词频-逆文档频率（TF-IDF）。TF-IDF分数使用给定表的元数据和值而不是包含该表的文档来计算。使用MLP层代替余弦相似度来预测语义匹配得分。TabSim[19]：引入了两个独立的神经网络模型来形成表格的表示：一个模型从标题中提取嵌入，第二个模型从数据值中提取列嵌入。TaBERT[51]：基于TaBERT的Siamese模型用于评估表之间的语义相似性。对于一个给定的表，我们提取[CLS]嵌入从应用垂直自注意力的表的行级序列。然后，在两个表的[CLS]嵌入之间应用逐点乘法，并且将所得向量转发到MLP层以预测表匹配分数。StruBERT（KP）：这个基线是我们方法的一个变体，它在Stru- BERT特征之上使用了基于内核池（KP）的排名模型。KP是强排名模型的主要组成部分[14，47]，我们将KP用于细粒度特征的交叉匹配。我们构造相互作用矩阵I={Irirj，Icicj}，附加内容，1表示相关，表示查询的其中Ir r和Ic c表示Ei-Ej和Ei-Eji j i jRRcCDSRMM[40]：它是一个联合模型，StruBERT：用于表搜索和匹配的结构感知BERTWWW448S：i+s和t（）下一页.†.表1：使用等于0.5的分类阈值的表相似性结果方法名称宏P宏RMacro-F 同意。方法名称Macro-P宏RMacro-F 同意。Tfidf+MLP0.78340.67350.65290.6951Tfidf+MLP 0.62560.50220.35590.5378嵌入+MLP0.84960.77100.77360.7931嵌入+MLP 0.84290.84190.84230.8433Tfidf+嵌入+MLP0.87360.83810.84470.8506Tfidf+嵌入+MLP 0.86320.85540.85740.8594TabSim [19]0.88650.85450.86130.8705[19]第十九话0.84580.84660.8478塔伯特[51]0.91090.90240.90550.9067[51]第51话0.96260.96490.9653StruBERT（精细）0.92080.90580.91040.9124StruBERT（精细）0.98500.98520.98510.9852StruBERT（粗）0.92760.91540.91940.9210StruBERT（粗）0.98380.98160.98250.9826StruBERT（KP）0.91480.90600.90910.9109StruBERT（KP）0.97330.97130.97220.9724美国有线电视新闻网（CNN）0.92930.91640.92050.9224StruBERT（CNN）0.97820.97370.97530.9756StruBERT0.9321†0.9284†0.9300†0.9310†StruBERT0.9945†0.9938†0.9941†0.9942†(a) PMC（b）维基表格并且每个矩阵的元素使用对应矩阵的嵌入之间的余弦相似性来计算。表2：基于内容的表检索结果查询示例数据集[57]。行和列。将每个交互矩阵总结为固定长度的特征向量，我们使用KP来提取Ti和Tj的不同字段之间的软匹配信号。StruBERT（CNN）：这个基线是我们方法的一个变体它在StruBERT特征之上使用卷积神经网络（CNN）。该基线基于表示为的交互张量，该交互张量是使用表对的成对列（行）嵌入之间的逐点乘法计算的。受DeepRank [31]的启发应用于S：γγh（κ）=. .Dwl（κ）·S（l）K+b（κ），κ=1，···，K（13）i、js=1t= 1l=1s和ti：i+s，j：j+t来自TaBERT的掩蔽柱预测（MCP）[51]（在我们的其中γ是CNN滤波器的最大大小，Si（l）s，j：j t是s×t+在这种情况下，预训练任务应该是掩码行预测）。我们从S的第i行和第j列开始的第l个通道的矩阵，K是CNN滤波器的总数，并且wl（κ）和b（κ）是CNN的参数。然后，我们只保留每个特征图中最重要的匹配信号，以形成单个向量。6.3实验装置我们的模型使用PyTorch实现，使用两个NVIDIA GeForceGTX1080。对于基于关键字和内容的表检索，我们的模型参数使用预测和地面实况相关性得分之间的均方误差逐点损失进行更新，对于表相似性，我们使用交叉熵损失函数。尺寸d等于768。水平和垂直自注意中的Transformer层H和V的数量分别等于3。在StruBERT中，BERT-base-uncased和垂直自注意力使用TaBERTBaseK=32初始化，TaBERT Base K = 3 2使用3行内容快照进行预训练。这种预训练需要我们团队目前不具备的高内存GPU;因此，我们随机初始化水平自注意力，以便仅在对目标数据集进行微调时捕获基于行的依赖关系。我们预计，在类似的任务上，水平自我注意力的预训练结果会增加，2 https://github.com/facebookresearch/TaBERT将水平自我注意力的预训练作为未来的方向。6.4实验结果我们使用五重交叉验证报告结果。对于基于关键字的表检索，我们使用与Chen等人相同的分割. [8]报告我们的方法和基线的五重交叉验证结果。我们使用归一化贴现累积增益（NDCG）[21]，平均倒数秩（MRR）和平均平均精度（MAP）评估了我们提出的方法和基线在基于关键字和内容的表检索任务上的性能。我们使用宏观平均精确度（P），召回率（R）和F分数以及测试集上预测的准确性来评估我们的方法和基线在表相似性任务上的性能。为了检验显著性，我们使用配对Student t检验，并将其写入以表示所有其他方法在0.05水平上的显著性。6.4.1表相似性结果。表1（a）显示了PMC集合上不同方法考虑到表相似性是表匹配的一个实例，StruBERT特征的使用基于第5.1节中描述的步骤。我们表明，我们提出的方法StruBERT优于所有评估指标的基线。通过将结构和文本特征结合到基于交叉匹配的排名模型中，我们能够模型NDCG@5MRR地图BM250.53690.58320.5417DSRMM[40]0.57680.61930.5914TabSim[19]0.57390.60560.5932塔伯特[51]0.58770.61200.5942StruBERT（精细）0.60150.64190.6091StruBERT（粗）0.61400.64780.6142StruBERT（KP）0.59900.62000.5959美国有线电视新闻网（CNN）0.61770.63780.6179StruBERT0.6345†0.6601†0.6297WWW陈志宇，张硕，Brian D.杰夫？赫夫林449表3：维基表格数据集上基于关键字的表格检索结果[1]。模型NDCG@5MRR地图MultiField-BM250.43650.48820.4596MCON[43]0.51520.53210.5193STR[55]0.57620.60620.5711DSRMM[40]0.59780.63900.5992塔伯特[51]0.60550.64620.6123BERT-行-最大[8]0.61670.64360.6146StruBERT（精细）0.60000.64060.6020StruBERT（粗）0.62170.65620.6225StruBERT0.6393†0.6688†0.6378以捕获表之间在表格内容和元数据方面的语义相似性，并且这导致与忽略结构信息或单独处理文本和结构信息的基线相比评估度量的增加。TF-IDF中将表作为单个文档考虑，并嵌入基线的结果最低，表明表间结构相似性是影响表相似性的重要因素。该数据集上的结果显示，与基于精确匹配的词频特征相比，使用基于嵌入的特征（传统的或上下文化的）具有明显的优势。StruBERT（细）和StruBERT（粗）分别显示了仅使用细粒度和粗粒度特征预测语义相似性的消融研究结果通过结合这两类功能，我们实现了更高的评价指标的结果。表1（

下载后可阅读完整内容，剩余1页未读，立即下载