基于统计报告的QA和NLG：HiTab大型数据集的构建和实体链接

121 浏览量更新于2023-11-30 收藏 18.93MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

HiTab: A Hierarchical Table Dataset for Question Answeringand Natural Language GenerationZhoujun Cheng*Shanghai Jiao Tong Universityblankcheng@sjtu.edu.cnHaoyu Dong* †Microsoft Research Asiahadong@microsoft.comZhiruo Wang*Carnegie Mellon Universityzhiruow@andrew.cmu.eduRan JiaMicrosoft Research Asiajia.ran@microsoft.comJiaqi GuoXi’an Jiaotong Universityjasperguo2013@stu.xjtu.edu.cnYan GaoMicrosoft Research AsiaYan.Gao@microsoft.comShi HanMicrosoft Research Asiashihan@microsoft.comJian-Guang LouMicrosoft Research Asiajlou@microsoft.comDongmei ZhangMicrosoft Research Asiadongmeiz@microsoft.comABSTRACTTables are often created with hierarchies, but existing works on tablereasoning mainly focus on flat tables and neglect hierarchical tables.Hierarchical tables challenge existing methods by hierarchical in-dexing, as well as implicit relationships of calculation and semantics.This work presents HiTab, a free and open dataset for the researchcommunity to study question answering (QA) and natural languagegeneration (NLG) over hierarchical tables. HiTab is a cross-domaindataset constructed from a wealth of statistical reports and Wikipediapages, and has unique characteristics: (1) nearly all tables are hier-archical, and (2) both target sentences for NLG and questions forQA are revised from high-quality descriptions in statistical reportsthat are meaningful and diverse. (3) HiTab provides fine-grainedannotations on both entity and quantity alignment. Targeting hier-archical structure, we devise a novel hierarchy-aware logical formfor symbolic reasoning over tables, which shows high effectiveness.Then given annotations of entity and quantity alignment, we proposepartially supervised training, which helps models to largely reducespurious predictions in the QA task. In the NLG task, we find thatentity and quantity alignment also helps NLG models to generatebetter results in a conditional generation setting. Experiment resultsof state-of-the-art baselines suggest that this dataset presents a strongchallenge and a valuable benchmark for future research.CCS CONCEPTS• Information systems → Information retrieval.* Work in progress. Equal contribution. Work done during Zhoujun and Zhiruo’sinternship at Microsoft Research Asia.† Corresponding author.Permission to make digital or hard copies of all or part of this work for personal orclassroom use is granted without fee provided that copies are not made or distributedfor profit or commercial advantage and that copies bear this notice and the full citationon the first page. Copyrights for components of this work owned by others than ACMmust be honored. Abstracting with credit is permitted. To copy otherwise, or republish,to post on servers or to redistribute to lists, requires prior specific permission and/or afee. Request permissions from permissions@acm.org.Conference’17, July 2017,© 2022 Association for Computing Machinery.ACM ISBN 978-x-xxxx-xxxx-x/YY/MM...$15.00KEYWORDSsemi-structured data, question answering, data-to-textACM Reference Format:Zhoujun Cheng*, Haoyu Dong* †, Zhiruo Wang*, Ran Jia, Jiaqi Guo, YanGao, Shi Han, Jian-Guang Lou, and Dongmei Zhang. 2022. HiTab: A Hi-erarchical Table Dataset for Question Answering and Natural LanguageGeneration. In Proceedings of ACM Conference (Conference’17). ACM,New York, NY, USA, 10 pages.1INTRODUCTIONIn recent several years, there are a flurry of works on reasoning oversemi-structured tables, e.g., answering questions over tables [38, 53]and generating fluent and faithful text from tables [24, 37]. Butthey mainly focus on simple flat tables and neglect complex tables,e.g., hierarchical tables. A table is regarded as hierarchical if itsheader exhibits a multi-level structure [6, 30, 49]. Hierarchical tablesare widely used, especially in data products, statistical reports, andresearch papers in government, finance, and science-related domains.Hierarchical tables challenge QA and NLG due to: (1) Hierarchi-cal indexing. Hierarchical headers, such as D2:G3 and A4:A25 inFigure 1, are informative and intuitive for readers, but cell selectionin hierarchical tables is much more compositional than flat tables,requiring multi-level and bi-dimensional indexing. For example, toselect the cell E5 (“66.6”), one needs to specify two top header cells,“Master’s” and “Percent”, and two left header cells, “All full-time”and “Self-support”. (2) Implicit calculation relationships amongquantities. In hierarchical tables, it is common to insert variousaggregated rows and columns, e.g., total (columns B,D,F and rows4,6,7,20) and proportion (columns C,E,G). But hierarchical tableslack explicit indications to quantity relationships, and thus challengeprecise numerical inference in QA and NLG. (3) Implicit semanticrelationships among entities. Hierarchical tables lack explicit indi-cations to entity relationships, e.g., “source” and “mechanism” inA2 describe A6:A19 and A20:A25 respectively, and D2 (“Master’s”)and F2 (“Doctoral”) can be jointly described by a virtual entity,“Degree”. How to identify semantic relationships and link entitiescorrectly for QA and NLG is also a challenge.In this paper, we aim to build a dataset for hierarchical table QAand NLG. But without sufficient data analysts, it’s hard to ensure01 https://www.nsf.gov/statistics/2019/nsf19319/0arXiv:2108.06712v1[cs.CL]15Aug20210+v:mala2277获取更多论文0Conference’17, July 2017, Zhoujun Cheng*, Haoyu Dong* † , Zhiruo Wang*, Ran Jia, Jiaqi Guo, Yan Gao, Shi Han, Jian-Guang Lou, and Dongmei Zhang0•教学助理职位最常被报告为0硕士生最常报告的支持机制（11%）。0图1：国家科学基金会报告中的一个层次表和相应的描述。10QA中的问题和NLG中的描述是有意义和多样的[17,39]。幸运的是，各种组织的大量统计报告是公开可用的。它们包含丰富的层次表和文本描述[2-4, 20, 35, 45]。以Statistics Canada[45]为例，它包含了由1000多名专业人员撰写的27个领域的6039份报告。重要的是，由于表格和句子都是由领域专家撰写的，句子是有意义的，并反映了对表格的真实理解。这激发了我们基于现有描述构建NLG的目标文本和QA问题，而不是从头开始编写。这不仅可以节省大量的专家工作，还可以确保目标文本和问题是有意义、自然和多样的。基于大量的统计报告，我们构建了一个名为HiTab的用于层次表的QA和NLG的大型人工标注数据集。(1)所有层次表的句子描述都经过人工标注员的精心提取和修订。(2)已经证明，细粒度和词汇级别的实体链接可以极大地帮助表格推理[25,44]，这促使我们对齐文本中的实体提及和表格单元格。然而，对齐数量提及（包括单元格提及和复合提及）[19]对于表格QA和NLG也很重要，但是最近的研究忽视了这一点。在HiTab中，我们使用电子表格公式对齐数量提及，这样可以高效地记录它们的基础算术运算。我们认为实体对齐[21]和数量对齐[19]不仅是两个重要的任务，而且对于需要表格-文本联合理解的各种任务都是通用且有帮助的。(3)我们设计了一个基于现有高质量句子描述构建QA对的过程，而不是要求标注者从头开始提出问题。标注者将句子描述转换为问答对，并使用电子表格公式记录回答的计算过程，如表1所示。0实验结果表明，HiTab对最先进的基线模型提出了很大的挑战。对于QA任务，TAPAS [18]只能达到38.9%的准确率；MAPO[29]由于为平面表格定制的逻辑形式的无效性而表现更差（29.2%的准确率）。对于NLG任务，模型在理解层次结构和生成有意义的文本方面也面临很大困难。为了利用层次表的特点，我们首先为表格QA设计了一个具有层次感的逻辑形式，显示出很高的效果。然后，我们提出了部分监督训练，给出了链接提及和公式的注释，这有助于模型大大减少虚假预测，在QA任务中达到了45.1%的准确率。在NLG任务中，我们深入研究了可控生成[37]，表明对齐的单元格和计算过程都有助于模型生成有意义的文本。代码和数据可在https://github.com/microsoft/HiTab中获取。02 数据集构建和分析0为了很好地处理我们的注释任务的复杂性，我们从顶尖大学的计算机科学、金融和英语专业中招募了18名学生或毕业生（其中13名女性和5名男性）。每名学生每小时支付7.8美元，他们总共花费了2400小时。我们提出了一个包含六个步骤的注释过程（第2.1-2.6节）。02.1 分层表格收集0各种组织的大量报告是公开可用的。我们选择了两个代表性的组织，Statistics Canada [45]和National Science Foundation[35]。与[2-4,20]只提供PDF报告不同，StaCan和NSF还额外提供HTML报告，其中可以使用HTML标签精确提取单元格信息，如文本和格式。首先，我们从StatCan（27个良好分类的领域中的1,083个报告）和NSF（科学基金领域的11个组织中的208个报告）中爬取近五年发布的英文HTML统计报告。我们合并StatCan和NSF，得到总共28个领域。此外，我们发现ToTTo[37]包含了一小部分（5.03%）的分层表格，然后我们将它们包含到HiTab中，以便HiTab具有来自维基百科的额外开放领域表格。为了保持统计报告和维基百科页面之间的平衡，我们只随机包含ToTTo中40%（1851个）的表格。接下来，我们使用预处理脚本将HTML表格转换为电子表格表格。因此，标注者可以使用Excel公式对齐数量并回答问题。为了在Excel中实现正确的公式执行，我们通过排除周围的上标、内部逗号等来规范化数据单元格中的数量。我们使用以下约束条件过滤表格：（1）行数和列数大于2且小于64；（2）单元格字符串没有超过一个非ASCII字符和20个标记；（3）通过2.6节中的方法成功解析层次结构；（4）层次结构的级别不超过四级。最后，85%的表格满足所有约束条件。02.2 句子提取和修订0在这一步中，标注者手动查看报告并提取每个表格的所有句子描述。由多个语义独立的子句组成的句子将被仔细拆分为多个句子。标注者被指示消除冗余。0+v:mala2277获取更多论文0HiTab：一个用于问答和自然语言生成的分层表格数据集，会议’17，2017年7月0表1：注释过程的示例。所有句子描述图1中的表格。0通过去上下文化和短语删除等修订来减少句子中的歧义性，例如[37]。幸运的是，统计报告中的大多数句子都是干净的，并且完全由表格数据支持，因此只需要进行少量修订即可获得高质量的用于自然语言生成的目标文本。02.3 实体和数量对齐0在这个阶段，标注者被指示将文本中的提及与表格中的相应单元格对齐。它有两个部分，实体对齐和数量对齐，如表1所示。对于实体对齐，我们记录了从文本中的实体提及到相应单元格的映射。单个单元格数量提及可以类似于实体提及进行链接，但是复合数量提及是通过max/sum/div/diff等运算符从两个或多个单元格计算出来的。电子表格公式在表格数据计算中功能强大且易于使用，因此我们使用公式记录文本中复合数量的计算过程，例如，‘10 pointshigher’(=G23-G24)。尽管描述中的数量通常是四舍五入的，但我们忽略四舍五入并参考表格单元格中的精确数量。02.4 将陈述性句子转换为问答对0现有的QA数据集指导标注者从头开始提出问题，但很难保证提出的问题的意义和多样性。在HiTab中，我们只需将陈述性句子转换为问答对。对于每个句子，标注者需要根据句子的潜在逻辑确定一个目标关键部分进行提问，然后将其转换为QA形式。所有问题都由反映数值推理过程的公式回答。例如，‘XLOOKUP’运算符经常用于检索最高级别的标题单元格，如表1所示。为了保持句子的自然性，我们不鼓励在转换过程中进行不必要的句子修改。如果标注者发现有多种方式可以提问一个句子，她只需要选择最能反映整体意义的方式。02.5 定期检查和最终审核0我们请两位最有经验的标注员进行定期检查和最终审核。（1）在标注过程中，他们定期从所有标注者中抽样注释（约10%）以及时反馈标注问题。（2）最后，他们审核所有的注释并修复标注错误。此外，为了辅助最终审核，我们使用自动脚本来识别拼写错误和公式问题。0并修复标注错误。此外，为了辅助最终审核，我们使用自动脚本来识别拼写错误和公式问题。02.6 层次结构提取0我们遵循现有的工作[6, 30,49]，使用树结构来建模层次标题。由于单元格格式（如合并、缩进和字体加粗）通常用于呈现层次结构，我们采用[49]中的启发式方法来提取顶部和左侧的层次树，具有很高的准确性。我们随机抽样了Hitab中的50个表格，其中94%的表格被准确提取。0运算符公式模板（范围为占位符）0Opposite =-A5Percent =B2%0Argmax =XLOOKUP(LARGE(D1:D3, 1), D1:D3, A1:A3)Kth-argmax =XLOOKUP(LARGE(D1:D3, k), D1:D3, A1:A3)Pair-argmax =IF(B1 > B2, A1, A2)0Sum =SUM(D2:D4) Max=MAX(D2:D4) Count=COUNT(D2:D4) Product=D3*D40表2：运算符的示例公式模板。0犯罪与司法 20.9%0健康16.7%0NSF8.6%0儿童7.4%0移民 6.4%0劳动5.3%0收入4.3%0教育 6.2%0其他24.2%0通过2维单元格选择 24.9%0算术 16.8%0通过3维单元格选择 17.6%0通过>3维单元格选择 17.5%0比较 13.8%0最高级 9.2%0图2：HiTab中来自StatCan和NSF的领域和操作分布。通过k维单元格选择表示选择了k个标题单元格。0+v:mala2277获取更多论文02017年7月，周俊成*，董浩宇*，王志若*，贾然，郭佳琦，高岩，韩石，楼建光，张冬梅0数据集表格类型表格数量数据来源问答生成自然语言0表格问题和句子问题数量实体数量每个问题的词数句子数量每个句子的词数数量问题对齐每个表格的句子对齐0WTQ 扁平化 2,108 维基百科标注者创建 22,033 10.0 否 - - - - WikiSQL 扁平化 26,521 维基百科标注者创建 80,654 11.7 否 - - - - Spider 关系型 1,020 大学... 标注者创建 10,18113.2 否 - - - - DART 扁平化 5,623 WTQ... 标注者创建 - - - 82,191 14.6 19.6 否 LogicNLG 扁平化 7,392 维基百科标注者创建 - - - 37,015 5.0 13.9 否 ToTTo 主要扁平化 83,141维基百科原始作者创建 - - - 120,000 1.4 14.9 否 HiTab 分层化 3,597 统计报告原始作者创建 10,686 16.5 是 10,686 3.0 16.0 是0表3：数据集统计和比较。02.7 数据集统计和比较0表3比较了包括WTQ [38]、Wik-iSQL [54]、Spider [53]、DART[32]、LogicalNLG [8]和ToTTo[37]在内的数据集的统计数据。首先，HiTab是唯一针对分层表的数据集，分层表占HiTab中所有表的98.1%。其次，HiTab是第一个具有实体和数量注释的数据集，用于表格问答和自然语言生成任务。第三，HiTab中的平均问题长度（16.5）比现有数据集要长得多，每个表格的平均句子数（3.0）也比ToTTo要多，ToTTo中真实的表格自然语言描述很少（1.4）。图2分析了数据集按领域和操作的分布情况：领域分布多样，涵盖了来自统计报告和维基百科的28个领域；大部分描述涉及复杂的单元格选择和数值运算。03 层次表格问答0问题陈述。层次表格问答（QA）任务的定义如下：给定一个层次表格�和一个自然语言问题�，输出答案�，与WikiTableQuestions[38]类似。问题-答案对应该在表格中得到完全支持。我们的数据集�={(��,��,��)},�∈[1,�]是一组�个问题-表格-答案三元组。表格QA通常被定个语义解析问题[28,38]。解析器将问题转换为可执行的逻辑形式，执行器将逻辑形式应用于表格以产生答案。然而，现有的表格QA逻辑形式[28,38,54]都是针对扁平或关系数据库表格定制的。第1节中提到的三个挑战使得在层次表格上的QA更加困难，这些挑战是层次索引、隐式计算和语义关系。03.1 层次感知逻辑形式0我们提出了一种利用层次结构来缓解这些挑战的层次感知逻辑形式。具体而言，我们将区域定义为操作对象，并设计了两个用于层次区域选择的函数。0定义。根据第2.6节介绍的表格的提取树层次结构，我们将标题定义为标题单元格（例如图1中的A7（“Federal”）），将级别定义为左侧/顶部树中的级别（例如A5、A6、A20在同一级别上）。现有的表格逻辑形式[29,38]将行作为操作对象，限制了在同一行上的操作。然而，在层次表格中，一行并不代表一个带有列名作为属性的记录，因此可以对其应用操作。0同一行中的单元格。受此启发，我们将区域定义为我们的操作对象，它是由左侧和顶部标题索引的表格中的数据区域（例如A6:A19是一个区域，区域也可以是离散的）。逻辑形式的执行过程分为两个阶段：区域选择和区域操作。0区域选择。我们设计了两个函数(��_��)和(��_��)来进行区域选择，其中�是一个标题，�是一个级别。每个函数都在前一个函数返回的区域上进行交集操作。(��_��)根据�选择一个子树区域：如果�是一个叶子标题（例如A8），所选区域是由�索引的行/列（第8行）；如果�是一个非叶子标题（例如A7），所选区域是由�及其子标题索引的行/列（第7-16行）。(��_��)选择之前选择的子树区域上的目标级别�的索引区域。这两个函数的设计缓解了前面提到的三个挑战：（1）通过按顺序应用这两个函数时的树路径选择实现了层次索引；（2）具有不同计算类型的数据（例如第4行、第5行）不会被同时选择，因此不会被同时操作；（3）一个级别�可以通过在模型中收集其上的标题单元格嵌入来获得其语义。附录A.3中显示了一些逻辑形式执行示例。0区域操作。操作符应用于所选区域以产生答案。可以使用复合操作符或不使用操作符。我们定义了19个操作符，主要遵循MAPO[29]的定义，其中一些操作符（例如差异率）是层次表格特有的。完整的逻辑形式函数见附录A.1。03.2 实验设置03.2.1基线模型。我们在问答任务中提出了两种基线模型。一种是基于逻辑形式的语义解析，另一种是最近提出的无逻辑形式的端到端表格解析模型。神经符号机（Neural SymbolicMachine）[28]是一个强大的语义解析框架，由一个程序员和一个计算机组成。程序员用自然语言生成程序，并将中间结果保存在内存中，计算机执行程序。我们用BERT[11]替换了seq2seq程序员的LSTM编码器，并按照NSM的方法使用一个LISP解释器作为计算机来执行我们的逻辑形式。表格按照层级顺序进行线性化，具体细节见附录A.2。请注意，我们没有使用TaBERT[52]作为编码器，因为它的核心机制最适合于扁平表格，并且与扁平表格的逻辑形式耦合在一起。TaPas[18]是一种最先进的无逻辑形式的端到端表格解析模型，它具有选择单元格和推理的能力。0+v:mala2277获取更多论文0HiTab：一个用于问答和自然语言生成的层次表格数据集，会议’17，2017年7月0弱监督方法开发集测试集%虚假0MAPO �.原始逻辑形式31.9 29.2 - TaPas �/�.逻辑形式39.7 38.9 -MML �. h.a.逻辑形式38.9 36.7 22.7 REINFORCE �.h.a.逻辑形式42.7 38.4 39.3 MAPO �. h.a.逻辑形式43.5 40.719.00部分监督TaPas �/�.逻辑形式41.2 40.1 - MML �.h.a.逻辑形式45.4 45.1 10.3 REINFORCE �. h.a.逻辑形式44.039.7 23.9 MAPO �. h.a.逻辑形式44.8 44.3 10.70表4：h.a.代表层次感知。在开发集上的QA执行准确率和测试集上的QA执行准确率，以及在开发集上选择的150个样本的虚假程序率。0由于在数百万个表格上进行了预训练，TaPas受益于其预训练。为了适应TaPas的输入，我们通过取消合并的单元格并将扁平化的顶部标题指定为列名，将层次表格转换为平坦表格。03.2.2弱监督。在弱监督下，模型在没有黄金逻辑形式的情况下使用问答对进行训练。对于NSM，我们比较了三种广泛研究的学习范式。MML[10]最大化观察到的程序的边际似然。REINFORCE[50]最大化策略样本的奖励。MAPO[29]通过从缓冲区内外的轨迹中学习并通过系统性探索高效采样来缓解偏置梯度问题。MML需要从一致的程序中学习，即产生正确答案的程序。REINFORCE和MAPO需要一致的程序进行预热。因此，我们在训练集中随机搜索300次迭代（每个样本约15000个程序）。我们在搜索中遵循[29]的修剪规则。最后，平均每个样本搜索到6.12个一致的程序。对于TaPas，我们遵循其论文中在WikiTable-Questions上的弱监督设置。03.2.3部分监督。鉴于标记的实体链接、数量链接和计算类型（从注释的公式中推断出），我们进一步探索以部分监督的方式指导训练。这三个注释在QA中实例化为选定的标题、区域和运算符。对于NSM，我们利用它们来修剪虚假程序，即意外产生正确答案的不正确程序。方法有两种：（1）在搜索一致的程序时，除了产生正确答案外，还需要满足这三个条件。如果找不到程序，则放宽约束以满足两个条件。这样，每个样本的平均一致程序数量从6.12减少到2.13。（2）在训练中，我们修改了二进制奖励函数：满足每个条件将总奖励增加0.2。具有奖励�≥1.4的采样程序将添加到程序缓冲区中。对于TaPas，我们还根据其WikiSQL设置在训练中提供答案坐标和计算类型。03.2.4 评估指标。我们使用执行准确率作为我们的指标，参考[38,53]，它衡量了方法产生正确答案的样本的百分比。我们还报告了虚假的0程序率用于研究方法生成具有错误逻辑形式的正确答案的百分比。由于我们没有黄金逻辑形式，我们手动注释了开发集中150个随机样本的逻辑形式进行评估。03.2.5实现。我们将3,597个表格分为训练集（70％），开发集（15％）和测试集（15％）。我们从huggingface2库下载预训练模型。在训练中，我们使用Adam优化器，学习率为5�−5。对于NSM，我们使用bert-base-uncased来初始化编码器，并在HiTab上进行20K步的微调。训练和推理的beam大小均为5。为了使用MAPO原始逻辑形式进行测试，我们将表格转换为与TaPas中所做的类似的平坦表格。对于TaPas，我们采用huggingface提供的PyTorch版本。我们使用tapas-base进行初始化，并在HiTab上进行40个epoch的微调。所有实验都在四个V100 GPU上运行。03.3 结果0表4总结了我们的评估结果。弱监督首先，使用我们的层次感知逻辑形式的MAPO在很大程度上优于使用其原始逻辑形式的MAPO，提高了11.5%，这表明设计一个利用层次结构的逻辑形式是必要的。其次，MAPO以最低的虚假程序率（19.0%）实现了最佳的执行准确率（40.7%），但仍有超过一半的问题无法正确回答，这证明了在HiTab上进行QA是具有挑战性的。第三，尽管TaPas从表格的预训练中受益，但其表现仍不如最佳的基于逻辑形式的方法没有表格预训练。部分监督从表4可以得出两个方面的部分监督的有效性。首先，它提高了执行准确性。模型通过给出高质量的程序来学习如何处理更多的情况。其次，它大大降低了虚假率。模型学会生成正确的程序，而不是一些技巧。MML最受益（36.7%到45.1%），这表明部分监督通过修剪虚假程序来提高一致程序的质量。然而，TaPas并没有从部分监督中获得很大的改进，我们将在错误分析中讨论这个问题。错误分析对于TaPas，98.7%的成功案例是单元格选择，这意味着TaPas从部分监督中受益很少。这可能是由于：（1）TaPas不支持层次表格上的一些常见操作符，如 difference；（2）粗到细的单元格选择策略首先选择列，然后选择单元格，但不同列中的单元格也可能在层次表格中聚合。对于部分监督下的MAPO，我们选择了100个错误案例并进行了手动分析。我们将错误案例分为四类：（1）实体缺失（23%）：问题中未提及要过滤的标题，常见情况是省略了 Total；模型失败：这包括（2）选择正确区域失败（38%）和（3）生成正确操作失败（20%）；（4）超出覆盖范围（19%）：逻辑形式无法处理的问题类型，在附录A.1中有解释。虚假程序主要出现在两种模式中。在单元格选择中，可能存在多个数据单元格具有正确答案（例如图1中的G9、G16），但只有一个是正确的。在最高级中，模型可以02 https://huggingface.co/transformers/0+v:mala2277获取更多论文0Conference’17, July 2017, Zhoujun Cheng*, Haoyu Dong* † , Zhiruo Wang*, Ran Jia, Jiaqi Guo, Yan Gao, Shi Han, Jian-Guang Lou, and Dongmei Zhang0通过在不同区域进行操作（例如在 B21:B25 和 B23:B25 中，B23是最大的），生成目标答案。04 层次表格到文本 4.1 问题陈述0数据集 � = ( � � ,� � ) ,� ∈ [ 1 , � ] 是一组 � 个表格描述实例。描述 � �是关于层次表格 � � 的句子。 � � 应该完全由 � �的内容支持，并且可以通过一系列操作 � � = [ � � 1 ,� � 2 , . . .,� �� ]对某些表格单元 � � = [ � � 1 ,� � 2 , . . .,� �� ]进行更详细的描述。我们现在定义层次表格到文本的任务为：给定一个层次表格 � ，需要生成一个描述 � ，并对单元格 � 和操作符 �进行控制。完整的表格通常包含相当一般的信息。一些工作将表格到文本视为一种总结问题。然而，其主观性常常使得任务无约束且评估困难。为了准确陈述事实或根据用户意图执行操作，来自目标单元格和操作符的额外指导可能非常有帮助。我们将我们的任务置于受控设置中，模型在生成时提供了一定的指导。除了独特的层次表格结构和有意义的文本外，我们的任务还具有有价值的实体和数量的注释。它们可以在表格自然语言生成方面进行更详细和多样化的尝试。04.2 受控生成0完整的表格具有足够但一般的内容。通常通过突出显示表格单元格[37]和指定计算过程[19]，模型可以产生更具体和逻辑性的生成。突出显示的单元格可以指出信息丰富的单元格并排除无关的单元格。运算符澄清了数值意图并减少了事实的模糊性，将生成推向了简单的数据记录陈述之外。为了实现对特定用户意图的准确生成，我们尝试了两种受控设置：1）使用感兴趣的单元格，2）进一步使用指示单元格上计算过程的运算符。04.2.1使用突出显示的单元格。如果文本中的实体或数量在单元格内容中直接说明，或者可以通过它们进行逻辑推断，那么它们可以由单元格支持。受到[37]的启发，单元格突出显示有助于模型产生更具体的生成。与仅将数据单元格作为突出显示的单元格[37]不同，我们还支持标题区域中的突出显示的单元格作为条件，这通常是层次化表格中特定标题级别上的最高级ARG类型操作的情况。在我们的训练和测试阶段，突出显示的单元格是从实体和数量对齐的注释中提取出来的，而在实际应用中，我们希望可以根据用户的兴趣灵活选择突出显示的单元格。04.2.2使用指示计算过程的运算符。突出显示的单元格可以告诉文本生成的目标，但这还不够。一些工作使用逻辑形式[9]或数学表达式[19]将数量与其计算过程相关联。这激励我们使用公式作为文本生成的附加控制。与

下载后可阅读完整内容，剩余1页未读，立即下载