没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文基于问题类型分布学习和事件中心摘要赵振杰何玉芳王大阔莫玉F刘成忠◆马小娟◆南京信息工程大学南开大学IBM Research Europe◆ 香港科技大学zzhaoao@nuist.edu.cnwww.example.com,www.example.com,www.example.comyhou@ie.ibm.com@dakuo.wangibm.commoyumyu@tencent.com,chengzhong.connect.ust.hkmxj@cse.ust.hk摘要童话或故事书的教育问题的产生对于提高儿童的识字能力至关重要。 然而,它是具有挑战性的问题,捕捉一个童话故事的教育意义的内部方面。在本文中,我们提出了一种新的问题生成方法,首先学习输入故事段落的问题类型分布,然后总结可用于生成高认知需求问题的显著事件。为了训练以事件为中心的摘要器,我们使用由教育问答对组成的银样本来微调预训练的基于transformer的在一个新提出的教育问答数据集FairytaleQA上,我们的方法在自动和人工评估指标上都表现出我们的工作表明,分解的问题类型分布学习和事件为中心的摘要生成教育问题生成的必要性。1介绍听和理解童话故事或故事书对于儿童的早期智力和识字发展非常重要在故事书阅读过程中,提示具有教育目的的适当问题可以帮助儿童理解内容并激发他们的兴趣(Zevenbergen和Whitehurst,2003; Ganotice等人)。,2017;Xu et al. ,2021年)。这些问题包括高认知需求(HCD)问题和低认知需求(LCD)问题。HCD问题通常对应于Bloom认知过程分类中的应用、分析、综合和评估问题(Winne,1979 ; Anderson etal. ,2000年),这是从整个会话的不同元素合并的突出事件(Greatorex和Dhawan,2016年)这项工作是在莫在IBM研究院时完成良好的学习成绩(Winne,1979)。相反,LCD问题描述故事中的事实(例如,白雪公主的妈妈是谁?),HCD问题通常与事件及其关系有关(例如,为什么皇后要杀死白雪公主?猎人在森林里举起匕首后发生了什么?).然而,即使是人类也很难提出有教育意义的问题来吸引儿童阅读故事书,这可能是由于成年人缺乏技能或时间来整合这种互动机会(Golinkoff et al. ,2019)。最近的研究表明,人工智能驱动的会话代理可以扮演语言伙伴的角色,为儿童阅读童话故事并向他们提出教育问题(Xu et al. ,2021年)。这促使我们研究为儿童故事书自动生成HCD教育问题自动生成这样的问题可以通过引导对话在支持儿童的语言发展方面具有很大的价值大多数以前关于问题生成(QG)的工作都集 中 在 基 于 预 定 义 的 答 案 范 围 生 成 问 题( Krishna 和 Iyyer , 2019; Pyatkin 等 人 ,2019)。,2021; Cho等人,2021年)。这种使用“关键词”或特定事件的系统最近,? 发布 了 一 个 童 话 般 的 问 题 回 答 数 据 集FairytaleQA,包含约10.5k个由教育专家标注的问题-答案对每个问题都被分配到一个特定的类型,有些类型,如这使得研究生成教育问题以支持儿童的互动故事书阅读成为可能在本文中,我们提出了一个新的框架相结合的问题类型预测和事件-arXiv:2203.14187v1 [cs.CL] 2022年3月+v:mala2277获取更多论文集中的摘要,以生成故事书的教育在第一阶段,我们学习预测给定输入的问题类型分布并添加伪标签,以便在预测之后,我们可以知道问题的类型以及每种类型的问题数量。在第二阶段,以问题类型和当前问题类型下的问题顺序为条件,我们提取最有可能供教育者设计问题的突出事件,然后生成原始输入的以事件为中心的摘要。最后,在第三阶段,我们使用第二阶段的输出每个求和用于生成一个问题。请注意,很难获得以事件为中心的摘要的黄金注释。相反,我们将注释问题及其相应的假设答案重写为问答语句(Demszky et al. ,2018)作为银训练样本。我们假设HCD问题围绕叙事中的主要情节,可以引导我们的总结模型关注突出事件。我们在FairytaleQA数据集上评估了我们的系统,并显示了所提出的方法在自动和人工评估指标上的优越性。2相关工作2.1问题生成基于上下文的问题回答已经取得了显著的效果(Rajpurkar et al. ,2016; Zhanget al. ,2020b)。反向问题,即问题生成(Duan et al. ,2017年;Chan和Fan,2019年),通常依赖于从输入文本中预先选择跨度作为答案,并将单个句子作为上下文。然而,要在一个很长的段落中产生问题,其中的关键信息可能来自童话故事中的多个不同的句子(?),这些现有的模型依赖于一个文本段通常不能很好地工作(姚等。,2021年)。一些研究集中于基于多句子或多文档信息融合生成问题(Pan et al. ,2020;Xie et al. ,2020; Tuan et al. ,2020)。NarrativeQA(KocKomiskovanetal. ,2018)是一种尝试跨段落的多个位置整合关键信息以用于问题回答/生成的电子格式。类似地,MSMARCO(Nguyen et al. ,2016)是一个数据集,其整合了搜索引擎中用户查询的多个位置。在Choet al. (2021),提出了一种对比方法,首先训练监督模型以基于单个文档生成问题,然后使用强化学习代理来对齐来自多个文档的多个问题 在Lyu et al. (2021),作者使用基于规则的方法生成带有摘要和报告的问题,以实现良好的性能。上面提到的方法通常没有考虑教育维度,并且在现实世界中的FairytaleQA案例中可能不起作用。鉴于我们对教育问题生成的研究重点,具有教育目的的 在童话QA(?),专家通常为不同的段落编写不同类型的问题我们假设,背景起着重要的作用,在决定的问题,应该问在互动故事书阅读与儿童的类型。因此,不仅需要研究如何概括显著事件,而且需要研究如何学习问题类型分布。2.2文本摘要摘要方法可分为抽象摘要法和抽象摘要法。抽取方法从源文档中选择句子组成摘要;抽象方法应用神经生成模型逐个标记地生成摘要。提取摘要方法,例如Tex-tRank(Mihalcea和Tarau,2004)、基于特征的方法(Jagadeeshet al. , 2005; Luhn , 1958; Nal-lapatiet al. ,2017)和 基于 主题 的方 法(Oz-soyet al. ,2010),不致力于生成关于童话场景的HCD问题,因为这样的问题通常基于多个句子。基于编码器-解码器架构的抽象方法通常对输入文档逐个标记地顺序编码(Rush et al. ,2015),并且不能捕获文档中的细粒度的层次关系,诸如动作、因果关系。 图神经网络(GNN)模型最近被用于摘要研究(Wu etal. ,2021年;?;?;Xu et al. ,2020; Li等人,2021),这要归功于它们能够对文档中的复杂关系进行建模。例如,在Xu et al.(2020)中,研究人员使用话语级依赖图对文档进行编码,然后解码话语级嵌入以提取句子。同样,在Wang等人(2020)中,研究人员使用异构图对两个令牌进行编码,+v:mala2277获取更多论文L L−LLn∈p个伪Σ·我k=1lk+1k=1lk+1k=1lk+1不i=1的顺序,即。,{,second>,e(Whc+b)ij=1N我我1我文档中的层次和中间层次关系,然后用它来提取句子。然而,在教育领域,总结一个段落的突出事件,可以用来生成教育问题是一个悬而未决的问题。在本文中,我们开发了一个以事件为中心的摘要方法的基础上BART(刘易斯等人。,2020)。为了获得训练数据,我们通过基于规则的方法组成教育问题-答案对,并将其用作银色地面真实样本。综上所述,我们对问题类型分布预测进行多任务学习,最终的训练损失是K-L损失和交叉熵损失的加权和:=γ K-L+(1γ)CE,其中γ是权重因子。为了预测训练过程中每个问题类型的问题数量,我们将伪标签1添加到原始标签l=(l1,l2,.. . .,ln),即,,l=(l1,l2,. . .,ln,1)。然后我们可以将其标准化,以获得地面真实概率分布-tion l=(nl1,. . . ,n,n)。Dur-我们的故事书教育问题生成系统的概述如图1所示,它包含三个模块:问题类型分布学习、以事件为中心的摘要生成和教育问题生成。给定输入段落d,我们首先预测输出问题p=(p1,p2,. . . ,p T),其中p i表示问题类型i的概率,T是问题类型的总数。然后,我们将分布转换为每个问题类型l=(l1,l2,. . .,lT)。之后,我们首先用输入段落d生成li个类型i的摘要,然后用相应的摘要生成li个类型i3.1问题类型分布学习我 们 微 调 了 BERT 模 型 ( Devlin et al. ,2019),并调整输出的m维类令牌hcRm以学习问题类型分布。具体地,获得测 试 , 假 设 我 们 得 到 预 测 分 布 p= ( p1 ,p2,. . .,pn,p pseudo),我们可以通过将该伪标签p pseudo的概率除以如下公式来获得每种类型的问题的数量:pi+0。5英里。3.2以事件为中心的摘要生成在FairytaleQA中,一个段落通常有多个问题,这些问题具有不同的问题类型,并且一个教育问题中的信息可能分散在多个部分中。如前所述,我们认为,在互动故事书阅读过程中,语境在决定问题的类型和数量方面起着重要作用,HCD问题围绕着突出的事件和关系。有了上一个组件的输出,我们可以使用预测的问题类型分布作为控制信号,并为一个特定的问题类型选择相应的事件特别地,我们在输入段落之前添加两个控制信号:问题类型信号和问题顺序信号,其中∈T,∈由p =e(Whc+b)i,其中W∈RT×m,b∈C,T表示所有问题类型的集合,C表示RT是可学习的参数,()i表示选择向量的第i个元素的运算符.假设有N个训练样本,我们最小化K-L发散损失LK−L=<第三>,.}。我们训练BART摘要模型(Lewiset al. ,2020)来进行以事件为中心的摘要生成任务。BART模型的输入是: c> d,并且100万美元p(j)日志(十)我其中p(十)表示所述BART模型是一个汇总,j=1Ni=1ip(j)i教育问题类型的事件,其中d第j个样本的问题类型i的概率而p∈(j)是我们的预测值。为 了 提 高 预 测 性 能 , 类 似 于 Zhang et al.(2018),我们还进行了多标签分类任务,其中我们使用具有最大概率的问题类型作为输出. 特别地,我们增加了交叉熵损失表示输入段落。获 得 黄 金 总 结 是 困 难 的 。 然 而 , 像FairytaleQA这样的QA数据集提供了问题及其相应的答案。因此,我们可以一起重写带注释的问题和答案,以获得问答语句,这些语句用作银摘要LCE=−N我1吨1(y(j))logy(j),w这里1(y(j))等于1,如果i是问题类型,样本j的最大概率。Demszky et al. (2018)将答案插入到语义解析的问题中p3方法我i=1来训练我们的摘要模型。我们使用了+v:mala2277获取更多论文…·······10.5 FIRST><行动>第一次>…控制信号呆子拿出一块蛋糕和一些酸啤酒。…傻帽带来了什么?…0问题类型分布H巴特摘要问题[CLS]令牌k伯特[SEP]编码解码[CLS]输入段当他到达森林时,他也遇到了那个灰色的小老头,什么问题类型的人跟他打招呼说分布学习事件中心概要生成教育问题生成图1:从故事叙述文档生成教育问题系统的概述并消除疑问词。3.3教育问题生成有了第二阶段生成的摘要,生成教育问题就相当简单了.因为摘要已经包含了目标教育问题类型的所有关键事件,所以我们可以使用带注释的问题直接在其上训练问题生成我们微调另一个BART模型来生成问题,在输入摘要之前添加类型和顺序控制信号请注意,我们的问题生成模型不会对预先选择的答案范围进行回复。4实验装置为了证明我们提出的方法的有效性,我们在FairytaleQA数据集上进行了一组实验4.1数据集FairytaleQA数据集(?)包含278本书的注释,其中包括232本培训书、23本测试书和23本验证书。每本书都有多个段落,对于一本书的每一段问题类型分布在标注者之间是一致的。总的来说,有七种类型:人物:问题包含故事的人物作为主题,并要求有关该人物的额外信息;设置:以“Where/When”开头的问题行 动 : 以 “X做 了 什 么 / 做 了 什 么 /做 了 什么?”“或“How did/do/does X”或包含重点行动并要求提供有关该行动的补充信息的问题;因果关系:以“为什么”或“什么制造/制造”开头的问题结果解决:问题问两个事件之间的逻辑关系,如“发生了什么事?”在...之后";预测:以“将会/将会发生什么……”开头的问题前三个是认知要求低的事实问题,可以通过传统的基于跨度的问题生成方法很好地处理(Yao et al. ,2021年)。剩下的四种类型通常需要人们从多个元素中做出推断(Paris和Paris,2003),这对应于布鲁姆分类法中的高级认知技能(Andersonet al. ,2000年),并可以被视为HCD问题。对于问题类型预测,它通常要求故事书中没有出现的事件我们只考虑行动、因果关系和结果解决。有一小部分(10580个问题中的985个)跨越多个段落。为了控制儿童的认知需求水平,我们也删除了这些问题。所选数据的统计数字载于附录A节4.2基线我们将我们的系统与两个基线进行了比较:1)Yao等人提出的方法。(2021)(被称为QAG),这是考虑生成教育问题的唯一方法;2)使用FairytaleQA,我们训练了端到端BART模型。QAG QAG模型(Yao et al. 2021)使用“关键词”(语义角色标注)来识别实体和事件,然后生成问题,它包括四个步骤:1)基于动词的语义角色生成一组答案; 2)基于这些答案生成问题;3)基于巴特编码解码+v:mala2277获取更多论文4)对生成的问题-答案对进行排名,并选择排名靠前的问题。第二步训练问题生成模型,第三 步 训 练 答 案 生 成 模 型 。 我 们 使 用 top-K(即,10/5/3/2/1)生成的问题作为基线,分别表示为QAG(top10)、QAG(top5)、QAG(top3)、QAG(top2)和QAG(top1)E2E。 使用具有问题类型动作、因果关系和结果解决方案的FairytaleQA数据集,我们训练了一个BART大型模型,以基于一个段落端到端生成问题。在测试过程中,我们使用了最大长度100to- kens(根据表11,大约7个问题),并选择前2个问题作为评估的输出。我们将该方法表示为E2E。4.3评估指标我们采用自动和人工评估来衡量我们的方法的性能。4.3.1自动评估对于自动评估,类似于Yao et al. (2021),我们使用Rouge-L评分(Lin,2004),并报告平均精度,召回率和F1值。同时,我们还使用BERTScore(Zhanget al. ,2020 a)来评估所生成的问题与地面实况问题的语义相似性,并报告平均精确度、召回率和F1值。与Yao等人(2021)相反,我们主要考虑将所有生成的问题连接到一个句子中,并将其与连接的地面事实问题进行比较。这是因为对于每个段落,我们不仅需要评估每个问题的生成质量,还需要评估整个教育所需子技能的问题类型分布(Paris和 Paris,2003)。由于 问题顺序对Rouge-L没有太大影响,连接问题也部分考虑了单个问题的质量。此外,我们还考虑了Yao等人(2021)中使用的相同设置,即针对生成的问题获取每个黄金问题的最大分数,然后对所有生成的问题的分数进行4.3.2人工评价为了评估我们生成的问题的质量及其教育意义,我们进一步进行了人工评估。仅次于经常小组会议,我们总结了以下四个方面,其中儿童适当性是我们教育应用的主要衡量标准:1。问题类型:生成的问题是否属于三种事件类型中的任何一种。2. 有效性:生成的问题是否是根据原始段落的有效问题3. 可读性:生成的问题是否连贯和语法正确。4. 儿童适宜性:当你给一个五岁的孩子读这个故事时,你会在多大程度上问这个问题4.4实现细节对于重写银摘要,有8个句子无法解析成功。在本例中,我们手动编写了silver语句我们还手动更正了5份低质量报表问题类型分布学习的权重因子设置为0。7经验主义对于问题类型分布学习,我们使用了BERT案例大型模型。对于摘要生成,我们使用了BART用例基础模型。对于问题生成,我们用的是一个大的捷运系统。所有训练的批量大小设置为1。对于生成过程,我们只使用了贪婪解码方法。自动评估结果使用开源软件包1计算。 对于所有方法,我们都-移动了重复的问题和少于3个令牌的问题所有实验都在Ubuntu服务器上进行,该Ubuntu服务 器具 有 Intel( R)Xeon (R) Silver 4216CPU@2.10GHz、32 G内存、Nvidia GPU 2080Ti、Ubuntu 16.04。训练我们的模型花了大约三个小时。5结果和分析5.1自动评估结果验证和测试数据集的自动评估结果如表1所示。对于Rouge-L,与E2 E和QAG相比,我们的方法可以达到最好的结果,除了召回值。特别是,我们的方法在精度分数上优于E2E约20个点,并且优于最好的对于F1,我们的方法优于 E2E 约 10 个 点 , 优 于 最 好 的 QAG 模 型(top2)约5个点。这些结果表明1我们使用https://github.com/google-research/google-research/tree/master/rouge中的软件包计算Rouge-L,使用https://github.com/Tiiiger/bert_score中的软件包计算BERTScore。+v:mala2277获取更多论文胭脂红BERTScore方法前(验证/测试)记录(验证/测试)F1(验证/测试)前(验证/测试)记录(验证/测试)F1(验证/测试)E2e16.32/15.7636.21/35.8920.29/19.730.8855/0.88390.8425/0.84070.8632/0.8615QAG(top1)34.58/32.3319.56/19.6922.88/22.290.8599/0.86230.8776/0.87700.8684/0.8694QAG(top2)28.45/26.5830.51/30.3426.76/25.670.8830/0.88100.8745/0.87020.8786/0.8754QAG(top3)24.29/22.7436.80/36.3126.67/25.500.8866/0.88460.8663/0.86290.8761/0.8734QAG(前5名)20.38/19.2543.45/43.0425.55/24.530.8883/0.88620.8571/0.85400.8722/0.8696QAG(前10名)18.12/17.2646.57/47.0424.05/23.340.8873/0.88480.8503/0.84720.8681/0.8654我们33.49/37.5037.50/31.5431.81/30.580.8915/0.88620.8886/0.89300.8898/0.8893表1:通过将生成的问题连接在一起,Rouge-L和BERTScore的比较结果方法前(验证/测试)记录(验证/测试)F1(验证/测试)E2e31.29/30.8036.21/36.5331.77/31.65QAG(top2)35.17/33.5135.33/33.8334.21/32.64我们48.30/44.0539.55/36.6841.78/38.29表2:与Yao等人使用的装置的比较结果。 (2021年)。我们的方法可以匹配地面实况问题的词汇比其他方法更好然而,我们的方法的召回分数不如E2 E和QAG(top5 - 10)。这是因为对于E2E和QAG(top5 10),它们通常比我们的方法2生成更多的问题。对于BERTScore,我们的方法在精度,召回率和F1方面取得了最佳结果。尽管我们的方法比QAG(top2)的性能好一点,但它仍然比其他QAG模型好至少1个点。 对于Yao等人使用的设置, (2021),如表2所示,我们的方法也优于最佳QAG模型,即、QAG(前2名)和E2 E在Rouge-L方面有很大的优势。我们相信,明确地分解问题类型并使用以事件为中心的摘要来生成问题可以捕获教育问题注释的内部结构,并以更准确的方式拟合生成的问题的一些示例见表3。我们的方法通常可以预测正确的问题类型,并通过多个元素生成HCD问题,具有一定的真实性错误。更多的例子和比较可以在附录的C节中找到。除了整体性能,我们还研究了我们的方法的每个模块的性能由于验证数据和测试数据的性能值相似,为了简化我们的实验,在以下部分中,我们仅对测试数据进行实验。2在测试数据上,通过我们的方法生成的问题的平均值为1.9(标准差:0.6),这更接近地面真实情况(平均值:2.2,标准差:1.5)问题类型分布学习。在测试集上,我们基于BERT的模型的预测结果与地面实况之间的K-L偏差为0。0089,这表明我们的问题类型分布学习模块的性能是比较令人满意的。我们还使用真实问题类型分布作为输入,并使用我们的系统计算最终的Rouge-L分数。结果示于表4中。与真实问题类型分布相比,我们的系统仍然具有较低的精度和F1分数。具有更准确的问题类型分布预测有利于提高整体性能。以事件为中心的摘要生成为了研究生成的摘要的质量,我们将生成的结果与银色摘要地面实况进行比较。与生成的问题的评估方法类似,我们将生成的总结连接起来,并使用连接的真实总结计算结果是15。41精度3060次再叫,还有18次。85F1,这说明摘要模块还有很大的改进空间要查看如果我们有完美的摘要,上限性能如何,我们将银色摘要输入到我们的教育问题生成模型。生成的问题的Rouge-L评分为92。71精度8565召回,87。67F1,这表明,一旦一个很好的摘要包含显着的事件是可用的,生成一个教育问题是相对容易的潜力。核心挑战是获得良好的摘要,我们认为这将是今后工作的一个宝贵的下一步5.2人体评价结果在同意我们的方法的情况下,我们对表现最好的基线QAG(top2)进行了人体评估。我们首先从测试集中随机抽取了10本对于每一本书,我们随机sam-+v:mala2277获取更多论文×问题QAG(top2)很久以前,有一个农夫,他用马车把梨运到市场。为什么农夫想去卖梨吗小矮人走后发生了什么事至于沉默的爱尔兰人和他的爱尔兰情人,他们这么快就结婚了我们和尚为什么要把梨卖个好价钱(因果关系)和尚做了什么要求什么?(行动)岛民结婚时想表达什么(行动)为什么岛民们相信斯诺罗是被拐走的?(因果关系)黄金为什么农民希望梨卖个好价钱?(因果关系)农夫生气的时候会怎么做(行动)哈罗德的葬礼结束后,保罗和莫娜夫人做了什么(行动)为什么斯诺罗失去找到魔法红玉的机会吗(因果关系)表3:从两个段落(P1和P2)中随机选择的生成问题示例方法预RecF1我们的(gt)46.4831.9635.77我们的(tdl)37.5031.5430.58表4:我们的方法的Rouge-L得分,其中地面实况(表示为gt)和预测(表示为tdl)关于问题类型分布学习。5段。然后,我们进行了实验,以评估生成的结果的问题类型和质量。参与者是欧洲、美国、欧洲和欧洲的研究人员或博士研究生在中国从事教育领域的自然语言处理和人机交互工作,至少有3年的经验,通过口碑招募,报酬30美元。我们有一个培训课程,以确保参与者之间的注释本研究已获得IRB批准。问题类型。三名人类参与者注释了所有生成的问题的类型。三个参与者之间的编码器间可靠性得分(Krippendorff注释结果见表5。总的来说,我们的方法与地面真实分布的K-L距离(0.28)比QAG(0.60)小得多我们可以看到,我们的方法对问题类型的分布有更好的估计QAG具有偏向的问题类型分布,并生成更多的结果解决问题。QAG(top2)我们地面实况模糊17/17%15/17%0/0%行动21/21%34/38%47/48%因果10/10%36/40%32/33%结果51/52%百分之五点六18/19%表5:问题类型的人类评估结果(模糊表示难以决定的问题类型或具有语法错误的问题)。问题质量。 我们邀请了另外五名人类参与者并进行了人工评估,以进一步评估我们的模型针对地面实况和QAG生成的问题的质量,包括有效性,可读性和儿童适当性。在这三个维度中,儿童得体性与教育目的的关系最为密切,前两个维度分别主要衡量事实正确性和流利性。对于总共105个段落,每个参与者被随机分配20个不同的段落,每个段落都有两个段落的注释结果有钱人对于每个段落,参与者需要阅读段落及其相应的问题和答案,然后在五分制的Likert量表上对三个维度进行评分四个维度的Krippenalty α得 分在 0.60 和0.80 之 间( 有效性 : 0.80 , 可 读 性 : 0.69 , 儿 童 适 当 性 :0.60),表明可接受的一致性(Gretz et al. ,2020)。我们进行了独立样本t检验来比较每个模型的性能。在儿童适宜性的主要评价维度上,我们的模型显著优于QAG:我们的模型和QAG的平均得分分别为2.56和2.22,相应的标准差分别为1.31和1.20。这给出了p值=0.009的显著分数,表明问题由我们的模型产生的确实可以更好地适应教育场景。作为参考,地面实况的平均得分和标准差为3.96和1.02,表明仍有很大的改进空间。在有效性和可读性方面,我们的模型与QAG相当。这并不奇怪,因为这两个模型都是基于大型预训练的BART模型,这些模型擅长生成自然流畅的句子。在有效性方面,我们的模型(平均值:3.19,标准差:1.53)略低于QAG(平均值:3.27,标准差:1.62);+v:mala2277获取更多论文为了可读性,我们的模型(avg:4.19,std:1.53 ) 比QAG ( avg : 4.12, std: 1.33) 稍高。表6中的进一步细分显示,QAG主要在动作问题上获胜,因为它直接生成了以动词为条件的问题。对于因果关系和结果解决问题,我们的方法通常优于QAG。QAG我们模糊2.06公斤/2.03公斤 2.97公斤/3.03公斤行动3.69/4.76磅3.35/4.34分因果3.45/4.453.10/4.46结果3.46/4.493.50/4.80表6:人类对问题质量(有效性/可读性)评价的平均值,其中,显著性差异表示显著性差异。6系统分析为了进一步研究我们方法的有效性,我们进行了一系列消融研究。6.1问题类型分布学习为了考察我们的问题类型分布学习的效果,我们进行了一项比较研究。特别是,我们删除了问题类型分布学习模块(表示为w/o tdl),并直接训练摘要和问题生成模型。换句话说,在训练过程中,我们将所有银色摘要连接起来作为摘要模型的输出。在测试过程中,我们提取前两个句子作为预测总结。结果示于表7中。从比较中可以看出,在不知道问题类型的情况下,Rouge-L得分总体下降了约3分,这表明了我们的问题类型分布学习模块的重要性6.2以事件为中心的摘要生成为了研究以事件为中心的摘要生成模块的效果,我们对不同的摘要方法进行了比较。总结方法包括:1)Lead3.我们选择一个段落的前三个句子作为摘要,并将它们作为问题生成模型的输入;2)Last 3。我们选择一个段落的最后三个句子作为摘要,并将它们作为问题生成模型的输入。3)随机3.我们随机选取一个段落中的三个句子作为摘要,并将它们作为问题生成模型的输入。(4)合计。我们使用一个段落的每一句话作为方法预RecF1我们的(不含tdl)32.6229.8927.42我们37.5031.5430.58表7:我们的方法在有和没有问题类型分布学习的情况下的Rouge-L得分。方法预RecF1Lead325.2030.7624.73最后3个24.3529.9724.05随机323.7528.8823.07总22.6934.3424.63TextRank30.7221.7421.94我们的(不含tdl)32.6229.8927.42表8:不同摘要方法的比较结果(Rouge-L问题生成)。摘要,并将它们用作问题生成模型的输入。5)TextRank。TextRank是一种典型的抽取式摘要方法。我们使用TextRank来提取摘要,对于摘要中的每个句子,我们将其输入到问题生成模型中。对于其他摘要方法,它们不能像我们的方法那样得到问题类型分布。为了公平比较,我们还删除了我们方法的问题类型分布学习模块,这与第6.1节中的设置相同结果如表8所示,从中我们可以看出,从段落中提取句子不足以覆盖教育问题生成的显著事件。本文提出的以事件为中心的摘要生成方法是抽取童话教育事件使用所有句子(全部)可以以牺牲准确性为代价获得最高的召回分数,但总体F1分数仍然相对较低。6.3问题类型的多任务学习目前,我们使用控制信号来约束生成不同类型的问题,这可以被看作是一个多任务的学习框架,多类型的问题生成。为了研究共享参数是否是我们任务的好方法,我们使用不同的问题类型训练了个体摘要和Rouge-L的结果见表9。我们可以发现,共享参数通常可以获得更好的性能,因为使用更多的训练数据。对于只使用一种类型的训练数据,由于问题类型分布学习的误差,性能下降很多,说明了组合问题的重要性+v:mala2277获取更多论文方法预RecF1行动35.9720.6824.29因果13.7011.2311.54结果6.154.975.30我们的(个人)25.7133.0826.27我们的(总体)37.5031.5430.58表9:在每种问题类型上训练单独摘要和问题生成模型类型分布学习和具有不同类型训练数据的多任务学习。7结论在本文中,我们提出了一种新的方法,教育问题生成的叙事文件(即童话),这可能会被用于幼儿教育。我们的方法包含三个模块:问题类型分布学习,以事件为中心的摘要生成,和教育问题生成。通过问题类型分布学习,我们可以通过提取一个问题类型的相关事件来分解教育问题生成的挑战,并生成具有简短的以事件为中心的摘要的教育问题,从而显著提高了性能在自动评估和人工评估方面,我们展示了我们方法的潜力在未来,我们计划进一步研究以事件为中心的摘要生成模块,通过考虑话语级信息来提高摘要化性能并改善真实性错误问题 。 我 们 也 对 部 署 系 统 感 兴 趣 ( 怎 么样?)),以惠及儿童保育相关领域。致谢作者感谢所有匿名评论者的建设性建议,以及我们人类评估会议的所有这项工作得到了香港通识研究基金(GRF)的资助,资助号为16203421。赵振杰是国家自然科学基金(62106109)和南京理工大学人才引进创业基金的资助人引用洛林·W作者:David R.克拉思沃,和本·塞缪尔·布鲁姆。2000.一种学习的分类法-教育、教学与评估:布卢姆教育目标分类法的修订。朗曼陈映红和范耀中。2019. 一种基于递归BERT的问题生成模型。在Proceedings of the 2nd Workshopon Machine Reading for Question Questioning,第154-162页,中国香港。计算语言学协会。Woon Sang Cho,Yizhe Zhang,Sudha Rao,AsliCeliky- ilmaz,Chenyan Xiong,Jianfeng Gao,Mengdi Wang,and Bill Dolan.2021. 对比多文档问题生成。在计算语言学协会欧洲分会第16次会议的会议记录,第12-30页计算语言学协会。Dorottya Demszky Kelvin Guu Percy Liang2018年将问 答 数 据 集 转 换 为 自 然 语 言 推 理 数 据 集 。arXiv:1809.02922。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。南断,都宇堂,彭辰,明州。2017. 用于问答的问题生成。2017年自然语言处理经验方法,第866-874页计算语言学协会。弗 赖 德 河 Ganotice , Kevin Downing , Teresa KaMing Mak , Barbara Chan , and Wai Yip Lee.2017.透过对话阅读增进亲子关系。教育研究,43:51放大图片作者:Roberta Michnick Golinkoff,ErikaHoff , Meredith L. 作 者 : Catherine S. Tamis-LeMonda和Kathy Hirsh-Pasek。2019.语言问题:否认3000万字差距的存在会产生严重后果。儿童发展,90 3:985杰基·格雷特雷克斯和维卡斯·达万2016.阅读、写作 、 听 力 测 试 的 认 知 需 求 分 析 。 ISECProceedings.Shai Gretz,Yonatan Bilu,Edo Cohen-Karlik,andNoam Slonim. 2020. 工作周是组建家庭的最佳时间-- 一项基于GPT-2的索赔生成在计算语言学协会的调查结果:EMNLP 2020,第528-544页,在线。计算语言学协会。贾亚·贾亚许里·贾加德什,普拉萨德·平加利,和瓦苏德瓦·瓦尔玛. 2005.基于句子抽取的单文档摘要。国际信息技术学院,印度海得拉巴,5。+v:mala2277获取更多论文托 马 斯 ·K·o·c· 阿 尼 斯 克 , JonathanSchw arz ,PhilBlunsom, ChrisDyer , KarlMoritzHermann,GáborMelis,andEdwardGrefenstette.2018. NarrativeQA 阅读理解挑战。Transactions of the Association for ComputationalLinguistics,6:317- 328.克 劳 斯 · 克 里 彭 多 夫 2011. Krippendorff's alpha-reliability. 宾夕法尼亚大学.Kalpesh Krishna和Mohit Iyyer。2019. 生成问答层次结构。在计算语言学协会第57届年会的会议记录中,第2321-2334页,意大利佛罗伦萨。计算语言学协会。Mike Lewis,Yinhan Liu,Naman戈亚尔,Mar-jan Ghazvininejad , Abdelrahman Mohamed ,Omer Levy , Veselin Stoyanov , and LukeZettlemoyer. 2020. BART:用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中,第7871-7880页,在线。计算语言学协会。李曼玲,马腾飞,莫雨,吴凌菲,高田,纪恒,凯瑟琳·麦基翁。2021. 通过时间感知的最佳传输,基于事件图压缩的时间轴摘要。在2021年自然语言处理经验方法会议集,第6443-6456页,在线和蓬塔卡纳,多米尼加共和国。计算语言学协会。林金耀2004. ROUGE:一个自
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功