没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文综合问题值估计用于问题分类的领域适应Xiang Yue1,Ziyu Yao2,and HuanSun11俄亥俄州立大学2乔治梅森大学{yue.149,sun.397}@ osu.eduziyuyao@gmu.edu摘要在目标域上使用问题生成器(QG)合成QA对已成为一种流行的问答(QA)模型领域自适应方法。由于合成问题在实践中往往是嘈杂的,实验工作采用预先训练的QA(或QG)模型的分数作为标准来选择高质量的问题。然而,这些分数并不直接服务于提高目标域的QA性能的最终目标。在本文中,我们介绍了一种新的想法,训练一个问题值估计器(QVE),直接估计合成问题的有用性,以提高目标域QA性能。通过综合实验,我们表明,QVE选择的综合问题,可以帮助实现更好的目标域QA性能,与现有技术相比。我们还表明,通过使用这样的问题,并且只有大约15%的人类注释在目标域上,我们可以实现与完全监督基线相当的性能11介绍基于预训练语言模型的问答(QA)系统,例如BERT(Devlinet al. ,2019)最近在机器阅读理解方面取得了令人鼓舞的表现。然而,在一个域上训练的神经QA系统可能无法很好地推广到另一个域,这使得在缺乏大规模QA训练数据的新域上部署此类系统具有挑战性。在本文中,我们感兴趣的是半监督域自适应:我们的目标是建立一个目标QA模型与源域数据和少量的目标域注释QA对。1我们的源代码可以在https://github上找到。com/xiangyue9607/QVE2大规模训练数据的大小通常为60- 100 K。现有:重新调整QA/QG模型的用途以供选择1)往返一致性(RTC)上下文应答QG生成QA2)LM分数过滤Q1:-模型问题模型提取的答案是否匹配?QG日志Q2:-0.05模型可能性Q3:-0.23Q4:-2.31QVE:从目标注释奖励:目标绩效增益QG生成的问题模型问题值估计器选择有用的QA模型Eval目标注释类型生成的问题RTC LM QVE简单的事实问:谁是CNN的创始人?背景:. CNN创始人泰德说,受到上周选举结果的“鼓舞”✓✓✘错配问:谁被提名为最高法院大法官?背景:.提名埃琳娜·卡根填补即将退休的最高法院法官史蒂文斯的职位...✘✓✘优质问:这位女士提供应召女郎卖淫的人背景:.特比维尔称自己为“休斯顿的海蒂·弗莱斯”,指的是一位被称为“好莱坞夫人”的女性,她为休斯顿提供应召女郎。✘✘✓✓ :selected选择:已过滤图1:现有的工作重新使用了预训练的QA(或QG)模型来评估生成问题的质量,这与目标域QA性能没有直接关联相比之下,我们的问题值估计器(QVE)学会选择有用的问题与目标域QA性能增益作为直接反馈。由于高注释成本,现有的工作(Golub etal. ,2017; Dong et al. ,2019; Wang et al. ,2019; Puri et al. ,2020; Chen等人,2020; Yue等人,2021)提出经由神经问题生成(QG)模型来合成目标域QA对。然后使用合成数据在目标域上训练QA模型。然而,在实践中,生成的问题通常质量较低,例如与其配对答案语义不匹配或询问简单的事实(图1)。将所有这些问题纳入QA培训不太可能带来实质性的改进。这启发我们研究一个关键问题:arXiv:2203.08926v1 [cs.CL] 2022年3月+v:mala2277获取更多论文给定一组目标域合成QA对,如何选择高质量的对改进目标域QA训练有用的QA对?为了解决这个问题,Alberti et al. (2019)提出了Roundtrip Consistency(RTC)方法,该方法过滤了3个无法通过预训练的QA模型正确回答的问题。其他工作(Shakeri et al. ,2020)考虑使用QG模型的生成对数似然(LM得分)作为过滤噪声问题的度量(图1,顶部)。 尽管这些过滤技术已被证明在一定程度 上 提 高 了 问 题 质 量 ( Rennie et al. ,2020),它们没有直接优化以选择可以提高目标域上的QA性能的问题。例如,一些有用但困难的问题(例如,图1中的最后一个例子)可以通过Roundtrip方法进行过滤,因为它们不能被预先训练的QA模型正确地回答。然而,当将这些问题添加到培训中时,这些在本文中,我们提出了一个问题价值评估(QVE)(图1,中间)来选择可以提高目标领域QA性能的问题。QVE接受生成的QA示例并输出实值分数(即,问题值),这些值被期望表示所生成的问题在改进目标域QA性能方面的有用性。然而,由于缺乏监督(即,真正的价值观)。为了解决这个问题,我们建议用目标域的直接QA反馈来训练QVE。直觉上,如果一批合成问题(用于训练时)导致目标领域QA模型的准确性增加,QVE应该为其分配高值;准确性增加得越多,问题值应该越高。因此,在将所选问题添加到训练中之后,我们使用目标域QA性能增益来优化QVE更正式地说,考虑到离散和不可微的问题选择过程,我们将QVE的问题选择公式化为强化学习(Williams,1992)问题(图2)。QVE每次接收一批合成样本,并根据它们的估计值学习选择高质量的样本。然后,使用所选择的样本来训练目标域QA模型,3我们可以交替使用获得(在可用的目标域注释上)作为奖励。该奖励引导QVE的优化,使得QVE最终做出适当的问题值估计和选择。为了评估QVE模型,我们基于预训练的BART(Lewis et al. ,2020)和BERT(Devlin等人,2019)。 通过对四个常用的阅读理解数据集(Trischler et al. ,2017; Joshi et al. ,2017; Yang et al. ,2018; Kwiatkowskiet al. ,2019年),我们表明:(1)我们的QVE模型训练与目标域QA反馈实质上优于问题选择技术训练没有直接QA反馈(Alberti等人。,2019; Shakeri et al. ,2020)。(2)当使用我们的QVE模型选择合成问题时,QA模型可以实现与完全监督基线相当的性能,同时仅使用15%的完整目标域注释,这表明我们的方法可以在实践中大大减轻人工注释工作(3)为了理解为什么QVE带来了卓越的改进,我们进行了人工评估,发现QVE可以更好地识别语义匹配和困难的问题。2相关工作问题分类的领域适应。在这一领域,一些工作( Wiese et al. , 2017; Chunget al. , 2018;Hazen et al. ,2019; Cao et al. ,2020)假设目标域注释的问题是可用的,然而,手动创建问题 是 昂 贵 的 。 因 此 , 另 一 系 列 研 究 工 作(Golub et al. ,2017; Wang et al. ,2019; Leeet al. ,2020; Shakeri et al. ,2020)研究了在目标域上注释的问题不可用的域适应设置。这条线通常采用的方法是利用神经问题生成(QG)模型(Du et al. ,2017; Zhou et al. ,2017; Sun et al. , 2018; Zhao et al. , 2018;Nema et al. ,2019; Tuan et al. ,2020年)自动合成未标记上下文的问题(Du和Cardie,2018年; Zhang和Bansal,2019年; Wang等人,2019年)。,2019; Liu et al. ,2020; Golubet al. ,2017; Wang et al. , 2019; Lee et al. , 2020;Shakeri et al. ,2020; Yue等人2021年);见第3节的更多讨论。然而,在没有任何目标注释的情况下实现令人满意的性能在我们的工作中,我们研究了QA的半监督域自适应,并假设少量的目标注释可用,+v:mala2277获取更多论文我LLLLsyn我 我 我 i=1J JJ j=1L l=1synLLLl=1LL--Lsyn这可以极大地帮助模型适应目标域,同时需要最少的人力。并且提供了少量的目标域QA注释。从形式上说,我们把源头-域QA数据集为Ds={(cs,qs,as)}N,与我们的工作相关的其他研究课题(Fabbri其中上下文的大规模元组cs,问题qs和答案as是可用的。针对目标等人,2020; Li等人,2020; Lewis等人,2019年; iiDhingra等人,2018)。 与域适应不同,这两个设置并不假设存在域,只有一小部分带注释的QA对Dt={(ct,qt,at)}M是可用的(MN)。“源域”和综合完形填空式的问题,由于基于规则的QG方法通常比神经方法(在源数据上进行预训练)的性能差得多,因此我们不会在实验中比较这两条研究路线。数据选择方法的目的是从(噪声)训练数据中选择有用的尽管(基于RL的)数据选择方法在由于未标记的上下文很容易收集,我们作为-证明它们在很大程度上是可用的:Ct=ctL(LM)。任务是建立一个QA模型,可以准确地回答目标领域的问题,给定Ds,Dt和Ct。通过问题生成的域适应。由于缺乏大规模的目标领域注释,一种直观的领域自适应方法是首先合成目标领域QA数据其他NLP任务(Ruder和Plank,2017; Qu et al. , Dt={(ct,qt,at)}L自动从2019; Liu et al. ,2019年),它们都不能直接未标记的上下文Ct,然后训练目标-域QA模型的合成(Dt)和在我们的QA场景中,小尺寸注释(不syn半监督设置。例如,(Ruder和Plank,2017)和(Liu et al. ,2019)用所选数据与目标数据之间的分布距离来奖励或衡量选择,而我们通过衡量所选数据可以为目标领域QA训练带来多大的改进来奖励选择,这与最终目标更加一致。我们的工作主要受到机器学习社区最近关于数据选择的研究的启发(Ghorbani和Zou,2019; Jia等人,2019)。,2019),特别是(Yoon et al. ,2020)。然而,我们的工作和(Yoon et al. ,2020)如下:1)我们研究了一个非常具有挑战性的任务,问题回答的领域适应,这在(Yoonet al. ,2020)。如何发展一种方法在类似的精神,这项任务是未经探讨的。2)为了研究这个任务,我们首先提出了两种数据选择方法,这两种方法在(Yoon et al. ,2020年),但实现与现有基线相当的结果。然后,我们介绍了我们的基于RL的方法,精心设计的奖励,这是很好地连接到提高目标QA性能的最终目标3背景3.1基于QG半监督域自适应。本文研究了抽取式问答系统的半监督域自适应问题,D)目标域数据。在这种方法中,首先在源训练数据上预训练问题生成器(QG)gφ,并在可用的目标域注释的QA对上进一步微调然后,经过良好训练的QG模型将目标域上下文答案对作为输入以生成问题:qt=gφ(ct,at)。虽然这种方法已经被证明是有效的-在实践中,综合题的质量制约着其有效性因此,学习选择那些可以导致一个更好的目标域QA模型成为一个至关重要的问题。关于如何获得QG的t,在本文中,我们假设一个答案at(即, 根据Du et al.,给出了上下文中的文本跨度(t)。 (2017年)。当没有给出答案时,可以通过使用实体识别工具(Du和Cardie,2018),分类器(Puriet al. ,2020)或seq2seq模型(Shakeri et al. ,2020)。注意,由这样的答案提取工具引起的噪声将进一步降低合成问题的整体质量。在本文中,我们重点讨论了如何在一般情况下选择有用的综合问题(即,这些问题可以通过任何QG过程来合成),并且为了简单起见假设给出了答案3.2综合问题选择给定合成目标域QA数据Dt,任务是从Dt中选择高质量对在我们的实验中,我们假设有1,000个目标注释可用,这大约是原始训练数据的1-1.5%无监督和半监督QA是两种+v:mala2277获取更多论文∈∈Σ这对改进目标域QA训练是有用的这样的选择决定通常是基于可以指示对的质量的一些分数来做出的。例如,Roundtrip滤波(Al-bertietal. ,2019)通过预训练的QA模型基于提取的答案的正确性选择问题。类似地,LM滤波(Shakeri et al. ,2020)选择生成中具有高对数似然分数的问题。然而,这些分数并不直接服务于改进目标域QA训练的目标 受机器学习社区最近关于数据选择的研究的启发(Ghor-bani和Zou,2019; Jia等人,2019年)。,2019;Yoon et al. ,2020年),我们提出了一个新的想法,训练一个问题值估计器,预测目标域QA的合成问题的有用性4问题价值估计(QVE)形 式 上 , 我 们 设 计 了 一 个 问 题 值 估 计 器(QVE)eγ,它接受一个合成的QA示例(cl,ql,al)(为简单起见,我们省略了上标t),并输出一个表示其“值”的分数vl=eγ(cl,ql,al).“值”可以暗示“当用作训练样本时,有了这个分数,人们可以选择最有用的合成示例用于目标域QA训练。我们使用BERT模型作为QVE的主干。具体来说,我们将上下文、问题和答案连接起来作为QVE的输入,并使用BERT对序列进行编码(Devlin et al. ,2019)。h=BERT[ CLS>q ANS>a SEP>c]其中q、a、c分别表示问题、答案hRH表示从<和是用作分隔符的两个特殊标记。在我们的初步实验中,我们发现通过预训练的QA模型将答案(开始索引和结束索引)概率(ps,pe)作为附加特征添加到隐藏表示h中可以加速QVE训练收敛并导致更好的性能。因此,我们添加这两个特征(ps,pe),然后对原始隐藏表示进行线性变换,然后构建线性分类器以输出问题值。HJ=σ(W2σ(W1h+b1)+b2)HJJ=σ(W3(HJpspe)+b3)vl=W4HJJ+b4其中W1∈RH1×H,W2∈RH2×H1,W3∈RH3×H2,W4∈RH3,b1∈RH1,b2∈RH2,b3∈RH3,b4R是线性层的可训练参数。σ是激活函数tanh。学习这样一个问题值估计器是有挑战性的,因为我们没有直接监督的真实价值或有用的综合问题。我们在第4.1节中讨论了两个简单的基线来训练QVE,在第4.2节中讨论了一个更高级的基于强化学习的基线。4.1QVE培训:两个基线二进制分类器:一个简单的解决方案是将QVE视为二进制分类器,并根据人类注释(阳性)和机器合成(阴性)的QA对对其进行训练。考虑到目标域数据的稀缺性,我们首先在源域上预训练分类器,然后在目标域上对其进行更具体地说,我们在70%的源训练数据上训练QG模型,并在剩余的30%的源训练上下文上生成合成问题。生成的问题和源域注释问题用于训练此二进制分类器。然后基于目标域注释的小集合(正)和在相同目标域上下文上合成的样本(负)来微调分类器。然而,并非所有生成的问题都是坏的。简单地将所有合成样本视为阴性可能会误导分类器。因此,我们放松了这个假设,并引入了一个排名基线。排名基线:我们假设人类注释的问题的质量不低于机器合成的问题。因此,我们基于如下定义的排名三元组损失来训练Lr= max(0,m+vs−vh)其中vs、vh是机器合成样本和人类注释样本的估计问题值。m被设置为0。15、保证金。这两种基线方法有两个明显的缺点:(1)它们被训练以区分人类注释的和机器合成的样本,这与我们在机器合成的数据中选择高质量样本的目标不匹配;(2)类似于( Alberti et al. , 2019; Shakeri et al. ,2020),两个基线不是用可以表示合成问题的有用性的直接信号训练的。在下一节中,我们将介绍一个针对特定任务的培训+v:mala2277获取更多论文12356syn←l=1synl=1SVl=1Bnl=1D{}VDαn B.B.0合成样品问题选择一批样品值向量样品问题值估计器预训练QA模型火车目标埃瓦尔·安诺.........更新样本QA模型奖励:目标绩效增益图2:基于QA直接反馈的QVE培训示意图。具体来说,在正向传递中,QVE估计一批合成问题的问题值,并绘制伯努利抽样来选择问题。然后,所选择的问题用于微调预训练的QA模型。目标注释的性能增益(QA微调之前和之后)将作为REINFORCED QVE训练的奖励进行计算算法1QVE强化训练输入:预训练QA模型fθ;目标合成在这个问题之前和之后的增益(关于可用的目标注释)被包括在训练集中。QA对Dt;小目标注释Dt.然而,这种超参数:外迭代Io,外批量大小Bo,内迭代In,内批量大小Bn,QVE学习率αo,QA学习率αn。输出:QVEeγ。1:随机初始化eγ2:存储θ0θ(预训练QA检查点)3:对于外部迭代=1到1。4:d对一批合成QA对进行取样:5:样本=(cl,ql,al)Bo,来自Dt6:d估计问题值:7:=eγ()8:d样本选择向量:假设它在每个向前传递中只能估计一个单一合成问题的值,那么它是昂贵和耗时的鉴于这一挑战,我们改为以批量方式估计问题算法1和图2描述了学习过程。一般来说,我们将QVE模型学习框架为强化学习问题(Williams,1992),并通过使用性能驱动的奖励来激励QVE为更有用的问题分配更高的值。特别是对于一批合成实施例D={(cl,ql,al)}Bo九:10点整:十一:十二:十三:十四:伯努利d4更新选定样品的QA:对于内部迭代=1toIndoSample{(cl,ql,al)}Bn<$Dθ←θ−sl·<$θLqa端在外部训练迭代(第4-5行)中,QVE模型根据其对目标域的值的判断,选择最有可能从数学上讲,决策结果由选择向量S=十五:d计算QA增益作为QVE奖励:(第1条、第2条、.... s Bo),其中s l∈ {0,1} l = 1,.,Bo十六:十七:r qve=reward_fn(f θ,f θ,Dt) d 一曰:(第6-9行)。整个批次级决策策略πγ描述如下:十八:十九:γ←γ−αo·γLγ重置θ←θ0+v:mala2277获取更多论文γLL方法,该方法直接使用目标域QAvl=eγ(cl,ql,al)sBernoulli(v)20:ll结束Bo21:返回eγ反馈以优化QVE。4.2QVE培训:来自QA的直接反馈一个训练有素的QVE预计将分配高价值的合成问题,可以提高目标域QA性能。因此,衡量综合问题价值的直观方法是考虑下游QA性能π(S|D)=Y[vsl·(1−v)1−sl],l=1其中某个例子(cl,ql,al)的选择被公式化为从概率vl的伯努利分布采样(即,其估计的问题值)。我们采用基于估计值vl的伯努利抽样,而不是设置一个硬阈值,以鼓励政策探索。该模型的奖励是基于所选示例可以带来多少单位+v:mala2277获取更多论文LΣ0L−SL−ΣSπγLL当它们用于训练目标域QA模型时。为此,我们基于qa对所选批次样本微调QA模型fθ,这通常是交叉熵损失:BoL qa= −logP(a l|q l,c l; θ)L在实践中,为了稳定QVE训练,我们在每个外部训练迭代中选择大的外部批量大小Bo为了微调QA模型,我们选择相对较小的内部批量大小Bn并重复训练In次,使得QVE选择的样本被充分利用(第10-14行)。奖励rqve被定义为在微调之前(fθ0)和之后(fθ)目标域注释Dt上的QA性能增益(第15-16行),rqve=reward_fn(fθ,fθ,Dt)其中reward_fn是精确匹配(EM)增益5。由于离散和不可微的问题-在选择过程中,我们使用REINFORCE算法(Williams,1992)更新QVE模型。在数学上,我们的目标是最小化:具体而言,根据Shakeri et al. (2020),我们使用SQuAD 1.1(Rajpurkar et al. ,2016)作为源域数据集。 对于目标域数据集,我们考虑NewsQA(Trischler et al. ,2017),自然问题 ( NQ ) ( Kwiatkowski et al. , 2019 ) ,Hot-potQA(Yang et al. ,2018)和TriviaQA(Joshiet al. ,2017年),因为它们是常用的,并且具有足够的上下文,用于QG模型生成合成样本。由于没有可用于每个数据集的测试集,因此我们使用原始开发集作为测试集。每个数据集的详细描述见附录A。对于目标域数据集,我们假设原始数据集中的所有上下文和n个带注释的QA对训练集可用于训练。我们将n=1000(约为原始训练集的1%-1.5%)设为默认值,并在6.2节中讨论了n的影响。5.2实现细节我们使用Hugging Face transformers(Wolf etal. , 2020 ) li-100. 我 们 用 BERT-base-uncased(Devlin et al. ,2019),和QG模型与BART基地(刘易斯等人。,2020)。对于训练QVE(算法1),γ=Eπ γ(·|D)[r qve].我们使用BERT-基-uncased模型和集合对于线性,H1=H3=H= 768和H2= 64损失函数的梯度推导为:层次。为了实现大批量B。,我们使用梯度检查点(Chen et al. ,2016年),aγγ=ESπγ [r qve<$γlog π γ(S| D)]用于在训练深度神经网络时减少内存占用的技术。我们设定=−E[rBolog[v sl(1 − v)1−sl]]。(一)Io= 2000,Bo =80,In−5=20,Bn=4和l=1值得注意的是,为了减轻强化学习中的不稳定性,我们在每次外部迭代结束时将QA模型重置为其预训练的检查点(第19行),并保持预训练的QG模型不变。在训练QVE之后,我们可以使用它来计算 目标域上所有综合问题的问题值。然后我们可以选择前K%的合成问答对作为训练语料进行训练目标域QA模型。5实验装置5.1数据集我们在MRQA 2019共享任务中使用数据集(Fisch et al. ,2019年),一个流行的挑战,专注于概括阅读理解。5我们还尝试了F1增益和损失下降,因为reward_fn和EM增益略好于其他两个。检查点,我们选择在目标注释上获得最高奖励的一个或导致最低QA训练损失的一个。当训练(微调)QA和QG模型时(无论是在源域还是目标域),我们将训练时期分别设置为2和3。其他超参数在transformers库中设置为默认值。5.3比较基线我们评估了以下基于不同训练数据构建的QA模型(1) 仅源基线:我们在源域数据上训练QA模型。(2) 源+目标注释基线:我们进一步对可用的目标注释QA对上的“(1)仅源基线”进行微调(3) QG基线(无过滤):我们首先在源域数据上预训练QG模型,并在可用的目标注释上对其进行的γqveαo=αn=3e.选择最佳QVE+v:mala2277获取更多论文→→不同的滤波方法数据集无过滤器RTCLMQVE新闻资讯74,16033,75644,48544,485NQ104,07162,88862,44362,443HotpotQA72,92846,27343,75743,757TriviaQA61,68826,36137,01337,013表1:通过不同方法选择的合成实施例的数目NoFilter:QG基线(无过滤); RTC:往返过滤;LM:LM过滤。然后使用QG模型在目标上下文上生成合成QA样本。我们对所有可用数据按顺序微调QA模型,对于除TriviaQA 6之外的所有数据集,排序 为 同 样 的 QA 微 调 策 略 也 将 用 于 ( 4 ) -(8)。(4) 往返滤波(Alberti et al. ,2019):我们使用“(2)源+目标注释基线”来提取目标合成问题的答案,并选择提取答案正确的那些作为目标合成训练语料。(5) LM滤波(Shakeri et al. ,2020):我们使用(3)中QG模型产生的合成问题的对数似然分数作为过滤标准。我们选择前K%的样本作为目标合成训练语料库。(6) QVE(二元分类器):我们将QVE训练为二元分类器(第4.1节),然后使用它来选择前K%目标合成样本。(7) QVE(排名基线):我们基于排名函数训练QVE(第4.1节),然后使用它来选择前K%的合成样本。(8) QVE(RL):我们使用RL(第4.2节)基于来自目标注释的直接反馈训练QVE,然后使用它来选择前K%目标合成样本。(9) 全监督基线:我们在原始目标训练数据上训练QA模型。请注意,我们在这里报告的全监督性能仅作为参考,(1)-(8)与此不直接可比。RoundTrip Filtering的选定合成示例的数量由QA模型确定,并且因每个数据集而异。对于LM滤波和QVE,我们在所有合成样本中选择前K%(K=60)样本,并在附录B中讨论合成数据集大小的影响。我们在表1中显示了过滤数据集的统计数据。6对于TriviaQA数据集,我们将目标合成数据集和目标注释数据集合并到一个训练文件中,因为直接对目标注释数据集进行微调会损害基于我们初步实验的QA性能。6结果6.1总体结果我们首先讨论了在半监督设置下的4个目标域QA数据集上的域自适应结果,其中n=1,000个目标域QA示例可用。表2显示了不同方法的总体结果我们将主要发现总结如下:(1) 与RoundTrip和LM滤波相比,我们的QVE(RL)实现了最好的性能。这是因为这两个基线都没有经过专门的训练,以选择有用的例子来提高目标领域的QA性能。相反,我们的QVE使用直接反映QA性能的信号进行训练,可以更准确地估计问题值并为目标域QA选择(2) 两个QVE基线(二元分类器和排名基线)可 以 选 择 一 些 有 用 的 问 题 , 并 实 现 与RoundTrip和LM过滤相当的性能。然而,由于缺乏直接的QA评估反馈,它们的表现不如QVE(RL),这表明QA反馈在训练QVE期间是有用的。6.2我们需要多少对目标QA在表2中,我们展示了使用n(n= 1,000)个目标注释的QA对和所选择的高质量合成QA对,我们可以在目标域上微调更好的QA模型。在本节中,我们将讨论n对目标域QA性能的影响结果如图3所示,有趣的发现包括:(1) 一般来说,所有模型的性能都会随着使用更多的目标注释而这是直观的,因为更多的注释对可以改善QA和QG训练。有了更好的QG模型,综合问题的质量得到了提高,这也可能导致更好的QA模型。(2) 我们的QVE模型通常可以优于QG基线和过滤基线。QVE的优化目标考虑了下游的QA性能,可以选择更有用的问题,以改善目标域的QA。(3) 当有更多注释的QA对可用时,我们的QVE与基线相比的改进这是因为我们的QVE训练(使用RL)依赖于基于可用注释对的QA反馈有了更多的注释对,反馈可以更准确,因此+v:mala2277获取更多论文号方法新闻资讯NQHotpotQATriviaQAEM F1EM F1EM F1EM F1(一)仅源基线40.2 56.245.2 59.143.3 60.349.5 59.3(二更)源+目标注释基线43.7 59.854.2 68.251.7 69.255.7 62.0(三)(四)(五)(六)(七)(八)QG基线(无过滤)+RoundTripFiltering(Alberti et al. ,2019年)+LM滤波(Shakeri et al. ,2020年)+QVE(二元分类器)+QVE(排名基线)+QVE(RL)45.3 60.745.4 60.845.3 61.245.2 60.745.8 61.346.2 61.660.5 72.658.6 71.260.0 72.160.1 72.360.6 72.861.3 73.252.9 70.053.9 70.553.9 70.553.7 70.453.9 70.954.5 71.758.3 63.958.7 64.456.0 61.758.2 63.858.4 63.962.3 68.5(九)全监督基线50.0 64.665.8 78.156.8 73.964.6 70.3表2:不同模型的半监督域自适应性能,其中使用1,000个目标域注释(约占原始训练数据的1-1.5%)。新闻资讯66646260585610050010005000 10000目标注释自然问题8075706510050010005000 10000目标注释HotpotQA76747270686610050010005000 10000目标注释TriviaQA7270686664626010050010005000 10000目标注释源+目标注释QG基线往返LM过滤QVE(RL)图3:目标注释QA对数量的影响。我们还展示了完全监督的性能(和#train)作为参考。使用10K目标注释(约占整个训练集的15%),我们的方法可以实现与监督注释相当的性能(如每个子图的顶部所示)。从而导致更好的QVE以用于选择更有用的综合问题。(4) 使用10,000个(约为原始训练集的15%)目标注释和QVE选择的合成问题,我们可以实现与全监督基线相当的性能。这表明,在实际应用中,基于QVE构建目标域QA模型可以节省更多的注释预算。6.3大型模型在前面的部分中给出的结果是基于BERT基础和BART基础的。在本节中,我们测试了我们的QVE在处理更大的模型时是否仍然有效,并分 别 选 择 BERT-Large 和 BART-Large 作 为QA和当将QA(QG)模型更改为更大的替代模型时,我们保留另一个作为基础模型,以更好地 显 示 差 异 。 我 们 使 用 NaturalQuestions全监督:64.6(64K)64.463.261.661.159.7全监督:78.1(104K)76.574.873.272.171.0完全监督:73.9(72K)74.173.471.770.068.5完全监督:70.3(61K)70.269.368.564.962.0F1设置方法NQEM F1HotpotQAEM F1源仅50.765.046.264.0QA:大型模型+ 目标安诺。58.772.154.372.2+ QG基线61.673.455.572.5QG:基础模型+往返59.871.955.972.8+ LM滤波60.672.555.772.7+ QVE(RL)62.474.556.373.4源仅45.259.143.360.3QA:基础模型+ 目标Anno。54.268.251.769.2+ QG基线61.072.853.270.9QG:大型模型+往返59.971.754.171.1+ LM滤波60.672.254.271.2+ QVE(RL)62.173.855.272.0+v:mala2277获取更多论文(NQ)和HotpotQA作为代表性数据集,并显示它们的结果(具有1,000个目标注释)。如表3所示,我们的QVE模型仍然可以帮助提高QG/QA的更大实例的性能。表3:更大容量QG和QA模型的结果。6.4人类研究:为什么QVE可以帮助QA?在本节中,我们的目标是更好地理解为什么QVE有助于QA,并验证QVE选择了语义上更匹配和更重要的问题,从而使下游QA受益。由于自动度量通常不能反映问题选择的实际质量,因此我们从每个目标域数据集(总共200个)中采样50个生成的示例,并要求三个人工注释器标记生成的QA对是否在语义上匹配(即,可以被选择来训练QA)以及(如果是)它是否询问简单的事实。为了降低在确定+v:mala2277获取更多论文问题ID上下文问题人类标记由模特挑选?匹配非-琐碎公司来回LMQVE(我们的)数据集中的新闻资讯./cnn/stories/6573f73a897ec00e2c037f959d832d04aa1a5ab3.story#1...警方逮捕了涉嫌的头目黛博拉·特比维尔和她的丈夫查理,作为为期两年的调查的一部分,该附属机构报道。特比维尔称自己为“休斯顿的海蒂·弗莱斯”,《好莱坞夫人》(Hollywood Madam)<警方说,他们为著名和富有的客户提供应召女郎。据称为卖淫提供应召女郎的妇女的绰号是什么?11001NQaeee2c92647541da963bdb80c5efc375...我我可以在这段时间里把我从自己身边救出来但我想让人们记住而不是坏事<这首歌有很多是关于谦卑的。这首歌主要讲的是什么?10110表4:由人类标记的两个合成问题和不同的问题选择模型。无论生成的问题是否询问简单事实,我们都提供地面实况问题(由人类创建的原始数据集中的问题)作为参考。 如果生成的问题比基础事实简单,则它将被标记为“平凡的”;否则,它是“非平凡的”。三个注释器独立工作,我们采用多数投票来决定生成的QA对的最终标签(如果出现分歧)。我们通过每种过滤方法和人类标签(对于“语义匹配”和“非平凡”)计算精确度、召回率和F1之间的预测7如表5所示,尽管三种方法在所有采样问题上获得了相似的精度,但我们的方法具有更好的召回率,特别是在“非平凡”问题上这意味着我们的方法可以选择更多语义匹配和非平凡的问题,这解释了为什么它会导致更好的QA性能。我们还在图1和表4中展示了一些真实案例,以进一步说明这一点。例如,我们的QVE选择“据称为卖淫提供应召女郎的女人的绰号是什么?”而基线并不挑选这个语义上匹配的和重要的问题。对于另一个例子,7结论我们提出了一个问题值估计器来估计合成问题的有用性,并选择有用的问题来改善目标域QA训练。7我们把它当作一个二元分类问题:如果选择了一个问题,预测是1;否则是0。方法语义匹配非平凡PRF1PRF1公司来回87.960.071.282.647.560.3LM滤波85.764.673.678.951.762.5QVE(RL) 88.270.078.083.359.369.3表5:与人类问题选择的一致性ing. 我们优化QVE与目标域QA性能增益后,添加到训练中的选定的问题。综合实验结果表明,QVE与其他问题选择方法相比具有明显的优越性此外,使用QVE选择的合成问题和每个目标域上大约15%的人类注释数据,我们可以实现与完全监督基线相当的性能。确认作者感谢所有匿名的审稿人和整个俄勒冈州立大学和GMU NLP小组。本研究部分由NSF IIS-1815674 、 NSF CAREER #1942980 、 NSFOAC-2112606和俄亥俄超级计算机中心(OSC,1987)。本文所含的观点和结论是作者的观点和结论,不应被解释为代表美国政府的官方政策,无论是明示的还是暗示的美国政府被授权为政府目的复制和分发重印本,尽管此处有任何版权声明。引用克里斯·阿尔贝蒂,丹尼尔·安多,艾米莉·皮特勒,雅各布·德夫林,迈克尔·柯林斯. 2019. 具有往返一致性的合成QA语料库生成。在ACL计算机语言学协会。+v:mala2277获取更多论文曹宇,孟芳,于宝生,周天一。2020.无监督领域调适对阅读理解的影响。在AAAITianqi Chen , Bing Xu , Chiyuan Zhang , andCarlos Guestrin. 2016. 训练具有次线性内存开销的深度网络。CoRR,绝对值/1604.06174。Yanda Chen,Md.阿拉法特苏丹和维托里奥卡斯泰利。2020. 改进阅读理解的综合训练。CoRR,abs/2010.12776。钟玉安,李洪义,詹姆斯·格拉斯。2018.有监督和无监督迁移学习用于问答。在NAACL-HLTJacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。在NAACL-HLT计算语言学协会.Bhuwan Dhingra , 丹 麦 丹 麦 人 , 和 Dheeraj Ra-jagopal。2018年简单有效的半监督问答。在NAACLLi Dong,Nan Yang,Wenhui Wang,Furu Wei,Xi- aodong Liu,Yu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功