问题重写对CQA的有效性验证：RL框架中的QR模型作为代理，与端到端基线相当

189 浏览量更新于2023-12-01 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文问题重写能帮助会话问题重写吗？Etsuk o Ishiizu，Yan Xuzu，Samuel Cah yawijayazu，BryanW ilie香港科技大学{eishii，yxucb，scahyawijaya，bwilie}@connect.ust.hk摘要问题重写（QR）是传统问答（CQA）的一个子任务，旨在通过以一种自包含的形式重新表述问题来缓解理解对话历史之间依赖关系尽管看似合理，但几乎没有证据证明QR是CQA的缓解方法。为了验证QR在CQA中的有效性，我们研究了一种强化学习方法，该方法集成了QR和CQA任务，并且不需要针对目标CQA的相应QR数据集然而，我们发现RL方法与端到端基线相当。我们提供了一个失败的分析，并描述了利用QR CQA的困难。1介绍问题重写（QR）任务已被引入作为会话问题回答（CQA）的缓解方法。CQA要求机器根据所提供的段落和多轮对话回答问题（Reddyet al. ，2019; Choiet al. ，2018），这对理解对话历史提出了额外的挑战。为了缓解挑战，QR旨在教一个模型使用其对话历史将一个问题解释成一个独立的格式（Elgohary et al. ，2019a; Ananthaet al. ，2021a）。然而，除了Kim等人（2021），没有人提供证据证明QR在实践中对CQAQR的现有工作通常（i）依赖于每个目标CQA数据集的QR数据集的存在，（ii）更多地关注生成高质量的重写，而不是提高CQA性能，使得它们不能令人满意地证明QR。为了验证QR的有效性，我们探索了一种强化学习（RL）方法，该方法集成QR和CQA任务，而无需相应的标记QR数据集。在RL框架中，QR模型扮演着“代理”的角色平等贡献地面实况At：他普及了神经喜剧得分手奖励~的t问题重写问：什么是卡里问题授予遗产？回答重写问题问：谁是加里· 格兰特？AT-1：他是个演员Q t他的遗产是什么？当前问题对话历史加里·格兰特美国演员……他是著名的复杂的轻喜剧男主角在screwball喜剧。证据文件图1：RL方法概述。当前问题Qt及其对话历史通过QR模型被重构为一个自包含的问题Q't。然后，Qt被传递到QA模型，以从证据文档中提取答案跨度At。WE列车QR模型通过将预测的答案跨度At与黄金跨度At进行比较来最大化获得的奖励。来自QA模型的奖励，该模型充当“环境”。在训练过程中，QR模型旨在通过生成更好的问题重写来最大限度地提高CQA任务的性能。尽管RL方法的潜力和可行性，我们的实验结果表明，性能的上限，它是与基线没有QR。在本文中，我们提供了分析（i）理解RL方法失败的原因和（ii）揭示QR不能提高CQA性能，即使与非 RL 方法。代码可以在https：//github.com/HLTCHKUST/cqr4cqa网站。2相关工作CQA任务旨在帮助用户寻找信息（Reddy etal. ，2019; Choi et al. ，2018年;arXiv：2204.06239v1 [cs.CL] 2022年4月+v：mala2277获取更多论文±n=1Yl=1D- -型号CoQA QuAC表1：我们的方法和测试集基线的评估结果。EXCORD†遵循Kim等人（2021）报告的结果，（x.x）表示与原始基线相比的改善。大胆是所有结果中最好的。下划线表示CQA和QR数据集每种组合的最佳得分。Campos等人，2020）。关键的挑战是重新解决对话历史和理解高度语境化的问题。大多数先前的工作集中在模型结构（Zhu et al. ，2018; Yehand Chen ， 2019; Zhang et al. ，2021b; Zhao et al. ，2021）或训练技术（Ju etal. ，2019; Xuet al. 2021年），以提高业绩。QR任务已经被提出来通过将问题解释为自包含的样式来进一步改进CQA系统（Elgohary等人，2009）。，2019a; Petrén Bach HansenandSøgaard，2020; Anantha et al. ，2021a）。虽然QR的许多现有作品将更多的精力放在生成高质量的重写上（Lin et al. ，2020; Vakulenkoet al. ，2021年），Kim等人（2021年）引入了一个框架，利用QR对CQA模型进行微调，并采用基于一致性的正则化。QR也在单轮问答和其他信息寻求任务中进行了研究（Nogueira和Cho，2017; Buck et al. ，2018）。3方法我们将CQA数据集表示为{Dn}N和迪-模型πθ，以学习基于从环境接收的奖励生成给定问题的高质量par-phrase。该策略，在我们的情况下，QR模型，分配概率Lπθ（Q′t|Xt）=p（q′l|q′1，. . . ，q′l−1，Xt）.（一）l=1我们的目标是最大化在策略下返回的答案的期望奖励，即，Eq′t <$πθ（·|qt）[r（fφ（X′t））]，（2）其中r是一个奖励函数。我们在预测的答案跨度黄金和黄金的跨度At作为REW ardR。我们可以直接优化等式中的预期回报2使用RL算法。在训练过程之前，QA模型fφ在{Dn}上进行微调，QR模型初始化为πθ=πθ0，其中πθ0是预训练的语言模型。我们采用近端策略操作-（Schulman et al. ，2017;齐格勒将转弯t处的历史记录表示为Dt={（Qi，Ai）}t，哪里i=1Qt是问题，At是答案。等人，2019）来训练πθ。 PPO是一种政策梯度在采样数据之间交替的方法与QA对一起，还给出了相应的证据文档Yt如图1所示，我们提出的RL框架包括一个QA模型作为环境，QR模型作为代理。设Q′t=q′lL de-注意生成的重写问题序列Qt。QR模型的目标是重写通过与环境的相互作用以及通过随机梯度上升优化代理目标函数 Ziegler et al. （2019），我们对奖励r应用KL惩罚，以防止策略π θ偏离πθ0太远：Rt=R（X′t）=r（fφ（X′t））−βKL（πθ，πθ0），问题Qt在t转成一个独立的版本，基于当前问题和对话历史Dt-1。代理接受一个输入状态Xt=（Dt−1，Q t）并生成一个释义Q′t。然后，X′t=（t−1，Q′t）和一个证据文件，项Yt被提供给环境，即，其中，β表示权重因子，RtR的修改奖励4实验4.1设置是QA模型fφ，其提取答案跨度At=fφ（X′t，Yt）. 我们的目标是特工，一个QR整体F1孩子升分别M H新闻Wiki.F1HEQ-QHEQ-Dend-to-end84.584.482.482.986.086.967.863.57.9QReCC管道82.982.980.981.584.484.866.362.06.6我们84.784.383.182.786.386.867.663.27.8管道82.883.480.180.884.485.666.562.57.4CANARD EXCORD83.4（+0.6）84.4（1.9）81.2（+1.0）79.8（-0.3）84.6（+0.3）87（0.0）67.7（+1.2）64.0（+1.6）9.3（+2.1）+v：mala2277获取更多论文我们使用预训练的RoberTa（Liu et al. ，2019）模型作为初始QA模型，并将其适应+v：mala2277获取更多论文问题F1评分Qt图书馆的缸是什么？1.0Q't什么是Vat图书馆？0.22Qt大家都在干什么？0.91Q't大家都在干什么？0.0问题F1评分Qt粉碎南瓜乐队在哪里展出？1.0Q't粉碎南瓜乐队在哪里展出？0.0Qt哪个公司制作了电影《错位玩具》？1.0Q't电影《The Island of Misfit Toys》是哪家公司出品的？0.0表2：问题的微小修改可能导致CQA性能的急剧变化CQA任务。对于QR模型，我们利用预训练的GPT-2（Radford et al. ，2019），并首先用QR数据集对它们进行微调，以获得更好的初始化。我们尝试了三种设置：（a）直接在CQA数据集上微调QA模型（端到端），（b）用QR模型重写的问题微调QA模型（管道），以及（c）基于从QA模型获得的奖励训练QR模型。实验的更多细节见附录A。数据集我们在两个众包CQA数据集上进行实验， CoQA（ Reddy et al. ， 2019）和 QuAC（Choi et al. ，2018）。由于CoQA和QuAC的测试集并不公开，根据Kim等人（2021）的说法，我们在训练集中随机抽取5%的对话，并将其作为我们的验证集，并报告CoQA实验原始开发集的测试结果。我们将与Kim等人（2021）相同的分割应用于QuAC实验。对于QR模型预训练，我们使用两个QR数据集：QReCC（Anantha et al. ，2021b）和CA-NARD（Elgohary et al. ，2019 b）。CANARD通过重写QuAC数据集中的原始问题的子集来生成，并且总共包含40K个QReCC建立在三个公开可用的数据集上：QuAC，TREC会话助理跟踪（CAsT）（Dalton et al. ，2020）和自然问题（ NQ ）（ Kwiatkowski et al. ，2019）。QReCC包含14K对话和80K问题，9.3K对话来自QuAC。评估方法根据排行榜，我们使用一元语法F1分数来评估QA绩效。在CoQA评估中，QA模型也使用领域F1评分进行评估。在QuAC评估中，我们还结合了人类等效性评分HEQ-Q和HEQ-D。HEQ-Q表示模型优于人类的问题的百分比，HEQ-D表示模型在对话中的所有问题上优于人类的4.2结果我们在表1中报告了我们的实验结果。我们看到，我们的RL方法在管道设置上产生0.9-1.6F1改进，而不管数据集组合如何，并且几乎与端到端设置一样好。这部分支持了我们的期望，即RL提升了CQA性能。然而，我们发现，尽管我们进行了广泛的试验，但几乎不可能在端到端基线上实现显著改善我们无法提供Kim等人（2021）报告的改善的原因之一与QA模型的输入他们的EXCORD将原始问题与重写的问题一起提供，而我们只使用重写的问题。同样值得注意的是，他们的结果始终低于我们，甚至低于我们的端到端设置。我们对QR模型生成的问题的检查表明，模型通过PPO训练学习复制原始问题，这是我们的方法无法超越端到端基线的直接原因。事实上，平均而言，89.6%的问题与PPO训练后的原始问题相同，尽管在管道设置中该值为34.5%我们还发现QR模型的性能与原始问题的复制量（CoQA的相关系数为0.984，QuAC的相关系数为0.967）以及与原始问题的编辑距离（CoQA的相关系数为-0.996，QuAC的相关系数为-0.989）之间存在显著相关性。5讨论在本节中，我们提供了一个分析，以（i）提出QA模型的灵敏度问题来解释RL的失败，（ii）揭示QR没有公正性，即使在非RL方法中5.1QA模型看来QA模型比奖励模型在其他复杂的语言生成任务中对微小的变化更敏感，这可能+v：mala2277获取更多论文扰动情绪分析CQA Amazon Yelp CoQAQuAC原始95.898.284.567.8UPC95.8（-）96.7（-1.5）74.8（-9.8）57.4（-10.5）SLW91.9（-3.9）97.0（-1.1）83.0（-1.6）66.7（-1.1）WIF94.3（-1.5）97.7（-0.5）82.6（-2.0）65.6（-2.2）SPP94.8（-1.0）97.7（-0.5）78.3（-6.2）65.5（-2.4）表3：情绪分析和CQA任务的稳健性测试。我们应用了四种扰动： UPC （ up-per casing ）， SLW（ slang word ）， WIF （ word inflection ）和 SPP（sentence paraphrasing）.数据集QuAC模型CANARD模型F1 EMF1 EMQuAC 67.751.562.946.8鸭式 65.149.963.346.9表4：监督学习方法的结果。“XX导致我们在CQA上的表现较低。从表2中的例子可以看出，细微的改变，如大写或用同义词替换，可以显著改变F1分数。为了量化奖励模型的敏感性，我们比较了我们的QA模型和Ziegler等人（2019）报道的情感分析模型之间的模型鲁棒性我们采用公开可用的模型，这些模型是微调的情感分析数据集：基于亚马逊极性的BERT训练（McAuley和 Leskovec ， 2013 ） 1 和基于 Yelp 极性的RoberTa训练（Zhanget al. ，2015）2. 为了测试模型的鲁棒性，我们使用NL-Augmenter工具包（Dholeet al. ，2021），并比较每个任务的F1分数（实验细节见附录B）。基于表3中给出的鲁棒性测试，与情感分析模型相比，QA模型对大多数扰动的鲁棒性显着降低。可以想象，QA模型的这种敏感性导致代理的稀疏奖励问题，这导致模型学习最优策略的未来研究的一个重要方向是缓解稀疏奖励问题，例如，增强QA模型的鲁棒性。1https://huggingface.co/fabriceyhc/伯特-基-无壳-亚马逊极性2https://huggingface.co/VictorSanh/Roberta-base-finetuned-yelp-polarity数据集CoQA QuAC表5：数据扩充方法的结果。EM表示预测的百分比，与黄金相同。5.2QR可以帮助非RL方法吗？首先，我们使用CANARD提供的重写，用一个简单的监督学习方法进行提取具有CA-NARD注释的QuAC样本，我们（i）使用在QuAC上训练的QA模型（主要实验中使用的模型）评估 CANARD 注释，以及（ ii ）使用CANARD注释训练另一个QA模型。训练是在与主要实验相同的QA模型初始化条件下进行的。如表4中的结果所示，我们几乎观察不到CANARD注释的有效性。这支持了Buck et al.（2018），在人眼中更好的重写不一定对机器更好，这意味着将QR用于CQA的难度。此外，我们还探索了一种数据增强方法来集成QR和CQA。首先，我们使用前k采样生成十种可能的重写（Zhanget al. ，2021 a）的CQA数据集的所有问题。为了保证重写的质量，我们从每10个候选人中选择最好的F1得分，并使用它们来教另一个QR模型如何重新制定问题（实验细节见附录C）。如表5中的结果所示，与CoQA中的端到端设置相比，我们始终得到更差的评分，而QuAC的评分几乎6结论在本文中，我们探索了RL方法来验证QR在CQA中的有效性，并报告RL方法与简单的端到端基线相当。我们发现QA模型的敏感性将不利于RL训练。未来的工作是需要验证QR是一个有前途的缓解方法CQA，因为即使是非RL的方法执行不令人满意。F1EMF1EMend-to-end84.576.467.8351.47QReCC84.176.067.8351.48鸭式83.775.867.8151.50+v：mala2277获取更多论文引用Raviteja Anantha ， Svitlana Vakulenko ， ZhuchengTu ， Shayne Longpre ， Stephen Pulman ， andSrinivas Chappidi. 2021年a. 开放域的问题回答通过问题重写变成对话。在计算语言学协会北美分会2021年会议记录：人类语言技术，第520-534页，在线。计算语言学协会。Raviteja Anantha ， Svitlana Vakulenko ， ZhuchengTu ， Shayne Longpre ， Stephen Pulman ， andSrinivas Chappidi. 2021b的最后一页。开放域问题回答通过问题重写进行对话。在计算语言学协会北美分会2021年会议的开幕式上：人类语言技术，第520-534页。Christian Buck 、 Jannis Bulian 、 Massimiliano Cia-ramita、Wojciech Gaubrski、Andrea Gesmundo、Neil Houlsby和Wei Wang。2018.问正确的问题：积极的问题重构与再学习。在国际学习代表上。Jon Ander Campos、Arantxa Otegi、Aitor Soroa、Jan Deriu、Mark Cieliebak和Eneko Agirre。2020.DoQA -通过常规QA访问特定领域的常见问题解答。在计算语言学协会第58届年会的会议记录中，第7302-7314页，在线。计算语言学协会。崔恩索尔、何贺、莫希特、马克、尹文涛、崔业珍、梁柏西、路克.2018. QuAC：上下文问答。2018年自然语言处理经验方法，第2174-2184页，比利时布鲁塞尔。计算语言学协会。Jeffrey Dalton，Chenyan Xiong，and Jamie Callan.2020. Trec cast 2019：会话辅助跟踪概述。arXiv预印本arXiv：2003.13624。考伊赫湾 Dhole ， Varun Gangal ， SebastianGehrmann ， Aadesh Gupta ， Zhenhao Li ， SaadMahamood ， AbinayaMahendiran ， SimonMille ， Ashish Srivastava ， Samson Tan ，Tongshuang Wu，Jascha Sohl-Dickstein，Jinho D.Choi ， EduardHovy ， Ondrej Dusek ， SebastianRuder，Sajant Anand，Na- gender Aneja，RabinBanjade ， Lisa Barthe ， Hanna Behnke ， IanBerlot-Attwell，Connor Boyle，Caroline Brun，Marco Antonio Sobrevilla Cabezudo ， SamuelCahyawijaya，Emile Chapuis，Wanxiang Che，Mukund Choudhary ， Christian Clauss ， PierreColombo ， Filip Cornell ， Gautier Dagan ，MayukhDas ， TanayDiplane ， ThomasDopierre ， Paul-Alexis Dray ， Suchitra Dubey ，Tatiana Ekeinhor，Marco Di Giovanni ，RishabhGupta ， Rishabh Gupta ， Louanes Hamla ， SangHan ， Fabrice Harel-Canada，Antoine Honore，Ishan Jindal，Przemyslaw K. Joniak，DenisKleyko，Venelin Kovatchev，Kalpesh Krishna，Ashutosh Kumar，Stefan Langer，Seungjae RyanLee ， Corey James Levinson ， Hualou Liang ，KaizhaoLiang ， ZhexiongLiu ， AndreyLukyanenko ， VukosiMarivate ， GerarddeMelo ， Simon Meoni ， Maxime Meyer ， AfnanMir，NafiseSadatMoosavi，NiklasMuennighoff，Timothy Sum Hon Mun，WendonMurray，Marcin Namysl，Maria Obedkova，PritiOli ， Nivranshu Pasricha ， Jan Pfister ， RichardPlant，Vinay Prabhu，Vasile Pais，Libo Qin，Shahab Raji ， Pawan Kumar Rajpoot ， VikasRaunak ， Roy Rinberg ， Nicolas Roberts ， JuanDiego Rodriguez，Claude Roux，Vasconcellos P.H.美国，阿纳尼亚湾Sai，Robin M.放大图片作者：Thomas Schmidt，Tshephisho Sefara，SaqibN.Shamsi ， Xudong Shen ， Haoyue Shi ， YiwenShi，Anna Shvets，Nick Siegel，Damien Sileo，Jamie Simon，Chandan Singh，Roman Sitelew，Priyank Soni，Taylor Sorensen，William Soto，Aman Srivastava ， KV Aditya Srivatsa ， TonySun ， Mukund Varma T ， A Tabassum ， FionaAnting Tan ， Ryan Teehan ， Mo Tiwari ， MarieTolkiehn ， Athena Wang ， Zijian Wang ， GloriaWang ， Zijie J. Wang ， Fuxuan Wei ， BryanWilie ， Genta Indra Winata ， Xin yiWu ，WitoldWydman' ski，TianbaoXie，UsamaYaseen，M.Yee， Jing Zhang ， and Yue Zhang. 2021. Nl-augmenter：一个任务敏感的自然语言增强框架。艾哈迈德·埃尔戈哈里，丹尼斯·佩斯科夫，乔丹·博伊德·格雷伯. 2019年a。你能打开那个吗？学习根据上下文改写问题。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（ EMNLP-IJCNLP ）会议记录中，第 5918-5924页中国计算语言学协会。艾哈迈德·埃尔戈哈里，丹尼斯·佩斯科夫，乔丹·博伊德·格雷伯. 2019年b. 你能打开那个吗？学习根据上下文改写问题。在2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中，第5918Ying Ju ， Fubang Zhao ， Shijie Chen ， BowenZheng，Xuefeng Yang，and Yunfeng Liu. 2019.会话式问答的技术报告。arXiv预印本arXiv：1909.10772。放大图片创作者：Michael R.蔡明雄，理查德·索彻.2019. CTRL：用于可控发电的条件Transformer语言模型。CoRR，绝对值/1909.05858。金刚宇，金贤在，朴正秀，康在宇。2021. 学会解决会话依赖：会话问题回答。第59届计算语言学协会年会和第11届自然语言处理国际联合会议论文集（第1卷：长文），第6130计算语言学协会。+v：mala2277获取更多论文Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中，会议跟踪程序。NarineKokhlikyan 、 VivekMiglani 、 MiguelMartin 、 Edward Wang 、 Bilal Alsallakh 、Jonathan Reynolds、Alexander Melnikov、NataliaKliushkina 、 Carlos Araya 、 Siqi Yan 和 OrionReblitz-Richardson。2020. Captum：一个统一的通用模型解释库。Tom Kwiatkowski ， Jennimaria Palomaki ， OliviaRed- field ， Michael Collins ， Ankur Parikh ，ChrisAlberti，DanielleEpstein，IlliaPolosukhin ， Jacob Devlin ， Wendon Lee ， etal.2019 年。自然问题：问答研究的基准.TransactionsoftheAssociationforComputational Linguistics，7：452-466.林金耀2004. ROUGE：一个自动评估摘要的软件包.InText Summariza- tion Branches Out，pages 74-81，Barcelona，Spain.计算语言学协会。Sheng-Chieh Lin ， Jheng-Hong Yang ， RodrigoNogueira ， Ming-Feng Tsai ， Chuan-Ju Wang ，and Jimmy Lin. 2020.通过序列到序列架构和预先训练的语言模型进行会话问题重构。arXiv预印本arXiv：2004.01909。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。Julian McAuley和Jure Leskovec 2013. 隐藏的因素和隐藏的主题：理解评论文本的维度。在Proceedingsofthe7thACMConferenceonRecommender Systems，RecSys计算机协会。Frederic P. Miller，Agnes F.范多姆和约翰·麦克布鲁斯特2009. Levenshtein距离：信息论，计算机科学，弦（计算机科学），弦度量，Damerau？Levenshtein距离、拼写距离、汉明距离。北京出版社.Pramod Kaushik Mudrakarta、Ankur Taly、MukundSundararajan和Kedar Dhamdhere。2018. 模型理解问题了吗？第56届计算语言学协会年会论文集（第1卷：长文），第1896-1906页，澳大利亚墨尔本。计算语言学协会.Rodrigo Nogueira和Kyunghyun Cho。2017. 基于强化学习面向任务的查询重构。在2017年自然语言处理经验方法上，第574计算语言学协会。Kishore Papineni，Salim Roukos，Todd Ward，andWei-Jing Zhu.2002. Bleu：一种机器翻译的自动评估方法 . 在 Proceedings of the 40 th AnnualMeetingonAssociationforComputa-tionalLinguistics，ACL'02，第311-318页，美国。计算语言学协会。Victor Petrén Bach Hansen 和 Anders Søgaard 2020.“为什么”是什么意思：在对话中解决水闸问题。 Proceedings of the AAAI Conference onArtificial Intelligence，34（05）：7887Alec Radford ， Jeffrey Wu ， Rewon Child ， DavidLuan，Dario Amodei，Ilya Sutskever，et al. 2019.语言模型是无监督的多任务学习器。OpenAIblog，1（8）：9.Siva Reddy，Danqi Chen和Christopher D.曼宁2019.CoQA：一个会话问题回答的挑战。《计算语言学协会汇刊》，7：249Marco Tulio Ribeiro ， Tongshuang Wu ， CarlosGuestrin ， andSameerSingh.2020.BeyondAccuracy ： Be-QuarterlyTesting of NLP Modelswith CheckList.在计算语言学协会第58届年会的会议记录中，第4902- 4912页，在线。计算语言学协会。John Schulman，Filip Wolski，Prafulla Dhariwal，Alec Radford，and Oleg Klimov. 2017. 邻近策略优化算法。CoRR，绝对值/1707.06347。Mukund Sundararajan ， Ankur Taly ， and QiqiYan.2017年。深度网络的公理化属性。在第34届机器学习国际会议的开幕式上 - 第 70 卷，ICML'17，第3319-3328页。JMLR.org.Samson Tan，Shafiq Joty，Min-Yen Kan和RichardSocher。2020. 变形时间到了打击带有屈折扰动的语言歧视。在第58届年会上，计算语言学协会，第2920-2935页，在线。计算语言学协会Svitlana Vakulenko ， Shayne Longpre ， ZhuchengTu，and Raviteja Anantha. 2021.会话式问答的问题重写。第14届ACM Web搜索和数据挖掘国际会议论文集，第355杰森·W魏和邹凯。2019. EDA：简单的数据增强技术，用于提高文本分类任务的。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议的会议记录中，EMNLP-IJCNLP2019，中国香港，2019年11月3日至7日，第6381-6387页。计算语言学协会。+v：mala2277获取更多论文Thomas Wolf ， Lysandre Debut ， Victor Sanh ，Julien Chaumond ， Clement Delangue ， AnthonyMoi，Pier- ric Ciudad，Tim Rault，Remi Louf，MorganFuntow-icz ， JoeDavison ， SamShleifer，Patrick von Platen，Clara Ma，YacineJernite ， Julien Plu ， Canwen Xu ， Teven LeScao ， Sylvain Gugger ， Mariama Drame ，Quentin Lhoest ， and Alexander Rush. 2020.transans-formers：最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集：系统演示，第38-45页，在线。计算语言学协会。Yan Xu ， Etsuko Ishii ， Genta Indra Winata ，Zhaojiang Lin ， Andrea Madotto ， Zihan Liu ，Peng Xu，and Pas- cale Fung. 2021. Dialdoc21中的Caire：信息查询对话系统的数据扩充。在第一次基于文档的对话和对话式提问研讨会的会议记录（DialDoc 2021）中，第46Yi-Ting Yeh和Yun-Nung Chen。2019. Flowdelta：为对话式机器理解的推理建模流信息增益。在第二届机器阅读问题分类研讨会的论文集中，第86Hugh Zhang，Daniel Duckworth，Daphne Ippolito，and Arvind Neelakantan. 2021年a. 在自然语言生成中权衡多样性和质量。在自然语言处理系统人类评估研讨会（HumEval）的筹备会上，第25-33页，在线。计算语言学协会.Xiang Zhang，Junbo Zhao，and Yann LeCun. 2015.用于文本分类的多层卷积网络。 arXiv ：1509.01626 [cs]。Zhuosheng Zhang ， Junjie Yang ， and Hai Zhao.2021b的最后一页。回溯式阅读器，用于机读压缩。 Proceedings of the AAAI Conference onArtificial Intelligence，35（16）：14506Jing Zhao ， Junwei Bao ， Yifan Wang ， YongweiZhou，Youzheng Wu，Xiaodong He，and BowenZhou. 2021. RoR：长文档机器阅读理解的重复阅读。在计算语言学协会的调查结果：EMNLP2021，第1862-计算语言学协会。Chengguang Zhu ， Michael Zeng ， and XuedongHuang. 2018. SDNET：情境化基于注意力的深度网络，用于会话问题回答。arXiv预印本arXiv：1812.03593。丹尼尔M齐格勒，尼桑斯蒂农，杰弗里吴，汤姆B布朗，亚历克雷德福，达里奥阿莫代，保罗克里斯蒂亚诺，和杰弗里欧文。2019.根据人类偏好微调语言模型。 arXiv 预印本 arXiv ：1909.08593。+v：mala2277获取更多论文−超参数设置CoQA QuAC模型架构Roberta-base模型尺寸125M参数Optimizer Adam学习率3e−5热身步骤10000权重衰减0.010.01梯度累积步骤1020早期停止耐心34批量6最大历元10文档步幅128最大序列长度512最大回答长度50表A.1：QA模型初始化的超参数。A实验的其他细节我们的实现是基于Wolf等人。（2020年），我们计划发布我们的代码以及经过训练的模型。在应用我们的强化学习训练之前，QA和QR模型使用最佳QA和QR模型进行QA模型在CoQA和QuAC数据集上进行训练，模型选择基于其F1得分。QR模型在QReCC和CANARD上训练，并且模型选择基于 BLEU （ Pa-pineniet al. CANARD 和 ROUGE-1 R （ Lin ，2004）分别为A.1分。我们在表A.1和表A.2中报告了其他超参数。我们使用 Adam 优化器（Kingma和Ba，2015）进行所有训练。用于PPO训练的超参数见表A.3。对于使用QR模型的重写生成，我们使用波束宽度为5的波束搜索，防止生成重复（Keskar et al. ，2019），并将最大输入序列长度设置为512。然后，我们以值函数系数为1.0运行PPO，同时确保问题重写模型输入的序列长度最大为150个令牌，生成长度最大为50个令牌。为了确保学习的策略不会偏离太多，我们根据KL惩罚的大小应用额外的奖励信号，自适应KL因子β，超参数设置值模型架构GPT-2基础模型尺寸117 M参数优化器Adam学习率3e 5热身步数500批量8梯度累积步骤8耐心等待3最大时期20历史长度（话语）3最大序列长度256表A.2：QRECC和CANARD数据集训练中QR模型初始化的超参数。超参数设置值培训设置优化器亚当学习率1E-5、1E-6、（1E-7）、1E-8、1E-9批量8（CoQA），16（QuAC）早期停止耐心3最大历元6QA历史长度3最大查询重写长度100QR最大序列长度150最大序列长度512最大问题长度128衬垫达到最大长度真文档步幅128N个最佳答案生成20最大回答长度5P

下载后可阅读完整内容，剩余1页未读，立即下载