没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文--–G1GRR 9:一个用于对话中语境化常识推理的Deepanway Ghosal Siqi Shen Navonil Majumder RadaMihalcea SoujanyaDeCLaRe实验室,新加坡科技与设计大学,新加坡密歇根大学,美国{deepanway ghosts @mymail.,navonilmajumder@,sporia@}sutd.edu.sgshensq,umich.eduG1GPR9可从以下网址获得:https://declare-lab.github.io/CICERO摘要本文讨论了具有语境化常识推理的对话推理问题.我们策划G1GPR9,一个二元对话数据集,具有五种类型的基于话语级推理的推断:原因,后续事件,先决条件,动机和情绪反应。该数据集包含来自5,672个对话的53,105个这样的推论。我们使用该数据集来解决相关的生成和判别任务:原因和后续事件的生成;先决条件,动机和听众的情绪反应的生成我们的研究结果确定了这种以对话为中心的常识知识数据集的价值。我们希望G1-1介绍互联网上的对话内容正在快速增长,并且这样的内容拥有关于说话者之间如何进行信息交换的宝贵知识。理解这种对话的关键一步是获得对对话中共享的信息进行推理的能力。投机演讲者的手套已经磨破了。原因我能帮你吗?是的,我在找一副手套。我想我穿六号的手套在柜台上。我想想...那双蓝色的怎么样颜色很适合你,而且还可以洗。(一)爸爸,我们会有什么我不知道。或者炸鱼,哦,不。我们吃过这样的晚餐吗?鸡汤和...我就没什么事了不好意思但这是我唯一能做的。那你想吃什么这次我想去麦当劳原因原因汤姆厌倦了吃同样的菜,想在他的饭菜中尝试一些不同的东西。汤姆更喜欢快餐而不是自制的食物语境矛盾(b)第(1)款图1:对话中(a)语境化常识推测和(b)矛盾推理的图示。允许注释者推断话语的可能原因另一方面,在从上下文中筛选相关信息时,常识可能至关重要图1b描绘了从上下文推断目标话语背后的原因的实例。这种推断可以用常识来解释(见图3),例如重复消费相同的logue。 为此,我们策划了一个二元数据食品原因– −→无聊驱散– −→改变G1GPR9 ( Gontextual1 zedG ommonsR nseInfeR ence in dial9 gues)对话该数据集侧重于对话中给定话语的五种基于推理的推断:原因,后续事件,先决条件,动机和情感反应。可以说,这种基于推理的推断-推理通常需要常识性的知识,特别是当推理是隐含的时候。图1a示出了目标话语背后的原因在上下文中不明确不过,运用常识,激励手套−→买新手套取得在麦当劳吃东西。因此,我们有理由认为,这些知识可以帮助弥合输入和目标推理之间的差距。ATOMIC(Sap et al. ,2019; Hwang et al. ,2020年)是一个这样的数据集,用于基于常识推理的推断,允许大量的推断类型。然而,ATOMIC是上下文无关的,因为它只提供对短语的推断,忽略了它们周围更广泛的上下文。另一方面,对整个话语进行推断需要理解其周围的语境。根据GricearXiv:2203.13926v1 [cs.CL] 2022年3月+v:mala2277获取更多论文需要的信息,没有更多。因此,理解话语所需的许多信息可能散布在对话中,而不一定局限于给定的话语中。例如,在图1b中的示例中,理解说话者之一想要去麦当劳的原因因此,ATOMIC对于基于常识推理的对话推理并不理想,其中上下文对于理解话语我们在随后的章节(§4)中用我们的实验证实了这一点。葡萄糖(Mostafazadeh et al. ,2020年),不包括sively从独白中策划因果推理因此,它不适合对对话进行上下文一致的推断。此外,特定于对话的维度,如动机和反应,也超出了它的范围。另一方面,CIDER(Ghosal et al. ,2021 a)确实提供了用于对话上的基于常识的推理的数据集,但是其限于在对话中明确可观察到的因此,基于CIDER的系统不能有效地围绕对话进行推测以进行隐式推理。G1GPR9致力于将这三个方面中的最佳通过创建数据集,该数据集可以使模型能够通过考虑上下文并在答案不明显时进行推测来有效地对对话进行操作2G1GPR9的构建我们创建了G1 GPR 9-2.1注释说明注释者被给予一个对话和一个目标话语,如图所示二、然后要求注释者对目标话语进行推理,作为一个问题。他们写一个一句话的回答,语法正确,简洁,与对话一致答案可能既包含公开的,也包含推测性的。一个明显的场景是明确或隐含地存在于对话的背景。如果这样的上下文场景回答了这个问题,注释者就把它们写成一个格式良好的句子。然而,在许多情况下,对话可能没有答案,无论是明确的还是含蓄的。在这种情况下,注释者被要求推测合理的场景-琳达,你想吃些糖果或饼干吗?不,不要试图照顾我。我变得胖乎乎的,我必须瘦下来。你不是真的胖。你已经够瘦了。我不这么认为.我知道这个冬天我胖了。图2:对话框-目标对。带有红色边框的话语是本次对话的目标监督厅围绕对话,利用常识和世界知识,设计出与特定对话背景不相矛盾的答案给定图2中的对话框-目标对,以下五个推论中的至少一个target由注释器创建:图3:中间常识推理步骤。Q1.直接导致(公开)或可能导致(推测)目标的事件是什么?注释器考虑是否有任何事件是或可能是目标的前提,可以导致目标。答:琳达冬天注释:注释者提供了可能的推测性答案,因为对话本身并没有提供琳达体重增加的任何原因Q2.在目标之后发生(公开)或可能发生(推测)的后续事件是什么?注释器编写在目标之后发生或可能发生的事件。此外,注释者被告知,有时,目标的这些后续事件是由目标触发的或可能由目标触发的。答:琳达开始节食,并试图减肥。汤姆吃腻了同样的菜,想尝试不同的东西在他的饭菜。汤姆减轻爸爸,我们晚饭吃什么?对话吃同样的菜原因无聊原因欲望改变饮食我不知道可能是炸鱼,鸡汤还有...哦不自从妈妈走了以后我们就有这样的原因欲望放松意味家里不准做饭原因欲望不好意思但这是我唯一的服务会做饭。你想吃那么在哪儿吃饭呢?有财产McDonald这次我想去麦当劳。麦当劳有财产提供美味的食物现在去麦当劳意味位于附近多样化的经验意味原因欲望在麦当劳用餐消除重复意味很短的车程意味不属于常规汤姆麦当劳麦当劳附近去麦当劳+v:mala2277获取更多论文钦佩一个效应害怕生气恼火期待焦虑忧虑羞愧敬畏尴尬无聊平静爱心自信混乱内容渴望摧毁失望厌恶渴望尴尬鼓励热情兴奋忠实恐惧愤怒感激感谢有罪快乐希望印象兴趣嫉妒快乐孤独怀旧制备自豪救济浪漫伤心满意多愁善感惊讶吓坏信任表1:听者可能的情绪反应。备注:答案是推测性的,因为对话中没有明确/隐含的后续事件。Q3.什么是(公开的)或可能是(推测的)目标的先决条件?目标是否有任何必须首先发生或实现的直接先决条件或依赖关系?(在大多数情况下,先决条件是在另一个事件导致 目 标 之 前 必 须 满 足 的 状 态 / 事件。)答案是使目标发生的状态/事件。换句话说,先决条件是对话者就语境达成一致的先前假设或背景信息。答:琳达在冬天之前更苗条了。tator要遵守以下准则:• 要有创造性的思考。避免改写目标,避免写低效率的琐碎回答。如果重新表述目标是唯一可能的答案,建议跳过一个问题。• 避免对同一目标的不同问题重复相同的答案。• 答案必须与给定的对话一致。• 如果目标短语包含多个短语,建议基于目标短语2.2G1GPR9对话选择2.2.1源数据集为了构建G1GPR9,我们使用以下三个数据集的二元对话:DailyDialog(Li et al. ,2017年)涵盖了来自广泛的主题-生活,工作,关系,旅游,金融等。组成话语的标签与情感和对话行为。备注:在进行最终注释之前,注释者需要清楚地理解原因和前提条件之间的差异事件X的原因是直接导致X. 一个事件X的前提条件是X发生所必须满足的条件Q4. 什么是激励或可能激励目标的情感或基本人类驱动力? 考虑目标说话者的基本人类驱动力、需求(和/或可能的情感)。人类的基本驱动力和需求是食物、水、衣服、温暖、休息、安全、安全、亲密关系、朋友、声望、成就感、自我实现、创造性活动、享受等。这些人类驱动力/精神状态/情感感受中有没有激励目标?答:不适用于此目标。Q5. 听众可 能的情绪反 应是什么: A(或B)?听众对目标可能会有什么情绪反应或反应?注 释 者使用表1中列出的情感术语或相关词(例如,焦虑、困惑、感兴趣等)。回答:听众鼓励琳达保持她的饮食。其他指导方针。为了确保样品的质量和多样性,我们还要求Anno-MuTual(Cui et al. ,2020年)是一个多回合的对话推理数据集给定对话历史,目标是通过考虑意图、态度、代数、多事实和情景推理等方面来预测下一个话语。DREAM(Sun et al. ,2019年)是一个 多项选择阅读理解数据集收集自英语作为外语的考试。数据集提出了重大挑战,因为许多答案是非提取的,需要常识知识和多句推理。2.2.2选择过程我们使用以下过程从三个数据集中选择对话的子集:1. 我们删除在话语或单词层面上太短或太长的对话平均每个话语少于五个话语或少于六个单词的对话具有超过15个话语或总共超过275个单词的对话也被删除。2. 所有三个源数据集包含具有几乎相同的话语的对话我们删除了这些几乎重复的对话,以确保G1GPR9的主题多样性。我们使用基于微调的RoberTa的句子嵌入模型(Gao et al. ,2021)以提取对话的密集特征向量。假设一对重复的对话至少有0,我们删除重复的。87余弦相似度。+v:mala2277获取更多论文∼2.3目标话语选择给定对话D,我们选择目标话语如下:• 我们首先确定D中的目标话语数:如果D具有1• 我们将D分成2我们从每个部分中选择大致相同数量的排名靠前的言论。我们称这组外差为 x1. 使 用 句 子 排 名 算 法 ( Erkan 和 Radev ,2004;Mihalcea和Tarau,2004)和嵌入式BERT(Reimers和Gurevych,2019 a)进行排名。• 我们还选择了D中最长的话语和包含短语的话语,如I我们称这组外差为x2.集合x1和x2可能不相交。• 集合x3由D的最后一个发音组成。我们从集合x1, 2, 3中为目标发声率选择推理类型,如下所示:• 从x1到x2:– 后续事件:80%的目标。– 原因和先决条件:60%的目标。– 唯一原因:28%的目标。– 独家先决条件:12%的目标。• 从x2开始:所有目标的动机。• Fromx3:监听者对所有目标的反应。2.4G1GPR9的质量保证通过以下步骤确保数据集质量• 首先,我们随机抽取50个对话,并手动注释其中的所有问题(如2.1节所示)。然后,每个注释者都会根据这些对话进行评估,如果我们批准了他/她95%的注释,则会选择他/她进行注释任务• 在注释过程中,我们不断地审查并向注释者提供反馈。注释者也被指示修改他们的答案。• 注释完成后,我们雇用了三个额外的注释者,他们手动检查注释的样本并对其可接受性进行评分这些注释者达成共识,批准了86%的样本。从数据集中删除不具有多数一致性的样本你好,珍妮.你要搬去伦敦是真的吗?B(U2):是的,它是。是什么让你决定这么做的?B(U4):主要是工作。我肯定能在那里找到工作。A(5):你可能是对的。但是你要住在哪里?我希望我能找到一套公寓与人合住.这样会更便宜。A(U7):是的,这是个好主意。你要带着你的狗吗?不,我不这么认为。我父母一直在照顾他,我想他在城里不会开心的。A(9):你可能是对的。 但是你搬到这么大的地方,特别是在一个小村庄里生活过之后,你就不怕吗?B(10):不是真的。我想我会玩得很开心的。那里有很多事情可做;我希望我不会太想念乡村,我可以随时回来参观。嗯,我只是希望你安顿下来后能邀请我住下. B(12):当然可以。目标-u6;推论:原因;注释:作为一个消费型城市,在伦敦找一个合适的住处是相当困难的目标-u10;推论:原因;注释:金妮意识到像伦敦这样的城市将为她提供高质量的生活目标-u6;推理:后续事件;注释:监听者给珍妮一个主意,让她在一些搜索室友的在线门户网站上找到公寓,以及很多更便宜的选择。目标-u10;推理:后续事件;注释: Jenny询问了伦敦的一个社交俱乐部,并要求他们的会员资格来利用她的空闲时间。目标-u4;推理:先决条件;注释:珍妮已经完成了她的学业.目标-u12;推理:先决条件;注释:珍妮和听者是好朋友.目标-u6;推论:动机;注释:珍妮对找个人做室友以节省房租持乐观态度.目标-u12;推论:反应;注释:听者为珍妮感到高兴,并期待被珍妮邀请去伦敦表2:用目标话语和推断类型标记的G1GPR 9中的注释示例。推理类型原因、结果、前提、动机和反应分别对应于第2.1节中的问题Q1、Q2、Q3、Q4和Q5。注释数据集的统计数据如表3所示。表2中还显示了来自G1GPR 9的许多注释示例。2.5G1GPR9的特点在表3之后,G1GPR 9中的大多数(59%)推论本质上是因果关系。同样,大约80%的推论是推测性的,与上下文一致。因此,与CIDER相 比 , G1GPR 9 在 其 应 用 方 面 更 加 通 用(Ghosal et al. ,2021a),其仅包含显式上下文推断。G1 GPR 9还包含各种常识知识3关于G1GPR9的我们在G1GPR9上设计了生成式和多项选择问题回答任务,以评估对话级基于常识的推理能力。+v:mala2277获取更多论文→→描述联系我们百分比#对话/#推理DailyDialog3 280/ 30 50957.82/ 57.34相互1 640/ 14 20728.91/ 26.70梦想8,488人13.27/ 15.95总5 673/ 53 204–#对话#推理小于103,14055.3510-20之间2,51844.3921-30岁之间150.26Avg. 每个对话的9.38–实例与正确答案只有14575986.01只有249859.37>2个24604.62推理类型培训/确认/测试原因10386/ 3060/ 307133.06/ 28.10/后续事件6617/ 4021/ 405021.06/ 36.93/ 37.16先决条件7 501/ 1 347/ 1 39623.87/ 12.37/ 12.81动机4412/ 1420/ 140114.04/ 13.04/ 12.86反应2 502/ 1 040/ 9807.96/9.55/ 8.99表3:注释的G1GPR9数据集的统计。语言模型3.1任务1:G1GPR9NLG目标是为对话D中的目标话语ut生成问题q的答案,表示五种推理类型之一。每种推理类型都有各自的q(如第4节所示)。任务1.1:对话因果推理。因果关系涉及事件和情境的原因和结果我们将对话因果推理任务表述为生成话语的原因或后续事件作为因果问题的答案:1. 原因:给定D,ut,生成ut的原因ct。2. 后续事件:给定D,ut,生成ut的后续事件et。3. 后续事件剪辑(后续EC):给定ut,对话直到ut:D:ut,生成ut的后续事件et。我们考虑了两种不同的后续事件场景,因为事件通常出现在对话中的目标话语之后。因此,子任务3在评估模型对未观察到的效应进行推理的能力方面更具挑战性我们扩展子任务1,2纳入更长的链和公式化的链式生成任务。我们认为我们的数据集中的话语ut既有原因,后续事件注释,即ct ut ett。因果链被认为是一个三元组,我们对必须从其余组件中生成缺失片段的任务进行了公式化:4. 链式原因:从ut和et生成ct。5. 链式后续事件(Chained SubsequentEvent):从ut和ct生成et。任务1.2:先决条件、动机和反应生成。目标是产生根据给定的D和ut,收听者的先决条件/动机/反应。目标ut是用于反应生成的D的最终发声。生成先决条件(任务1.2.1)需要理解事件的依赖性.产生动机(任务1.2.2)和反应(任务1.2.3)是关于学习基本的人类驱动力和情感。注意,反应生成是与对话响应生成不同的问题反应遵循话语水平分布,这与情绪反应有很大不同3.2任务2:G1GPR9MCQ给定对话D,目标ut,五个问题之一(推理类型)q,真实答案at,备选选择Ft={ft1,ft2,ft3,ft4},G1 GPR 9MCQ任务的目的是选择正确的答案一个t(见图。四、以及Ft中可能正确的任何答案通过如下自动生成和人工监督的组合来创建替代选择Ft• 我 们 在 SNLI 矛 盾 对 上 训 练 T5 大 型 模 型(Bowman et al. ,2015)和时间旅行反事实对(Qin et al. ,2019年),以生成来自输入句子的矛盾/反事实。我们使用这个模型来生成一个池的替代答案从真正的注释答案。与真实答案(来自Reimers和Gurevych(2019 b)中的all-mpnet-base-v2)的嵌入余弦相似度小于0.9并且与真实答案(来自roberta-large-mnli)矛盾的替代答案被保留,其余的被丢弃。过滤后的集合称为N。• 我们使用对抗过滤(AF)算法(Zellers etal. ,2018)从N中选择四个备选答案Ft。对于多项选择QA任务,AF是一种有效的方法,可以通过检测和减少风格伪影来检测容易识别的替代答案并将其替换为更难的候选答案算法如下:(i) 我们从注释的真答案a t和N中的任何四个选择Ft开始,以创建数据集中的所有实例的D。 我们根据对话ID随机将对话分为80%的对话内容和20%的对话内容。(ii) 多选择QA模型(multi-choice QA model,简称QA模型)是在D模型上训练的,它对D模型中的所有实例的所有五个选择进行评分。得分最高的选项被视为预测答案。 对于一个特定的测试实例,Ft中得分低于t的选项被替换为N-Ft中得分较高的选项。正在被替换的F语言答案+v:mala2277获取更多论文A:我能帮你吗?B:好的,谢谢。我想要一些橘子.你要佛罗里达的还是加利福尼亚的橘子?B:你认为哪一个比较好?佛罗里达州的橘子很甜,但是很小。但是加州的橙子没有种子。B:那就给我五个加州橘子吧。A:还要别的吗?B:我还想买些香蕉。怎么卖?A:一美元一磅。你想要多少?给我四个,看看多少钱。A:只有一磅。B:好的。我欠你多少钱?A:3美元。B:给您。谢谢.问:目标之后会发生或可能发生什么后续事件?目标:那么给我五个加州橘子。售货员装了五个加州橙子。售货员装了两个加州橙子。(五)(二)售货员装了五个加利福尼亚酸橙。(橙色石灰)售货员装了一个加州橙。(五)一)他的朋友装了五个加州橙子。(销售员朋友)图4:用于合理改变-天然选择任务的G1 GPR 9的数据样本。在这里,常识是需要推断- 销售员包装买家想要购买的物品。 在这段对话中,买方想买五个加州橙子和四个香蕉,这可以从上下文中推断出来。从N中移除。(iii) 未来由相 对 更困难的选择组成。创建新的随机分割的D_train和D_trest,并且我们返回到步骤(ii)。该算法在成功的算法达到收敛时终止最后的备选选择集被称为Ft。AF算法确保了鲁棒的最终数据集D,而不管最终的训练、验证和测试分割。我们使用一个新的roberta-large模型来初始化该模型,并在步骤(ii)中进行评分和替换之前训练3个epoch。在D检验中,需要14次迭代才能收敛。• 注释执行手动检查的最终自动对焦选择的选择Ft.他们把FtinD中的每一个备选选项标记为在上下文中推测正确或不正确因此,实例可能在Ft中除了原始注释的正确答案at之外还有正确答案。此步骤后的最终数据集统计数据见表3。任务2.1:选择单一答案。考虑4G1GPR9任务:实验结果我们将数据集划分为对话级别,其中训练,验证和测试实例分别来自3477,1097,1098个不同这导致注释实例总数的比例为60:20:20。这三个集合具有17365、5370和5331个唯一的目标话语记录。我们在验证数据集上进行调优,并在测试数据集上报告结果(平均运行5次)。为简洁起见,补充材料中给出了详细的超参数。我们使用以下问题(q)来回答这五个问题所有任务的推理类型:原因:目标的原因是什么?后续事件:目标之后发生或可能发生的后续事件?先决条件:什么是或可能是目标的先决条件?动机:目标的动机是什么或可能是什么?反应:听众对目标的反应可能是什么?4.1基线模型G1GPR9NLG-(1.1-1.2). 我们使用大版本的T5( Ra ff el et al. , 2020 ) 和 GLUCOSE-T5(Mostafazadeh et al. 2020年,作为我们的模特。GLUCOSE-T5是一个在GLUCOSE数据集上进行预训练的T5大型模型。我们用分离器连接q、ut和上下文c,以形成模型的输入:ut c.上下文c通过连接D:ut(后续事件剪辑)或 D(所有其他任务)。 为 在链式生成任务中,我们另外提供原因/后续事件作为输入。 输入是q< sep>u t后续事件:e t c以及Qsep<>Utsep<> Cause:CTsep<> C分别用于原因和后续事件生成。 目标是生成答案作为序列到序列设置中的输出。我们在训练过程中使用教师强制,在推理过程中使用波束搜索。Ft不包含任何正确的an的实例swer。任务是选择正确的答案atG1GPR9我们使用 MCQ - 选择一个答案(2.1)。在给定的五个选项D,ut和q中。任务2.2:选择所有答案。此任务在整个数据集上执行(包括任务2. 1中使用的数据子集。对于由AF算法产生的特定实例,可能存在一个或多个正确答案。任务是从D、ut和q中选出所有正确答案(包括t)。RoberTa-大号、ELECTRA-大号、T5-大号和UnifiedQA-大号用于此任务。对于RoberTa-large、ELECTRA-large的模型的输入是问题q、目标ut、对话D和候选答案xj的级联,j∈ {1,.,5}: q< sep>u t Dxj.每个分数都是从相应的向量预测的,并且选择得分最高的一个作为答案。对于seq2seq+v:mala2277获取更多论文−模型T5-large和UnifiedQA Large,我们使用以下输入-q sep>1)x12)x23)x3 4)x4 5)x5<分离器 D.要生成的输出是正确答案G1 GPR 9MCQ-所有答案选择(2.2)。我们 使 用 seq 2seq 模 型 T5-large 和 UnifiedQALarge,因为它们可以生成单个和多个答案(带有分隔符标记)作为输出。输入为qsep> 1)x12)x23)x34)x45)x5ut D.要生成的输出是正确答案,例如x2( 单 个 答 案 ) 或 x1x3x4 ( 多 个 答案)。这里,x1x5表示随机排列的五个可能的选择。4.2G1GPR9NLG任务自动评估结果对于生成模型BLEU2流星胭脂苹果酒半辛(1.2.3)(1.2.2)(1.2.1)(1.1.3)反应动机先决条件SE剪裁SE原因T5葡萄糖-T5T5系列葡萄糖-T5β0.14930.15630.00420.02870.16300.16340.02000.05600.26260.27070.02660.08270.45600.49150.02370.13320.62780.63050.37350.4442T5葡萄糖-T5T5系列葡萄糖-T5β0.16190.16110.00450.00010.16620.16280.01910.00700.27600.27780.02640.00240.41190.44300.02410.00320.62760.62970.38650.3073T5葡萄糖-T5T5系列葡萄糖-T5β0.14480.14610.01990.00010.15490.15230.04390.00660.26180.26450.05640.00250.30990.32380.07620.00340.61230.60940.45490.3063T5葡萄糖-T5T5系列葡萄糖-T5β0.10020.10010.00430.01080.12820.12990.02220.03940.21760.21970.02790.06250.33570.31440.02250.08890.59020.58960.35410.4392T5葡萄糖-T5T5系列葡萄糖-T5β0.25030.25820.00330.01740.19980.20370.01830.04340.37810.38400.02570.06320.71090.74990.01810.06960.69730.70480.40380.4053T5葡萄糖-T5T5系列葡萄糖-T5β0.23970.23180.00370.02130.19390.19030.02010.04590.37200.37160.02390.07590.51770.53640.01670.07190.66650.66530.38990.4125表4:G1GPR9NLG任务的结果。T5β和GLUCOSE-T5β在我们的数据集上没有微调。所有型号均为大型型号。SE表示后续事件。任务,我们报告以下指标:BLEU(Pap-ineniet al. , 2002 ) , METEOR ( Banerjee andLavie , 2005) ,ROUGE( Lin ,2004 ) ,CIDER(Vedantam等人,2015),以及Sem-Sim,其使用监督的RoberTa-大句子嵌入模型来计算两个句子的语义余弦相似度(Gao et al. ,2021年)。所有评分均在0-1范围内报告。人类评估由于自动评估指标与人工评估存在显著的不一致性,在文献中,自动评估指标通常被认为不可靠因此,我们求助于人类评估指标。人类注释者在三个粗略属性上以从1(最差)到5(最好)的整数标度进行评级:创造性:由于大多数推理需要推测,因此该度量度量测量模型和注释者的创造上下文性:生成的或注释的推理是否适合上下文。流畅性:生成的或注释的推理是否语法正确。自动评估的结果。生成任务的结果报告在表4和表5中。我们观察到,微调后的模型在表4中的各种指标上表现得非常相似。T5模型在大多数实验设置中实现了最佳结果表明,因果类型比动机和反应更难推断。然而,在先决条件类型的情况下,模型被置于最具挑战性的实例中,因为推断这种类型需要丰富的常识和支持。型号BLEU2流星胭脂苹果酒半辛(1.1.4)连锁原因T50.15660.16750.27570.53030.6518葡萄糖-T50.16000.16970.27960.56330.6557(1.1.1)* 原因T50.15030.16350.26340.45910.6284葡萄糖-T50.15640.16360.27090.49150.6310(1.1.5)链接SET50.18130.17840.29400.51360.6469葡萄糖-T50.17890.17760.29430.52180.6516(1.1.2)*SET50.16220.08410.27640.41670.6279葡萄糖-T50.16120.16280.27780.44710.6294表5:G1 GPR 9NLG子任务的结果-连锁原因和后续事件生成。(1.1.1)* 和(1.1.2)* 表示任务1.1.1和1.1.2的结果(如表4所示),但仅适用于注释了原因和效果的目标,以确保与(1.1.4)和(1.1.5)进行公平比较SE表示后续事件。地面知识。因此,对于这个类别,与其他推理类别相比,模型的得分较低我们还注意到,将未来的话语暴露给模型有助于获得更好的推理性能的关系类型的后续事件。当未来的话语在输入中不可用时,训练的模型表现得更差,如在后续事件剪辑任务中所见。在CIDER度量中注意到性能的显著下降。对于链式生成任务(1.1.4和1.1.5),我们注意到(参见表5)模型性能的一个非常相似的趋势,与仅对原因(1.1.1)和后续事件(1.1.2)进行预测相比,模型倾向于对这两种实验设置执行得更好。我们可以推测,来自“连锁原因”设置中的“后续事件”类型和“连锁后续事件”设置中的“原因”类型的可用注释的额外提示是关键+v:mala2277获取更多论文度量创造力情境流畅性黄金4.74.85.0T5葡萄糖T5葡萄糖3.84.14.83.94.34.92.42.11.91.92.12.9表6:G1GPR9 NLG的人体评价结果。T5β和GLUCOSE-T5β代表非微调版本。在表7中。检查模型生成的推理显示,使用的关键字从对话,而不概括的事件是更频繁的。生成的推论比黄金注释的多样性和创造性要少得多。葡萄糖的性能。葡萄糖 浓度我饿了,我们叫点吃的吧. B(U2):好的,也许我们可以在街那头的餐馆点一份汤和一份沙拉。我想吃一个汉堡包,炸薯条和一个巧克力圣代. 你吃太多垃圾食品了.那种东西会堵塞你的动脉,而且胆固醇含量很高。嗯,我好像从来没有长胖过,所以我不介意. B(u6):这不仅仅是关于变胖与否的问题,而是关于健康的问题.你以后真的会有健康问题的。A(u7):比萨饼或者炸鸡怎么样?更好的是,让B(U8):你是一个失败的原因。目标-u1;推论:原因;答案:金色-说话者没有吃早餐. T5-说话者和听话者要去餐馆吃午饭。GLUCOSE-T5- 说话者和听者在一家餐馆里。目标-u2;推论:原因;答案:金--街那头的餐馆以其美味的食物而闻名. T5-听众饿了,想吃点东西。GLUCOSE-T5-说话者饿了,想点些东西吃。目标-u3;推理:动机;答案:金色-说话者想吃一些美味的快餐. 演讲者想吃汉堡包、炸薯条和巧克力圣代。GLUCOSE-T5- 说话者渴望汉堡、薯条和圣代。目标-u6;推理:先决条件;答案:黄金-说话者是一个健身狂,并跟踪他的日常饮食。T5-说话者是健康的人。GLUCOSE-T5-演讲者是一个有健康意识的人。目标-u7;推理:后续事件;答案:金色-听众拒绝吃任何不健康的东西. 演讲者和听众决定点一些热狗。GLUCOSE-T5- 说话者和听者决定点些热狗。目标-u8;推理:反应;答案:金色-听者对说话者的陈述感到尴尬.T5- 听者听到说话者的评论感到震惊GLUCOSE-T5- 听者对说话者的决定感到表7:从G1GPR9 NLG任务的对话样本中提取的不同模型的推断。这样的业绩提升。如表4(以及表6)所示,T5和GLUCOSE-T5的非微调版本表现不佳,因为它们在所有五个推理类别中产生胡言乱语输出,表明微调对G1 GPR 9的重要性。人类评价的结果。对于五种推理类型中的每一种,我们随机抽取了40个由每个模型产生的推理及其相应的黄金推理。然后,这些推断由三个独立的注释器根据人工评估的指标手动评级。如表6所示,我们观察到G1GPR9上的大多数微调模型的性能相似,但未能达到黄金注释性能。此外,正如预期的那样,微调模型显著优于非微调模型。我们提供了一些生成的推断的例子在独白中对事件进行上下文常识推理比较微调和非微调检查点的结果(表4,表6)类似于非微调T5,非微调GLUCOSE-T5对于除因果和动机类型之外的所有常识推理类型产生胡言乱语输出我们推测这是因为这两种常识类型存在于GLU-COSE数据集中。尽管这两种常识推断类型的生成文本在语法上是正确的,并且有时包含上下文单词,但是它们远离期望的质量,在语义上与注释的gold实例非常不同,并且在定性评估中评级较低,如表6所示。我们还证实了通过人类评估对G1GPR9模型进行微调的有效性,如§4所述。4.3G1GPR9MCQ任务的结果评价1)RoberTa和ELECTRA:选择正确答案的准确性被用来评估这些模型的性能。2)T5和统一QA:如果输出不包含任何分隔符标记,则将其视为单个答案否则,输出将在分隔符到- kens处分段然后,我们遵循Khashabi等人的方法。在步骤(2020)中,通过基于候选选择的标记级重叠将所生成的答案中的每一个与候选选择进行比较来计算匹配。对于每个生成的答案,最相似的候选选择被认为是相应的输出。如果最终输出与黄金注释答案完全匹配(EM),则预测被选择一个答案(2.1)。我 们 在表8中报告了这种设置的结果。报告的度量是选择正确答案的 准 确 性 。 总 得 分 为 83.28% 的 RoberTa 和86.82%的ELECTRA。 ELECTRA在所有五种推理类型上都比ROBERTA有优势。这可能是使用RoBERTa作为AF算法的主干模型并随后作为AF算法的求解器的副作用。+v:mala2277获取更多论文∼∼模型原因SE先决条件动机情绪化反应。Avg.正确答案。 我们通过在表9中仅报告具有多个答案的实例的结果来证实这一点,其中T5和UnifiedQA分别仅实现3.38%和3.60%的精确匹配。这表8:任务2.1的准确性评分。模型在具有单个正确答案的实例上进行训练和评估。可能归因于单一答案和多个答案之间14%/86的明显数据不平衡例(见表3)。5相关工作常识性知识因其在文本中不被明确提及而比事实性知识受到更多的关注。它被证明是必不可少的开放-表9:任务2.2的精确匹配分数。模型经过训练在具有单个和多个正确答案的情况下,即,整个数据集。SE→后续事件; S→单应答事件; M→多应答事件。最后一个G1GPR9MCQ任务我们认为,这一结果暴露了AF过程的模型依赖性。换句话说,由骨干模型X为AF算法选择的阴性样本将难以与使用相同模型X的人类注释的真实样本区分开。然而,使用另一个模型Y,这些阴性样本可能相对更容易识别。如表8所示,seq2seq模型T5和统一QA的性能明显优于RoBERTa和ELECTRA。虽然像RoBERTa,ELECTRA这样的模型分别对每个候选答案进行编码,但T5和UnifiedQA将它们一起编码。由于候选答案的这种联合编码,T5和统一QA可以利用更多与任务相关的信息,而RoBERTA和ELECTRA可能会由于单独的编码方案而错过这些信息我们推测,这可能是seq2seq模型在这一特定任务中优于RoberTa和ELECTRA的原因之一T5和统一QA在单一答案选择方面的得分几乎相同。这是令人惊讶的,因为统一QA是从T5大型检查点初始化的,然后在其他QA数据集上进一步训练。因此,我们认为,统一QA的不同微调域对G1GPR9MCQ任务没有帮助。所有答案选择(2.2)。 我们在单个和多个正确答案的整个数据集上训练和评估T5和统一QA,并在表9中报告结果。总体而言,T5和统一QA的表现相似。在所有模型中,具有多个正确答案的实例的总体性能结 束 生 成 任 务 , 例 如 故 事 情 节 生 成(Mostafazadeh et al. ,2020),故事结束生成( Guan et al. , 2019 ) 和 外 推 推 理(Bhagavatula et al. ,2019)。为了在NLP模型中注入常识知识,一些任务的方法,如句子排 序 ( Ghosal et al. , 2021b ) 、 情 绪 识 别(Ghosal et al. ,2020)、故事生成(Guanetal. , 2020; Xu et al. , 2020 ) 和 对 话 生 成(Zhou et al. ,2018)使用流行的常识知识库( CSKB ) , 如 ConceptNet ( Speeret al. ,2017)或ATOMIC(Sap et al. ,2019)。然而,ConceptNet是上下文无关的,这意味着它们只捕获围绕一组选定实体的关系,而不关注实体出现的上下文。此外,推理往往需要在语篇层次上进行,但并不总是与知识库中的实体知识-边缘模型,如彗星(Bosselut et al. ,2019)是一种规避这个问题并在话语(句子)层面上进行推断的方法。但是生成的知识仍然缺乏对话的细节,因为它是在上述知
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功