没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文--学生3:她玩了这么长时间都没有达到水平。原来的S5:凯利是如此高兴终于击败它。故事情节学生4:最后,她终于到达了最后迭代编辑她已经玩了好几个星期了。g xt+1 |XtEDUCAT凯利正在玩她的新马里奥游戏。如果...S’2:反事实故事线S’3:S’4:凯利很高兴最终击败了它。X tS’3:S’4:S’5:X最终打败它。电话S’3:S’4:S’5:反事实故事陈江杰*,甘春*,程思杰,周浩,李磊复旦大学JD.com字节跳动§复旦-爱书认知智能联合研究中心jjchen19,sjcheng20,fudan.edu.cncgan5@wisc.edu,www.example.com,zhouhao. bytedance.com,lilei@cs.ucsb.edu摘要创建假设故事需要对先前的状态和变化条件的可能结果进行在新的条件下,人们可以很容易地生成连贯的结局,但对当前的系统来说,在对原始故事进行最小修改的情况下做到这一点是具有挑战性的。因此,一个主要的挑战是在生成逻辑故事和以最小编辑重写之间进行权衡。在本文中,我们提出了EDU CAT,一个基于编辑的非监督的方法来重写反事实的故事。EDU CAT包括基于估计假设条件的因果效应的目标位置检测策略,其保持故事的因果不变部分。然后,EDU CAT在流畅性、连贯性和最小编辑约束下生成故事。我们还提出了一个新的度量,以减轻目前的自动度量的缺点我们在一个公开的反事实故事重写基准上评估EDU- CAT。实验表明,EDUCAT实现了最佳的权衡比无监督SOTA方法根据自动和人工评价。E DU C AT的资源可在www.example.com上获得https://github.com/jiangjiechen/EDUCAT。1引言反事实推理是一种假设性的思维过程,通过修改某些先验条件来评估可能的结果。它通常被称为“假设”分析--“如果。. .“.构建一个具有反事实推理能力的智能系统是一个巨大的挑战(Pearl2009;Pearland Mackenzie2018)。反事实推理依赖于在数据中找到因果不变性的能力,即。在一系列事件中,这些因素随着条件的变化而保持不变(Sloman and Lagnado2004)。在本文中,我们研究了无监督的反事实故事重写,反事实推理的一个具体例子。我们专注于这项任务的无监督方法,因为人类不需要监督学习来想象替代的未来。任务是对故事背景进行微小的修改,创造出合理的替代结局。*工作是在字节跳动AI Lab实习期间完成的†通讯作者。在字节跳动人工智能实验室时完成了这些工作。Copyright © 2022,Association for the Advancement of ArtificialIntelligence(www.aaai.org). All rights reserved.图1:来自TIME TRAVEL(Qin et al.2019)数据集的反事实故事重写示例。我们提出的EDU-CAT迭代地编辑原始结尾以获得新的结尾。在这项任务中,主要的挑战是在生成自然故事和以最小编辑修改原始文本之间进行权衡。这需要找到故事中的因果关系,即,在条件变化下不变的未来事件事实上,使用预先训练的语言模型(LM),在新的条件下通过大量编辑生成流畅的结尾相对容易。然而,当一个人必须在最小限度地修改结尾的同时保持结尾的自然性时,就很难进行准确的推理例如,在图1中,如果凯利玩马里奥游戏但从未赢过游戏(将s2更改为s′2),会怎么样?从人类的常识来看,人们可以很容易地创造出一个合理的改变-本机的故事结束作出小的编辑,凯利从来没有击败最后一级,而不是最终击败它,因此凯利会伤心,而不是高兴。在这种情况下,不变事件是凯利仍然玩所有级别直到最后一个,但变体事件将是反事实干预的结果。通过识别并保持不变式arXiv:2112.05417v1 [cs.CL] 2021年12+v:mala2255获取更多论文CC一个理想的系统可以生成一个合理的结局,对变体事件进行很少的编辑。大 多 数 现 有 方 法 ( Li , Ding , and Liu2018;Xu etal.2018;Guan , Wang , and Huang2019;Guan et al.2020)以自回归的方式关注故事生成。这些方法主要通过利用LMs(如GPT)的语言建模能力来保持故事的逻辑性(Radford et al.2018,2019;Brown et al.2020)。他们中的一些人(秦等。 2019,2020)处理反事实文本生成中的推理能力,这需要在连贯性和最小编辑之间进行平衡。例如,Qinetal. (2020)提出通过使用与原始结尾的相似性评分器来约束新结尾的解码来保持平衡。然而,众所周知,LM很难控制,经常导致过度编辑。在本文中,我们提出了EDU CAT,一个基于EDiting的非监督C反事实生成方法,用于反事实故事重写。给定原始故事和修改后的条件陈述,挑战在于定位保留哪个部分(即因果不变性)和修改哪个部分(即因果方差),同时在编辑后保持与上下文的连贯性。受因果分析研究(Herna′ n2004)的启发,我们使用与反事实和初始条件的一致性之间的比率来量化干预后的潜在结果,该比率可以通过现成的模型计算。E DU C AT采用马尔可夫链蒙特卡罗采样框架(Metropo-liset al.1953 ) 通 过 迭 代 生 成 令牌 修 改 来 进 行 无 监 督 生 成(Miao et al.2019)。凭借所需的属性和来自估计的潜在结果的指导,EDU CAT以最少的编辑生成流畅和连贯的替代故事结局。这项工作的贡献如下:• 首先,我们使用基于MCMC抽样的无监督离散编辑方法解决反事实故事重写任务。• 我们从因果分析中汲取灵感,并提出了两个反事实推理组件,量化上下文变化的结果。• 我们进行实验,以验证EDU CAT实现了无监督方法的一致性和最小编辑之间的最佳权衡。2使用因果模型的任务制定在反事实故事重写任务中,给定一个由前提z、故事语境x和结尾y组成的故事,我们通过将x改变为反事实语境x′进行干预,混杂因素ZXY治疗效果图2:基于因果模型的干预反事实故事重写公式化,其中z是故事的共同前提,x,y表示原始故事,x′,y′是反事实故事。明确的模型。反事实推理可以用do运算符来表示如图2所示,我们可以通过应用do(X)=x′来干预X变量,将其值设置为反事实,而不改变其余部分。删除因果模型中从Z指向X的箭头,因为X在干预后不再依赖于Z,导致新的图形模型因此,反事实故事生成的问题可以被正式重述为反事实推理问题,如下所示:给定(z,x,y),如果将故事背景从x改变为x′,y的潜在结果会是什么?3建议的方法:EDU CAT在本节中,我们将介绍ED-UCAT的概述和详细信息。一般来说,重写过程如下:从原始的完整故事开始,EDUCAT迭代地执行以下过程:1. 冲突检测,它发现当前故事结局中可能与反事实条件相矛盾的块;2. 编辑建议,它提出了一个编辑的结尾,并决定其接受的基础上流畅性和连贯性的分数。上述步骤重复多轮。每个提议基于期望属性π(y)被接受或拒绝,该期望属性被定义为每个属性得分的得分乘积需性质π(y)X0(y)·x·`·Xn(y)(1)希望预测新的结局y′。这个问题自然适合用因果关系来表述。模型,一个有向无环图,用于对数据生成过程中的假设进行如图2所示,左侧部分分别显示了治疗(X)、效应(Y)和混杂因素(Z在因果推断中,混杂因素是影响 治疗和效 应变量 的随机变 量,导 致虚假 相关(Pearl2009)。请注意,在这个问题中,最后,我们根据排序函数选择最好的一个图1中给出了说明性示例。然而,挑战仍然是量化这些理想的故事重写所需的属性。受因果分析研究的启发,我们可以用因果风险比(CR R)定量计算不同条件下故事结局质量的差异(Hern a ′ n 2004; Hern a ′ n and Robins 2020)。 CRR定义如下:z由观察到的混淆因素s1和未观察到的常识知识组成,后者非常困难CRR= P(Y = y|do(X = x′),Z = z)P(Y = y|do(X= x),Z = z)(二更)❌Xy预测干预+v:mala2255获取更多论文|XXXX|5tt+1tLMCOH(y)(7)i=1当新的结尾与反事实条件更加一致时,价值上升。然而,在P(Y = y)中很难明确计算观察到的和未观察到的混杂因素(z| do(X=x))如下:P(Y= ydo(X= x))P(Y=y|X=xx`,Z=z)P(Z=z)(3)我们希望生成的新结局不仅在讲故事方面流畅,而且在逻辑上与X′而不是X相一致。在EDU CAT中,我们定义了两个故事重写的评分函数,即流利度评分函数LM和相干性得分函数Coh. 因此,固定距离π(y)被定义为流畅性分数和连贯性分数的乘积,如下所示:我们做一个因果充分性假设,只考虑观察到的混杂因素(z)P(Y=y| do(X=x))=P(Y=y|X=x,Z=z)(4)因此,CRR可以通过以下公式计算:流利度评分我们基于预先训练的语言模型计算生成结尾的概率,例如GPT-2(Radford et al.2019)。这很重要,并且与以前的工作一致,以保证生成的句子的流畅性和可读性计算的可能性为-CRR= P(Y = y|X = x′,Z =z)P(Y = y|X =x,Z = z)(五)回归地为:Y请详细说明EDU CAT的细节。3.1基于MCMC的在EDU CAT中,我们利用冲突标记检测带来的反事实推理能力和期望的属性作为采样约束,来指导马尔可夫链蒙特卡罗(MCMC)采样过程。EDU CAT直接从句子空间中抽取样本,并进行标记替换、删除和插入三种局部操作。在采样期间,在找到编辑位置之后,以相等的概率随机选择操作最后,拟议的新判决要么被接受,要么我们将y表示为当前阶段的建议结尾,yi表示结尾中的第i个连贯性分数直觉上,我们想要惩罚与反事实条件相矛盾但与初始条件一致的提议结局。因此,连贯性得分函数的目的Coh鼓励模型重写了原来的结局的价值Coh应该是如果生成的结尾比初始结尾与反事实语境的因果关系更大,则大于1受因果风险比定义的启发,一致性评分函数XCoh定义如下:根据计算出的接受率,CoPCo h(Y=y)|z,x′)π(y)的性质。重复上述过程,直至出现...聚散XCoh(y)=PCoh(Y=y)|z,x)(9)具体地,Metropolis-Hasting采样(MH)算法,Rithm通过从建议分布G(yt+1yt)生成并基于接受率接受它来将当前句子yt移动到下一句子yt +1。MCMC中的样本分布在较弱的条件下收敛于马尔可夫链中的平稳分布π(y)。第t次迭代的接受率α定义如下,其中PCoh的公式适用于测量结尾和故事背景之间的连贯性的任何量化模型。在我们的实现中,我们采用由预训练语言模型(例如,a GPT-2)以无监督的方式测量故事内的连贯性。请注意,我们希望以无监督的方式解决此任务。但是PCoh是完全可扩展的,可以用于更好的故事连贯性检查模型。.π(yt+1)1/Tg(yt|yt+1)α(y t+1|yt)=min1,π(y)1/T g(y|年)的(六)3.3编辑建议书设计通过所需的属性进行正则化,我们可以进行编辑T是由冷却计划控制的温度(Andrieu等人2003年)。1接下来,我们将详细描述平稳分布π(y)(§ 3.2)和过渡提议分布g(yt+1)的设计|yt)(§ 3.3)。3.2故事重写所需的属性除了基本的流畅性属性之外,原始CGMH框架还设计了相似性和关键字约束等属性这些简单的性质不能指导具有反事实推理能力的抽样。相反地,1在我们的实现中,我们选择T = 0。95[t]建议通过解决两个问题:1)在哪里编辑? 和2)用什么编辑?在哪里编辑:冲突检测关键是要知道在哪里编辑原始故事,以编写自然的反事实的故事,只有最小的编辑。也就是说,我们需要识别与反事实背景相矛盾的标记。同时,因果不变信息保持在不变的令牌。同样受到因果风险比计算的启发,我们估计了改变上下文以找到最有可能矛盾的标记的潜在结果。让你成为那条狗-rent ending to edit(以y初始化)和yiNzyπ(y)X(y)··X这样,我们就可以粗略地估计出条件变化对可能结局的影响接下来我们就XLM(y)=PL M(yim)|z,x′,y<∈i)。(八)+v:mala2255获取更多论文|Q−−电话+1|不3op电话+1不我们将y中第i个ken上的冲突概率Pc f(yik)列车发展测试#反事实语境(x′)96,867 1,871 1,871P(y)=softmax(PL M(yi))|z,x,y<(i))(10)#编辑的结尾(y′)16,752 5,613 7,484cf我PL M(y)|z,x′,y′)我我通过语言模型计算令牌级别的可能性。根据该定义,如果yi与初始语境的因果关系大于与反事实语境的因果关系,则Pc f(yi)是lager这些标记更有可能在每次迭代中与反事实条件相它们应该有更高的优先权进行编辑。用什么编辑:修改动作我们以相等的概率从三个标记级别的修改动作(替换、删除和插入)中随机抽样,以找到在给定的编辑位置使用什么来编辑结尾。设yt为当前句子,建议分布定义为g(yt+1yt)。从yt到yt+1的过渡建议的期望由下式给出:1微克(y|y)=g(y|(11)op∈{r,d,i}表1:TIMETRAVEL数据集的统计。模型由于EDU CAT是无监督的,因此不需要训练,我们直接在测试集上运行EDUCATT IME T RAVEL的统计报告见表1。只有部分训练集使用编辑后的结尾进行注释。开发和测试集中的每个样本分别用3个和4个重写的结尾进行注释,解释了表1中的定义和测试集中x'和y'的数量之间的差异。请注意,测试集中的第四个编辑过的结尾不包括在评估中作为基础事实结束,但只是作为人类的基线。基线根据之前的工作,我们将基线分为三类:1)无监督零杆基线-线,仅使用现成的预训练模型进行生成,包括预训练的GPT-2(使用s1,s′2生成)其中,Gr 、Gd、Gi分别对应于替换、删除和插入提议。 对于替换,令yt=[w1,. . . ,wm,. . . ,wn],则替换动作用wc替换令牌w m,其中w c是从预先选择的 候 选 集 合 中 采 样 的.设 yt+1=[w1 , ...,wc,. . . ,wn],则替换的提议为和D. Escherian(Qin et al.2020)。此外,在比较对 于 基 于 无 监 督 编 辑 的 方 法 , 我 们 添 加 了 CGMH(Miao et al.2019),即没有冲突检测和一致性评分的E DU C AT; 2)无监督训练基线,GPT-2 + Recon+CF(Qin et al. 2019),即用领域数据S和(即:没有s′3:5);3)监督训练基线,GPT-2+gr(yt+1|yt)=1(wc∈Q)·PMLM(wm∈ Q=wc|x−m)(十二)(Qin et al.2019)经过训练,可以从S和s′2预测s ′3:5以的形式存在。这里1(wc∈ Q)是指示函数,等于1请注意,在我们的论文中,我们的目标是只使用现成的如果wc∈Q,否则为0。 PML M(wm=wc|x-m)是预先训练的故事重写模型,这使得预先给定句子的其余部分,所选标记的概率xm。它是使用掩码语言模型(MLM)计算的,例如BERT(Devlin etal.2019)或RoBERTa(Liuet al. 2019年)的报告。删除的转移函数相当简单:gd(yt+1yt)为1当且仅当yt+1=[w1 ,. . . , wm1 , wm+1 ,y,wn]。 插入操作包括两个步骤。首先,将掩码标记插入到位置中,然后对插入的令牌。4实验4.1实验装置数据集We experimentE DU C AT 对T IME T RAVEL(Qin et al. 2019),一个标准的反事实故事重写数据集。T IME T RAVEL是建立在ROCStories(Mostafazadehet al. 2016),其中包括一个大的集合五个句子的故事S=S1:5。第一句话是1de-注意到故事的前提,第二节建立了最初的上下文,最后三句第三节第五节是故事的结尾。使用我们上面描述的因果语言,s1,s2,s3:5分别对应于Z=z,X=x,Y=y在TIME TRAVEL,最初的语境被人类改写成反事实的语境s′2,随后是编辑后的结局s′3:5。它们对应于因果图中的X=x′和Y=y′+v:mala2255获取更多论文明显的SOTA方法使我们的主要基线。DE-LOREAN通过在解码期间更新其隐藏表示来迭代地修改所生成的令牌通过最小化生成的和原始结尾之间的重复级别KL发散来约束更新,然后通过BERT对生成的候选者进行重新排序,以进行下一个句子预测任务。实现细节所有预先训练的检查点都继承自拥抱脸的实现(Wolf等人,2020)。与以前的工作一致,我们采用GPT-2,中型(24层)或小型(12层),因果语言建模。我们使用预先训练的Roberta-base作为无监督的掩码语言模型进行令牌建议。我们保留MLM预测的前100个代币作为备用。我们随机抽取一个令牌作为基于归一化概率的建议to- ken。在实验中,我们运行EDU CAT及其变体100步。4.2评估指标自动评估方法在前人工作的基础上,我们采用BLEU-4 ( Papineni et al.2002 ) 和 BERTSCORE ( Zhang etal.2020 b)作为自动评估指标,这两个指标都是有参考价值的。给定真实结尾和生成的结尾,BLEU计算重叠的n元语法的数量,BERTSCORE计算它们的语义相似性。+v:mala2255获取更多论文BLEU+ ENTSMetricsPearson’sBleu0.26190.24540.1758BERTS核心0.32520.33320.2385ENT S(基础)0.39370.39730.2865ENT S(大)0.46850.47320.3389HMEAN(大型)0.49950.49960.3662表2:自动度量与人类一致性判断之间的相关性。HMEAN是ENT S(大)和BLEU之间的调和平均值。所有这些数字在p 0时均具有统计学显著性<。01.使用BERT。 如Qinet al. (2019),BLEU很好地测量了最小编辑属性,但与人类判断w.r.t. 连贯性为了评估与反事实条件的一致性,我们提出了一个简单的,无参考的,基于模型的度量ENTSCORE(ENTS ) 。 受 自 然 语 言 推 理 研 究 的 启 发 ( Kang etal.2018;Dongi et al. 2019),我们用二进制分类目标微调RoBERTa(基本或大),以检查故事上下文是否包含故事结局。我们在TIME TRAVEL中使用28,363个带有注释编辑结局的故事来训练度量,到113,452个训练样本,即,x′与y矛盾,但由y′导出,x与y′矛盾,但由y导出。最佳指标达到73.07(基础)和81.64(基础)的F1分数(大)在测试集中。我们把结尾是否被反事实语境所蕴涵的预测概率作为ENT SCORE的输出。为了更好地评估该任务中的微妙权衡,我们计算E NTS CORE和BLEU的调和平均值以表示一致性和最小编辑之间的权衡,定义为HM EAN=2·BLE U·ENTS。人工评估我们还进行人工评估,以弥补这些自动指标的不足,并评估他们完成这项任务的能力 在Qinet al.(2020),我们的人类评价主要集中在两个主要标准:i)连贯性,即真实语境(s1,s2 ′) 和生成的结尾之间的逻辑一致性,以及ii)minimal-edits,两个版本之间的最小修订范围结局我们计算成对比较作为人类度量。注释器被要求从0到3评分,并在EDU CAT和基线生成的两个输出之间选择更好的一个或两个,而不知道它们的起源。我们在注释会议之前安排了一个培训会议,在那里,注释者对一些案例进行注释,并通过讨论解决他们的争议。然后,我们从测试集中随机选择100个样本。每个样本由三名研究生进行评分,他们的工资是当地最低工资。2最终决定以多数票为基础。在自动评估之前,我们通过使用人类注释者在生成的结尾上产生的分数执行相关性分析来展示这些自动度量的能力。我们计算-[2]他们在Fleiss的κ = 0的条件下达成了公平的评分者间一致。345在注释会话中。方法BLEU BERT ENTSlHMEAN监督训练GPT-2男 +女 76.35 81.72 35.06 48.05无监督训练GPT-2M +FT3.90 53.00 52.77 7.26重建+CF76.37 80.20 18.00 29.13简体中文表3:TIME- TRAVEL测试集中的自动评估结果。这些方法默认使用GPT-2M。ENT Sl是ENT SCORE(大)的缩写。后三个系数,包括PearsonPearson根据表2,HMEAN被证明是其中最好的指标,与人类对这项任务的判断相关,这也是我们在实验中的主要指标。4.3结果自动评估表3显示了我们的结果w.r.t.自动度量一般来说,我们观察到BLEU和ENT SCORE表示在该任务中最小编辑和一致性之间的权衡。生成连贯结尾的模型也会导致过度编辑。其中,E DU-C AT在HM EAN方面实现了最佳折衷,HM EAN也是与人类判断具有最佳相关性的度量,如表2所示。对 于 无 监 督 和 有 监 督 的 训 练 方 法 , 我 们 发 现Recon+CF在BLEU和BERTS CORE上的得分很高,但在E NT S CORE上的得分很低,这表明它生成的结尾与反事实背景不一致,而是从原始结尾中副短语化的(Qin et al.2019)。此外,监督方法和非监督方法之间仍然存在差距。有趣的是,零次GPT-2M和D-100 REAN在ENT SCORE中表现非常好,但在BLEU和BERTSCORE中表现不佳。ENT SCORE根据条件(s2,s′2)的变化绘制决策边界所以作为只要结尾遵循反事实条件,在大规模语言模型如GPT-2 excel中,ENT SCORE将产生高分。Zero-shot GPT-2M不限制对原始结局进行最小编辑的生成,并在生成过程中从原始故事中产生幻觉因此,由于GPT-2的语言建模能力和过度编辑,它可以生成流畅的结尾。对于D.E. REAN也是如此,但它通过用原始结尾约束KL-发散事实上,通过大量编辑很容易生成连贯的结尾,因为即使是零镜头的GPT-2也可以在连贯性方面获得然而,这一任务提出了更高的现成的预训练模型GPT-2M 1.39 47.1354.212.71D23.8959.8851.4032.62长庚41.3473.8229.8034.63EDU CAT44.0574.0632.2837.26人类64.7678.8280.5671.80+v:mala2255获取更多论文→XXXXXXX方法一致性表4:手动评估结果,其中分数表示当将EDU CAT与基线进行比较时赢、输或平局的百分比对模型在最小编辑量下完成的能力的要求找到因果不变性。人工评估我们首先在表4中显示人工评估结果。总的来说,EDU CAT的表现优于CGMH和DEQUREAN w.r.t. 连贯性和最小编辑。EDU- CAT在min-edits上实现了与CGMH相似的结果,因为它们运行相同的编辑步骤。我们在表4中观察到,在相干性方面,D-REAN优于E-DU-C-AT。这似乎与以前报道的ENT SCORE自动评估结果相矛盾。可能的原因有两方面。首先,ENT SCORE仅用简单的判别分类目标训练,因此对分类结果敏感。改变条件(x x′)的变化。然而,前提的一致性对于发现反事实推理中的因果违背也很重要我们不仅关注新故事的连贯性,我们也强调了使其发生的微小努力。而且,D-2 M和GPT- 2M一样,很容易从最初的故事线中产生幻觉。第二,人类在头脑中创造“头脑大炮”以连接两个事件的能力很强消融研究我们对所提出的模块进行消融研究。根据表5的所有指标,我们发现这两个组件都有利于完成这项任务。即使使用较小的GPT-2S作为主干因果语言模型,EDU CAT仍然优于无监督基线。特别是,我们发现一个相当大的性能下降,在BLEU和ENT SCORE的EDU CAT没有冲突检测模块。这一结果表明,随机编辑标记发现是低效的,找到因果不变性。因此,该方法倾向于产生流畅结尾的编辑动作,而不是那些能够很好地平衡两者的编辑动作,这对系统提出了更高的要求。我们观察到一个温和的性能提升的权衡(HMEAN)通过引入Coh与无监督的条件句概率作为连贯性函数PCoh。如果E DU C AT有来自Coh的更强大的连贯性指导呢?为了测试我们的方法的局限性,我们还通过直接用ENT SCORE(基础)替换原始的PCoh来升级Coh––+ XCohw/ENTSB43.65 74.0942.03 42.83表5:根据冲突检测模块和相干性评分Coh进行的E DU CAT消融研究。我们还将Coh中的PCoh改为训练好的判别式E NT S CORE。故事领域。结果表明,使用E NT S CORE 在Coh中,一致 性 ( ENT SCORE 中 +30.20% ) 和 权 衡 ( HMEAN 中+14.95%)明显提高。这显示了EDU CAT框架在此任务给出了鲁棒的反馈函数,这也类似于强化学习中强奖励函数的好处。尽管如此,为了保持这种方法只与现成的模型完全无监督,我们要求ED-UCAT与原始模型Coh作为我们的主要成果,但与还有很大的改进空间。4.4为例最后,我们在图3中显示了EDU CAT生成的一些样本与基线的比较,以进行直观的比较并探索我们方法虽然D.E. REAN也生成流畅的反事实故事,但它努力保持最小编辑和反事实上下文的逻辑一致性之间的平衡,并进行大规模编辑。相比之下,离散编辑策略EDU CAT在最小化编辑方面比DEQUREAN在这两种情况下,EDU CAT和CGMH对原始结局进行了少量编辑,并产生了流畅的结局。在第一个中,EDUCAT进行关键和逻辑的词汇编辑,例如,太阳没有EDU CAT展示了一些常识性的知识,作为一个不需要空调,因为天气开始变凉了,公园是晚上去的好地方(也许散步)。在第二种情况下,D·S·雷恩没有生成有效的故事结局。CGMH错误地将“坏运动”改为“主教练”,而E DU C AT则将其解释为“肮脏的5相关工作约束文本生成许多研究工作已经取得了控制与各种所需的属性的生成。大多数研究(Hu et al. 2018;Tan et al.2020)训练监督模型以向生成注入约束在这项工作中,我们专注于无监督约束生成,这是更困难的。最近 的 未 监 督 生 成 严 重 依 赖 于 预 训 练 的 语 言 模 型( PLM ) ( Radford et al.2019;Keskar et al.2019 ) 。Dathathri等人(2020)控制发电使用前-消融Bleu伯特ENTSlHMEANEDU CAT(GPT-2S)39.8272.3531.7235.31E DU C AT (GPT-2M)44.0574.0632.2837.26赢得铁失去E DU C AT 与D.百分之四十五百分之三十二百分之二十三EDU CAT与长庚百分之三十二百分之五十一百分之十七EDU CAT与人类百分之十二百分之二十四百分之六十四+v:mala2255获取更多论文S’3S’4S’5佩顿和汤姆经常踢足球。学生2:汤姆多年来总是赢S3:佩顿从未放弃,一直在练习。佩顿在一场足球赛中最终击败了汤姆汤姆真没风度,打了佩顿一拳。S’2多年来一直获胜S’3S’4S’5S’3佩顿是一个伟大的球员,但汤姆是一个伟大的球员。汤姆是一个伟大的球员,佩顿是一个伟大的球员。德埃洛雷安S’3S’4S’5.S’3S’4S’5图3:来自TIME TRAVEL测试集的两个样本。我们提出了EDU CAT和基线的预测。红色文本表示这些模型所犯的错误通过反向传播影响令牌解码的内部属性模型。Qin et al.(2020)采用了这一思想,并通过迭代向前和向后传递来优化句子生成作为一个整体来完成这一任务。另一种无监督约束生成方法是基于搜索的方法,包括约束波束搜索(Hokamp和Liu2017;Lu等人2021)和随机搜索。前一种工作仅限于词汇约束,而后者更具可 扩 展 性 。 Miao 等 人 ( 2019 ) 首 先 将 Metropolis-Hastings抽样引入文本生成,并使用平稳分布约束生成。 Zhang等人(2020 a)通过设计组合约束来扩展CGMH。 Liu等人(2020)将约束生成建模为离散优化问题,该问题用模拟退火来解决。为了找到编辑位置,Sha(2020)定义了可微分的分数函数,并使用梯度来找到编辑位置和样本动作,而He和Li(2021)使用 XL- Net 训 练 位 置 发 现 分 类 器 ( Yang et al. 2019年),用于词汇约束的句子生成。在本文中,我们主要探索这条工作线的非单调推理和生成任务的视角,从因果分析。因果推理和NLP最近,人们对NLP方法如何评估和估计因果效应以及因果推理如何增强当前自然语言理解和生成的兴趣激增。研究人员已经研究了文本如何被用作中介,混杂因素,治疗或结果(Grimmer,Messing和 Westwood2017;Wood-Doughty , Shpitser 和 Dredze2018;Wuet al. 2020;Feder etal.2021)来估计不同语境下的因果效应,如性别偏见等。另一条研究路线试图为当前的文本生成机制配备反事实推理能力。比如说,Kaushik,Hovy和Lipton(2020);Zeng等人(2020)增加了现有的数据集,以包括反事实样本,并在情感分类,NER等任务上表现出更好的域外泛化能力。在与我们更相关的工作方面(Zhu等人2020;Qin等人2019,2020),他们探索了反事实文本生成任务,如反事实对话和故事生成。我们的工作适应了这两条研究路线的想法。6结论和今后的工作在本文中,我们的目标是平衡逻辑和最小编辑之间的权衡,以检测因果不变性的故事重写任务,这需要因果推理技能。我们提出了EDU CAT,一个基于编辑的无监督的反事实故事重写器,使用MCMC采样。为了检测因果不变性,EDU CAT配备了冲突检测和一致性评分的能力,以基于因果风险比(因果效应的度量)来控制编辑建议。在TIME TRAVEL数据集上的实验表明,EDU CAT在自动和人工评估指标上都大大优于未监督的SOTA方法进一步的消融研究强调了所提出的因果推理成分的重要性。尽管本文通过提出E-NT-SCORE对该任务的自动评估进行了尝试,但我们强调,未来的研究应该优先考虑该任务的自动度量,特别是对于未引用的度量。确认我们感谢Changzhi Sun,Xinbo Zhang,Yuxuan Song,Chao Wang和匿名评论者对本工作的讨论和建议我们也感谢廉-+v:mala2255获取更多论文hui Qin提供基线结果。本工作得到了国家重点研发项目(No.2020AAA0109302)、上海市科技创新行动计划 ( No.19511120400 ) 和 上 海 市 科 技 重 大 专 项(No.2021SHZDZX0103)的支持。引用Andrieu,C.; De Freitas,N.; Doucet,A.; Jordan,M. I.2003. 介绍MCMC用于机器学习Machine learning,50(1):5布 朗 , T.B. 人 ; Mann , B.;Ryder , N.;Subbiah ,M.;Kaplan,J.;Dhariwal,P.;Neelakantan,A.;Shyam,P.;Sastry,G.;Askell,A.;阿加瓦尔,S.; Herbert-Voss,A.; 等 , 2020 年 。 语 言 模 型 是 少 数 学 习 者 。 InLarochelle,H.; Ran- zato,M.; Hadsell,R.; Balcan,M.;和 Lin , H. , 编 辑 , Advances in Neural InformationProcessing Systems 33 : Annual Conference on NeuralInformation Processing Systems 2020 , NeurIPS 2020 ,December 6-12,2020,virtual.Dathathri,S.; Madotto,A.;兰,J.; Hung,J.; Frank,E.;Molino,P.; Yosinski,J.;和Liu,R. 2020.即插即用语言模型:一种简单的控制文本生成方法。在第八届学习代表国际会议,ICLR 2020,亚的斯亚贝巴,埃塞俄比亚,2020年4月26日至30日。OpenReview.net.Devlin,J.;张,M.-W的; 李,K.;和Toutanova,K.2019年 。 BERT : Deep Bidirectional Transformers forLanguage Understanding的预训练。在计算语言学协会北美分会2019年会议的会议记录中:人类语言技术,第1卷(长论文和短论文),4171-4186。明尼阿波利斯,明尼苏达州:计算语言学协会.Dabei,N.; Kamalloo,E.; Mathewson,K.;和Zaiane,O.2019.使用蕴涵评估对话系统的连贯性。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),3806-3812。明尼阿波利斯,明尼苏达州:计算语言学协会。Feder,A.; Keith,K.一、Manzoor,E.; Pryzant,R.;Srid-har , D.;Wood-Doughty , Z.;Eisenstein ,J.;Grimmer,J.;Re-ichart,R.; Roberts,M. E.的;斯图尔特湾M.; Veitch,V.;和Yang,D. 2021.自然语言处理中的因果推理:估计、预测、解释及其他。arXiv:2109.00725。Grimmer,J.; Messing,S.;和Westwood,S. J. 2017.非均质处理效果和非均质处理效果的集成估计。政治分析,25(4):413关,J.;Huang,F.;赵,Z.;Zhu,X.;和Huang,M.2020年。一种用于常识故事生成的知识增强预训练模型。TransactionsoftheAssociationforComputationalLinguistics,8:93关,J.;王玉;和Huang,M. 2019.使用增量编码和常识生成知识在AAAI人工智能会议论文集,第33卷,6473他,X。和Li,V. O. 2021.教我如何修改:用XLNet改进 词 汇 约 束 的 句 子 生 成 。 Proceedings of the AAAIConference on Artificial Intelligence,35(14):12989你好,M。A. 2004年。流行病学研究中因果效应的定义 JournalofEpidemiologyCommunityHealth , 58(4):265你好,M。一、Robins,J. M. 2020年。因果推理:如果。Hokamp,C.;和Liu,Q. 2017.使用网格波束搜索的用于序列生成的词汇约束解码。在计算语言学协会第55届年会论文集(卷1:长论文),1535-1546。温哥华,加拿大:计算语言学协会。Hu,Z.;杨志; Salakhutdinov,R.;秦,L.;梁某;董,H.;和Xing,E. P. 2018.具有可学习知识约束的深度生成模型 。 In Bengio , S.;
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功