没有合适的资源?快使用搜索试试~ 我知道了~
基于视觉对话模型的心理记分研究:对话表示增量编码与共享知识
+v:mala2277获取更多论文视觉对话模型可以记分吗?探索对话表示如何增量编码共享知识Brielen Madureira David Schlangen计算语言学德国波茨坦大学{madureiralasota,david.schlangen}@ uni-potsdam.de摘要认知上合理的视觉对话模型应该在对话语境中保持一个共享的既定事实的心理记分牌我们提出了一种基于理论的评估方法,用于调查在VisDial数据集上预训练的模型在多大程度上逐步构建适当记分的代表。我们的结论是,在分析的模型中,区分对话中共享的和私下知道的陈述的能力是适度的,但并不总是增量一致的,这可能部分是由于在原始任务中对基础交互的1介绍“There’s 你在电话里对朋友说的“太好了。“狗是什么颜色的?”他们说的 你回答从你第一次说话开始,你就已经承诺了自己是一只狗;一个你以后不能简单地忽略的承诺。语言学和心理语言学的对话模型把这种基础或记分的过程--使命题相互了解-在这篇简短的论文中,我们调查了最近的视觉对话的NLP模型是否具体来说,我们使用VisDial数据集(Daset al. ,2017 a),它由英语对话组成,对话是关于类似于第一段中的非对称设置中的图像,并从中得出诊断命题,这些诊断命题应被视为对话中给定点处的相互知识,以及在给定时间只有一个参与者知道其真值的其他命题。然后,我们探测由在VisDial任务上预训练的模型构建的2相关文献自 Vinyals and Le ( 2015 ) 、 Sor-doni et al.(2015)和Serban et al.(2016)的工作以来,将对话上下文隐式表示为以端到端方式训练的神经网络的连续隐藏状态该范例还使得多模态输入(如图像)能够被容易地集成(Shekhar等人,,2019 b)。然而,有证据表明,在这些模型中,人类的协作基础能力仍然缺乏,部分原因是培训制度和数据集的限制(Benotti和Blackburn,2021)。我们见证了广泛的努力,看看这些模型如何编码和利用对话历史,捕捉显着的信息,并产生 视 觉 接 地 表 示 ( 桑 卡 尔 等 人 。 , 2019;Agarwal et al. ,2020; Greco et al. ,2020a,b) 。对 当前 对 话模 型的 分析 和 评估 (如Hupkes et al.(2018 a),Shekhar et al. (2019a),Parthasarathi et al. (2020),Saleh et al.(2020),Wu和Xiong(2020)等)通常依赖于诊断分类器(Hupkes et al. ,2018 b)和探测任务(Belinkov和Glass,2019),这是检查神经网络构建的表征是否编码语言信息的常用工具。另一个有目的的对话研究领域Zhang和Chai(2009,2010)讨论了会话蕴涵,即判断一个会话话语是否蕴涵一个假设。在对话数据集中注释或生成蕴涵、矛盾和中性陈述在最近的作品中是常见的(Welleck et al. ,2019; Dogli etal. ,2019; Galetzka et al. ,2021年)。从这三个支柱的见解,我们提出了一个探索任务记分(刘易斯,1979年)的视觉对话,正式在下一节。3问题陈述基于这样一个前提,即人类保持着一个预先假设的命题和每-+v:mala2277获取更多论文}{| | ×|∈ |∈i=0×→JJ12N我的天探测分类器概率分布级联预先训练,固定预先训练,固定对A/private为sentenceencoder对话编码器false toA/共享A/privateTrue toA/共享对话状态表示命题嵌入图1:一个记分牌表示,其中包含为对话和分类器架构生成的命题它代表了在第3轮被正确分类为(对A为真,私有)的命题it is sunny来自VisDial训练集,ID 8778(CC-BY 4.0),照片176904来自MS COCO数据集,<$→ Matt Tillett(CC-BY 2.0)的Tufted Titmouse作为对话中所述内容的函数(Lewis,1979)和Ginzburg(2012)中讨论的公共/私人二分法,我们提出了VisDial数据集中的每个对话都是一个元组D=(I,Q,A,T,P),表示提问者Q和回答者A之间的相互作用。它们交换了关于图像I中所描绘的场景的话轮T,从而确立了命题P。A看到了I,但Q没有。两者都提供有标题K,为了简单起见,我们将其视为A的第一轮,t0=K;其他轮包括一个问题,可以用维度为TP的矩阵S D表示。每个元素sm , n 是 一 个 元 组 cC= ( true to A ,private),(true to A,shared),(false toA,private),(false to A,shared)表示命题p n在turn t m处的“得分”作为一个类,如图1中的示例。因此,A认为是真的但还没有被提及的事实的否定被标记为(对A来说是假的,私有的)。[3]这样,给定回合t的记分牌由S中的第t行给出,整个矩阵有助于可视化记分牌如何在整个D中递增更新。探测任务和模型。我们设计了一个经典的-一个答案,ti=(qi,ai),所以T=(ti)10对话有10个回合)。1(如阳离子任务,以检查预训练的视觉对话模型的连续表示是否我们假设:i)A不会在他们对图像的解释上撒谎; ii)Q不会问多余的问题; iii)A披露的事实立即成为一个共同的承诺,即使在现实中并不总是这样(例如, 当误解发生时)。在这些假设下,每个t i都揭示了一个关于A对图像的判断的新事实p i(及其含义),这个事实在t i-1之前Q是不知道的。然后,P被定义为N个命题的集合pi,pi,pi。每一个pi要么是ti的直接蕴涵(即,表达命题),它被A确定为真,要么是它的否定,它被A确定为假。pi的真值在整个对话中A都知道,但对于所有k i来说,只有私下才知道。它在k=i时在A和Q之间共享,并且保持这种状态直到对话结束图2有了这个,A1 VisDial测试装置除外,其中T10.递增地编码关于由S表示的记分板的信息。探测分类器是函数f:研发,tC,其中PD是对话D中的命题集合,R是视觉差异编码器的隐藏表示的空间,并且C是记分板类。基于He-witt和Liang(2019)中的探测分类器架构,我们将f近似为一个神经网络,该网络将对话表示r连接到命题的连续表示z,并将其映射到具有类概率分布的向量v,v=softmax(W2σ(W1[r; z]))(偏差项省略),如图1所示。然后用argmax函数预测类4数据可视对话框和编码器。 我们使用Vis-Dial数据集v.1.0(Das et al. ,2017 a)和三个Q和A编码器(RL_DIV、SL和ICCV_RL)2尽管关于图像的语句集可以是Q的记分牌是类似的,除了它不能显式地揭示事实(及其否定)。区分私人命题的真/假维度+v:mala2277获取更多论文{1}| 联系我们∈{|联系我们∈∈JJ来 自 Das et al. ( 2017 b ) 和 Murahari et al.(2019年)。第一项工作实现了一个端到端模型,使用强化学习来训练A和Q后者是一个后续研究,增加了一个辅助客观功能,以鼓励Q提出更多样化的问题。4VisDial训练集包含来自 MS COCO 数 据 集 的 图 像 ( Lin et al. ,2014)。命题嵌入z是用句子-变换器构建的(Reimers和Gurevych,2019)。生成探针。集合PD是通过使用识别VisDial中常见词汇和句法模式的规则操纵QA对来编程生成的,其方式与Demszky等人(2018)和Ribeiro等人(2019)相似每当QA对的模式与规则匹配时,就会生成一个直接蕴涵和一个直接矛盾,如图1所示。5数据集构建。我们检索预先训练的对话上下文表示R D=r l0L其中rl是编码器在处理对话直到T中的第l轮(以及图像和A的下一个问题)之后然后,我们将RD中的元素与生成的命题pi在PD中的嵌入配对,形成元组 (r l,pi)0L十,一JN它们被映射到相应的类CC. 的一个命题pire的状态为true toAorfalse toA火车有效测试对话95,3691,9796,880命题344,98823,06044,954命题类型27,01112,04819,183数据点3,794,868253,660312,102词汇大小2,7092,1682,922avg. |PD|3.6111.656.53对A真实且私有26.1222.9421.42对A真实且共享23.8727.0528.57对A为假且为私有26.0822.9421.42对A是假的,并且共享23.9127.0528.57表1:构建的数据集(在平衡训练集之后)和每个类的比例的(TFxPS),加上三个具有减小维度的变体:仅真/假(TF),仅私有/共享(PS)和仅在私有情况下合并真/假(PxTSFS)和iii)控制任务(Hewitt和Liang,2019)(a)用随机向量替换r(b)用零向量替换r,两者都只在训练集上,以量化在训练期间可以单独从命题中提取多少信息。评价结果进行了评估与类预测的准确性。为了避免了解对话中的立场可能产生的任何影响(在对话的早期,提议更有可能是私人的,反之亦然),所有转弯处的电源固定,JD.因为它是一个事实我们在第5轮评估结果(在第5轮,(根据A的信念)的形象,而私人的地位持有(r0,pi),。. . ,(ri−1,p i)是事实被提及或未被提及的更平衡的机会)。对于误差分析,我们重新计算-Jijstruct完成预测的记分牌并评估(r i,p j),. . . ,(r10,pj). 因此,探测数据集由所有D的数据点(r,p,c)D组成,用于所有转弯RR D,对于所有pP D.从标题生成的命题被下采样,因为它们的数量超过了其他轮次,导致太多的命题总是共享的。为了避免在真/假维度上的偏差,我们对训练命题集进行了抽样,以确保每种类型在不同的对话中对A来说是真的次数与对A来说表1提供了一个总结(详情见附录)。5实验我们在三个方面训练和测试分类器:i)A或Q,ii)C中所有类的主要任务4个代码和模型检查点在BSD li下可用增量方面:在每列中,在右转弯处只应该发生一次从私有到共享的转换(除了标题命题,它总是共享的),并且真/假状态不应该改变。实施.分类器是用PyTorch实现的(Paszke etal. ,2019年),并使用Adam优化器(Kingma和Ba,2014)以最小化交叉熵。66结果表2列出了所有模型和任务在第5轮的准确性。编码器之间的主要任务的性能非常相似,差异低于1.5%。Q在主任务中的所有模型中都优于A。虽然这是意料之中的,但由于Qcense athttps://github.com/vmurahari3/visdial-diversity.5基于规则的方法只能生成理论PD的子集,但数量足够用于探测任务。详情和示例见附录。6有关超参数、模型配置和再现性的详细信息,请参见 附 录 。 我 们 的 代 码 和 文 档 可 以 在https://github.com/briemadu/scorekeeping上找到。+v:mala2277获取更多论文任务TFxPSTFPSPxTSFS模型(a)(b)第(1)款(c)第(1)款(一)(b)第(1)款(c)第(1)款(a)(b)第(1)款(c)第(1)款(a)(b)第(1)款(c)第(1)款主要61.80 62.3761.3173.0572.5072.4177.29 77.3177.1365.57 65.4965.83随机r35.25 37.5236.6052.2552.0153.1764.59 68.5264.0735.46 39.2237.48零R37.43 37.1937.4250.6550.6550.6762.79 62.8562.6637.36 37.5137.35主要- -----78.36 79.3179.2166.87 65.6566.38Q随机数r- -----60.44 60.5361.4335.49 34.5834.86零R- -----62.42 62.3862.5037.28 37.1537.11表2:模型(a)RL_DIV、(b)SL、(c)ICCV_RL在第5轮测试集(32,360个数据点)的准确度。TFxPS和TF不适用于Q,因为它没有信息来区分A在私有维度上认为是真还是对于所有情况,使用配对近似排列检验和1,000次洗牌(p值<0 . 05),拒绝了控制任务的结果与其相应的主要任务没有差异的假设。01)。对于TF任务,控制任务的绩效接近随机,但对于其他任务,它高于随机。我们注意到,虽然训练数据集在真/假维度上是平衡的,但私有/共享维度上的信息具有内在的偏差,在训练集上进行平衡更复杂尽管私有类中的数据点数量并没有显著超过共享类,但我们观察到,每种命题类型都可能倾向于在对话的早期或晚期出现(图2中的示例),导致它们在第5轮时具有朝向共享或私有的个人倾斜分布。这种信息泄漏可以被分类器用作捷径。[7]尽管如此,在所有情况下,A和Q任务TFxPS TF PSPxTSFS人类91.84 94.3297.51 96.09RL_D 52.12 65.95 74.46 65.95A SL 50.00 72.34 73.40 68.08ICCV_RL-75.53 68.08表 3 : 与 样 本 模 型 相 比 , 人 类 判 断 的 准 确 性(n=94,不仅在第5轮)。并且所有模型的性能都远低于人类水平。错误分析我们对A,main task,TFxPS进行错误分析。图3中的混淆矩阵表明,在共享维度中区分A的真/假更容易,这可能是对话信息在表示中比图像更突出的标志。300200图像是彩色的。300200有树。实类T/S F/S T/P10010001 2 3 4 5 6 7 8 9 10反过来00 1 2 3 4 5 6 7 8 9 10反过来图2:不同匝数上的偏斜分布示例,可能会在专用/共享维度上引入偏倚。人的绩效。表3显示了人类的表现,估计为3个注释器在94个数据点的样本上的平均准确度(TFxPS上的0.86 Fleiss我们观察到人类在大多数情况下都同意他们的判断[7]正如一位评论者所指出的,这可能不是一个缺点,因为这是对话的方式,人类可能也在利用这一点。0.0图3:第5轮预测的混淆矩阵。在训练集上出现的命题类型的所有数据点的准确率为67.69,高于那些没有出现的数据点的准确率53.11。当我们重建完整的预测记分牌,一些定性的缺点变得明显。60.32%的命题在正确转向时预测从私有到共享的转变,但只有#proposals(train)预测类T/PF/PT/SF/SICCV_RL52.1271.2777.6567.02RL_DIV--75.5362.76Q SL--79.7870.21百分之六十四点七百分之十六点四9.8% 9.1%1.00.8百分之十四点五百分之六十六点五6.4%百分之十二点七0.619.0%百分之十一点五百分之四十五点五24.0%0.4百分之百分之百分之百分之0.2+v:mala2277获取更多论文true toA / privatefalse toA/ privatetrue toA / sharedfalse toA/ shared12338.24%的人只在正确的转弯处移动。此外,只有44.50%的命题对A维的真/假有稳定的图4显示了预测中的错误类型我们看到,相反的命题被赋予了相同的真值,同一个命题在不同的转折点被分为真和假,以及在整个对话过程中这些表明,尽管每个标签的准确度通常很高,但表示似乎并不总是允许在整个对话中进行渐进稳定和一致的预测图4:预测记分牌的一部分,其中有一些突出显示的错误:1)相反命题上的相同真值,2)私有和共享之间的振荡3)在同一命题上有相反的真值。7范围和限制本文的结果包括在同一数据集上使用类似设置训练的三个视觉差异模型。这些模型使用的预处理步骤将某些标记替换为UNK标记,并截断长标题,这会阻止某些信息按照假设进行共享在未来的研究中,需要进一步研究其他模型和数据,以支持更普遍的结论。结果还依赖于分类器的能力虽然我们进行了超参数搜索,但探测分类器并没有完全过拟合完整的训练数据集,因此可以进一步研究其他架构和超参数。基于规则的命题生成具有局限性。它不能为所有QA对生成命题,并且某些规则最终并不总是产生语法上有效的句子,例如,由于可数/不可数名词,检测单数/复数形式以及来自对话本身的错误和错别字另外,斯普里-从所实现的规则或其他混淆和固有偏差(例如图2)导出的可能存在的模式可以预测类别,其可以由探测分类器捕获并影响(可能高估)结果。在训练集上对A的真/假进行平衡,解决了一个偏差来源,但导致其分布与验证集和测试集不同测试集也有不同的分布,因为它的匝数不同。最 后 , 虽 然 第 3 节 中 提 出 的 假 设 是 使 用VisDial完成此任务的必要理想化,但它们简化了对话的基本方面,例如,关于实际共享的事实的不确定性、记忆限制以及在共享知识的解释中使用的多种推理,例如预设、含义、蕴涵和隐含信息。我们的方法不能捕捉背景知识,没有明确规定的对话轮。88结论我们提出了一种新的方法来做基于理论的视觉对话模型的评估。使用诊断命题,我们研究了神经网络视觉对话模型在多大程度上逐步建立了适合于在整个对话中对共享承诺进行记分的表示在VisDial上训练的评估模型捕获了这个过程的一部分,但并不总是一致的,可能是因为这种能力不是训练制度的基本组成部分。就协调现象而言,原始任务的相对贫乏性质也可能 限 制 模 型 构 建 良 好 对 话 表 示 的 能 力(Schlangen,2019)。未来的工作应该将评估扩展到其他模型,并考虑如何构建更好的和生态有效的视觉对话诊断数据集。9伦理考虑命题是QA对的直接操作,因此反映了Vis-Dial众工的主观判断。因此,它们本身并不一定是关于图像的真或假,而是关于A图像、标题和对话上的不适当内容可以由基于规则的[8]我们感谢审稿人指出了本节讨论的一些+v:mala2277获取更多论文命题生成为了解决这个问题,我们过滤掉了包含可能用于敏感内容的单词的对话。尽管我们努力了,但考虑到数据集的大小和人类解释图像的固有偏见,我们不能保证我们可以删除所有内容。因此,命题的唯一目的是执行此处提出的评估。确认我们感谢匿名评论者的反馈和建议,感谢Wencke Lier-mann实现了人类评估的界面,感谢计算语言学实验室的学生助手对实验做出的引用Shubham Agarwal、Trung Bui、Joon-Young Lee、Ioan-nis Konstas和Verena Rieser。2020. 可视化对话框的历史:我们真的需要它吗? 在计算语言学协会第58届年会的会议记录中,第8182-8197页,在线。计算语言学协会。尤纳坦·贝林科夫和詹姆斯·格拉斯2019. 神经语言处理中的分析方法:一项调查。Transactions ofthe Association for Computational Linguistics,7:49卢西亚娜·本诺蒂和帕特里克·布莱克本2021. 接地是一个协作过程。在计算语言学协会欧洲分会第16次会议的会议记录:主卷,第515-531页,在线。计算语言学协会。YonatanBitton,GabrielStanovsky,RoySchwartz,and Michael Elhadad.2021. 从场景图自动生成对比度集:探讨GQA的组成一致性.在计算语言学协会北美分会2021年会议的会议记录中:胡曼语言技术,第94-105页计算语言学协会。赫伯特H克拉克和苏珊E布伦南。1991.通讯中断.在社会共享认知的观点。第127-149页美国心理学协会.Abhishek Das,Satwik Kottur,Khushi Gupta,AviSingh,Deshraj Yadav,José MF Mrsana,DeviParikh , and Dhruv Batra.2017 年 a 。 可 视 对 话框。在IEEE计算机视觉和模式识别会议论文集,第326Abhishek Das,Satwik Kottur,José MF Mrsana,Stefan Lee,and Dhruv Batra. 2017年b。学习型合作社深度强化学习的可视化对话代理IEEE计算机视觉国际会议论文集,第2951Dorottya Demszky Kelvin Guu Percy Liang2018年将问答数据集转换为自然语言推理数据集。arXiv预印本arXiv:1809.02922。NouhaDallani,EhsanKamalloo,KoryMathewson,and Osmar Zaiane. 2019. 用蕴涵法评价对话系统的连贯性。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第3806-计算语言学协会。Fabian Galetzka,Jewgeni Rose,David Schlangen,and Jens Lehmann. 2021. 空间有效的上下文编码 , 非 面 向 任 务 的 对 话 生 成 与 图 形 注 意 力Transformer。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议记录(2011年:长文),第7028计算语言学协会.乔纳森·金兹伯格。2012年。 互动的立场。第四章:对话中的基本互动.北京:清华大学出版社.克劳迪奥·格雷科,阿尔贝托·特斯托尼,拉斐尔·贝尔纳迪。2020年a。接地对话历史:预先培训的变压器的优点和缺点。在意大利人工智能协会国际会议上,第263-279页。斯普林格。克劳迪奥·格雷科,阿尔贝托·特斯托尼,拉斐尔·贝尔纳迪。2020年b。 神经模型在解决GuessWhat问 题 时 最 多 利 用 哪 一 个 转 弯 ? 深 入 研 究transformers和lstms中的对话历史编码。在第四届人工智能自然语言研讨会(NL 4AI 2020)的会议记录中,与第19届意大利人工智能协会国际会议(AI*IA 2020)共同举办,任何地方,2020年11月25日至27日,CEUR研讨会会议记录第2735卷,第29CEUR- WS.org.约翰·休伊特和珀西·梁2019. 设计和解释具有控制任务的探头。在2019年自然语言处理经验方法会议 和 第 九 届 自 然 语 言 处 理 国 际 联 合 会 议(EMNLP-IJCNLP)会议录中,第2733-2743页中国计算语言学协会。迪乌克·胡普克斯,桑妮·布梅斯特,还有拉奎尔·费南德斯.2018年a。分析seq-to-seq模型在任务导向对 话 的 潜 力 。 在 2018 EMNLP Work-shopBlackboxNLP的会议记录中:分析和解释NLP的神经网络,第165-计算语言学协会。+v:mala2277获取更多论文Dieuwke Hupkes , Sara Veldhoen , and WillemZuidema.2018年b。可视化和诊断分类器揭示了递 归 和 递 归 神 经 网 络 如 何 处 理 层 次 结 构 。Journal of Artificial Intelligence Research ,61:907李飞飞,李晓波劳伦斯·齐特尼克和罗斯·格希克2017.一个用于组合语言和基本视觉推理的诊断数 据 集 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR)Diederik P Kingma和Jimmy Ba。2014. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980。作 者 声 明 : Dr. Lee , Luheng He , and LukeZettlemoyer. 2018. 高阶共指消解与由粗到细推理。在2018年计算语言学协会北美分会会议录中:人类语言技术,第2卷(短文),第687-692页计算语言学协会。大卫·刘易斯。1979.语言游戏中的记分。在语义学从不同的角度来看,第172187. 斯普林格。Tsung-Yi Lin , Michael Maire , Serge Belongie ,James Hays , Pietro Perona , Deva Ramanan ,Piotr Dollár , and C Lawrence Zitnick. 2014.Microsoft Coco:上下文中的通用对象。在欧洲计算机视觉会议上,第740-755页。斯普林格。Sharid Loáiciga , Simon Dobnik , and DavidSchlangen.2021. 情景对话中的指称与共指。第二届语言与视觉研究进展研讨会论文集,第39-计算语言学协会。Vishvak Murahari,Prithvijit Chattopadhyay,DhruvBa- tra , Devi Parikh , and Abhishek Das.2019年。通过回答不同的问题来改进生成式视觉对话。在2019年自然语言处理经验方法会议和第9届 自 然 语 言 处 理 国 际 联 合 会 议 ( EMNLP-IJCNLP)的会议中,第1449-1454页。Prasanna Parthasarathi , Joelle Pineau , and SarathChan- dar.2020.如何评估对话系统:探测任务作为令牌级评估指标的替代方案。arXiv预印本arXiv:2008.10427。Adam Paszke,Sam Gross,Francisco Massa,AdamLerer , James Bradbury , Gregory Chanan ,TrevorKilleen,ZemingLin,NataliaGimelshein , Luca Antiga , Alban Desmaison ,Andreas Kopf,Edward Yang,Zachary DeVito,Martin Raison , Alykhan Te- jani , SasankChilamkurthy,Benoit Steiner,Lu Fang,JunjieBai,and Soumith Chintala.2019. Pytorch:一个命令式风格的高性能深度学习库。In H. Wallach,H. Larochelle,A. Beygelz-imer,F.d'Alché-Buc,E.Fox和R.加内特,编辑,神经信息处理系统进展32,第8024-8035页。Curran Associates,Inc.尼尔斯·赖默斯和伊琳娜·古雷维奇2019. Sentence-BERT:使用Siamese BERT网络的。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中,第3982-3992页计算语言学协会Marco Tulio Ribeiro,Carlos Guestrin,and SameerSingh. 2019. 红玫瑰是红的吗?评价问答模型的一致性。计算语言学协会第57届年会论文集,第6174-6184页计算语言学协会。Marco Tulio Ribeiro , Sameer Singh , and CarlosGuestrin. 2018. 用于调试NLP模型的语义等价的对抗规则。第56届计算语言学协会年会论文集(第1卷:长文),第856-865页,澳大利亚墨尔本。计算语言学协会。AbdelrhmanSaleh , TovlyDeutsch , StephenCasper,YonatanBelinkov,andStuartShieber.2020年。探讨会话理解的神经对话模型。在第二届对话式人工智能自然语言处理研讨会上,第132-143页计算语言学协会Chinnadhurai Sankar,Sandeep Subramanian,ChrisRuman,Sarath Rumar,and Yoonge Bengio.2019.神经对话系统是否有效地使用对话历史?实证研究。 第57届计算语言学协会年会集,第32-37页,意大利佛罗伦萨。计算语言学协会。大卫·施兰根。 2019. 接地协议游戏:强调在视觉对话设置会话接地。arXiv cs.CL预印本arXiv:1908.11279。Iulian Serban,Alessandro Sordoni,Yoeli Bengio,Aaron Courville,and Joelle Pineau. 2016.使用生成分层神经网络模型构建端到端对话系统。在AAAI人工智能会议论文集,第30卷。拉维·谢卡尔,桑德罗·佩泽尔,亚恩·克利莫维奇,奥莱利·赫伯洛特,莫因·纳比,恩维尔·桑吉内托,拉夫·费拉·贝尔纳迪.2017. 挫败它!查找图像和语言标题之间的一个不匹配。计算语言学协会第55届年会论文集(第1卷:长文),第255计算语言学协会+v:mala2277获取更多论文拉维·谢卡尔,埃斯·塔克马兹,拉奎尔·费尔南德斯,拉夫·法埃拉·贝尔纳迪.2019年a。评估语言和视觉模型的代表中心。在第13届计算语义学国际会议的开幕式上-长论文,第211计算语言学协会RaviShekhar,AashishVenkatesh,TimBaumgärtner , Elia Bruni , Barbara Plank ,Raffaella Bernardi,and Raquel Fernández. 2019年b. 超越任务成功:仔细看看共同学习看,问,猜猜看.在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第2578-2587页计算语言学协会Alessandro Sordoni,Michel Galley,Michael Auli,ChrisBrockett , YangfengJi , MargaretMitchell,Jian-Yun Nie,Jianfeng Gao,and BillDolan.2015. 一种基于神经网络的上下文敏感会话响应。在计算语言学协会北美分会2015年会议的会议记录:人类语言技术,第196-计算语言学协会。Oriol Vinyals 和Quoc Le 。2015.神经会话模型。ICML深度学习研讨会Sean Welleck,Jason Weston,Arthur Szlam,andKyunghyun Cho. 2019. 对话自然语言推理。在计算语言学协会第57届年会的会议记录中,第3731-3741页,意大利佛罗伦萨。计算语言学协会。吴建胜和熊彩明。2020. 从语言模型探讨任务导向的对话表征。在2020年自然语言处理经验方法会议(EMNLP)的会议中,第5036计算语言学协会陈章和乔伊斯柴。2009. 我们对会话参与者的了解:会话蕴涵。在SIGDIAL 2009会议论文集,第206-215页计算语言学协会.陈章和乔伊斯柴。2010.Towardsconversationentailment:Anempiricalinvestigation.在Proceedingsofthe2010ConferenceonEmpiricalMethodsinNaturalLanguage Processing,第756计算语言学协会附录A生成命题和构造数据集本节详细介绍了将VisDial数据集9中的QA对转换为命题的过程。解决代词。正如Loáiciga等人(2021)所讨论的那样,共指消解在视觉对话中特别具有挑战性。尽管有这些限制,我们还是使用了Lee等人提出的模型。(2018年)将代词(已检测和解决的代词)替换为相应的实体,如下所示:1. 将标题和QA对合并到单个字符串中。2. 将字符串传递到共指消解模型以获得共指聚类。103. 假设集群中的第一个元素是实体(它的第一次提及)。4. 对于每个对话,检查哪些问题和答案包含感兴趣的代词(他、她、它、他们、他的、她的、它的、他们的、他的、他们的、她的、他们的、这个、那个、这些、那些),并且如果检测到的话,将它们用它们对应的集群实体替换。假设代词her总是所有格。5. 如果实体包含超过N=5到- kens,我们不替换它(因为跨越许多标记的实体很可能是导致错误命题的标题的长部分)。6. 通过后处理步骤,将字符串放回VisDial格式。平均而言,训练集上的每个对话替换了2.24个代词,验证集上为2.43个,测试集上为1.15个。生成命题。通过编程操作规则或模板自动生成诊断数据集或对抗性示例是探测研究的常用步骤,例如。 Johnson等人 (2017),Shekharet al. (2017),Ribeiro et al. (2018)和Bitton等人(2021)。将QA对转化为命题的主要 步 骤 在 某 种 程 度 上 是 基 于 Ribeiro et al.(2019)和Demszky et al. (2018年)。我们分析了常见的问题模式9见https://visualdialog.org/10AllenNLP的实现,版本2.1.0,在https://demo.allennlp.org/coreference-resolution 上 , 使 用他们的预训练模型coref-spanbert-large-2021.03.10。+v:mala2277获取更多论文和VisDial上的答案,并实施了34条规则,这些规则会产生蕴涵和矛盾。有些规则是词法的(例如:以“什么颜色是”开始的问题以及其答案具有颜色名称)以及其他问题取决于使用SpaCy v.3.0.5提取的POS标签模式。[11]大多数规则适用于极性问题,有些适用于其他类型的问题。我们注意到VisDial上的一些图像和对话包含不适当的内容。为了避免在命题上重复这一点,我们过滤掉了包含敏感词的对话(详细信息请参见代码文档然后产生如下提议1. 解析标题以提取名词和形容词并生成标题命题。2. 对于每个回合,检查它是否匹配操纵规则。3. 每一个规则,当它们被应用时,产生一个直接蕴涵和一个直接矛盾(蕴涵的否定)。4. 包含代词的命题(对于共指消解不起作用的情况),除了它,或者太长(超过15个标记)的命题被排除在外。代码文档对规则有更详细的描述。下一节将详细介绍所得到的命题集。请注意,每个集合中的对话数量都小于VisDial原始分割中的对话数量,因为有些对话被过滤掉了,而其他对话则没有命题。命题有四个属性:i)一种操纵规则; ii)对话和它所衍生的转折; iii)关于A对图像的看法的真/假状态; iv)答案的极性(肯定/否定),如果适用的话。下采样和去偏置。我们注意到,标题命题的比例远远大于其他轮次的命题,这将造成相当大的不平衡很少作为一个矛盾(对话中,Q spon问'有斑马吗?’此外,在规则上,操纵的问题是不极性(什么颜色的狗?黑色. ),否定总是矛盾的。因此,分类器可以仅根据词汇形式进行预测。为了克服这种偏差,我们通过从原始集合中采样来构建一个平衡的训练数据集,同时确保对于A确定为真的图像/对话的每个p,我们还包括与图像/对话配对的相等p虽然这个过程减少了训练集的大小,但我们确保了对真/假维度的预测需要使用对话表示。我们还将同类p的数量限制为2,000(1,000作为蕴涵,1,000作为矛盾),以避免像“照片是彩色的”或“阳光明媚”这样的常见命题实验中使用的数据集。以下是下面的段落讨论在实验中使用的最终数据集(即,在下采样帽和平衡训练集之后)。在图5中示出了操纵转动的频率。虽然在训练集上存在对后面的回合的不平衡,但是在回合5处私 有 / 共 享 类 的 比 例 相 对 平 衡 ( 大 约44.5/55.5),部分原因是在最后一回合,没有命题被分配私有类。图6显示了在对话中被转化为命题的回合数的频率表4显示了每种类
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功