改善视觉对话框中的问题模型的两个原则及因果干预算法

138 浏览量更新于2023-10-23 收藏 788KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10860改善可视对话齐嘉欣1牛玉磊2黄建强1，3张汉旺11南洋理工大学，2中国人民大学，3达摩院，阿里巴巴集团jiaxin003@e.ntu.edu.sg，niu@ruc.edu.cn，jianqiang. gmail.com，hanwangzhang@ntu.edu.sg摘要本文揭示了我们采用的设计技巧- 冠军团队 MReaL-BDAI - for Visual Dialog Challenge2019：两个因果原则，以改善视觉对话框（VisDial）。我们所说的基线图原则1原则2我们图在排行榜上的最佳表现此重大改善乃由于我们仔细检查模型及数据背后的因果关系，发现社群忽略了VisDial中的两项因果关系。因此，原则1建议：我们应该去除对话历史对回答模型的直接输入，否则将引入有害的快捷偏差;原则2说：对于历史、问题和答案存在未观察到的混杂因素，导致来自训练数据的虚假相关。特别是，为了消除原则2中提出的混淆因素，我们提出了几种因果干预算法，这使得训练与传统的似然估计有着根本的不同。请注意，这两个原则是模型不可知的，所以它们适用于任何可见拨号模型。该代码可在https：//github上获得。com/simpleshinobu/visdial-principles.1. 介绍给定图像 I ，过去的 Q/A 对的对话历史 & ：H={（Q1，A1），.，（Qt-1，At-1）}，以及当前的第t轮问题Q，一个可视对话（VisDial）代理[9]被期望提供一个好的答案A。我们的社区我一直认为VQA [5]和VisDial是姐妹任务，因为它们的设置相似：Q& A接地I（VQA）和Q& A接地（I，H）（VisDial）。事实上，从技术角度来看-就像VQA模型一样-典型的-VisDial模型首先使用编码器将I、H和Q表示为向量，然后将它们馈送到解码器以获得A。由于VQA [22，38]和自然语言处理中编码器-解码器框架的最新进展，* 同等贡献图1. VisDial模型的因果图（基线和我们的）。H：对话历史。I：形象。问：有问题。五：视觉知识。答：回答。U：用户偏好。阴影U表示未观察到的混杂因素。详细定义见第3.2节。根据[39]，文献中VisDial的性能（NDCG [1]）从基线51.63% [2]显著提高至最新水平64.47%[11]。然而，在本文中，我们想强调一个重要的事实：VisDial基本上不是VQA与历史！这一事实是如此深刻，以至于视觉语言社区中所有常见的语言学--如多模态融合[38，47]和注意力变体[22，25，26] --都无法理解这种差异。相反，我们引入了因果推理的使用[27，28]：一个图形框架，它代表了数据的因果解释，而不仅仅是它们的统计关联。在我们深入研究详细情况，我们将介绍主要贡献：两个因果原则，源于对VisDial和VQA之间差异的分析，这导致了文献[9，21，41，26]中所有基线VisDial模型1的性能飞跃-告别60%-s，拥抱70%-s，将其提升到最先进水平Visual Dialog Challenge 2019 [2].原则1（P1）：删除H→ A。原则2（P2）：添加一个新的（未观察到的）节点U和三个新的链接：U←H，U→Q，U →A。图1比较了现有VisDial模型的因果关系图和应用所提出的两个原则的因果关系图。虽然在《自然》中对它们进行了正式介绍，1由于资源限制，仅限代码可重现结果的项目H O AI VH AUH O AI VUH O A10861A级（基线）A级（基线+ P1）服务的U应该是用户，因为VisDial数据集本质上是1. 没有其他车辆2.没有动物3.我没看到其他的建筑1. 没有2. 没有其他车辆。让人类参与进来图2（b）说明了用户隐藏的偏好使他们困惑。因此，dur-7基线基线+ P1GT6543210 2 4 6 8 10历史答案平均长度(a) 典型H→A偏置后门：O ← H → U → AU在这个语境中，“他”是主题...关于“他”的问题H O A1.Yes，he is（1.0）I expect answers2. Yes（0.6）后门：O ← U → AU在这种情况下，我喜欢问“有没有...“有没有其他的人吗1.否（1.0）而这个问题2.不，没有HOA型喜欢...（0.8）(b) 用户偏好图2.两个因果原则的说明性动机(a)P1和（b）P2。在3.2节中，现在你可以简单地将节点理解为数据类型，将定向链接理解为模态转换。例如，V→A和Q→A表明答案A是视觉知识V和问题Q通过变换引起的效果，例如，多模态编码器。P1建议，我们应该删除对答案模型的直接输入。这一原则与大多数流行的VisDial模型相矛盾[9，15，41，26，43，16，11，32]，这些模型基于广泛接受的直觉：你输入的特征越多，模型就越有效。它基本上是正确的，但只有在我们的数据生成过程中才是正确的。事实上，VisDial [9]注释器不允许从以前的问答中复制，即，H~A，但被鼓励问连续的问题，包括共同指代的代词，如H→Q，因此答案A预期仅基于问题Q和推理的视觉知识V。因此，一个好的模型应该用Q对上下文（I，H）进行推理，而不是记住偏见。然而，直接路径H→A将污染预期的因果关系。图2（a）显示了在没有P1的所有基线中观察到的非常荒谬的偏差：排名靠前的答案是那些长度接近历史答案中平均长度的答案。我们将在第4.1节中为P1提供更多的解释。P2意味着仅基于（I，H，Q）和A之间的关联的模型训练是虚假的。所谓- VisDial的目标-被一个未观察到的变量U，因为它出现在每一个不希望的因果路径（a.k.a. ，后门[28]），这是从输入（I，H，Q）到输出A的间接因果关系： Q← U →A训练，如果我们只关注传统的可能性P（A|I，H，Q），模型将不可避免地偏向于虚假的因果关系，例如，它可以给回答“是的，他是”评分高于“是”，仅仅是因为在给定“他”的历史上下文的情况下，用户更喜欢看到“他”出现在回答中。值得注意的是，混杂因素U在VisDial中比在VQA中更有影响力，因为前者鼓励用户主观地对相似答案进行排名，而后者更客观。一个合理的解释可能是：VisDial本质上是交互式的，在一次迭代中不太正确的答案是可以容忍的（即，稠密预测）;而VQA只有一次机会，这要求准确性（即，独热预测）。通过将P1和P2应用于基线因果图，我们得到了建议的图（图1中右边的图），它作为VisDial因果推断的模型不可知路线图。为了消除由U引起的伪效应，我们使用do演算[28] P（A|do（I，H，Q）），这与传统的似然性P（A|I，H，Q）：前者是主动干预，切断U→Q和H→Q，对每一个可能的U进行采样（“微积分”之名由此而来）|H，寻求的是（I，H，Q）对A的真实影响，而后者是受U存在影响的被动观察。正式介绍和详细信息将在第4.3节中给出。特别是，考虑到一旦数据集准备就绪，U就不再被观察到，我们在第5节中提出了一系列有效的近似。我们在最新的VisDial v1.0数据集上验证了P1和P2的有效性。我们通过在4个代表性基线模型中应用它们来显示显著的提升（绝对溶质 NDCG ）： LF [9]（↑16.42%），HCIAE [21]（↑15.01%），CoAtt [41]（↑15.41%）和RvA [26]（↑16.14%）。令人印象深刻的是，在官方测试标准服务器上，我们使用最简单的基线LF [9]的集合模型击败了我们2019年的获奖性能0.2%，更复杂的集合击败了它0.9%，并将所有单一模型基线带到了最先进的性能。2. 相关工作可视对话框。视觉对话[9，10]比大多数视觉语言任务更具交互性和挑战性，例如，图像字幕[46，44，4]和VQA [5，38，37，36]。具体而言，Daset al. [9]收集了一个大规模的自由形式的可视化对话数据集VisDial[7]。他们采用了一种新的方案：在实时聊天过程中，提问者看不到图片并提出开放式问题，而回答者给出自由形式的答案。另一个数据集GuessWhat？！由[10]提出的是一个目标驱动的可视化对话：提问者应Q←H→U →A. 我们认为，这种unobcate一个未知的对象在丰富的图像场景，通过问一个HHO：一辆摩托车停在公路工地照片是彩色的吗？A1：它是彩色的2、有没有人？我没看到任何人#36825;一辆摩托车？A3：没有其他摩托车O 4：现在是晚上吗？A4：要么是早上，要么是日落时分摩托车是什么颜色的？A5：深色第6章：有树吗？A6：背景中有树第7章：还有别的车吗？答：没有其他车辆HHO：一个穿着滑雪装备在前摆姿势的人这个人是女孩还是男孩？A1：可能是个男孩2、他穿的是什么？A1：牛仔裤和T恤他穿着运动鞋吗？是的，他是答案平均长度810862一系列封闭式的“是/否”问题。我们在本文中应用第一个设置。因此，关键的区别在于用户在数据收集过程中发挥了重要作用。VisDial任务中的所有现有方法都基于典型的编码器-解码器框架[15，12，33，11，32，48]。它们可以通过历史的使用来分类。1)整体性：他们将历史作为一个整体来对待，以输入HACAN [43]，DAN [16]和CorefNMN [18]等2)分层：他们使用一个层次结构来处理历史，就像HRE[9]。3)递归：RvA使用[26]处理历史的递归方法。然而，它们都忽略了这样一个事实，即历史信息不应该直接馈送到答案模型（即，我们提出的原则1）。我们在本文中使用的基线是LF [9]：最早的模型，HCIAE[21]：第一个使用历史层次注意力的模型，CoAtt [41]：第一个是共同关注机制，RvA [26]：这是第一个树形结构的注意力机制。因果推理。近年来，一些著作[24，6，23，34，40，45]将因果推理引入机器学习，试图赋予模型追求因果关系的能力。特别是，我们使用[28]提出的Pearl3. 因果图在本节中，我们将正式介绍可视化对话框任务，并描述流行的编码器-解码器框架如何遵循图1所示的基线因果图。因果图的更多细节可以在[28，29]中找到。3.1. 可视对话框设置设置. 根据Das等人提出的VisDial任务的定义，[9]，在每个时间t，给定-输入图像I，当前问题Qt，对话历史H={C，（Q1，A1），...，（Qt−1，At−1）}，其中C是图像caption，（Qi，Ai）是第i轮Q A对，并且100个候选答案A t={A（1），...，A（100）}。 A Vis-因果图。因果图[28]，如图1所示，描述了变量如何相互作用，由节点N和有向边E组成的有向非循环图G={N，E}表示（即，箭头）。N表示变量，E（箭头）表示两个节点之间的因果关系，即，A→B表示A是原因，B是结果，意味着B的结果是由A引起的。因果图是一个高度通用的路线图，它描述了变量之间的因果正如我们将在下面的部分中讨论的那样，所有的expert方法都可以在图1所示的基线图的视图中重新访问。编码器中的特征表示和注意力。视觉特征在基线图中表示为节点 I ，它通常是 Faster- RCNN[31] 基于在Visual Genome [19]上预训练的ResNet主干[13]对于语言特征，编码器首先将句子嵌入到词向量中，然后传递RNN [14，8]以生成问题和历史的特征，表示为{Q，H}。大多数现有方法在编码器-解码器中应用注意力机制[42]来探索一组特征的潜在权重。基本的注意力操作可以表示为x_y=Att（X，K），其中X是需要注意的特征的集合，K是k_y（即，例如，引导），而X是X的意图特征。细节可以在大多数可视化对话框方法中找到[21，41，43]。在基线图中，子图{I→V，Q→V，H→Q→V}表示针对视觉知识V的一系列注意操作。注意，箭头的实现不一定是独立的，例如共同注意[41]，并且该过程可以是写为输入：{I，Q，H}和输出：{V}，其中可能的中间变量可以作为中介节点添加到原始箭头中。然而，在不损失一般性的情况下，这些介质不影响图中的因果关系。解码器中的响应生成。在从编码器获得特征之后，现有方法将融合它们并将融合的特征馈送到解码器中以生成答案。在基线图中，节点A表示tt从{H→A，Q→A，V→A}解码融合特征通过对候选答案At进行排序来评估Dial模型。评价最近，排名度量标准归一化的不计数累积增益（NDCG）被可视拨号社区采用[1]。它与分类度量不同（例如，前1精度）。它与VisDial中由人类评定的答案候选者的相关性得分更相容。NDCG要求将相关候选人排在更高的位置，而不仅仅是选择地面实况答案。3.2. 作为因果图我们首先给出因果图的定义，然后使用图1中基线图的元素重新审视现有方法中的编码器-解码器框架。然后把它们转换成一个答案句。特别地，解码器可以是生成的，即，使用RNN生成答案句子;或区别性的，即，使用候选答案分类器选择答案句子。4. 两个因果原则4.1. 原则1我们什么时候应该画一个从一个节点指向另一个节点的箭头？根据3.2节的定义，标准是如果节点是原因，另一个是结果。有趣的是，让10863USIQtOPi（A）一USIOP（A）一我Du[Du]OP（A）一我冰冷给定三个变量：“知名研究人员”（R），“高质量论文”（P）和“接受”（A）。从我们的社区常识来看，我们知道R→P，因为顶级研究人员通常会领导高质量的研究，而P→A就更明显了。因此，为了社区的利益，双盲禁止作者匿名直接链接R→A，否则R的个人情感和政治倾向等偏见可能会影响A的结果。VisDial的情况也类似。在不损失一般性的情况下，我们只分析路径H→Q→A。如果我们检查H的作用，我们可以发现它是帮助Q解决一些共指，如“it”和“their”。因此，Q听H的话。然后，我们使用Q来获得A。在这里，Q成为一个中介，它切断了H和A之间的直接联系，使P（A|Q，H）=P（A|Q），如“高质量我们在前面的故事中提到的“纸然而，在这方面，如果我们设置一个从H到A的箭头：H→A，那么对于A的预测，H的不希望的偏差将被学习，这阻碍了VisDial的自然过程，例如图2（a）中所示的有趣的偏差。图4中讨论了另一个例子，A更喜欢匹配H中的单词，即使如果我们添加直接链接H→A，它们实际上是关于Q的无意义的。在我们应用P1之后，这些现象将得到缓解，例如图2（a）中所示的蓝线，它更接近NDCG地面实况平均答案长度，表示为绿色虚线。请参见第6.5节中的其他定性研究。4.2. 原则2在讨论P2之前，我们首先介绍因果推理中的一个重要概念[28]。在因果图中，图3（a）中的叉状模式包含一个混杂因素 U ，它是 Q 和 A 的共同原因（即，Q←U→A）。混杂因子U打开了一条从Q开始的后门路径，使得Q和A虚假相关，即使它们之间没有直接的因果关系。在VisDial的数据生成过程中，我们知道，不仅提问者和回答者都可以看到对话历史，而且答案注释者在注释答案时也可以查看历史。他们在看过历史后的偏好可以理解为人性的一部分或对话语境下的微妙之处，因此它对Q和A都有因果关系。此外，由于偏好是微妙的和不可控的，我们认为这是一个未观察到的混杂因素的Q和A。值得注意的是，混淆因素阻碍了我们找到真正的因果效应。让我们看一下图3（b）中的图表作为一个例子。从Q到A的因果效应为0;然而，我们可以很快地看到P（A|Q）−P（A）非零UO一UO一UO一(a) 混淆因素U（b）伪关系（c）do-算子(d)问题类型（e）分数抽样（f）隐藏字典图3.混淆因素、do运算符和我们三次去混淆尝试的因此，如果我们考虑P（A|Q）作为我们的VisDial模型，即使Q与A无关，它仍然会预测无意义的答案。如图2（b）所示，即使Q没有给出，模型也会偏好关于“he”的候选项接下来，我们将介绍一种强大的技术，使图3（b）中的Q和A没有因果关系。4.3. 做-微积分。该技术是在[28，29]中引入的做微积分。具体来说，do（Q=q）表示我们故意将值q作为变量Q（即，而不是被动地观察Q=q。如图3（c）所示，do（Q=q）可以被理解为将所有原始传入箭头切割为Q，然后使Q和U独立。因此，我们可以拥有一个众所周知的-门调整[28]：P（A|do（Q=q））= uP（A|Q=q，u）P（u）.这并不意味着这与贝叶斯规则P（A）不同|Q=q）=uP（A|Q=q，u）P（u|Q=q）由于独立性P（u|Q=q）=P（u）引入做-微积分。让我们可以发现，P（A|do（Q=q））−P（A）=0，也就是说，Q的任何干预都不会影响A的概率，这意味着Q和A之间的正确关系：没有因果关系。因此，P（A|do（Q=q））应该是VisDial中的客观答案模型。对于图1所示的VisDial的拟议图，我们可以使用干预do（Q，H，I）和后门调整来获得我们的整体模型。在这里，我们稍微滥用了符号do（Q，H，I）作为do（Q=q，H=h，I=i）：P（A|do（Q，H，I））Σ因为 Q 和 A 都受 U 的影响，因此是相关的（感谢Reichenbach的共同原因原则[28]）。也就是说，如果我们给定Q，那么A的任何可能性变化都将是合理的，而没有给出任何可能性变化。=P（A）|do（Q，H，I），u）P（u|do（Q，H，I））拉乌=P（A）|do（Q），H，I，u）P（u|H）拉乌=P（A）|Q，H，I，u）P（u|H）的情况下。u（一）10864我详细的推导和证明可以在丰富的资料中找到。到目前为止，我们已经提供了基线因果图的所有成分，两个建议的原则及其理论解决方案：做-微积分。接下来，我们将介绍Eq中所提出的解决方案的一些实现。（一）.5. 改进的可视对话框模型实现P1是很简单的，我们将在6.3节中提供它的训练细节。对于P2，由于U未被观察到，因此不可能在等式中对u进行采样。(1)直接.因此，我们的技术贡献是引入3个近似值。为了简化符号，我们首先重写Eq。(1)如：5.2. 答案分数抽样由于问题类型实现稍微低估了后门调整，我们将引入一个更好的近似，它直接从u：Answer Score Sampling中采样。这种实现也被广泛称为我们之前提出的密集微调社区[3]。我们仍然使用a i来近似u，并且我们使用由人类注释的（归一化的）地面实况NDCG得分s i来近似P（a i|H）的情况下。注意si直接揭示了人类对上下文H中的ai的偏好（即，先验P（a i|H））。在实践中，我们使用具有密集注释的训练集的子集来采样si。因此，我们有：中国共产党Σ（A）P（u|H）ΔP（A）·s，（4）P（A|do（Q，H，I））=P u（A）P（u|H），（2）uuui ii其中P u（A）：=P（A|Q，H，I，u）。5.1. 题型由于我们不能直接从未观察到的混杂因素中对u进行采样，因此我们使用第i个候选答案ai作为样本u的delegate。这是因为i是在数据集收集期间从用户u的“头脑”观察到的句子。注意。然后，uPu（A）P（u|H）可以近似为iP i（A）P（a i|H）的情况下。我们进一步使用p（a i|QT）近似为P（a i|H），因为两个原因：第一，P（a i|H）本质上描述了一个关于i的先验知识，而没有com.整个{Q，H，I}三元组。类似的情况是，如果我们知道QT（问题类型），例如并且示意图在图3（e）中示出。在实践中，Eq. (4)可以使用不同的损失函数来实现。这里我们举三个例子：加权Softmax损失（R1）。我们将log-softmax损失扩展为加权形式，其中Pi（A）表示为log（softmax（pi）），pi表示候选ai的logit，si是相应的归一化相关性得分。Binary Sigmoid Loss（R2）. 这种损失接近于二进制交叉熵损失，其中P i（A）表示log（sigmoid（pi））或log（sigmoid（1-p i）），并且s i表示相应的归一化相关性得分。广义排序损失（R3）。注意到回答生成过程可以被看作是排序问题。因此，我们得出一个排序损失，即Pi（A）为logexp（pi），其中G是一组候选人甚至不理解问题的细节。秒-exp（pi）+j∈Gexp（pj）其次，QT是从问题Q中提取的，它是我们图中历史H的后代，表明QT部分揭示了H[28]。在实践中，我们手动定义一些问题类型，每个问题类型都有一定的答案频率。对于每个对话轮，归一化分数s qt：= p（a i）|QT）其具有比候选项A1更低的相关性分数，S1是标准化特征得分（即，对于具有相关性分数0的i等于0，对于具有正相关性分数的i这三个损失函数的更多细节在上图中给出拉克特我补充材料。值得注意的是，我们的损失是（即，ii= 1）将被计算。根据问题类型qt下i的频率。更多详情见第6.3节。最后，我们有Eq的近似。（二）：从Eq中的潜在因果原理P2导出（四）、但不是出于回归到NDCG的真实情况的目的。比较将在第6.4节中给出。ΣP u（A）P（u|H）uΣPi（A）·sqt，（3）我5.3.隐藏字典学习上述两种实现方式是离散的其中Pi（A）=softmax（fs（ei，m）），fs是相似性函数，ei是候选ai的嵌入，m是{Q，I，H}的联合嵌入，示意图如图3（d）所示由于从Q观察问题类型，因此近似p（a i|QT）破坏了Eq. （1）（即，先验p（u|H）不能以Q）为条件。幸运的是，QT只是Q的一小部分（即，第一句话，因为它们采样特定的ai来近似u。为了更好的近似，我们建议学习近似未观察到的混杂因素U。如图3（f）所示，我们设计了一个字典来建模U。在实际应用中，我们将字典设计成一个N×d的矩阵D u，其中N是人工设置的，d是隐藏特征维数。注意giv en样本ui和答案候选 ac ，等式(2) 可以被实现为uP u（a c）P（u|H）的情况下。从最后一层近似是合理的。我们网络的答案预测是一个softmax层：10865CCCPu（ac）=softmax（fs（ec，u，m）），其中ec是候选ac的嵌入，u是从Du中采样的，m是{Q，I，H}的联合嵌入，fs是相似度计算函数，等式(2)可以重写为：P（A|do（Q，H，I））：= E[u|H][softmax（fs（ec，u，m））]。（五）由于Eq. (5)需要对u进行昂贵的采样，我们使用NWGM近似[42，35]来有效地将期望移动到softmax中：E[u]|H][softmax（f s（ec，u，m））][softmax（E[u|H][fs（ec，u，m）]）。（六）NWGM近似的细节可以在补充材料中找到。本文建立了fs（ec，u，m）=eT（u+m）的模型.由于期望计算的线性可加性，我们可以使用 eT（E[u|H][Du] +m）来计算E[u|H][e T（u+m）]。在实践中，我们使用点积注意力来计算E[u|H][Du]. 具体而言，E[u|H][Du] = softmax（L T K）Du，其中L=W1h，K=W2Du，且m是元素-wise积，h是历史H的嵌入，W1，W2是映射矩阵。培训详情见第6.3节。6. 实验6.1. 实验装置数据集。我们提出的原则进行评估，最近发布的真实世界的数据集VisDial v1.0。具体来说，VisDial v1.0的训练集包含来自COCO数据集的123K图像[20]，每个图像有10轮对话，导致120万轮对话。验证集和测试集从Flickr收集，分别具有2K和8K COCO类图像。测试集被进一步分成测试标准集和测试挑战集，两者都具有托管在盲在线评估服务器上的4K图像的数量。训练集和验证集中的每个对话有10轮，而测试集中的数量从1到10均匀分布。对于每个对话，给出100个答案候选者的列表用于评估。在下文中，报告了验证和测试标准品组的结果。指标. 如第3.1节所述，NDCG得到官方推荐，并为社会所接受。还有其他一些基于检索的指标，如MRR（平均倒数排名），其中地面实况答案由单个用户生成。注意，唯一的答案可以容易地由单个用户长度）。我们认为这可能是具有历史捷径的模型获得更高MRR的原因，由于图2所示的偏差）和较低的NDCG。因此，基于检索的指标与NDCG不一致。根据上述原因和篇幅限制，我们只在正文中给出了NDCG的结果。为完整起见，将在补充材料中进一步讨论国家数据分组与其他基于检索的指标之间的关系以及所有指标的执行情况。6.2. Model Zoo我们报告了以下基础模型的性能，包括LF [9]，HCIAE [21]，CoAtt [41]和RvA [26]：LF [9].这个朴素的基本模型没有注意力模块。我们通过添加一些基本的注意操作来扩展模型，包括基于问题的历史注意和基于问题历史的视觉注意精炼[21].该模型由基于问题的历史注意和基于问题历史的视觉注意组成。CoAtt[41].该模型由基于问题的视觉注意、基于图像-问题-历史注意、基于图像-历史的问题注意和基于最终问题-历史的视觉注意组成。RvA[26].该模型由基于问题的视觉注意和基于历史的视觉注意修正组成。6.3. 实现细节预处理。对于语言预处理，我们遵循[9]介绍的过程。首先，我们降低了句子中所有字母的大小写，并将数字转换为单词，并删除了缩写.之后，我们使用Python NLTK工具包将句子标记为单词列表，然后填充或截断标题，问题和答案的长度分别为40，20和20。然后，我们构建了一个大小为11，322的令牌词汇表，其中包括11，319个在train v1.0中至少出现5次的单词和3个指令令牌。我们从GloVe [30]加载预训练的单词嵌入来初始化所有单词嵌入，这些单词嵌入在编码器和解码器中共享，并且我们应用2层LSTM来编码单词嵌入并将其隐藏状态维度设置为512。对于视觉特征，我们使用了由官方[1]给出的自下而上的注意力特征[4]。原则的实施。对于原则1（P1），我们在所有模型的最终融合向量表示中消除了历史特征，而其他部分保持不变。对于HCIAE [21]和CoAtt [41]，我们还阻止了对图像的历史指导。对于原则2（P2），我们使用偏好得分来训练模型，偏好得分可以从问题类型中计算出来，也可以由官方给出（即，VisDial v1.0训练集中的密集注释）。具体来说，对于我们使用5.2节中提出的（R2“Answer score sampling” wasdirectly used to ﬁne-tune our pre-trained model by theproposed功能协调发展的对于为100，d为512，以实现Du。字典是一个-10866Hh：老式的黑色蒸汽火车停在乡村现在是白天吗？答1：是的2、你能看到天空吗？答2：是的3、有云吗？答3：是的Q：下雨了吗？GT回答：HH0：4个小厕所坐在柜台上的水槽上一篇：厕所是玩具吗？更像烟灰缸#20020;，都是一样的颜色吗？A2：是的白色O3：它们中的任何一个都被使用了吗？答3：没有柜台是什么颜色的？A4：坐在木头窗台窗台上还有别的东西吗？答5：没有问：窗台旁边有窗户吗GT回答：没有可以看到一个蓝色模型基线QtSDr10的R1R2R3LF [9]57.2158.9767.8271.2772.0472.3672.65LF +P161.8862.8769.4772.1672.8573.4273.63表1.将我们的原则应用于VisDial v1.0验证集的实验的性能（NDCG%）比较LF是我们提到的增强版本。QT、S和D分别对问题类型、答案分数采样和隐藏字典学习进行了注释。R0、R1、R2、R3分别表示回归损失、加权softmax损失、二进制sigmoid损失和广义秩损失。表 2. VisDial v1.0 验证集上不同模型的消融研究性能（NDCG%）P2表示最有效的一个（即，隐藏字典学习），如表1所示请注意，只有应用P2是通过第5节中的历史快捷方式实现的。用前100个流行答案的特征进行训练，然后用R3损失的密集注释进行训练。更多细节可以在补充材料中找到。请注意，P1和P2之后的实现是灵活的。基线基线+P1NDCG：0.44 NDCG：0.66训练我们使用softmax交叉熵损失来训练使用P1模型，并使用Adam [17]，学习率为4×10−3，在epoch 5，7，9衰减，衰减率为0.4。该模型共训练了15个epoch。此外，Dropout [35]以0.4的比率应用基线基线+P1RNN和0.25对于全连接层。其他设置是默认设置的。6.4. 定量结果表1显示了P2中不同实现的结果，即，问题类型、答案分数抽样和隐藏字典学习。总体而言，所有的实现都可以提高基本模型的性能。具体来说，P2的实现可以通过隐藏字典学习将性能进一步提高至多11.75%。具体来说，我们设计的损失函数基于等式(2)超越回归分数，这是实现为欧几里德dis-电阻损耗，记为R0。原因是回归微调策略不是P2的适当近似。我们还发现，拟议的排名损失（即，R3）表现最好，因为它满足VisDial的排名属性。请注意，我们的原则是与模型无关的。表2显示了将我们的原理应用于四个不同模型的结果（即，[21][22][23][24][25][26]][27][28][29][29]][29]总之，这两个原理都可以改进任何烧蚀条件下的所有模型（即，P1、P2、P1+P2）。请注意，P1和P2的有效性是相加的，这意味着P1和P2的组合效果最好。最后，我们使用盲在线测试服务器来证明我们在Vis- Dial v1. 0的测试标准分割上的原则的有效性。如表3所示，顶部包含使用我们的原则实现的基线模型的结果，而底部则代表最近的Visual Dia-log Challenge 2019排行榜[2]。我们使用增强的LF [9]的合奏来击败2019年视觉对话挑战赛的获胜者（即，MReaL-BDAI），其也可以被视为P1和P2的实现。很有希望NDCG：0.57 NDCG：0.78图4. VisDial v1.0验证集上基线和P1基线的定性结果排名A中括号中的数字表示相关性分数。红框表示基线模型的所选候选者被快捷方式（例如，字匹配）。对于具有P1的基线，它不会做出这种有偏见的快捷方式选择。更多细节见第6.5节。通过应用我们的原则，我们可以将所有基线模型提升到排行榜的最高排名。6.5. 定性分析图4和图5所示的定性结果显示了我们的原则的以下优点。消除历史偏差。在应用P1之后，从历史中学习到的有害模式得到了缓解，就像我们提到的图2（a）中显示的答案长度偏差一样前...图4顶部的示例显示了基线中的单词匹配偏差。从这个例子中，我们可以观察到来自历史的单词具有低的相关性分数），由于错误的直接历史快捷方式，可以在排名靠前的答案中找到包含单词“sink”的答案。为了进一步证实这个猜想，我们统计了客观词的词匹配情况（例如，“sink”和“counter”）。统计结果表明，P1可以减少约10%的词匹配从基线的105200倍，到104800 倍使用P1）。下面的例子表明，当历史上存在“是”的答案时，基线模型将倾向于排名排在1.no（0.6）2.yes（0）3.0（0）4.无（0.6）5.no多云（0.2）排在1.no（0.6）2.no but clouds（0.2）3.it is notraining（0.8）4.no itisn't（0.6）5.no它不是（0.6）排在1.我看不到任何窗户（0.6）2.no（0.8）3.我看不见1（1.0）4.我看不见（0.2）5.看不见（0.6）6.我看不见1（0.4）排在1.no（0.8）2. 没有可以看到一个蓝色的水槽在背景中（0）3. 不，它看起来像一堵墙（0）4.不能说（0）5. 不能说（0）6. 不只是一个水槽（0.2）模型LF [9][21]第二十一话[41]第四十一话RvA [26]基线57.2156.9856.4656.74+P161.8860.1260.2761.02+P272.6571.5071.4171.44+P1+P273.6371.9971.8772.8810867没有摔跤1另一个0就像一个会议室0看起来像会议室0看起来像个生活区0没有电脑在...是的0不，看起来不像。0不，我看不出来0.6相关性分数基线1no不，不，我不能不是说我能不，我看不出来不你...我不能说我不能说不能说不是在11相关性分数基线+P2关键等级提升：“不”（0.8）：252“不，我不能”（1.0）：103《我看不见》（0.8）：544NDCG：0.38 0。96HHO：一个穿着滑雪装备在山前摆姿势的人这个人是女孩还是男孩？A1：可能是男孩2、他穿的是什么？A2：白色裤子和黑色夹克他戴护目镜了吗？答3：是的O 4：山上有雪吗？答4：是的他有滑雪板吗？答5：是的他有杆子吗？是的没有0滑降0很难说0不，但是他穿着是的他是他没有穿任何装备0是的，他是，不，他没穿相关性分数1是是的，他是的，他是的，我想是的，1没有滑降1是这样的1我看不见也许1111相关性分数答3：是的问：他戴着滑雪板吗？GT回答：是基线基线+P2NDCG：0.46 0。92图5.基线和具有P2的基线的排序候选者的定性示例我们还给出了一些关键的排名变化，以通过实施P2来提高NDCG的性能这些示例摘自VisDial v1.0的验证集模型NDCG（%）P1+P2（更多Encourage）74.91LF+P1+P2（Enhancement）74.19我们LF+P1+P2（单）RvA+P1+P2（单）71.6071.28CoAtt+P1+P2（单次）69.81HCIAE+P1+P2（单次）69.66VD-BERT（嵌入式）75.13Tohuku-CV实验室（环境）74.88排行榜MReaL-BDAI74.02SFCU（单）72.80FancyTalk（HeteroFM）72.33Tohuku-CV实验室（Enhanced w/oft）66.53表 3. 我们的结果与最近的 Visual Dialog Challenge 2019Leaderboard结果在VisDial v1.0的测试标准集上的比较结果由测试服务器报告，（）表示它取自[2]。请注意，排行榜中的前五个模型使用了5.2节中所示的密集微调实现在高处说“是”然而，在某些情况下，它与真正的答案“不”相反，这将导致较低的NDCG。应用P1后，可有效地缓解这一问题。为了证明这一结论，我们进一步计算了上述情况下基线和基线与P1的“是”的平均秩“yes”appears in history and the real我们发现，基线和基线与P1的平均秩分别为4.82和6.63。较低的排名意味着P1解除了历史上的“是”捷径。这些偏见的更多例子可以在档案材料中找到。更合理的排名。图5示出了基线模型仅关注诸如“no”或“yes”之类的基本事实答案这并不符合人类的直觉，因为具有相似语义的候选仍然是合理的。这也导致基线模型的NDCG较低。如图5所示具有P2的模型几乎将所有合适的答案如7. 结论在本文中，我们提出了两个因果原则，以改善VisDial任务。它们是模型不可知的，因此可以应用于几乎所有现有的方法，并带来重大改进。这些原则来自我们对VisDial性质的深入因果分析，但不幸的是，我们的社区忽视了这一点。对于技术贡献，我们提供了一些关于如何将这些原则应用到基线模型中的实现。我们在官方VisDial数据集和在线评估服务器上进行了广泛的实验。令人鼓舞的结果证明了这两项原则的有效性。在前进的过程中，我们将坚持我们的因果思维，以发现隐藏在具体问答和会话视觉对话任务中的其他潜在因果关系。这项工作是部分支持国家自然科学基金（61573363和61832017），中央高校基础研究基金和中国人民大学研究基金（15 XNLQ 01），以及南大-阿里巴巴JRI。我们要感谢匿名评论者的建设性意见。HHO：一个男人站在那里看着一个女人在沙发上用遥控频道冲浪它看起来像在客厅里吗？是的，想知道有多少人O 2：只

下载后可阅读完整内容，剩余1页未读，立即下载