没有合适的资源?快使用搜索试试~ 我知道了~
1Shapeglot:学习语言的形状分化朱迪·范罗伯特·霍金斯诺亚·古德曼列奥尼达斯·吉巴斯斯坦福大学干扰目标干扰目标干扰目标语用神经言语背上五小节,紧身上衣宽靠背座椅细腿,后背没有洞(新图像)(真实世界图像)(新3D点云)专注的神经倾听这把椅子的背部都有线条两条腿不规则立方体圆形阀座听众评分:0.00 0.10 0.90.01 0.00 0.99 0.04(小说图像)(看不见的类)(不可见的对象部分)图1:我们介绍了一个新的语料库的话语,指的是物体的形状,并使用它来开发多模态神经扬声器和听众具有广泛的泛化能力。顶行:我们的神经说话者生成话语,以区分“目标”形状和两个看不见的“干扰物”形状:合成数据的图像(左)、分布外(OOD)真实世界图像(中)和CAD模型的3D点云(右)。底行:我们的神经监听器以看不见的方式(从左到右)解释人类生成的话语:合成数据、OOD对象类(这里是灯)和OOD孤立对象部分的图像。收听者分数指示模型关于话语所指的对象的置信度。这些单词根据它们的重要性进行颜色编码,这是由这个听众的注意力模块判断的(较暖的颜色表示较高的注意力)。摘要在这项工作中,我们将探讨如何细粒度的差异之间的形状的共同对象是在语言中表示,接地上的2D和/或3D对象表示。我们首先建立一个大规模的,仔细控制的人类话语的数据集,其中每一个是指一个3D CAD模型的2D渲染,以便区分它从一组形状方面的相似的替代品。使用这个数据集,我们开发了神经语言理解(听)和生产(说)模型,这些模型在基础上各不相同(通过点云的纯3D形式与渲染的2D图像),捕获的实用推理的程度(例如,说话者对听者的判断),以及神经结构*通讯作者:optas@cs.stanford.edu网页:https://ai.stanford.edu/~ optas/shapeglot(例如:注意或不注意)。我们发现模型在合成和人类合作伙伴以及话语和物体方面表现良好我们还发现,这些模型能够对新的对象类(例如,从椅子上的训练转移到灯上的测试),以及从家具目录中提取的真实世界图像。损伤研究表明,神经listeners严重依赖于部分相关的单词,并正确地将这些单词与对象的视觉部分相关联(对这些部分没有任何明确的监督),并且当已知部分相关的单词可用时,转移到新类是最成功的。这一研究为语言背景的研究提供了一种实用的方法,并为研究对象分化时对象形状与语言结构之间的关系提供了一个新的案例。89388939简单上下文1. 介绍物体的结构和功能是理解物体的最好依据,而这两者都建立在物体各部分及其相互关系的基础上[9,8,47,7]。自然语言在整个人类历史中得到了优化,以解决有效地传达与当前目标最相关的世界方面的问题因此,语言可以提供一种有效的媒介来描述不同物体的形状和部位,从而表达物体的差异。例如,当我们看到一把椅子时,我们可以将它分析成语义上有意义的部分,比如它的靠背和座位,并且可以组合单词来创建反映其几何和拓扑形状属性的话语,例如“有一个坚实的靠背的宽座位”。此外,给定一个特定的沟通环境,我们可以精心制作不仅是真实的,而且也是相关的参考,例如。我们可以根据椅背上的线条来区分它和其他类似的①的人。在本文中,我们将探讨这种相互作用之间的自然-语言、指称语言和常见物体的形状。虽然最近的大量工作已经探索了基于视觉的语言理解[18,27,44,24,23,43],但是所得到的模型具有有限的能力来反映几何学和拓扑学(即,几何学和拓扑学)。形状)的基础对象。这是因为在以前的研究中,参考可能使用对象的颜色或空间配置等属性事实上,引发只涉及形状属性的语言为了应对这些挑战,在这项工作中,我们利用3D CAD抽象,例如对象部分,在对象类别之间共享,我们假设我们的模型学习可转移到不可见类的对象的鲁棒表示(例如,在椅子上训练,同时在灯上测试事实上,我们表明,这些模型有很强的泛化能力,新的对象类,以及从家具目录中绘制的真实世界最后,我们将探讨我们的模型如何成功地完成他们的沟通任务。我们证明,神经监听器学习优先级相同的抽象对象(即。椅子部件的特性),尽管从未被提供将这些对象明确分解为部件,但人类在解决通信任务时所做的。同样,我们发现,当已知的部分相关的话,神经听众转移到新的对象类更成功。最后,我们表明,咨询想象(模拟)听众的语用神经扬声器比听众无意识的,字面的扬声器,产生显着更多的信息话语,2. 数据集和任务ShapeGlot由三个椅子组 成 , 再 加 上 指 称 话语,旨在区分一把椅子( 为 了 获 得 这 样 的 话语,我们配对了部分-允许灵活和受控呈现的对象的表示(即,无纹理、颜色均匀的对象,亚马逊硬上下文以固定姿势观看)。我们进一步利用3D形式来构建一个参考游戏任务,其中参考对象在形状上类似于分散注意力的对象。这项工作的结果是一个新的多模态数据集,称为ShapeGlot,由ShapeNet的4,511个独特的椅子和78,789个参考话语组成。在形状-语言椅子被组织成4,054套大小为3(代表通信上下文),每个话语是为了区分上下文中的椅子。我们使用ShapeGlot来构建和分析一系列现代神经语言理解(听力)和产生(口语)模型。这些模型的基础各不相同(通过点云的纯3D形式与渲染的2D图像),捕获的语用推理的程度(例如,是否对听者进行推理的扬声器)和它们精确的神经结构(例如,具有或不具有字注意、具有上下文无关或上下文感知对象编码)。我们评估了这些选择对合成和人类伙伴的原始参考游戏任务的影响,并找到了具有强大性能的模型。因为语言传达了玩在线参考游戏[15]。在游戏的每一轮中,两名玩家都被展示了相同的三张椅子。指定的目标椅子被私下突出显示给一个玩家(“发言者”),他被要求通过聊天框发送消息,以便他们的伙伴(“发言者”)可以成功选择它。为了确保演讲者只使用与形状相关的信息,我们为每个参与者独立地打乱了椅子的位置,并使用从相同视点拍摄的预对齐的3D CAD模型的无纹理、均匀颜色渲染。为了确保交流互动是自然的,聊天框上没有任何限制:说话者的引用表达偶尔会被听众或其他话语的澄清问题所跟随。构建数据集的一个关键决定是构建上下文,以可靠地引出多样化且可能非常细粒度的对比语言。为了实现多样性,我们考虑了ShapeNet的所有7,000把椅子。这个对象类在几何上很复杂,在现实世界中是非常多样和丰富的。 控制8940细粒度区分的粒度是解决通信任务所必需的,我们构建了两种类型的上下文:硬环境包括形状非常相似的椅子,而易环境包括不太相似的椅子。为了以可扩展的方式测量形状相似性,我们使用了点云自动编码器(PC-AE)的语义丰富的潜在空间[1]。我们注意到,点云是3D对象的内在表示,倾斜于颜色或纹理。在从每个ShapeNet模型的表面提取3D点云之后,我们根据它们的PC-AE嵌入距离计算所有模型之间的底层K-最近邻图。对于图中度数足够高的椅子(直观上对应于标准椅子),我们将其与四个干扰项进行对比:在潜在空间中最接近它的两个,以及足够远的两个(参见插图和补充材料的细节)。最后,我们注意到,我们通过将给定上下文中的每一把椅子视为上下文的目标(在不同的游戏中)来抵消所收集的话语在我们介绍我们的神经代理之前,我们确定了我们语料库的一些独特属性。人类在参考游戏中的表现很高,但听众在硬环境中犯的错误明显更多(准确率94。百分之二对比97。2%,z=13。54,p<0. 001)的情况下。 同样,在困难的环境中使用较长的话语来描述目标(平均8.4个单词对1.5个单词)。6.1,t=-35,p<0。001)的情况下。引起了广泛的描述,从更全面/分类的(例如,“摇椅”)常见于简单的上下文,到更复杂和细粒度的语言,(e.g. ‘thinner legs but without armrests’) common for有趣的是,78%的所产生的话语包含至少一个与部位相关的词:背部、腿部、座椅、手臂或密切相关的同义词,例如。扶手。3. 神经监听器开发能够推理形状相关属性的神经监听器是我们工作的一个关键贡献。下面,我们将详细比较三种不同的架构,突出不同正则化技术的效果,并研究用于听力任务的3D对象的不同表示(即,2D渲染图像和3D表面点云)的优点在下文中,我们将通信上下文的三个对象表示为O={o1,o2,o3},对应的词标记化的发音为U=u1,u2,. . . 当t∈O时,指定目标。我们的建议听众的启发[26]。它需要-将捕获每个对象的形状信息的(潜在代码)向量放置在O中,并且将(潜在代码)向量放置在U的每个标记中,并且输出其核心是一个多模态LSTM [16],它接收作为初始值的输入(MLP以产生单个数字(兼容性分数)。对每个对象重复此操作,同时在对象之间共享所有网络参数。在交叉熵损失下,将得到的三个分数进行soft-max归一化,并与目标的地面实况指标向量进行比较。*形状编码器我们用三个代表实验-以捕捉潜在物体的形状。对象:(a)预训练的点云自动编码器(PC-AE)的瓶颈向量,(b)由在非纹理化3D对象的单视图图像上操作的卷积网络提供的嵌入,或(c)(a)和(b)的组合具体来说,对于(a),我们使用[1]的PC-AE架构,使用从3D CAD模型表面提取的单类点云进行训练,而对于(b),我们使用VGG-16 [32]倒数第二层的 激 活 , 在 ImageNet [6] 上 进 行 预 训 练 , 并 使 用ShapeNet中的对象图像对8向分类任务进行微调。对于每个表示,我们使用具有L2范数权重正则化的全连接(FC)层虽然在LSTM中有许多方法将基于图像的特征与基于点云的特征结合起来,但我们发现,当我们i)将LSTM与基于图像的代码结合起来,ii)将LSTM的输出(在处理U之后)与基于点云的代码连接起来,以及iii)将连接的结果馈送到产生兼容性得分的浅MLP中时,会出现最佳性能(参见Supp.2010)以获得管道的视觉概述和更多细节)。我们注意到,适当的 正 则 化 是 至 关 重 要 的 : 在 LSTM 的 输 入 层 添 加dropout,L2权重正则化和dropout,FC突出层使性能提高了≥ 10%。简化上下文信息我们的基线Listener架构(Baseline,刚刚描述过)首先对每个对象单独评分,然后应用softmax标准化,产生三个对象上的分数分布。我们还考虑了两种替代架构,明确编码信息的整个上下文得分之前,一个单一的对象。第一种替代方案(Early-Context)与所提出的架构相同,除了用于使LSTM接地的代码。具体地,如果V1是第i个对象的基于图像的代码向量,则不是使用V1作为用于O1的接地向量,而是引入浅卷积网络这个网络的输出是地-接收信号f(v,j,v,k)||g(vj,vk)||其中f、g是对称的最大/平均池函数,|| denotes feature-wise concatenation and v j, v kare thecodes of the remaining objects.在这里,我们使用对称-ric函数来诱导我们的上下文的无序性质。第二种替代方案(组合解释)将所有三个对象的基于图像的代码向量放入*所有实验的架构细节和超参数在补充材料中提供。8941我i=1Σ|U|顺序地到LSTM,然后继续处理U的令牌一次,然后产生三个分数。与Baseline架构类似,点云在LSTM之后运行的MLP中被合并到两个备选方案中。词语注意力我们假设,被迫在每个话语中优先考虑几个标记的听者将学会优先考虑那些表达将目标与干扰物区分开的属性的标记(并且,因此,执行得更好)。为了测试这一假设,我们用标准的双线性注意力机制来增强听者模型[31]。具体地,为了估计每个令牌u i的的相对重要性注意力和两种客体形态。我们在表1中报告了研究结果。我们发现,基线和早期上下文模型的整体表现最好,优于组合解释模型,其不跨对象共享权重。这种模式适用于我们数据集的我们进一步探索小部分( 约14% ) 使 用 显 式 对 比 语 言 的 测 试 集 : 最 高 级('skinniest')和比较级('skin-nier ')。令人惊讶的是,我们发现基线架构仍然具有竞争力的架构更明确的上下文信息。因此,Baseline模型实现了高性能,并且是最灵活的(在测试时,它可以应用于任意大小的上下文);我们在下面的探索中关注这个架构。每个令牌的iT×Watt ×h,其中W att 是可训练的4.1. 探索学习表征对角矩阵 LSTM的新(加权)输出是:Σ|U|R一个人在=exp(ai)且⊙是exp(a)语言消融句子的哪些方面是JJ点式产品4. 实验研究我们开始使用基于不同数据分割的两个参考任务来评估建议的侦听器。在语言泛化任务中,我们对在训练期间在至少一个上下文中被视为目标的目标对象进行测试,但确保测试分割中的所有话语都来自未看到的说话者。在更具挑战性的对象泛化任务中,我们将测试集中出现为目标的对象集限制为与训练中的对象不相交,使得测试分割中的所有扬声器和对象都是新的。对于这些任务中的每一个,我们使用[80%,10%,10%]的数据评估输入模态和单词注意力的选择,用于训练,验证和测试目的。基线收听者准确度如表2所示。总体而言,Baseline实现了良好的性能。正如预期的那样,听者在语言概括任务上有更高的准确性(3)。平均2%对文字的注意机制产生了温和的性能提升,只要图像是输入的一部分有趣的是,当仅使用一个模态时,图像提供比点云明显更好的这可能是由于图像的高频然而,我们发现准确性显著提高(4。平均1%),同时利用两个对象表示,这意味着它们之间的互补性。接下来,我们评估如何在incor- porating第3节中描述的上下文信息的不同方法影响监听器的性能。我们专注于更具挑战性的对象泛化任务,使用包括at-在所有结果中,报告了5个随机种子的平均准确度和标准误差,以控制数据分裂群体和神经网络的初始化。对听众的表现最重要的是什么为了检查最受关注的单词的属性,我们运行了一个词性标注器我们发现,最高的注意力的重量放在名词,控制的话语的长度然而,修饰名词的形容词在硬语境中受到更多的关注(控制每个语境中的平均出现率),名词通常不足以消除歧义(见图2)。第2 A段)。为了更系统地评估高度注意对听者表现的作用,我们进行了一个话语损伤实验。对于我们数据集中的每个话语,我们根据三种方案用令牌连续替换单词:(1)从最高关注度到最 低关注度,(2)(3)随机排序。然后,我们通过一个没有注意力的同等听众来提供这些信息 我们发现,高达50%的单词可以被删除,而不会降低性能,但前提是这些单词是低关注度的单词(见图1)。2B)。因此,我们的注意词的听者似乎依赖于上下文适当的内容词来成功地消除所指对象的歧义。视觉消融为了测试我们的听众在多大程度上依赖于与人类相同的对象语义部分我们采用了我们测试集的子集,其中(1)所有椅子都有完整的部分注释[42],(2)相应的话语提到了单个部分(我们测试集的然后,我们通过移除图像的像素(和/或当使用点云时的点),在每次试验中创建所有三个对象的病变版本,对应于根据两种方案的部分:移除单个部分或保留单个部分。我们这样做是为了上述一个,或另一个部分,随机选择。我们在表3中报告了这些受损对象的收听者准确度。我们发现,删除随机部分会使准确率平均下降10.4%,但删除上述部分会使准确率下降超过10%。我8942架构整体硬亚群容易Sup-Comp联合解释75. 9 ±0。百分之五67岁4 ±1。0%的百分比83岁8 ±0。占6%74岁4 ±1。百分之五早期背景79岁。4 ±0.百分之八70.1 ±1。百分之三88岁1 ±0。占6%75. 6 ±2。百分之二基线79.6 ±0. 百分之八69岁。9±1。百分之三88.8 ±0. 百分之四76.3 ±1。百分之三表1:比较包含上下文的不同方式。最简单的Baseline模型与更复杂的替代方案性能相同。亚群是测试数据的子集,包含:硬语境(形状相似的干扰词),简单语境,最高级或比较级。输入模态语言任务对象任务没有注意患有注意力67.第六十七章6± 0。第 六十六章. 4 ±0. 占7%图81。2± 0。5% 77. 4 ±0. 占7%83. Both 1± 0。百分之四七十八。9 ±1。0%的百分比67.第六十七章4± 0. 百分之三六十五。6 ±1。百分之四图81。7± 0。5% 77. 6 ±0。百分之八均为83.7 ± 0. 3%79.6±0. 百分之八表3:通过损伤对象部分来评估神经收听者的部分意识。所示的结果是针对仅图像收听者的,平均准确率为77。4%,当使用完整对象时关于基于点云的表2:在两个参考任务中,使用不同的对象表示和有/没有单词级注意的基线0.80.60.40.0在补充材料中提供了监听器。5. 神经扬声器接下来,我们将探索学习生成一个涉及目标的话语并将其与干扰物区分开来的模型。与神经监听器类似,这些(扬声器)模型的核心是LSTM,它对通信上下文的对象进行编码,然后对话语进行解码具体来说,对于基于图像的说话者,在前三个时间步长上,LSTM输入是每个对象的VGG代码。相应地,对于一个点-调整名词词性0.00 0.25 0.50 0.751.00从话语中损伤的单词%对于基于云的扬声器,LSTM培训期间和之后图2:(A)听者对硬(橙色)三连词比简单(蓝色)三连词的注意力更多。直方图的高度描绘了由潜在话语长度归一化的平均注意力分数;误差条是Bootstapped95%置信区间。(2)将注意力最高的词损伤到注意力最低的词上比损伤随机词或损伤注意力最低的词更能提高学习成绩。三倍于此,几乎是偶然的。相反,只保留提到的部分,而损伤图像的其余部分,仅仅使准确性下降10.6%,而单独保留未提到的(随机)部分,则使准确性下降接近于偶然。换句话说,当参与者依赖于某个部位的信息来向他们的伴侣传达对象时,我们发现关于该部位的视觉信息对于我们的倾听者模型的表现来说既是必要的,也是充分的一容易硬B最小到最大随机最大到最小标准化注意分数单个部件病变单个部件本提及的部分四十二8%±2。366岁。8%± 1。4随机部分67岁0%±2。9三十八岁。8%±2。0听者准确度8943目标代码由LSTM处理,LSTM顺序地接收第i个话语令牌,而在其输出处,如果被迫预测第(i+1)个令牌(即,我们使用教师的力量[38])。对于这些模型,我们总是最后(第三个)输入目标对象,从而消除了表示指示目标位置的索引。为了找到最佳模型超参数(例如L2-weights,dropout-rate and #of LSTM neurons)和最佳训练量,我们在训练期间从模型中采样合成话语,并使用预训练的听众选择具有最高听众准确度的结果。我们发现这种方法产生的结果比使用BLEU等无感知度量进行评估的结果产生的话语质量更好[29]。上述(字面)说话者可以学习生成区分目标和干扰物的语言。为了测试分心物对象用于此目的的程度,我们对仅提供目标的潜在代码的上下文无意识说话者进行了实验,8944(and在其他方面与上述文字模型相同)。此外,受人类语用语言使用的递归社会推理特征(如理性言语行为框架[12]中所体现的)的激励,我们创造了语用说话者,他们根据预先训练的“内部”听众判断的能力来选择话语在这种情况下,我们对来自(字面)说话者的话语进行采样,但是对(字面)说话者的话语进行评分(即,重新排列)与他们:表4:跨架构变体评估用3D点云或基于图像的对象表示操作的神经扬声器。βlog(P L(t|U,O))+(1−β)log(P(U |O,t)),(1)|α S|αS其中PL是听者PS是说话人生成U的可能性。参数α控制长度惩罚项,以阻止短句[40],而β控制说话者倾听者6. 说话人实验质量,我们的扬声器产生良好的对象描述,见图。3例,语用者产生更多的歧视话语。为了定量地评估演讲者,我们测量了他们在与两种不同类型的合作伙伴的参考游戏中的成功:独立训练的神经收听者和人类收听者。当我们使用神经listener进行评估时,为了进行公平的研究,我们将训练数据分成两半。评估的听众使用一半的训练,而“内部”的务实的扬声器使用的听众训练的对于基于人类的评估,我们首先使用字面和语用变体来为对象泛化任务的测试分割的每个上下文(包含1200个唯一上下文)生成话语。然后,我们向用AMT重新训练的参与者展示了由此产生的话语,并要求他们从说话者所指的上下文中选择对象。我们收集了大约2. 2个答案为每个上下文。在这里,我们使用具有最高分数的合成话语(等式10)。 1)来自每个模型,最优(预验证)α和"累加“β = 1。0的情况。我们注意到,虽然基于点的扬声器仅使用3D点云进行操作,但我们将其生成的话语与CAD渲染图像一起发送到AMT,以便在两个变体中保持视觉(AMT-人类)呈现相同。我们发现(见表4),我们的务实的发言人每-与神经和人类伙伴形成最佳 虽然他们在神经监听器模型方面的成功可能并不令人惊讶,但考虑到内部监听器和评估监听器的架构相似性,人类监听器是10。4%的人更善于从语用者与字面说话者产生的话语中挑选出目标,这是表现最好的(基于图像的)变体。 和我们看到‡该项目在收听者实验(第4节)中,我们发现(单独的)基于点云的扬声器比基于图像的变体实现更低的性能然而,我们也发现了听力和口语任务之间的不对称性:虽然上下文不知情(基线)的听众取得了很高的成绩,我们发现,上下文不知情的扬声器票价显着低于上下文知情的。最后,我们注意到,文学和语用扬声器产生简洁的描述(平均句子长度4。21对4 但语用者使用的词汇量要丰富得多(在控制了平均长度差异后,独特名词多14%,独特形容词多33%7. 分布外迁移学习语言是抽象的,是组合的。这些特性使得语言的使用可以推广到新的情况(例如:在新的科学领域中使用具体的语言)和对低水平感知变化(例如,照明)。在最后一组实验中,我们检验了我们的神经倾听者和说话者学习表征的程度,这些表征具有相应的鲁棒性:即捕捉视觉域和语言域之间的关联,从而允许在训练域之外进行泛化。为了测试听众对新刺激的一般化,我们收集了由ShapeNet中的对象组成的通信上下文中的指称表达,这些对象来自新类:床、灯、沙发和桌子。这些类与椅子不同,但共享一些部分和属性,使得充分组合模型的转移成为可能。对于每个类,我们创建了200个由随机三个对象组成的上下文;并为每个上下文中的每个目标收集了2个指称表达(来自AMT上的参与者)。视觉刺激和所收集的话语的示例在图中示出。4(底行)。对于该数据,我们应用了在形状- Glot上训练的(仅图像,有/没有注意力)收听者(即,椅子)数据。我们避免使用点云,因为扬声器架构模态神经收听者人类收听者上下文不知道点云图像五十九1±2。0%的百分比六十四0±1。占7%--字面点云图像71.5±1。百分之三七十六。6±1。0%的百分比66.268.38945干扰项目标干扰目标干扰目标听众评分语用说话者听众评分文字说话者0.29 0.20 0.51它的脚上有滚轮0.55 0.16 0.29底部有个圆圈的0.00 0.14 0.86方背直腿0.05 0.85 0.10腿最粗的那个0.19 0.24 0.57最薄座椅0.19 0.32 0.49腿最细的椅子图3:在看不见的(“硬”)语境中,语用与字面说话者。即使在字面生成失败的情况下,语用生成也能成功地识别目标。左侧和中心上下文(灰色)由基于图像的说话者/收听者使用,并且最右侧由基于点云的说话者/收听者使用。根据由单独的评估神经收听者放置的注意力对话语进行颜色编码,所述收听者的分类分数在每个对应话语上方示出干扰目标干扰目标干扰目标靠背和座位之间的间隙两条腿相连圆形扶手干扰项目标干扰项目标干扰项目标听众评分:非常窄而高的矩形有四条锥形腿的桌子这张床有一种奇特的金属床头板和两个枕头这盏灯是金属丝网0.06 0.070.870.06 0.020.920.01 0.02 0.97图4:分布外神经说话和倾听的例子。第一行:真实世界的猫图片的模型生成。演讲者成功地描述了具有丰富色彩和纹理内容的图像上的细粒度形状差异;这两个因素在训练数据中不存在。底行:将注意单词的听众应用于具有人类产生的话语的来自看不见的类的CAD对象的渲染的结果。听众可以检测到人类所指的(通常是本地化的)视觉线索,尽管这些对象与椅子的训练域存在很大的视觉差异。(The话语根据注意的神经收听者对它们的注意而被颜色编码)。与使用多个ShapeNet类进行微调的VGG不同,PC-AE在单个类上进行预训练。如表5所示,在所有转移类别中,平均准确率远此外,将评估限制为仅包含在ShapeGlot训练词汇表中的单词的话语(所有话语的75%,列:已知)仅略微改进结果。这可能是因为带有未知单词的话语仍然包含足够的已知词汇,以便模型确定含义。我们进一步剖析了已知人口的话语,包含部分相关的词(与部分)和他们的补充(无部分)。对于椅子的训练域,无部分话语产生精度略高。然而,支持这种性能的有用子类别(例如,“躺椅”)不支持转移到新类别。事实上,我们观察到,对于转移类,当部分相关的词存在时,侦听器表现得更好。此外,随着转移域和训练域之间的感知距离增加,两个群体之间的性能差距似乎变得更大(将沙发与灯进行比较)。描述真实图像对于现代机器学习模型来说,从合成数据到真实数据的转换通常是困难的,因为这些模型需要适应数据的细微统计数据。我们探索了我们的模型转移到真实椅子图像(而不是训练图像)的能力。8946表5:用椅子数据训练的神经收听者对不同话语子群的新对象类的转移学习。作为参考,包括对象概括任务的准确性(椅子,第一行);最后一行仅报告转移/新颖类别的平均值。所有数字都是用对象泛化任务的不同分割训练的五个听众的平均准确率(详见第7节和附录。对于其他变体)。人口类整个已知与部分无部分椅子77.477.877.080.5床56.455.863.851.5灯50.151.960.347.1沙发53.655.055.154.7表63.765.568.362.7平均56.057.161.954.9没有来自CAD模型的颜色或纹理)。 这些图像是从与训练渲染相似的视点拍摄的,并且具有丰富的颜色和纹理内容。 我们将(仅图像)务实的说话者应用于这些图像,在减去平均ImageNet RGB值(即在将图像传递给VGG之前)。图4中示出了演讲者的作品的示例对于每把椅子,我们随机选择了两个干扰,并要求2AMT参与者猜测目标(得分最高)的话语由我们的扬声器。人类听众正确地猜出了目标椅子70。1%的时间。我们的扬声器似乎成功地转移到真实图像,其中包含颜色,纹理,姿势变化,以及与我们的训练数据可能存在的其他差异。8. 相关工作图像标记和字幕我们的工作建立在视觉模型开发的最新进展之上,这些模型涉及一些语言数据,包括对象分类[32,46]和图像字幕[17,37,41]。不像对象分类,预先指定一组固定的类标签,所有图像必须投影,我们的系统使用开放式的,参考语言。类似于图像字幕中的其他近期作品[25,27,44,35,24,23,43],而不是孤立地为单个图像(或其中的实体)加字幕,我们的系统学习如何跨不同的通信上下文进行通信。参考游戏在我们的工作中,我们使用参考博弈[18]为了使需求具有相关性,在上下文中。这种游戏的基本安排可以追溯到维特根斯坦所探索的语言游戏[39]和刘易斯[22]。 几十年来,这类游戏一直是认知科学中的一个有价值的工具,用于定量测量有关语言使用的推断以及这些推断的行为后果[30,20,4,34]。最近,这些方法也被采用作为区分或上下文感知NLP的基准 [28,2,33,36,26,5,21]。理性言语行为框架我们的模型借鉴了最近在理性言语行为(RSA)框架中对人类语言使用的形式化[12]。RSA的核心是Gricean建议[14],即说话者是选择关于世界状态的简约但信息丰富的话语RSA将这种信息性的概念形式化为(内部模拟的)听者的不确定性的预期减少RSA中的字面监听器使用语义来衡量话语和情境之间的兼容性,就像我们的基线监听器一样。以前的工作表明,RSA模型考虑了说话者和听众的上下文敏感性[13,26,45,10]。我们的研究结果增加了这种方法在形状域的有效性的证据。9. 结论在本文中,我们探讨了自然语言模型的基础上的形状共同的对象。对象的几何学和拓扑学可以是复杂的,我们用来指代它们的语言也相应地是抽象的和组合的。这使得物体的形状成为探索基础语言学习的理想领域,同时使语言成为形状变化的特别有趣的证据来源。我们介绍了形状-格洛特语料库的高度描述性的参考表达的形状在上下文中。使用这些数据,我们研究了各种神经听者和说话者模型,发现最好的变体表现出强大的性能。这些模型利用了2D和3D对象表示,并且似乎反映了类似人类的部分分解,尽管它们从未使用对象部分进行过显式训练最后,我们发现学习的模型非常强大,可以转移到真实图像和新的对象类别。未来的工作将需要了解这些模型的转移能力,以及这如何取决于他们所学到的组成鸣谢:作者希望感谢所有匿名评论者的深刻评论和建议。P.A.我还要感谢Dimitris Achlioptas,感谢他与我进行了无数次鼓舞人心的对话。最后但并非最不重要的是,作者要感谢NSF资助CHS-1528025,VannevarBush教师奖学金以及Amazon Web Services for MachineLearning Research和Autodesk的礼物8947引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas J.Guibas 三维点云的学习表示与生成模型第35届国际机器学习会议论文集,2018年。3[2] 雅各布·安德烈亚斯和丹·克莱因。与神经听者和说话者的语用学推理。CoRR,2016年。8[3] 天使X作者:Thomas A.作者:Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet:一个信息丰富的3D模型存储库。CoRR,abs/1512.03012,2015。2[4] Herbert H Clark和Deanna Wilkes-Gibbs。作为一个协作过程。Cognition,22(1):1-39,1986. 8[5] 鲁本·科恩-戈登诺亚·古德曼和克里斯·波茨实用信息图像 字 幕 与 字 符 级 的 参 考 . CoRR , abs/1804.05417 ,2018。8[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。3[7] Anastasia Dubrocket,Fei Xia,Panos Achlioptas,MiraSha- lah,and Guibas J.列奥尼达基于潜在空间分解的复合形状建模。CoRR,abs/1901.02968,2019。2[8] 佩 德 罗 ·F. 罗 斯 ? 费 尔 岑 斯 瓦 尔 布 Girshick , DavidMcAllester,and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。TPAMI,2010年。2[9] A. Martin Fischler和Elschlager A.罗伯特图像结构的表现和匹配。IEEE Trans. on Computers. ,1973年。2[10] 丹尼尔·弗里德,雅各布·安德烈亚斯,丹·克莱因。用于生成和遵循指令的统一实用模型。CoRR,abs/1711.04987,2017。8[11] Edward Gibson,Richard Futrell,Julian Jara-Ettinger,KyleMahowald , LeonBergen , SivalogeswaranRatnasingam , Mitchell Gibson , Steven T.Piantadosi 和Bevil R.康威跨语言的颜色命名反映了颜色的使用。Proceedings of the National Academy of Sciences , 114(40):10785- 10790,2017. 2[12] 诺亚·D Goodman和Michael C. Frank.作为概率推理的语用语言解释。Trends in Cognitive Sciences,20(11):818- 829,2016. 六、八[13] 放大图片作者:Robert X. D. Hawkins,and Noah D.Goodman.动物,狗,还是斑点狗?名词性指称表达的抽象层次第38届认知科学学会年会论文集,2016年。8[14] H. P· 格 莱 斯 逻 辑 与 对 话 在 P. Cole 和 J. Mor-gan ,editors,《语义学与语义学》,第43-58页.学术出版社,纽约,1975年。8[15] 罗伯特·X D. 霍金斯在网络上进行实时多人实验。Behavior Research Methods,47(4):966-976,2015.2[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。3[17] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义InProceedings of8948IEEE计算机视觉和模式识别会议,第3128-3137页,2015年。8[18] Sahar Kazemzadeh、Vicente Ordonez、Matten Mark和Berg L.塔玛拉推荐游戏:在自然景物的照相照片中提到物体的。在EMNLP,2014年。二、八[19] 西蒙·柯比莫妮卡·塔玛丽兹汉娜·科尼什和肯尼·史密斯语言结构文化演变中的压缩与交流认知,141:87-102,2015。2[20] Robert M.克劳斯和西德尼·魏汉默。在社会交往中,指称短语的变化与使用频率的函数关系:初步研究。心理学,1964年。8[21] Angeliki Lazaridou、Karl Moritz Hermann、Karl Tuyls和Stephen Clark。从符号和像素输入的指称游戏中涌现出语言交流CoRR,abs/1804.03984,2018。8[22] 大卫·刘易斯。传统:哲学研究。哈佛大学出版社,1969年。8[23] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.神经宝宝的谈话。CVPR,2018年。二、八[24] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在计算机视觉和模式识别(CVPR),第2卷,2017年。二、八[25] Junhua Mao , Jonathan Huang , Alexander Toshev ,Oana Camburu,Alan Yuille,and Murphy Kevin.无歧义对象描述的生成和理解。CoRR,abs/1511.02283,2016。8[26] 威 尔 · 门 罗 罗 伯 特 ·X·D 作 者 声 明 : D. Goodman 和Christopher Potts。上下文中的颜色:一个基于语言理解的语用神经模型。CoRR,abs/1703.10186,2017。三、八[27] K.瓦伦纳加拉贾岛Vlad Morariu和Davis S.拉里为引用表达式理解建模对象之间的上下文。ECCV,2016。二、八[28] Maike Paetzel、David Nicolas Racha和David DeVault。快速对话游戏的多模态语料库。语言资源与评估会议(LREC),2014年。8[29] Kishore
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功