VLGrammar：视觉与语言的扎根语法归纳

183 浏览量更新于2023-10-14 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1665VLGrammar：视觉与语言的扎根语法归纳Yining Hong1，Qing Li1，Song-Chun Zhu2，3，4，SiyuanHuang11加州大学洛杉矶分校2北京通用人工智能研究院，3清华大学，4北京大学摘要认知语法认为语言语法的习得是建立在视觉结构的基础上的。语法是自然语言的一种基本表征在这项工作中，我们研究接地语法归纳的视觉和语言的联合学习框架。具体来说，我们提出了VLGram- mar，一种方法，使用复合概率上下文无关文法（复合PCFG），同时诱导语言语法和图像语法。我们提出了一个新的对比学习框架来指导两个模块的联合学习为了提供用于接地语法归纳任务的基准，我们收集了大规模数据集P ARTIT，其包含描述3D对象的部件级语义的人类书写句子。在P ART IT数据集上的实验表明，VLGram-mar在图像语法归纳和语言语法归纳方面优于所有基线。学习的VLGram- mar自然有益于相关的下游任务。具体地说，它将图像无监督聚类的准确率提高了30%，并在图像检索和文本检索中表现良好。值得注意的是，归纳语法表现出优越的概括性，很容易概括到看不见的类别。代码和预训练模型发布于github.com/evelinehong/VLGrammar。1. 介绍自然和人造动力系统往往具有嵌套的多尺度组织，这可能是所有物理和生物系统的一般性质。根据[37]，构建复杂的稳定系统需要重复使用稳定的子系统，这些子系统可以组装以构建更大的系统。因此，探索感知数据中的低维结构对于理解世界以及帮助人工智能系统的设计、解释和推广至关重要。类似地，从原始的感觉输入中归纳出潜在的结构和语法，例如视觉和语言[11，51，39，23，38，5，40，椅子支持系统休息区武器臂竖杠腿基部臂单杠前腿后腿S这是一种椅背不规则、座位呈方形、两个扶手上有竖条和横条、腿呈弧形的椅子。DT这个VP是一个不规则靠背的椅子，方形的座位……VBZ是NP一把椅子NP靠背不规则的椅子...NP一个不规则的背，一个正方形的座位，两个手臂……NP一个正方形的座位，NP两个手臂与垂直酒吧和…NP双臂PP有垂直杆和水平杆，......图1：与图像解析树对齐的句子解析树的示例。箭头线表示图像语法和语言语法的产生规则。虚线表示两个模态的组成部分之间的对准。54，48，32，14，26，15]，一直是人工智能（AI）领域的长期挑战。随着无监督学习技术的发展，自然语言的无监督语法归纳[33，34，21，20]最近取得了令人满意的进展。这些著作将语言的语法归纳系统表述为一个独立的系统，完全依赖于文本语料库。顺应这一趋势，[35，53]提出了视觉接地语法归纳法。他们的经验表明，如果一个句子的分析树的成分视觉基础语法归纳法向认知语法[24，25]又迈进了一步，认知语法是一个来自1666nn语言学理论认知语法认为，如果不考虑语法单位的语义，就对其进行分析是没有意义的，因为语义是由视觉等然而，以前的作品地面的所有成分的句子与嵌入一个单一的图像[35，53]。他们专注于将图像特征与语言语法对齐，但错过了图像中的分层结构这与认知语法的概念不一致，即成分的语义值并不存在于一个单独的意象基础中，而是存在部分-整体关系在语义结构中至关重要[16]。例如，图1B中的组成部分1不是简单地指椅子，而是指椅子的扶手。因此，有必要将语言语法与物理对象的层次结构相结合。如图1中，视觉对象可以被解析成具有分层结构的部分，并且描述对象的部分的成分可以自然地与处于不同层次的部分相结合。虽然对图像的分层结构的研究有很长的历史[11，51，32，14，13，45，54]，但该结构主要是由人和静态图像预先定义的。因此，挑战仍然是：（1）如何使用相同的网络[ 14 ]表示随图像变化的灵活的部分-整体层次结构，以及（2）如何在没有预定义模板的情况下自动学习结构。一种可能的方法是学习将对象解析成部分的图像语法。代替分配神经元来表示解析图中的节点，我们可以使用神经元来表示语法规则。语法规则对于所有图像都是通用的，并且可以递归地重用以处理任意复杂的对象（例如，椅子可以具有任意数量的腿）。受上述思想的启发，我们提出了VLGrammar，一个联合学习图像和语言语法的框架。具体而言，我们使用复合概率上下文无关文法（复合PCFG），其用神经网络参数化PCFG的规则概率，并用潜在的复合变量放松上下文无关约束。为了实现接地学习，我们计算图像解析树和语言解析树之间的对齐分数，并使用对比损失来联合学习图像和语言的复合PCFG为了获得包含用于学习扎根语法的多模态部分-整体信息的数据，我们收集了一个大规模数据集PARTIT，其中包含10，613个手动注释的描述性句子，并与对象和部分的图像配对。通过 Amazon Mechanic Turk（AMT）收集的句子描述了3D对象的详细对象和在 PART IT 数据集上的实验表明，我们提出的VLGrammar在图像语法归纳和语言语法归纳方面都优于所有基线此外，它自然有利于相关的下游任务，例如，将无监督部分聚类的准确率我们在椅子和桌子上训练的图像语法可以很容易地概括为看不见的类别，如床和包。定性研究还表明，我们的方法是能够预测部分-整体层次结构和递归结构的对象，以及选区分析的句子。我们的贡献可归纳如下：• 基准接地语法归纳问题，我们收集了一个大规模的数据集，PARTIT，其中包含人类写的句子描述对象级和部分级语义的3D对象。• 我们提出了VLGrammar，它利用复合PCFG诱导接地语法的视觉和语言，通过强制执行的跨模态对齐。• 我们进行了广泛的实验PART IT数据集。实验结果表明，该算法在语法归纳和后续任务（如无监督聚类和图文检索）上具有较好的性能。VLGrammar在看不见的对象类别上也表现出2. 相关工作2.1. 语言的语法归纳语法归纳在自然语言处理中有着悠久的历史[39，23，38，5，40]。最近，研究人员专注于使用神经网络仅从句子中诱导解析树[34，33，8，21，20]。这些方法大多认为语言是一个自主系统，不依赖于感知和语义。这一观点背离了语言学理论中强调语义结构在语法归纳中的作用的认知语法观。为了解决这个问题，提出了视觉接地语法归纳[35，53]。然而，他们用一张图像来估计语言跨度的具体性（即，将具体词定义为指感知的词）[46，19]，这不足以表示完整的语义结构。鉴于语言成分通常与图像的特定部分相关联，我们建议将成分与视觉结构中的特定部分对齐。2.2. 图像的层次结构几十年来，图像的层次结构的研究一直是研究人员的兴趣，范围从句法模式识别[11，51]，图形语法[10，13]，到与或图[54，48，44]，胶囊网络[32，14]和分层形状分割[52，30，50]。语法模型经常被用来建模层次关系和构建结构化表示。1667„然而，这些作品的视觉结构和语法大多是预先定义的或在监督下学习的。先前的工作尝试以无监督的方式[44，36]来诱导图像语法，但也在在本文中，我们提出了以自监督的方式通过复合PCFG [20]对图像和语言进行联合语法归纳，这消除了大多数预定义的结构。2.3. 扎根视觉与语言学习近年来，在利用视觉和语言之间的跨模态对齐用于各种任务方面已经做出了很多努力和进步，例如图像-文本检索[22，18]，图像字幕[17，29，49]和视觉问答[28，1]。这些工作通过建立视觉词映射[22，18，17]明确地对齐图像中的对象和句子中的单词，或者通过对跨模态注意力建模[49，28，1]隐含地对齐。最近，人们对视觉和语言任务中表征学习的多模态预训练产生了浓厚的兴趣[42，41，27，43，4]。这些工作通过对大规模图像/视频和文本对进行预训练，然后对下游任务进行微调，将BERT [6]（一种用于自然语言理解的流行预训练框架）这些多模态BERT在这项工作中，我们分享了一个类似的精神结构对齐视觉和文本元素，以促进视觉和语言的这种实践背后的直觉是，强制多模态对齐可以减少针对个体模态的语法归纳的固有模糊性，并且所归纳的语法对于具有其结构化表示的下游任务3. PART IT数据集我们提出了PART IT，一个大规模的数据集的手动注释的句子，描述了对象的对象级和部分级的功能。据我们所知，这是第一个带有注释的自然语言句子的数据集，这些句子描述了对象语义和与图像配对的细粒度部分语义。我们使用AMT来收集这样的句子。给定对象的图像以及对象的突出显示部分的图像，要求工作者使用一个句子来描述对象的所有部分。工人可以描述零件的形状、大小和数量以及对象的类型（例如，椅子可以是折叠椅、办公椅、沙发等）。我们为工人提供的注释界面，详细说明和示例可以在补充材料中找到。我们从PartNet数据集[31]中获得了10，000个3DCAD模型及其部件注释。我们选择四类对象：椅子、桌子、床和包。之所以选择这些类别，是因为它们在几何上是复杂的，高度多样化的，并且具有丰富的语法层次结构。虽然PartNet数据集基于and- or语法在多个级别（粗、中和细粒度）提供部件注释，但我们建议以不带注释的非监督方式我们只从PartNet数据集中提取细粒度的部分，并遵循其原始的分解顺序我们将某些微小部分（例如，旋钮和连接器）。基于PartNet提供的与或模板，我们生成每个对象类别的地面实况语法规则，仅用于评估，这些规则在补充材料中列出。表1显示了我们数据集的统计数据。我们观察到，每个对象使用的语法规则的中位数是8，这表明部分语法是足够复杂的学习。对于语言，句子的中值长度是16，与现有的图像字幕数据集（例如，先前的视觉基础语法归纳模型[35，53]使用MSCOCO，其平均长度仅为每个句子10个单词除了语法归纳之外，数据集还可以用于相关的下游任务，例如，图像字幕、语言引导的部分分割、三维重建等。PART IT数据集的示例如图1B所示。二、表1：PARTIT数据集的统计。#PS是部分语义的数量，#G是语法规则的数量。Pmed和Pmax分别表示每个对象的部件实例的中值和最大数目。Gmed和Gmax分别表示每个对象使用的语法规则的中间和最大数量。LG_med和LG_max分别表示句子的中值和最大长度，并且V_ocab表示语言词汇的大小#我1061350315290185109#PS120110131083#G752334184P医学PMax7136838613692836G医学GMax81881281871534LG医疗1619131915LGmax9898684221V ocab20071634903176614. 扎根语法归纳法在本节中，我们介绍了所提出的VLGrammar，用于视觉和语言中的扎根语法归纳。我们的模型从化合物PCFG开始-全部椅子桌子床包1668řWřpüqpüqp q规则Pt uYNYPNPGG不PRPNp qPBCANżÿB C以下形式：exp`uTfsprwS;zsq一（三）πS-AA1PN exp`uT1fsprwS;zsqexp`uTrw;zsπA-BCB1，C1PN YP exp`uT11rwA;zsexp`uTftprwT;zsqW（五）πTww1PΣ 实验T1ftprwT;zsq图2：来自我们的PARTIT数据集的示例。注释者被要求用一句话来描述对象的所有部分。引入语言语法[20]并将此想法推广到视觉，它们通过对比损失共同优化。4.1. 语言的复合PCFG上下文无关文法（CFG）可以被定义为5元组S，Σ，，其中S是起始符号，是非终结节点的有限集合。Σ是终端节点的有限集合，并且是Chomsky范式中的一组产生式规则：S-A，APN其中u是参数向量，wN（NS）是符号嵌入。表示向量连接，并且fs和ft是对输入进行编码的前馈神经网络。在复合词PCFG中，观察句子的对数边缘似然logpθwww1w2。. .可以通过使用内部算法[ 2 ]对潜在树结构求和来获得：logp θpwq“log p θ p t|zqppzqdz（6）ztPTG pw q其中G由句子w在文法下的所有分析组成。由于在z上的积分使得这种可能性难以处理，所以复合PCFG使用摊销变分干涉并基于证据下限（ELBO）计算损失：Lgpw;φ，θq“´E q φ pz|wq rlog p θpw |zqs `KL rq φpz |wq}ppzqs其中q φpz |wq是由neu建模的变分后验。A-BC，APN，B，CPN YPT？w，TPP，w PΣ（一）由φ参数化的ral网络。4.2. 复方PCFG免疫制剂在自然语言中，非终结符是成分标签，前终结符是词性标签。终端节点w是来自句子的单词，Σ是词汇表。在实现过程中，我们没有地面实况成分标签和词性标签。因此，非终端和前终端是隐含地表示它们的功能的节点（或簇）的集合。概率上下文无关文法（PCFG）通过为每个产生式规则r分配概率π r来扩展CFG使得R：Aγπ r1，即，的概率具有相同左侧非终结符的产生式规则和为1。Kim等人。[20]提出了一种神经参数化，其中规则概率基于分布式表示。为了减轻强上下文无关假设，他们通过假设规则概率遵循复合概率分布将神经PCFG扩展到复合PCFG [3]：πr其中pz是潜在变量z的先验分布，规则概率πr由θ参数化。πr取一复合PCFG可以自然地扩展到图像语法。在用于图像的复合PCFG中，S表示对象，例如，椅子非终结符是中级粗糙部分的类型。前终末是细粒叶部分的类型。中间层部分可以进一步分解为子部分，子部分可以是中间层部分，也可以是叶部分;例如，将椅子的底座分解成中心支撑和腿系统，并且将腿系统进一步分解成若干个腿。当量（3）和方程（4）可直接用于表示图像的复合PCFG。然而，Eq。（5）不适用于图像，因为我们没有固定的图像词汇表，并且终端节点随像素而变化。为了解决这个问题，我们设计了一个自下而上的感知模块，以取代方程中的自上而下的生成。（五）、4.2.1自下而上的感知前终端T可以被看作是一组集群，分组终端节点，因为我们没有地面实况标签。因此，不是引入自顶向下的语法，一řR（四）这是一个高靠背的行政椅与舒适的缓冲背部，头部和座位，扶手，和一个基座，允许转动360度。这是一个有角度的桌子，由两条腿支撑，两条腿由腿杆连接，并弯曲成两个与地面接触的水平腿杆。四条相互连接的腿支撑的高架床包括床头板。1669“不“ă ăď rsp|QÿTviă ăď rsexpps pT，v1qqvPΣ训练批次中的所有叶部分构成Σ。“P rws在哪里语言输入：这是一种椅背不规则、座位呈方形、两个扶手上有竖条和横条、腿呈弧形的椅子。语言复合PCFG这语言解析树是一一把椅子椅子与不规则的背部、一个不规则背一不规则回来一个正方形的座位，、方座：椅子、不规则靠背、不规则靠背、方座、方座、两臂、竖条、单杠、曲腿等两个臂...平方座椅语言成分嵌入对准分数视觉输入：图像复合PCFG图像解析树：等视觉要素嵌入图3：我们提出的VLGrammar框架。我们通过复合PCFG实现了图像语法归纳和语言语法归纳。解析树是从文法中派生出来的。我们在解析树中计算视觉和语言成分之间的对齐分数，以指导联合学习过程。我们使用自下而上的感知模块来为T提出终端节点。我们认为终端节点是一个对象的叶子部分序列vv1v2. v;我们想给每个叶子部分vi分配一个标签T。spT，viq其中ψ是感知模块，即，我们模型中的ResNet-18。是聚类模型，其是单层前馈神经网络，其向标签T给出聚类叶部分vi的得分，并且是标签T的参数向量。因此，前终端到叶部分的规则概率为：如果它符合当前语法，则它是图像上的准确聚类因此，语法模块可以促进聚类模块的训练，反之亦然。这在第5.2.2节中得到了证明。在实践中，预先训练的聚类模块可以加快训练。4.3. 通过对齐的我们建议通过对齐配对的图像和句子来共同学习图像和语言与[35]和[53]类似，我们使用端到端对比学习框架。当他们将每个语言成分与单个图像对齐时，我们计算每个语言成分和每个视觉成分之间的对齐分数。πexppspT，viqq（九）给定一个句子w“w1. . . 其中m是总数1在这个句子上，表示为wJ一. . .WB我们使用ELBO最大化部分序列的对数似然：0一Bm和W表示w上所有可能跨度的集合。我们使用Bi-LSTM来获得语言成分的嵌入：Lg p v; φ，θ q“´E q φ pz|vq r log p θ p v |z qs ´ KL r q φ p z |vq} p p z qs（十）其中q φzv是变分后验。注意，图像序列v独立于给定的z。wj1b´ a`1B拉hl（十二）标签T“T1T2... v的n。因此，我们认为，p θ p v |z q“p θ ψ p v|Tq p θG不p T |zq其中h1是Bi-LSTM的隐藏状态，并且fw是仿射变换。我们对标签特异性表示进行平均，如[53]中所示。9pp T |v qppT|zq（十一）给定一个物体v“v1. . . 其中n是总数量。θψ θG不在部件序列中，视觉成分被定义为在该部件序列上的跨度，表示为Vk“Vc。. . v dP rvs其中其中我们对部件的所有可能标签求和θψ表示聚类模块的参数，并且θG表示Eq.（3）和方程（4）在意象语法方面。我们注意到，如果T具有由下式0c d n和v表示所有可能的子部分超过v.我们定义了嵌入的视觉CON-取代为：文法模pT |zq具有较大的值，因此给出vk~1dψpvlqΩ（十三）~一个语言成分被定义为一个跨度1670pθψpT的lager权|vq. 这意味着T更有可能是d'c'1l1671ÿÿÿDÿr¨s p ¨qpvq1tvkPtvuptvv5.1.3基线其中ψ是来自等式（1）的感知模块。（8）和fv是仿射变换。语言成分和视觉成分之间的对齐分数被定义为它们的余弦相似度：5.1.2评价任务语法归纳我们评估学习的图像和语言的语法。对于图像，我们基于产生式规则手动地将部分解析spwj，vkqficospwj，vk q（14）真相对于语言，我们应用Benepar2来获得成分解析树作为地面实况。我们报告了句子和图像之间的对齐分数是：平均语料库级F1得分和平均实例级3F1得分相对于这些地面实况解析树。Spw，vqtwPTGwpwqtvPTGvpvqpptw |wqpptv |vqwjPtwvkPtvspwj，vkq部分聚类我们报告的无监督部分聚类模块的准确性，以检查是否学习的图像语法可以提高部分聚类结果。“1twjPtwu1tvkPtvupptw|wqpptv|vqspwj，vkq图像-文本检索我们评估文本到图像检索和图像到文本检索。当一个句子和vkPrvs“tvPTGvpvqppwj|w;Gwqppvk|v;Gvqspwj，vkq（十五）在八个候选图像中，模型选择具有与给定句子的最高对齐分数的图像（15）、同样地执行图像到文本检索。其中ppwj|w;Gwq“t PTpvkv;GvtvPT GVpwq1twjPtwupptw|文勤和p|q“wGWP|q是条件概率的一个组成部分给定的森-时态/对象，在当前语法下在所有可能的解析树上被边缘化。它们可以用内部算法和自动微分[9]有效地给定一个训练批，wpiq，vpiq对比损失定义为：LCpW，Vq我们将建议的VLGrammar与以下基线进行比较：简单的树结构我们使用两个简单的基线：左分支二叉树和右分支二叉树。有序神经元（ON-LSTM）Shen等人。[34]使用ON-LSTM细胞来预测相邻单词之间的句法距离以诱导树结构。i，m‰i`rSpwpiq，vpmqq´Spwpiq，vpiqq`δs+i，m‰i（十六）复合PCFG我们使用语言复合PCFG（L-PCFG）和视觉复合PCFG（V-PCFG）分别导出语言语法和图像语法。其中δ是恒定裕度，并且+表示最大0，.总训练损失函数则为：L其中λw，λv，λC是超参数，φt，θt，φv，θv分别表示语言和视觉复合PCFG的参数5. 实验和结果5.1. 实验装置5.1.1数据集我们评估我们的模型和我们收集的PAR-T IT数据集上的基线模型我们通过Blender1获得3D对象的2D图像。如果部件被其他部件遮挡最终的数据集被随机分成大小为8，459的训练集和大小为2，154的测试集（即，约80%/20%分裂）。1https：//www.blender.org/扎根复合PCFGZhao等人。[53]提出学习基于预训练图像特征的语言复合 PCFG，在这里表示为 L-PCFG-VG。为了进行公平的比较，我们将所有部分嵌入的平均值作为我们设置中图像的特征。类似地，我们为视觉训练了一个基于语言的复合PCFG，它学习基于预训练语言特征的图像语法，表示为V-PCFG-LG。5.1.4实现细节对于所有诱导图像语法的模型，我们使用ResNet- 18来提取零件图像的特征。我们使用非监督聚类方法SCAN [12]在未标记的部分图像上预训练ResNet-18。在L-PCFG-VG中也使用部件特征来为语言语法奠定基础。对于V-PCFG-LG，我们使用BERT [7]进行预训练的语言嵌入，以建立图像语法。2https://pypi.org/project/benepar网站3语料库级F1计算语料库级的精确度/召回率以获得F1，而实例级F1计算每个视觉或语言实例的F1并在语料库中求平均值。（十七）wjPrwstwPTGwpwq1672表2：语法归纳的表现。“C”和“I”分别表示语料库级别和实例级别的F1分数。模型视觉语法语言语法所有椅子表床袋所有椅子表床袋C我C我C我C我C我C我C我C我C我C我左支16.420.29.911.521.126.338.859.454.260.016.217.619.219.813.715.810.512.08.48.9右支40.849.142.848.039.150.212.820.881.097.549.253.543.748.654.258.143.746.268.369.3ON-LSTM/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭 30.733.432.534.428.932.427.329.039.438.5L-PCFG-P/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭 47.849.441.444.953.653.544.944.363.763.5L-PCFG/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭 48.450.342.246.253.653.555.355.171.271.4V-PCFG47.559.351.659.043.359.236.248.282.491.3/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭L-PCFG-VG/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭 49.049.642.344.054.654.356.054.673.073.0V-PCFG-LG44.252.742.047.545.656.638.854.388.295.7/打开/关闭/打开/关闭/打开/关闭/打开/关闭/打开/关闭VLGrammar51.463.456.465.946.360.538.159.794.198.051.351.947.849.454.053.856.254.873.673.6VLG，不带扫描44.755.530.533.657.975.429.056.488.295.749.049.843.445.353.753.555.154.072.672.6由于描述不同对象类别的句子在语言中具有相似的特征，因此我们进行预训练- 在100个时期的所有类型的句子上的类别不可知语言复合物PCFG，表示为L-PCFG-P.然后我们用L-PCFG、L-PCFG-VG和VLGrammar对每个对象类别上的语言语法进行微调。所有模型都训练了100个epoch。训练超参数在补充材料中指定。5.2. 结果5.2.1语法引入表2显示了视觉和语言的语法归纳的主要结果我们的方法优于所有基线的图像F1分数方面的一个很大的保证金值得注意的是，对于表上的图像语法，用于无监督聚类的VLGrammar w/o SCAN显著它表明，我们提出的VLGrammar可以从头开始学习无监督聚类和图像语法。对于像bag这样结构简单的类别，VLGrammar可以达到近乎完美的性能。对于语言语法归纳，我们的方法优于所有神经基线，但在实例级F1方面略差于右原因是我们的数据集包含非常长的句子，当句子很长时，人类倾向于使用右分支句子类似地，右分支模型也是语言语法归纳[33，20]的先前工作的强基线。分类不可知的语言复合PCFG（L-PCFG-P）获得了不错的性能和微调，它对每个对象类别可以进一步提高F1分数。一种可能的解释是，当描述不同的对象时，人类倾向于使用不同的语言结构。5.2.2零件聚类表3示出了图像复合PCFG的自下而上模块中的无监督部分聚类的准确性总体而言，在训练VLGrammar之后，部分标签预测的准确率从41.3%提高到69.1%。这证实从Eq.（11），诱导的语法可以以自上而下的方式有益于部分聚类一个令人惊讶的观察是，即使没有SCAN预训练，VLGrammar在部分聚类中也表现得相当好。对于表类别，VLGrammar w/o SCAN实现了比VLGrammar更高的准确性。VLGrammar w/o SCAN的总体聚类准确率这可能是无监督聚类的灵感来源：虽然我们没有地面实况标签，但是对底层结构进行建模可以提供用于提升聚类的强学习信号。表3：无监督部分聚类的准确性。扫描41.343.537.559.388.9V-PCFG61.668.358.369.988.9V-PCFG-LG65.466.863.271.890.5VLGrammar69.171.666.075.190.5VLG，不带扫描64.462.066.260.490.55.2.3图文检索由于计算对齐分数来衡量图像和句子之间的相似性，因此对于文本到图像检索，给定一个描述性句子，该模型从八幅图像中选择答案。对于图像到文本检索，该模型在八个句子中选择与给定对象配对。所有模型都使用对比损失进行训练基线模型是一个简单的模型，使用ResNet-18作为图像编码器和BERT作为句子编码器。表4示出了结果。VLGrammar可以大幅超越基线并实现令人满意的性能，这是我们的语法归纳框架自然获得的额外奖励5.2.4跨类别泛化不同的对象类别在其各部分之间共享某些共同的结构，从而使泛化成为可能模型全部椅子桌子床包1673模型椅子IR TR表IR TR床IR TR袋IR TR基线24.128.529.831.220.120.119.124.5L-PCFG-VG34.536.939.342.035.538.423.028.7V-PCFG-LG25.927.838.841.829.625.723.824.9VLGrammar33.239.039.842.539.638.224.629.3表4：图像-文本检索的准确性。“IR” stands for text-to-imageretrieval and “TR” is for image-to-text从已知类别到未知类别。例如，椅子、桌子和床都有腿.为了评估模型我们合并椅子和桌子的零件和生产规则，并在这两个类别上训练复合PCFG模型。然后，我们在所有类别上测试模型，包括两个看不见的类别：床和包。表5所示的结果表明，学习的语法确实可以转移到新的对象类别。表5：当仅在椅子和桌子上训练时，图像语法在所有类别上的表现。模型看到看不见椅子C I表C I床C I袋C IV-PCFG43.952.738.1五十四点五20.733.182.4九十一点三V-PCFG-LG44.354.138.5五十四点八25.650.488.295.7VLGrammar 44.8五十三点四41.1五十六点七29.4四十四点二88.295.75.2.5定性研究图4显示了VLGrammar预测的解析树的几个例子。我们从这些实施例中总结以下观察结果：我们的VLGrammar可以捕获图像的精确的部分-整体层次结构。对象可以被解析成各种层次结构的部分例如，椅子可以被分解成上部和支撑系统。后者可进一步分为座位区和椅子底座。座位区有一个椅子座位和武器与垂直酒吧和水平酒吧，这是单独分组。在桌子上，底座可以分为腿和腿杆。递归结构一个有趣的问题是VL语法如何一把椅子可以有任意数量的腿，它们应该在同一层次结构中。然而，由于上下文无关语法是在二叉树上定义的，因此递归语法用于对相同功能的部分进行分组。我们发现VLGrammar至少可以学习三种类型的递归结构：（1）成对分组：VLGrammar首先根据位置信息（例如：、前腿和后腿、左水平臂杆和右水平臂杆，如图1所示。4），然后分组配对。(2)右分支：椅子扶手的垂直条被分组图4：由VL-语法预测的解析树的定性示例。我们可视化的图像解析树和语言解析树派生的VLGrammar。由于语言解析树很大，我们使用括号形式来表示它们。使用右分支二叉树。(3)左分支：例如桌子腿的分组。右分支和左分支在处理同一层次的任意数量的部分时是有效的，并且当没有显著模式来配对它们时。一个示例是星形腿底座，其中腿处于任意顺序并且形成圆形。语言短语VLGrammar擅长于将涉及图像中部件的短语分组。例如，VLGrammar可以捕获短语，如6. 结论和未来工作在这项工作中，我们提出了VLGrammar，一个框架，利用复合PCFG共同诱导视觉和语言的语法。我们收集了一个大规模的数据集，PAR-T IT，基准测试这个新的任务。实验结果表明，VLGrammar在视觉和语言的语法归纳方面表现良好，对无监督部分聚类和图文检索等下游任务有很大的帮助，并且很容易推广到不可见的类别。我们的工作的一个限制是，图像语法的定义部分序列。这种做法消除了图像的丰富的2D结构。一种可能的解决方案是直接在2D图像上定义空间语法，我们将其留给未来的工作。(this（椅子有）（（一个短的（方的（背，））））（（方的（座位，）））（（（（（2）短的前））和）（2短）后）（垂直臂）小节），）（4（水平臂））小节），）（和（（4直）腿）（桌面）（被（举起）用）（（四条腿））（和（三条腿）杠）以）（提供稳定性）(this（是（一个（（袋子））（长）身体），）（（（（（2个句柄）1674引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在计算机视觉和模式识别会议（CVPR）中，第6077-6086页，2018年。三个[2] J·贝克用于语音识别的可训练语法。美国声学学会杂志，65，1979。四个[3] L. L. 凸轮统计决策理论中的渐近方法1986. 四个[4] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议（ECCV）Springer，2020年。三个[5] 谢伊湾Cohen和Noah A.史密斯语法归纳的共享逻辑正态分布。2008. 一、二[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。arXiv预印本arXiv：1810.04805，2018。三个[7] J. Devlin，Ming-Wei Chang，Kenton Lee，and KristinaToutanova. Bert：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。6[8] Andrew Drozdov、Pat Verga、Mohit Yadav、Mohit Iyyer和A.麦卡勒姆无监督潜在树归纳与深度内外递归自动编码器。ArXiv，abs/1904.02142，2019。二个[9] 杰森·艾斯纳内-外和前-后向算法只是反向传播（教程论文）。InSPNLP@EMNLP，2016. 六个[10] J. REKERS和A. SC HU¨RR。用分层图文法定义和解析可视化1997. 二个[11] K. Fu.句法模式识别及其应用。1968. 一、二[12] 放大图片作者： Wouter Van Gansbeke ， SimonVandenhende，S.乔古利斯M. Proesmans和L。好极了扫描：学习对没有标签的图像进行分类。欧洲计算机视觉会议（ECCV），2020年。六个[13] F. Han和S.竹使用属性语法的自底向上/自顶向下图像解析 TransactionsonPatternAnalysisandMachineIntelligence（TPAMI），31：59-73，2009. 二个[14] 杰弗里·E辛顿如何在神经网络中表示部分-整体ArXiv，abs/2102.12627，2021。一、二[15] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单个rgb图像进行整体三维场景解析和重构。在欧洲计算机视觉会议（ECCV），2018年。一个[16] M. 约翰逊心灵中的身体：意义的身体基础1987. 二个[17] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义计算机视觉与模式识别会议（CVPR），2015年。三个[18] Andrej Karpathy，Armand Joulin，and Li Fei-Fei.用于双向图像句子映射的深度片段嵌入arXiv预印本arXiv：1406.5679，2014。三个[19] Douwe Kiela ， Felix Hill ， A. Korhonen 和 StephenClark。使用图像分散改进多模态表示：为什么有时候少就是多在2014年计算语言学协会（ACL）年会上。2[20] Yoon Kim、Chris Dyer和Alexander M.急语法归纳的复合概率上下文无关文法。ArXiv，abs/1906.10225，2019。一二三四七[21] 放大图片创作者：Alexander M.拉什湖Yu，AdhigunaKuncoro，ChrisDye r，andG a'borMelis. 无监督递归神经网络文法。ArXiv，abs/1904.03746，2019。一、二[22] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。3[23] D. Klein和Christopher D.曼宁改进语法归纳的生成成分语境模型。计算语言学协会2002年年会. 一、二[24] Ronald W. Langacker认知语法基础。1983. 一个[25] Ronald W. Langacker认知语法导论。认知Sci. ，10：1-40，1986. 一个[26] Qing Li，Siyuan Huang，Yining Hong，Yixin Chen，Ying Nian Wu ，and Song-Chun Zhu.通过整合神经感知、语法分析和符号推理的闭环神经符号学习。机器学习国际会议（ International Conference on MachineLearning，ICML）PMLR，2020年。一个[27] Jiasen Lu ， Dhruv Batra ， Devi Parikh ， and StefanLee.Vilbert：视觉和语言任务的预训练任务不可知的视觉语言表示。NIPS，

下载后可阅读完整内容，剩余1页未读，立即下载