基于视觉同现的词嵌入模型

62 浏览量更新于2023-10-12 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7425ViCo：基于视觉同现的Tanmay Gupta Alexander Schwing Derek Hoiem伊利诺伊大学香槟分校{tgupta6，aschwing，dhoiem}@http://tanmaygupta.info/vico/ illinois.edu摘要我们建议从视觉同现中学习词嵌入。如果两个词应用于相同的图像或图像区域，则两个词在视觉上共同出现。具体来说，我们从大规模的文本注释的视觉数据库（如VisualGenome和ImageNet）中提取了对象和属性词之间的四种视觉同现。然后，我们训练一个多任务对数双线性模型，该模型将每个共现类型表示的单词通过无监督聚类，监督分区，和零杆式的泛化分析，我们表明，我们的词嵌入补充纯文本嵌入，如GloVe更好地代表视觉概念之间的相似性和差异，很难单独从文本语料库中获得我们进一步评估我们的嵌入在五个下游应用程序，其中四个是视觉语言任务。使用我们的嵌入来增加GloVe在所有任务上都有收益。我们还发现，随机嵌入在所有有监督的视觉语言任务中的表现与学习嵌入相当，这与传统观点相反。1. 介绍词嵌入，即单词的紧凑向量表示是许多语言[46，14，23，38，36，48，43]和视觉语言模型[28，52、53、2、41、40、49、12、47、6、55、16、27]。这些字嵌入，例如，GloVe和word2vec通常通过对文本共现进行建模来从大规模文本语料库中学习。然而，文本往往是对概念或事件的解释，而不是对视觉外观的描述。这限制了纯文本的词嵌入表示视觉概念的能力。为了解决这个缺点，我们建议收集基于图像的词的共现统计，并从这些视觉共现中学习词嵌入。具体地，如果两个词可应用于相同的图像或图像区域，则两个词在视觉上共同出现。我们使用四种类型的同现，如图所示1：（1）目的─图1. 视觉同现是学习词义的丰富信息来源。该图显示了图像中用单词和属性标注的区域，以及用于学习ViCo嵌入的四种视觉同现图像区域中的对象与该区域的属性之间的属性共现;（2）区域属性同现;（3）上下文同现，其捕获同一图像中的联合对象外观;以及（4）视觉类别与其上位词（超类）之间的对象上位词同现。理想情况下，为了对足够大的词汇表进行可靠的视觉共现建模（对于纯文本嵌入，400K的词汇表大小是典型的），需要一个数据集，其中为图像中的每个区域注释了所有适用的词汇表单词虽然没有可视化数据集存在这样的exhaus-区域宾语属性词人，人，成人，哺乳动物肌肉发达，微笑妇女、人、成人、哺乳动物瘦削的，微笑的桌子、桌布、家具条纹的、椭圆形的大米，碳水化合物，食物白色，颗粒状，煮熟沙拉，粗粮，食物多叶，切碎，健康，红色，绿色玻璃、玻璃器皿、器具清澈、透明、反光、高盘子、陶器、器皿陶瓷，白色，圆形，圆形叉子、刀叉、餐具金属的、有光泽的、反光的勺子、刀叉、餐具服务，金属，有光泽，反射类型视觉同现对象-属性切沙拉的|椭圆表|米白|沙拉健康|透明的|板状陶瓷|金属叉属性-属性用谷物煮熟的|绿叶的|叶健康|清楚-透明|金属光泽的|反光的...上下文男女之间|人表|叉匙|平板玻璃|桌布|凉拌米饭|盘子食物对象-上位词人哺乳动物|女性-成人|餐桌家具|大米-食品|玻璃器皿|叉具|叉子餐具7426尽管有许多注释（许多未注释的单词可能仍然适用于图像区域），但像Vi- sualGenome [17]和ImageNet [8]这样的大规模数据集以及它们的Word-Net [32]同义词集注释提供了一个很好的起点。我们使用增强了WordNet hypernyms 的 ImageNet 注释来计算 Object-Hypernym共现，而其余类型的共现则从VisualGenome的对象和属性注释中计算学习ViCo，即为了从视觉同现中提取词嵌入，我们可以通过对数双线性模型连接针对每个同现类型单独训练的类似GloVe的嵌入。然而，在这种简单的方法中，学习到的嵌入的维度与同现类型的数量呈线性为了避免这种线性缩放，我们通过制定多任务问题来扩展对数双线性模型，其中从每个同现类型学习嵌入构成不同的任务，其中所有任务之间共享紧凑的可训练嵌入。在该公式中，可以独立于同现类型的数量来选择嵌入维度。为了测试ViCo 聚类分析是在VisualGenome中的一组最频繁的单词上进行的，我们手动地用粗粒度和细粒度的视觉类别标记这些单词。对于类似于零拍摄的设置，我们使用CIFAR-100，将100个类别不同地划分为可见和不可见集合。在这两种情况下，ViCo增强的GloVe优于GloVe、随机向量、vis-w2 v或它们的组合。通过一个定性的类比问题回答的评价，我们还发现ViCo嵌入空间，以更好地捕捉视觉概念之间的关系比GloVe。我们还评估了五个下游任务的ViCo-后者包括字幕图像检索、VQA、指称表达理解和图像字幕。使用ViCo的系统在几乎所有任务和指标方面都优于使用GloVe的系统。虽然学习嵌入通常被认为对视觉语言任务很重要，但令人惊讶的是，我们发现随机嵌入在所有视觉语言任务中与学习嵌入紧密竞争这表明，无论是任务的性质，模型设计，还是简单地在大型数据集上进行训练，当前最先进的视觉语言模型都没有从学习的嵌入中受益随机嵌入在我们的聚类，分区和零射击分析以及不涉及图像的区分属性任务中的表现明显不如学习嵌入总结我们的贡献：（1）我们开发了一个多任务的方法来学习一个词嵌入从多种类型的同现;（2）我们表明，嵌入学习从多个视觉同现，当 com-on-occurrence，与GloVe结合，在无监督聚类，监督分割和零射击分析以及多个视觉语言任务中优于单独的GloVe;（3）我们发现，监督视觉语言模型的性能对单词嵌入相对不敏感，即使是随机嵌入也会导致与学习嵌入几乎相同的性能。据我们所知，我们的研究提供了第一个经验证据，这种unintuitive行为的多个视觉语言任务。2. 相关工作在这里，我们描述非联想，联想，和最近的上下文模型的单词表示。非关联模型。语义差异（SD）[34]是最早尝试获得词的向量表示的方法之一。 SD依赖于人类对两极形容词之间50个尺度的单词评级，例如“快乐-悲伤”或“慢-快”。Osgood等[34]进一步将50个尺度减少到3个正交因子。然而，这些尺度往往是模糊的（例如，是“咖啡”、“慢”或“快”这个词），并提供了对这个词的意思的有限表示。另一种方法涉及获取单词相似性注释，然后应用多维缩放（MDS）[21]以获得低维（通常为2-4）嵌入，然后识别有意义的聚类或可解释的维度[45]。像SD一样，MDS方法缺乏表示能力，并且嵌入及其解释基于单词而变化（例如，食物名称[45]，动物[44]等）MDS适用于哪些应用。关联模型。关联模型的假设是，词义可以通过对一个词与所有其他词的关联进行建模来推导。早期的尝试涉及词-文档[7]或词-词[26]共现矩阵的因式分解。由于原始同现计数可以跨越几个数量级，因此已经提出了基于正逐点互信息（PPMI）[4]和Hellinger距离[22]的同现矩阵的变换。最近的神经方法，如连续词袋（CBOW）和Skip- Gram模型[29，31，30]，从局部上下文窗口中的同现中学习，而不是全局同现统计。与全局矩阵分解不同，基于局部上下文窗口的方法使用共现统计而效率低下，因为在训练期间需要扫描语料库中的上下文窗口，但在单词类比任务上表现得更好。Levy等人[24]后来表明，具有负采样的Skip-Gram执行PMI单词上下文矩阵的隐式矩阵分解。我们的工作与GloVe [ 37 ]密切相关，GloVe [37]将全局矩阵分解方法的效率与从局部环境建模中获得的性能相我们扩展了GloVe我们7427对数双线性损失w/0JW/1JW/2JW/3J对数双线性损失对数双线性损失对数双线性损失对数双线性损失7/0（w$）7/1（w$）7/2（w$）7/3（w$）对数双线性损失对数双线性损失对数双线性损失对数双线性损失$我我L=L4+L2+L5+L6L4L=L4+L2+L5+L6L4L=wTwj+）$+）j−lo gX$j2/零$jL2/零$jL2LW$X$jwjw$/1个$jL5wjw$/1个$jL5/2$jL6/2$jL6(i)对数双线性模型（GloVe）从单一共现类型学习/3$j(ii)多任务对数双线性学习跨不同同现类型的共享的、更紧凑的嵌入/3$j(iii)使用选择变换执行多任务为每个同现类型学习单独的嵌入，然后进行串联图2. 对数双线性模型和多任务扩展。我们展示了学习单词i和j的单词嵌入w i和w j的不同方法的损失计算。嵌入由彩色竖条表示（i）显示了GloVe(ii) 是我们的多任务扩展，可以从多个同现矩阵中学习。通过变换φt将词嵌入wi和wj投影到每个同现类型t的专用空间中。在投影嵌入空间中计算对数双线性损失(iii) 示出了分配wi（或wi）的不同着色区域以从不同同现类型学习的方法。这种方法，相当于训练单独的嵌入，然后连接，可以在我们的多任务公式中使用选择变换（Tab. ①的人。选项卡. 图4示出了φ的适当选择（例如，线性）在多任务框架中导致比（iii）更紧凑的嵌入而不牺牲性能，因为利用了不同同现类型之间的相关性。还证明了用单词注释的视觉数据集是丰富的共现信息源，其补充了单独从文本语料库学习的表示。视觉字嵌入。有一些关于将图像表示纳入词嵌入的工作。vis-w2 v[18]使用抽象（合成）场景来学习视觉相关性。在CBOW框架中，场景被聚类并且聚类抽象场景具有免费提供良好语义特征的优势，但在与自然场景的丰富性和多样性相匹配的能力方面受到限制。然而，自然场景提出了提取良好的语义特征的挑战我们的方法使用自然场景，但绕过图像特征提取，只使用同现3. 学习ViCo我们描述了GloVe制定学习嵌入从一个单一的共生矩阵在第二节。3.1和介绍我们的多任务扩展，以学习嵌入联合从多个同现矩阵在第二节。3.2.秒3.3描述了如何为四种同现类型中的每一种计算同现计数矩阵。3.1. GloVe：对数双线性模型令Xij表示文本语料库中单词i和j之间的共现计数。还令N是具有非零共现的词对的列表。GloVe通过优化学习所有单词i的d维注释的单词。ViEW [13]是另一种视觉增强现有单词嵌入的方法。自动编码器在预训练的词嵌入上进行训练，同时匹配-minw、bΣ（i，j）∈Nf（Xij）（wTwj+bi +bj -logXij）2，（1）从ImageNet上训练的卷积网络中提取的视觉特征的中间表示ViEW还受到良好图像特征要求的限制。上下文模型。到目前为止讨论的嵌入表示单个单词。然而，许多语言理解应用要求在上下文中表示单词（例如，在短语或句子中），这又要求学习如何组合相邻单词或字符单词或字符级表示。在过去的一年里，通过对ELMo [39]，OpenAI GPT [42]和BERT [9]等语言模型进行预训练，在上下文化单词表示方面取得了一些进展然而，构建用于表示上下文的机制与我们改进单个单词的表示（可以用作这些模型的输入）的目标其中，f：R-R是将较低权重分配给较不频繁的、有噪声的同现的加权函数，并且bi是单词i的可学习的偏置项。直觉，在Eq的程序。（1）学习词嵌入，使得对于具有非零同现的任何词对，点积wTwj近似对数同现计数直到加法常数。词义是通过同时对单个单词与大量其他单词的关联程度进行建模而得出的[33]。我们也请读者参考[37]以了解更多细节。注意等式中的目标之间的微小差异。（1）和原始GloVe目标：GloVe替换wj和bj与wj（xxt向量）和xbj也是训练的，有能力 GloVe向量通过对W1和W2求平均而获得。w~i. 然而，正如[37]中所指出的，w/0$W/1$W/2$W/3$7/0（wj）7/1（wj）7/2（wj）7/3（wj）XXXXXXXXWJ74280.740.83我i'j'我Ji jij′单词对Vico目标属性阿特-阿特Obj-Hyp上下文手套蹲下0.610.740.720.18零点二五0.05甜食/甜点0.660.780.760.560.790.43男/男性0.710.980.80.3810.34紫色0.750.931零点二四0.030.52袜子0.520.27零点一八0.870.070.23飞机0.750.43长凳0.630.670.090.79-0.140.1键盘/鼠标0.190.630.190.090.950.52笔记本电脑/书桌0.390.230.240.10.940.28窗/门0.590.460.350.530.930.67头发/金发零点一六0.560.32-0.150.170.51大腿/脚踝0.090.190.030.010.390.74大蒜/洋葱零点三十六-0.030.3零点三七0.560.77表1.描述和参数化的transforms。司机/汽车零点二七0.160.260.120.530.71φt：Rd→Rdt是同现型t∈ T的变换。选择对应于图中的方法（iii）2，连接sep-受过良好训练的三维嵌入目标，这两个矢量理想情况下应该是相同的。当使用单独的单词和上下文向量时，我们没有观察到性能的显著变化。3.2. 多任务日志双线性模型我们现在扩展上面描述的对数双线性模型，以从多个同现计数矩阵Xt中联合学习嵌入，其中t∈ T是指集合类型T。也让Nt和Zt是单词对的列表，分别为类型t的非零和零同现我们通过最小化以下损失函数来学习所有单词i的ViCo嵌入wi∈Rd女孩/男孩0.410.38零点二二0.44图3. 通过多次共同出现丰富的关联感。存在不同的词相关性概念，但当前的词嵌入没有提供一种方法来解开这些概念。由于ViCo是从多种类型的同现中学习的，其中每个同现具有专用的嵌入空间（通过transfor-transform获得）。mations φt），它可以提供更丰富的关联感。该图示出了在GloVe、ViCo（线性）和专用于不同同现类型（ViCo（选择）的分量）的嵌入空间中计算的余弦相似性。例如，“hosiery”和“sock”通过对象-上位词关系相关，但不通过对象-属性或上下文关系相关。‘laptop’ and ‘desk’ on the other handare related through当量（2）是多任务学习公式，其中从每种类型的同现学习构成不同的任务。因此，φt相当于一个特定于任务的头部，Σ Σ（φt（wi）Tφt（wj）+bt+bt−logXt）2+t∈T（i，j）∈NtΣ Σmax（0，φt（wi′）Tφt（wj′）+bt+bt′）.（二）将共享词嵌入w∈Rd投影到一个类型特殊化的嵌入空间φt（w）∈Rdt.一个对数双线性模型相当于方程。（1）适用于每一个出现类型在相应的专门嵌入-t∈T（i′，j′）∈ZtI j丁空间我们学习的嵌入w和参数φt以端到端的方式同时针对所有t这里φt：Rd→Rdt是一个同现类型特定的转换函数，它将ViCo嵌入映射到类型特定的嵌入空间。bt是单词i和类型t的习得偏置项。函数f（X）的定义如下：（1）对于所有的X都是常数1。接下来，我们讨论变换φt，捕获不同类型的同现的好处，等式中第二项的使用。⑵，以及训练细节图2示出了（i）GloVe和我们的模型的版本（ii，iii）。变换φt 为了理解变换φt在从多个同现矩阵学习中的作用，考虑连接的简单方法|不|dt-维词嵌入使用等式（1）针对每个类型t分别学习。（一）. 这样的方法会产生一个EM-层理，d≥|不|最小尺寸例如，4个同现类型，每个产生大小为dt=50的嵌入，导致d=200维的最终嵌入。因此，一个自然的问题出现了利用该多任务公式化，可以独立于|不|或DT。还要注意，新的公式包括新的方法，在这个框架中，通过设置d=tdt，以及φt作为切片操作，其在我们的实验中，我们评估了这种简单的方法，并将其称为选择转换。我们还评估了不同维度的线性变换，如表1所述1.一、我们发现使用线性变换学习的100维ViCo嵌入实现了最佳性能，紧凑性权衡。max term的作用仅优化Eq. （2）可能导致意外地将来自Zt（零同现）的词对紧密地嵌入在一起（高点积）。为了抑制这种虚假的相似性，我们包括鼓励所有词对（i′，j′）∈Zt具有小的预测对数共现的最大项不同的同现类型之间的关系logXt=φt（wi′）Tφt（wj′）+bt′+bt′。（三）变换DDtφt选择（200）20050吨φt（w）=[w[it]，···，w[it9]]0 4其中{it，···，it}是索引0 49为{0，···，200}中的t预分配线性（50）5050吨φt（w）=A tw其中 ∈R50×50不线性（100）10050吨φt（w）=A tw其中 ∈R50×100不线性20050吨φt（w）=A tw其中 ∈R50×200不7429纪IJIJIJIJIJ目标属性阿特-阿特Obj-Hyp 上下文整体唯一字一万五千五百四十八一万一千八百九十三一万一千九百八十一25451三十五，四百七十六非零条目(in（百万）1 .一、371 .一、370的情况。618. 1211个国家。48表2. 共现统计显示每个共现矩阵中的单词数和数百万个非零条目作为参考，GloVe使用了40万个单词的词汇表，其中包含80亿到400亿个非零条目。特别地，目标中的第二项线性地使不共现的词对的正预测对数共现保持不变。培训详情。Pennington等人[37]第37话：我是你的女人我们发现，亚当导致更快的初始收敛。然而，使用Adagrad进行微调进一步降低了损耗。对于这两个优化器，我们使用学习率为0。01，批量大小为1000个字对从Nt和Zt采样，每个针对所有t，并且没有权重衰减。多重关联的概念。从多个共现类型中学习会导致单词之间更丰富的相关性。图3示出了两个单词之间的关系可以通过多个嵌入空间中的相似性而不是仅仅一个嵌入空间中的相似性来更好地理解。例如，3.3. 计算视觉共现计数为了从视觉同现中学习有意义的词嵌入，可靠的同现计数估计是至关重要的。我们使用Visual Genome和ImageNet来估计视觉共现计数。具体来说，我们在VisualGenome中使用对象和属性同义词集（具有相同含义的单词集）注释来获得对象-属性（oa），属性-属性（aa）和上下文（c）共现计数。WordNet中的ImageNet同义词集及其祖先用于计算Object-Hypernym（oh）计数。选项卡. 2显示了每个共现矩阵中唯一单词和非零条目的数量。设T={oa，aa，c，oh}表示四种同现类型的集合，Xt表示词i和j之间t ∈ T的同现类型的个数. 我们将一个同义词集及其相关的词集表示为S。所有同现都初始化为0. 我们现在描述如何计算每个同现矩阵Xt。• 令O和A是针对图像区域注释的对象和属性同义词集的集合对于Vi- sualGenome 中的每个区域，我们将Xoa递增1，对于每个词对（i，j）∈So×Sa，并且对于所有的同义词对（So，Sa）∈O× A。除非i = j，否则Xoa也递增。• 对于VisualGenome中的每个区域，我们将Xaa递增1，对于每个词对（i，j）∈ Sa1 × Sa2，并且对于所有同义词集对（Sa1，Sa2）∈ A × A。• 设C是图像中标注的所有对象同义词集的并集。对于VisualGenome中的每个图像，Xc递增1，对于每个词对（i，j）∈Sc1×Sc2，并且对于所有同义词集对（Sc1，Sc2）∈ C × C。• 令H是ImageNet中的图像及其WordNet中的祖先的注释对象同义词集的集合对于ImageNet中的每个图像，Xoh递增1，对于每个单词对（i，j）∈Sh1× Sh2，并且对于所有synset对（Sh1，Sh2）∈ H × H.4. 实验我们就以下性质分析ViCo嵌入：（1）无监督聚类是否导致通过视觉概念对单词进行自然分组？（第二节）4.1）;（2）单词嵌入是否能够转移视觉学习（例如，视觉识别）到培训期间看不到的课程？（第二节）4.2）;（3）嵌入在下游应用上的表现如何？（第二节）4.3）;（4）嵌入空间是否显示了单词算术属性（陆地-汽车+飞机=天空）？（第二节）4.4）。1数据进行聚类分析。为了回答（1），我们手动注释VisualGenome中的495个频繁词，其中13个粗（参见图1B中的t-SNE图中的图例）。4）和65个罚款类别（类别清单见附件）。用于零发射样分析的数据。为了回答（2），我们使用CIFAR-100 [20]。我们生成4分裂的100 cat-egories到不相交的看到（类别用于训练视觉分类器）和看不见（类别用于评估）集。我们使用以下方案进行拆分：20个粗略类别（由CIFAR提供）中每个类别的5个子类别列表按顺序排序，前k个类别被添加到Seen，其余的被添加到Unseen，k∈{1，2，3，4}。4.1. 无监督聚类分析词向量相对于独热向量或随机向量的主要优点是在嵌入空间中捕获有意义的结构：在嵌入空间中更接近的词在语义上是相似的。我们假设ViCo代表了GloVe中缺失的视觉类别之间的相似性和差异性。支持这一假设的定性证据可以在图1所示的t-SNE图中找到。4，其中GloVe和ViCo嵌入的级联导致13个粗类别的比GloVe更紧密、更均匀的聚类。1我们还进行了监督分区分析，该分析包含在补充材料中。结果表明，监督分类算法在ViCo嵌入空间中比在GloVe或随机向量空间中7430t-SNE图(a) GloVe+ViCo（线性）（b）GloVe聚类分析（c）细分类（d）粗分类图4. 无监督聚类分析（a，b）t-SNE定性评价：图显示ViCo增强的GloVe比GloVe产生更紧密、更均匀的聚类。标记形状编码注释的粗略类别，并且颜色表示单词是否更频繁地用作对象或属性;（c，d）定量评估：图显示了通过V-Measure在不同数量的聚类下测量的不同嵌入的聚类性能。所有基于ViCo的嵌入在精细和粗略注释方面都优于GloVe（第二节）。4.1）。见table3和Tab。4表示群集编号之间的平均性能最好在屏幕上以彩色显示为了定量地测试该假设，我们使用凝聚聚类（余弦亲和度和平均链接）对词嵌入进行聚类，并使用V-Measure（均匀性和完整性分数的调和平均值）与粗略和精细的地面实况注释进行Hohmogram是聚类纯度的度量，评估同一聚类中的所有点是否具有相同的地面真值标签。完整性度量具有相同标签的所有点是否属于同一聚类2。图1中的图（c，d）。图4使用V-Measure比较不同数量的聚类的随机向量、GloVe、ViCo的变体及其组合（级联）。不同群集编号的平均性能显示在选项卡中.3和Tab。4.第一章主要结论如下：ViCo集群优于其他嵌入。选项卡. 3显示ViCo单独优于GloVe，随机和基于vis-w2 v的嵌入。GloVe+ViCo进一步提高了性能，尤其是对于粗分类。WordNet并不是ViCo强大性能的唯一贡献者。为了验证由于WordNet的分层性质，ViCo在VisualGenome中使用原始单词注释，而不是同义词集注释，并且没有Object-Hypernym共现。选项卡. 3显示GloVe+ViCo（线性，100，w/o WordNet）在两个指标上的粗分类和细分类都优于GloVeViCo优于现有的视觉词嵌入。选项卡. 3评估了从抽象场景中学习的现有视觉单词嵌入的性能[18]。wiki和coco是vis-w2 v的不同版本，具体取决于用于训练word 2 vec以进行初始化的数据集（Wikipedia或MS-COCO [25，5初始化后，两个模型都在抽象场景（剪贴画图像）数据集上进行训练[56]。ViCo（linear，100）优于这两种嵌入。GloVe+ vis-w2 v-wiki的性能与2采用其他指标和方法进行分析得出类似结论，并列入补充材料。GloVe 和 GloVe+ vis-w2 v-wiki-coco 的性能仅略优于GloVe，这表明vis-w2v捕获的大部分信息可能已经存在于GloVe中。学习嵌入显著跑赢随机向量选项卡. 3显示随机向量与学习的嵌入相比表现不佳。GloVe+random的性能与GloVe相似或更差。这意味着GloVe+ViCo相对于GloVe的增益不仅仅是增加维度的伪影。Linear的性能与Select相似，但维数更少。选项卡.图4示出了多任务公式化在不牺牲性能的情况下学习比选择（分别连接从每个同现类型学习的嵌入）50，100和200维ViCo嵌入，丁斯学习与线性变换，都实现per-performance类似的选择。4.2. Zero Shot类分析词嵌入捕捉视觉类别之间关系的能力使得能够将在有限视觉类别上训练的视觉模型推广到训练期间看不到的更大集合。为了评估这种能力，我们使用CIFAR-100数据集评估了嵌入在其零射击类对象分类性能上的表现。请注意，我们的类zero-shot设置与典型的zero-shot设置略有不同，因为即使视觉分类器没有在CIFAR中的不可见类别图像上进行训练，与VisualGenome或ImageNet中的不可见类别图像相关联的注释也可以用于在学习单词嵌入时计算单词同现。模型设f（I）∈ Rn是使用CNN从图像I中提取的特征，wc∈ Rm表示类c∈ C的词嵌入.令g：Rm→Rn表示将词嵌入投影到图像特征我们将类别c的得分sc（I）定义为cosinee（f（I），g（wc）），其中cosinee（·）是余弦相似度r。7431嵌入Dim.罚款粗随机（100）1000.340.15手套3000.500.52GloVe+随机（100）300+1000.500.49维基百科，自由的百科全书[18]2000.410.43[18]第十八话2000.450.4GloVe+vis-w2v-wiki300+2000.50.52GloVe+vis-w2v-coco300+2000.520.55ViCo（线性，100）1000.600.59GloVe+ViCo（线性，100）300+1000.610.65GloVe+ViCo（线性，100，w/oWN）300+1000.540.58表3. 将ViCo与其他嵌入进行比较。所有基于ViCo的嵌入都优于GloVe和随机向量。ViCo（线性，100）也优于vis-w2v。GloVe+ vis-w2v表现类似于GloVe，而GloVe+ViCo表现优于GloVe和ViCo两者。使用WordNet会产生健康的性能增益，但并不是唯一的性能贡献者，因为GloVe+ViCo（线性，100，w/o WN）也优于GloVe。最佳和第二佳数字在每列中突出显示。嵌入Dim.罚款粗ViCo（线性，50）500.570.56ViCo（线性，100）1000.600.59ViCo（线性，200）2000.590.60ViCo（select，200）2000.590.60手套3000.500.52GloVe+ViCo（线性，50）300+500.600.66GloVe+ViCo（线性，100）300+1000.610.65GloVe+ViCo（线性，200）300+2000.600.65GloVe+ViCo（选择，200）300+2000.570.63表4. 转换对群集性能的影响。该表比较了多个聚类器的平均性能。线性变体实现了与select相似的性能，但维数更少。事实上，当与GloVe结合使用时，线性变体的表现优于选择。最佳和第二佳数字在每列中突出显示。是的类别概率定义为图5. 零射击分析。直方图比较了基于简单单词嵌入的对象分类模型的迁移学习能力X轴表示在训练期间使用的CIFAR-100类的数量（m）。在测试过程中，我们评估分类器在剩余的（100-m）看不见的类中正确分类的能力。结果表明，GloVe+ViCo 比单独的 GloVe 更好地转移到看不见的类（Sec.4.2）。我们显示了在四次运行中计算的平均值和标准差（总共训练了7×4×4= 112个模型）。主要结论如下：ViCo比GloVe更好地推广到看不见的类。基于ViCo的嵌入，尤其是200-dim.选择和线性变体显示出超过GloVe的健康增益。注意，这不仅仅是由于嵌入的更高维度，因为GloVe+random（200）的性能比GloVe差。学习嵌入显著优于随机向量。随机向量单独实现接近机会的性能，而将随机向量连接到GloVe会降低性能。选择的性能优于线性。压缩以使用线性变换的100p（I）=πexp（sc（I）/）、（四）显示了更明显的性能下降，Cc′∈C exp（sc′（I）/ε）选择设置。然而，GloVe+ViCo（线性，100）在4次分裂中的3次中仍然优于GloVe其中是可学习的温度参数。在我们在实验中，f（I）是由34层ResNet的最后一个线性层产生的64维特征向量（修改为接受32×32CIFAR图像），g是线性变换。学习模型（参数f、g和f *）在来自可见类集合S * C的图像上训练。我们使用Adam [17]优化器，学习率为0。01.该模型使用批量大小为0进行训练。01的50个时期。模型选择和评估。最佳模型（在迭代检查点中）基于在测试集上看到的类准确性（仅在S中的类之间分类）来选择。所选模型将根据未见过的类别进行评估（U=C \ S）在测试集上计算的预测准确度。图5比较了随机性能（1/|U|）、随机向量、GloVe和GloVe+ViCo对四个可见/不可见分割的影响。4.3. 下游任务评估我们现在在一系列下游任务上评估ViCo嵌入一般来说，我们期望需要更好的对象和属性的单词表示的任务能够从我们的嵌入中受益。当使用现有模型时，我们初始化并冻结单词嵌入，以便性能变化不是由于微调不同维度的嵌入。模型的其余部分保持不变，除了输入层的维度，其中输入特征的大小需要匹配嵌入维度。选项卡. 图5比较了嵌入在仅单词的区分属性任务和4 个视觉语言任务上的性能在所有任务上，GloVe+ViCo都优于GloVe和GloVe+random。与只依赖于单词表征的单词任务不同，视觉语言任务对单词嵌入不太敏感，表现为7432Discr. Attr.Avg. F1Im-Cap检索召回@1VQA精度参考文献Exp.Loc. 精度图像字幕中文字幕嵌入Dim.m±σIm2CapCap2Im整体Y/N Num. 其他Val种皮TestBB1B4CS随机30050.03 ±2.2643.130.666.182.044.857.571.373.566.30.714 0.296 0.910 0.170手套30063.85 ±0.0444.833.567.583.846.558.372.275.366.80.708 0.290 0.891 0.167GloVe +随机300+10063.88 ±0.0344.334.467.584.145.958.272.575.167.50.707 0.288 0.881 0.166GloVe + ViCo（线性）300+10064.46 ±0.1746.334.267.784.446.658.472.775.567.50.711 0.291 0.894 0.168表5. 比较ViCo、GloVe和随机向量。GloVe+ViCo（线性）在所有任务中的性能优于GloVe和GloVe+random，在除图像字幕外的所有任务中的性能优于random。虽然随机向量在只有单词的任务中表现得很接近偶然，但它们在视觉语言任务中与学习的嵌入竞争激烈。这表明视觉语言模型对词嵌入的选择相对不敏感。突出显示每列中的最佳和次佳dom嵌入接近学习嵌入3.区别属性[19]是SemEval 2018挑战之一。该任务要求识别属性词是否区分两个概念词。例如，单词“red”是单词对（“apple”，“banana”）的判别属性，但不是（“apple”，“cherry”）的判别属性。样本表示为属性和概念词的元组，模型进行二元预测。使用类平均F1分数评估性能。设w1 、w2和a为两个概念词和属性词的词嵌入（GloVe或ViCo）。我们计算GloVe和ViCo的得分sg和sv。ing函数s（a，w1，w2）= cosine（a，w1）− cosine（a，w2），其中cosine e（·）是余弦相似度y。然后，我们学习线性SVM在sg上用于仅GloVe模型，并且在sg和Sv用于GloVe+ViCo模型。标题图像检索是一个经典的视觉语言任务，需要一个模型来检索给定标题的图像，反之亦然。我们使用开源VSE++[10]实现，该实现使用最大铰链损失来学习图像和字幕的联合嵌入，该最大铰链损失鼓励关注硬底片，并面向改善top-1重新调用。我们在MS-COCO上使用Recall@1评估模型视觉问题回答[3，11]系统需要回答关于图像的问题。我们使用Pythia [55，15]来比较嵌入的性能，Pythia [55，15]使用自下而上自上而下的注意力来计算与问题相关的图像表示。然后，图像特征与问题表示融合，使用GRU对词嵌入进行操作，并输入到答案分类器中使用VQA v2.0数据集的测试-开发分割的总体和按问题类型的准确性指称表达理解包括基于自然语言描述的图像区域的局部化。我们使用MAt-tNet [54]的开源实现来比较使用UNC分割的RefCOCO+数据集上的不同嵌入的MAttNet使用注意机制将指称表达解析为短语，这些短语告知主体的外观、位置以及与其他对象的关系。这些短语由相应的专门本地化模块处理。最终的区域得分是线性组合-[3]参见补充材料，了解我们的假设和测试，以了解为什么随机向量在视觉语言任务中很有效。使用预测权重的模块得分的国家。图像字幕涉及生成给定图像的字幕。我们使用Vinyals等人的展示和讲述模型。[51]它将CNN提取的图像特征馈送到LSTM中，然后进行波束搜索以对字幕进行采样。我们报告 BLEU1 （ B1 ）、 BLEU4（B4）、CIDEr（C）和SPICE(S)MS-COCO测试集上的度量[35，50，14.4. 嵌入式空间结构探索先前的工作[31]已经通过使用简单的向量算术解决的类比任务证明了词嵌入空间中的语言规则性图6定性地示出了ViCo嵌入具有类似的属性，很好地捕获了视觉概念之间的关系类比解答考生手套Vico汽车：陆地：：飞机：？clock：circle：：tv：？公园：长凳：：教堂：？羊：毛皮：：人：？猴子：动物园：：猫：？腿：裤子：手腕：？黄色：香蕉：：红色：？米饭：白的：：菠菜：？火车：铁路：：汽车：？can：metallic：：bottle：？海洋，天空，公路，铁路三角形，方形，八角形，圆形门，沙发，橱柜，长凳头发，角，外套，尾巴公园，房子，教堂，森林手表，鞋，领带，头巾草莓，柠檬，芒果，橙蓝，绿色，红色，黄色的土地，沙漠，海洋，天空木材、玻璃、布、纸海洋三角门大衣公园大手帕芒果蓝土地玻璃天空广场皮尤头发房子手表草莓绿地玻璃男人：国王：女人：？can：metallic：：bottle：？火车：铁路：：汽车：？女王，女孩，女性，成人木材，塑料，布，纸路，沙漠，海洋，天空皇后塑料路女孩木洋表6. 类比问题。在测试的30个类比配对中，我们发现GloVe和ViCo都正确19次，只有ViCo正确8次，只有Glove正确3次。正确答案将突出显示。5. 结论这项工作表明，除了文本同现，视觉同现是一个令人惊讶的有效的信息来源，学习单词表示。由此产生的嵌入优于纯文本嵌入无监督聚类，监督 parti-tioning，零杆泛化，和各种监督下游任务。我们还开发了GloVe作为模型的一部分学习的特定于类型的嵌入空间有助于提供更丰富的单词之间的相关性。致谢：部分由NSF 1718221、ONR MURI N 00014 -16-1-2007、Samsung和3 M支持。7433引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在ECCV，20

下载后可阅读完整内容，剩余1页未读，立即下载