没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文对比视觉语义预训练放大自然语言表示罗伯特·沃尔夫华盛顿大学rwolfe3@uw.eduAylin Caliskan华盛顿大学aylin@uw.edu摘要我们通过比较GPT-2和CLIP(一种零触发多模态图像分类器,采用GPT-2架构对图像字幕进行编码)形成的语境化英语语言表征的几何和语义特性,来检验对比视觉语义预训练的效果。我们发现,对比视觉语义预训练显著减轻了GPT-2中上下文化词嵌入的各向异性,使得CLIP词嵌入的层内自相似性(平均成对余弦相似性)低于。25在所有层,相比之下,大于。GPT-2的顶层为95。CLIP词嵌入在词级语义内在评估任务上优于GPT-2,并在RG 65评估中实现了新的基于语料库的最新技术水平。88岁CLIP还形成了句子的细粒度语义表示 , 并 获 得 斯 皮 尔 曼 的 ρ = 。 73 在SemEval-2017语义文本相似性基准没有微调,相比之下,不大于ρ=。45在任何层的GPT-2. 最后,CLIP句子嵌入随着层索引的增加而减少,在。25在顶层,而使用EOS令牌形成的GPT-2句子嵌入的自相似性逐层增加,并且永远不会低于. 九十七我们的研究结果表明,高各向异性不是上下文化的必然结果,视觉语义预训练不仅有利于视觉表征的排序,而且有利于编码有用的语言语义表征,无论是在单词水平还是句子水平。1介绍使用从互联网上收集的图像标题的大规模“自然语言监督”启用了第一个“零拍摄”人工智能(AI)图像分类器,该分类器允许用户使用自然语言创建自己的图像类,但在公共语言上执行监督模型-和图像任务(Radford et al. ,2021年)。这种模型的图像编码器已经被证明在上层形成“多模态”表示,使得相同的神经元针对概念的摄影、符号和文本解释而激发(Gohet al. ,2021年)。对这些最先进的“视觉语义”(联合语言和图像)模型的研究主要集中在它们对图像的语义清晰表示进行在本文中,我们试图回答一个简单但尚未探索的问题:对比视觉语义预训练对自然语言的表示有什么好处由Radford等人引入的CLIP(“对比语言图像预训练”)图像分类模型。 (2021)提供了一个独特的机会来观察视觉语义预训练对上下文语言模型的影响。虽然大多数其他视觉语义架构在模型的内层结合了语言和图像特征(Luet al. ,2019),CLIP将语言模型与视觉模型分离,直到编码过程结束,此时它将由每个模型形成的表示投影到联合语言-图像嵌入空间中(Radford et al. ,2021年)。 CLIP被训练成最大化投影图像与其投影自然语言字幕的余弦相似性,同时最小化投影字幕与批次中所有其 他 图 像 的 余 弦 相 似 性 ( Radford et al. ,2021),被称为“对比学习”或“对比表征蒸馏”(Tian et al. ,2019)。在投影之前将语言模型与视觉模型分离允许我们彼此独立地考虑两个模型,使得我们可以研究针对视觉语义对象训练的自然语言的表示,而不是在模型的内层中组合语言和图像特征的表示此外,由于CLIP使用GPT-2对自然语言进行编码,arXiv:2203.07511v1 [cs.CL] 2022年3月+v:mala2277获取更多论文GPT-2夹≥10。80。60。40。20CWE语言模型层0 1 2 3 4 5 6 7 8 9 10 11 12语言模型层图1:CLIP CWE比GPT-2 CWE的自相似性要小得多,尽管使用相同的架构进行训练,这表明预训练目标导致了情境化表示的显著差异,这不是情境化过程本身的结果,也不是模型架构的结果。如果模型只训练下一个词的预测,我们可以直接比较使用相同架构形成的表示我 们 观 察 到 GPT-2 和 CLIP 语 言 模 型(“LM”)在单词水平和句子水平上形成的表征之间的差异我们概述了我们的贡献:1. 如图1所示,对比视觉语义预训练减轻了Ethayarajh(2019)在GPT-2和其他情境化LM中观察到的角度均匀性(称为各向异性,使用余弦相似性测量)层内自相似性(平均成对余弦相似性,其中1. 0是最大相似的,0。在CLIP LM的所有层中,上下文化词嵌入(CWE)的最大不相似度(最大不相似度)小于0.25,而在CLIPLM 的 所 有 层 中 , 上 下 文 化 词 嵌 入(CWE)的最大不相似度(最大不相似度)大于0.25。50,并且在GPT-2的顶层中大于0.95来自CLIP LM的CWE中的五个最高幅度的神经元激活占其在顶层中的长度的39%,相比之下,顶层GPT- 2 CWE的长度超过97%。这表明,高各向异性不是情境化的必然结果,也不是使用特定语言建模架构的必然结果,而是依赖于预训练目标,并且通过使用对比和视觉语义的目标而显著降低。2. 对比视觉语义预训练的结果在词水平的内在评价任务上优于其他静态和上下文化的词嵌入。CLIP词嵌入在一个“非语境化”设置(其中模型仅被给予单词而没有其他上下文)设置新状态RG65内在评价任务(Rubenstein和Goodenough,1965年)的基于语料库的方法,斯皮尔曼的ρ= 。 88 在 CLIP LM 的 第 八 层 , 并 匹 配ValNorm任务的最新技术水平,该任务基于与愉快规范的对应关系评估表征的语义质 量 ( Toney 和 Caliskan , 2021 ) ,Pearson 的 ρ = 。 第 四 层 有 88 个 。CLIPCWE在非情境化设置中的每一个内在评价上都优于GPT-2 CWE,并且除了一 个 评价 之 外 , 所有 评 价 都 优于 Bommasani等人的GPT-2嵌入。 (2020),他们对100,000个上下文进行编码,并将这些表示汇集在一起,形成一个静态单词嵌入矩阵。3. 对比视觉语义预训练编码语义上有用的句子表示,获得斯皮尔曼的ρ =。SemEval-2017 Semantic Textual Similarity(STS)Benchmark使用句子对之间的余弦相似性。STS基准测试的CLIP结果优于GPT-2,后者从未超过ρ=。45在模型的任何层中。此外,我们发现,虽然GPT-2的句子嵌入形成的序列结束(EOS)令牌表现出层内自相似性。在所有层中,CLIP语句嵌入的自相似性在模型的各个层上稳步下降,从。98到。25,表明模型的对比视觉语义预训练对象迫使形成句子的细粒度语义表示,使得它们可以与编码图像相关联。自相似+v:mala2277获取更多论文我们在https://github.com/wolferobert3/clip_contrastive_acl_2022上提供我们的代码和数据。2相关工作我们回顾了以前的工作,视觉语义人工智能,几 何 和 语 义 属 性 的 语 言 模 型 形 成 的representations,语义内在的评价任务。2.1基础模型我们研究CLIP和GPT-2,这两个都是“基础模型”,一个由Bommasani等人创造的术语。(2021)描述了一组架构相似的最先进的人工智能系统,这些系统在包括语言在内的各个领域都得到了广泛采用(Raffel et al. ,2020)、视 觉 ( Dosovitskiy et al. , 2020 ) 、 医 学(Rasmy et al. ,2021)和编程(Chen et al. ,2021),并表现出意想不到的新兴属性,如强per-personon任务,他们没有明确的训练(布朗 等 人 。 , 2020 ) 。 GPT-2 和 CLIP 采 用 了Transformer神经网络架构,该架构使用“注意力”机制从模型上下文窗口中最相关的元素中获取信息(Vaswaniet al. ,2017年)。2.2语境化语言模型GPT-2是一种语境化语言模型,这意味着它形成了包含来自周围单词("上下文")的信息的单词表示(Radford et al.,2019)。 这样的表示,被称为“语境化的词嵌入”(彼得斯等人,,2018 a),根据所使用的单词的含义和单 词 出 现 的 特 定 上 下 文 而 不 同 ( Soler 和Apidianaki,2021),允许这种表示克服静态单词嵌入的许多限制,静态单词嵌入仅使用一个向量来表示每个单词(Col-lobertet al. ,2011)。GPT-2是一种自回归的“因果”语言模型,这意味着它被训练来预测下一个单词,并采用“掩蔽的自我注意力”,使得模型只能从当前单词之前的单词中提取信息(Radford etal. ,2019)。2.3CLIP与视觉语义AICLIP是一种“多模态”模型,其在单个联合视觉 语 义 嵌 入 空 间 中 组 合 语 言 和 图 像 表 示( Radford et al. , 2021 年 ) 。 CLIP 可 以 与ResNet(He)等 人, 2016) 或Vision Transformer (ViT)(Doso-vitskiyet al. ,2020)来编码图像,以及语言模型(GPT-2)来编码字幕(Radfordetal. ,2019)。CLIP将编码的图像和字幕投影到联合嵌入空间中,其中该模型最大化正确图像-字幕对的余弦相似性,同时最小化每个字幕 与 批 次 中 每 个 其 他 图 像 的 余 弦 相 似 性(Radford et al. ,2021年)。CLIP仅将整个caption的表示投影到联合语言图像空间中,并使用CWE以产生该表示。CLIP并不是第一个形成视觉语义表示的基于transformer的模型:Luet al.(2019)和Li etal.(2019)都采用了Devlin et al.(2019)的BERT语言模型来产生视觉语义语言-图像表示,Zhang et al.(2020)和Jia et al.(2021)使用了与CLIP相同的对比损失目标。CLIP的独特之处在于,它是第一个推广到零拍摄图像分类的图像分类器,使得用户可以使用自然语言“即时”定义图像类,并获得与监督计算机视觉模型竞争的性能,而无需对任务的数据进行微调(Radford et al. ,2021年)。CLIP改进了ImageNet上的零拍摄最先进的1(邓等人,2009年)至76。2%(Radford et al. ,2021年),从以前的最好的11。5%(Li etal. ,2017年)。2.4语言模型几何Ethayarajh(2019)发现ELMo中的CWE(Pe-ters et al. ,2018 b),BERT(Devlin et al. ,2019)和GPT-2(Radford et al. ,2019)是高度各向异性的(角度均匀,基于余弦相似性的测量)。该效应在GPT-2中最为显著,使得模型顶层中随机 选择 的嵌入 具有“ 近乎 完美”(即,接近1。0)余弦相似性(Ethayarajh,2019)。Cai et al.(2020)发现GPT和GPT-2的内层在swiss-roll流形上形成了上下文化的单词表示,而BERT则将单词嵌入到集群中。减轻各向异性已被证明有利于语义表示,因为Mu和Viswanath(2018)发现,增加静态单词嵌入的各向同性(角分散)可以提高语义内在评估任务的性能Voita等人(2019)发现,情境化语言1Tiwary(2021)报告说,他们的图灵·布莱切利模型将最先进的零射击技术提高到79。百分之零。该模型不对研究社区开放源代码。+v:mala2277获取更多论文语言模型会影响CWE中编码的信息,并且随着层索引的增加,因果语言模型(如GPT-2)中的嵌入包含与输入标记的相互信息较少,而与序列中下一个标记的相互信息较多Tenney等人(2019)表明,BERT的层主要用于某些自然语言处理(NLP)任务,并且任务复杂性随着层索引的增加而增加。2.5内在评估任务内在评价任务通过测量嵌入的几何特性与人类对相似性的评价的相关性来评估单词或句子嵌入的质量(Tsvetkov et al. ,2016)或心理语言 学 规 范 ( 托 尼 和 卡 利 斯 坎 , 2021 ) 。Bommasani等人(2020)通过汇集来自英语维基百科的数万个句子的CWE来创建静态单词嵌入,并研究这些嵌入在单词级内在评估任务上的性能。 他们发现,BERT和GPT-2上层的嵌入相对于早期层的嵌入表现不佳,并且通过在单词的CWE上进行池化形成的嵌入显着优于从“去语境化”单词形成的嵌入,输入到模型中没有周围的上下文(Bommasani et al. ,2020)。我们报告了Bommasani等人分析的四个内在评价任务的结果。 (2020),以及最近引入的ValNorm任务(Toney和Caliskan,2021),以及句子级别的内在评估任务,语义文本相似性基准(Cer et al. ,2017年)。3数据为 了 将 我 们 关 于 CWE 各 向 异 性 的 结 果 与Ethayarajh(2019)的先前工作进行比较,我们对2012年至2016年的SemEval语义文本相似性任务的文本进行了编码(Agirre et al. ,2012,2013,2014,2015),他们使用这些数据集,因为它们包括在不同上下文中使用的相同单词的实例,并反映不同的词义。我们丢弃了太长的句子,不适合CLIP LM的77个标记的上下文窗口,这仍然给我们留下了超过36,000个句子。3.1内在评估任务我们报告了五个单词级任务的结果• RG-65(Rubenstein和Goodenough,1965年),一组65个名词对,0和4基于它们的语义相似性,如在旨在评估“上下文相似性和意义相似性”之间的关系的受控心理学研究中由51名“• WordSim-353,一个由353个词对组成的词相关性任务,分为两组(Finkelstein etal. ,2001)。WS-353是在搜索引擎信息检索的背景下引入的,但现在作为词相关性的评估而广泛使用。• SimLex-999,一个由666个名词-名词词对、222个动词-动词词对和111个形容词-形容词对组成的词相似性任务(Hill etal. ,2015)。• SimVerb-3500,一组由843名研究参与者根据相似性评定的3500个动词对,旨在弥补 评 估 动 词 语 义 的 资 源 缺 乏 ( Gerzetal. ,2016)。• ValNorm,它根据嵌入的质量来衡量它是否反映了所训练语言的价规范(Toney和Caliskan,2021)。ValNorm采用Pearson的相关系数与单类别词嵌入关联测试(SC-WEAT)(Caliskan et al. ,2017)用于词嵌入的愉快效果大小。最后,我们报告了一个语义文本相似性( STS ) 基 准 测 试 ( Semantic TextualSimilarity Benchmark) 的 结 果 , 这 是 一组8628 个 句 子 对 , 来 自 2012 年 至 2017 年 的SemEval STS任务,并根据相似性进行评级(Cer et al. ,2017年)。句子反映了三种类型:新闻,论坛和标题。测试集包括1379个句子对,我们在没有使用训练集的情况下报告了测试结果3.2语言模型体系结构虽然CLIP LM基于GPT-2架构,但我们检查的模型之间存在微小差异CLIPLM是GPT-2架构的6300万参数版本,使用12层在77个令牌上下文窗口内形成512维CWE(Radford et al. ,2021年)。GPT-2小,由Etha-yarajh(2019)研究并在本文中检查的模型,形成2我们使用了Wolf等人的Transform- ers库中的PyTorch模型。 (2020年)。+v:mala2277获取更多论文n2− n我 J768维CWE在一个1,024令牌上下文窗口,并具有 1.24 亿 的 总 参 数 计 数 ( Radford et al. ,2019)。虽然它只由图像标题组成,但用于训练CLIP的WebImageText语料库的文本组件与用于训练GPT-2的WebText语料库具有“相似”的字数,根据Radford等人的说法。 (2021年)。4方法和实验我们概述了我们的实验,并讨论了我们的方法提取CWE和句子嵌入,并计算自相似性。4.1CWE的几何形状我们使用Ethayarajh(2019)的自相似性公式来研究CLIP的对比视觉语义预训练目标是否影响GPT-2 CWE的各向异性:s=1cos(w→,w→)(1)我我 J4.2词级内在求值任务我们检查了从CLIP LM和GPT-2中提取的CWE在第3.1节中描述的五个单词级内在评估任务上的分层性能。对于这些任务,我们提取与每个单词的最后一个子标记对应的向量,因为先前的工作发现因果语言模型中的最后一个子词完全编码了单词的语义,因果语言模型将其分解为子词(Guo和Caliskan,2021)。对于每一项任务,我们在Bommasani等人所描述的“去文本化”设置中输入单词。 (2020年)(即,没有周围的背景)。与Bommasani等人(2020)不同,我们还从GPT-2 tokenizer中提取了BOS token和EOS token,并将它们添加到解上下文单词的两侧我们这样做是为了保持实验在模型之间的一致性,因为添加令牌是CLIP LM的错误行为,但不是GPT-2。因为在使用GPT-2时通常会忽略BOS和EOS令牌,所以我们报告了GPT-2在使用令牌和不使用令牌的情况下的结果。到观察CLIP语句嵌入是否具有注意,等式1中的cos指的是余弦相似性,或者归一化为单位长度后两个向量的角度相似性,这是一种用于测量单词嵌入的语义相似性N指的是在自相似性测量中使用的词嵌入W的数量。Guo和Caliskan(2021)通过随机抽样10,000个CWE报告了语义偏差分析的一致结果,我们在STS 2012-2016任务的上下文中测量了CLIP和GPT-2每层的10,000个随机选择的CWE我们从所有层中收集相同的10,000个单词索引的CWE,而不是在每一层随机选择新词由于Mu和Viswanath(2018)发现一些高量级维度会导致各向异性并扭曲静态单词嵌入的语义,因此我们还研究了CLIP嵌入是否在一些高值维度中编码较少的幅度Mu和Viswanath(2018)发现,在静态词嵌入中通常有n/100个这样的扭曲维度,其中n指嵌入因为GPT- 2small形成768维嵌入,CLIP形成512维嵌入,所以我们报告了在10,000个嵌入中,每个模型在每个层的前8个和前5个神经元激活中包含的幅度的平均比例独特的属性,因为它们是投射到联合语言图像空间的唯一语言表示,我们还使用CLIP LM和GPT-2的EOS令牌4.3句子级评估我们使用从CLIP和GPT-2获得的句子表示在STS基准上报告分层性能(Cer et al. ,2017年)。对于此任务,我们在CLIP和GPT-2中使用EOS令牌对于GPT-2,我们也使用句子的最后一个子标记,没有添加EOS标记。最后,我们使用方程分析了每个模型的句子嵌入1.一、在这种情况下,w不是指单词嵌入,而是指句子嵌入。 对于这种分析,我们使用STS基准测试集中所有独特句子的嵌入(Cer etal. ,2017年)。5结果CLIP CWE比GPT-2嵌入的各向异性小,并且CLIP在单词级和句子级语义评估上优于GPT-2。5.1嵌入几何结构如图1所示,CWE的自相似性在CLIP LM的每一层中比在GPT-2中低两种模型的自相似性都达到了+v:mala2277获取更多论文GPT-2n=5GPT-2n=8CLIPn=5CLIPn=8GPT-2 CWE w/BOSGPT-2语句嵌入CLIP CWECLIP语句嵌入按内在评估任务划分的绩效任务RG65公司简介SL-999ValNormSV-3500层最好顶部最好顶部最好顶部最好顶部最好顶部GPT-2 -无BOS0.09(1).01.14(1).120.05(5).02.43口径(7).250.01(8).00GPT-2 - w/BOS.44口径(7).23.44口径(9).25点二五口径(8).11.76口径(7).33.21(8).07夹.88口径(8).70.72(6).51.48口径(9).39.88口径(4).72.30(4).17GPT-2 EOS.32(12).32.31(3).10.16(4).05.61(6).17.10(4)-.01CLIP EOS.73(12).73.49口径(5).45.34(11).34.84口径(5).80.14(11).13表1:CLIP CWE在每个内在评估任务上的表现都优于GPT-2 CWE。“EOS”标记对应于模型的句子嵌入。最佳层对应于表示实现任务的最高分数所有的分数都是斯皮尔曼100806040200前n个神经元中的%幅度0 1 2 3 4 5 6 7 8 9 101112层10。80。60。40。20按层的0 1 2 3 4 5 6 7 8 9 10 11 12层图2:五个最高幅度的神经元激活占GPT-2 CWE长度的97%以上,而CLIP CWE长度的39%最高的在顶层,在。GPT-2为96。24在CLIPLM中。GPT-2中CWE的自相似性从未低于。55,而CLIP中CWE的自相似性下降到。06在第4层。如图2所示,我们还发现,GPT-2顶层的五个最高幅度的神经元激活占GPT-2 CWE幅度的97%以上,而CLIP CWE的幅度仅为39%对于这两种模型,使用8个最高的神经元激活都有小幅增加(每层不到3个鉴于Mu和Viswanath(2018)发现高量级维度会导致静态单词嵌入中的高各向异性和扭曲语义,并且Ethayarajh(2019)建议增加各向同性以提高CWE 表 示 质 量 , 我 们 预 计 CLIP CWE 将 比GPT-2 CWE具有更多的语义几何结构5.2词级内在求值任务如表1所示,CLIP嵌入在我们研究的所有五个单词级内在评估任务上都优于GPT-2嵌入,并且非常重要图3:CLIP CWE与第4层中ValNorm内在评估任务的最新技术水平相匹配。改进了基于语料库的RG65内在评价的现有技术,使Spearman的ρ =. 88岁 3如图3所示,CLIP嵌入也与ValNorm内部评估任务(Toney和Caliskan,2021)的最新技术水平相匹配,该 任 务 先 前 由 Pennington 等 人 ( 2014 ) 的GloVe嵌入实现。对于除SV-3500之外的每一项 任 务 , CLIP 嵌 入 都 优 于 Bommasani 等 人(2020)针对GPT-2获得的结果,后者通过从100,000个编码上下文中获得的CWE进行池化来创建静态单词嵌入,其中包括GPT-2小型和GPT-2中型,这是一个形成1,024维嵌入的24层 模 型 。 对 于 SV-3500 , Bommasani 等 人(2020)获得了斯皮尔曼的ρ =。GPT-6层312个小的来自使用来自上下文的CWE100,000我们的研究结果还表明,加入BOSGPT-2中的token显著改善了在非语境化设置中单词级语义内在评估任务的结果。 ValNorm评分-幅度%皮尔逊+v:mala2277获取更多论文3根据到的ACL排行榜在https://aclweb.org/aclwiki/RG-65_Test_Collection_(State_of_the_art).准确地说,CLIP嵌入实现了斯皮尔曼的ρ =。第876章这个任务+v:mala2277获取更多论文≥在第7层中从.59提高到.76,在同一层中RG65分数从.01提高到.44。在每一次测试中,简单地 添 加 BOS 令 牌 都 优 于 Bommasani et al.( 2020 ) 报 告 的 结 果 , Bommasani et al.(2020)在GPT-2小型和GPT-2中型中使用池化方法获得了10,000个虽然添加BOS令牌与将池化方法应用于50,000或100,000个上下文的结果不匹配,但这种显著的改进表明使用BOS令牌是获得CWE的静态约简的简单、计算高效且易于复制的方式,其质量优于需要一万个上下文来形成的表示。最 后 , 我 们 发 现 , CLIP EOS 令 牌 嵌 入 -dings优于CWE在顶层的五个字级内在评估任务的两个,并接近等于CLIP CWE的性能上的其他三个任务。顶层CLIP CWE的ValNorm评分降至0.72,但增加至。该层中的CLIP EOS令牌嵌入为80; RG 65得分降至。对于CLIPCWE,顶层为70,但增加到。CLIP EOS代币嵌入为73。当模型形成关于序列中下一个单词的预测时,CWE丢失了它们与输入单词的一些相互信息(Voita et al. ,2019年),但我们的研究结果表明,EOS令牌必须在顶层保持上下文的语义信息,以便它可以被投影到联合语言-图像空间并与图像准确关联。CLIP和GPT-2在单词级内在评价任务上的表现的其他可视化结果见附录A。STS基准性能10。80。60。40。200 1 2 3 4 56 7 8 9 10 11 12层图4:CLIP语句嵌入在STS基准测试中优于GPT- 2嵌入。5.3句子嵌入如图4所示,CLIP LM中的句子嵌入在STS基准测试中的各个模型层上都优于GPT-2句子嵌入 , 并 且 性 能 差 异 CLIP 语 句 嵌 入 得 到Spearman的ρ =. 73在顶层,相比之下不大于。GPT-2包埋45例即使使用EOS令牌,GPT-2句子嵌入也表现出与模型中的CWE相似的特性,并且在上层丢失语义信息,而CLIP句子嵌入通过顶层提高语义质量。如图5所示,随着层索引的增加,CLIP语句嵌入变得越来越不相似。 这与GPT-2形成鲜明对比,其中使用EOS to- ken的句子嵌入具有自相似性。CLIP的视觉语义对象的对比性促使了语义层次的细粒度区分。句子嵌入自相似性10。80。60。40。200 1 2 34 5 6 7 8 9 10 11 12层图5:CLIP语句嵌入随着层索引的增加而变得不那么自相似,而GPT-2语句嵌入保持高度各向异性。6讨论我们的研究结果是直截了当的,但不明显的是,他们应该发生。CLIP的训练目标不是产生高质量的CWE,甚至不是句子嵌入。事实上,Radford等人(2021)几乎没有花时间讨论CLIP语言模型,并指出他们没有看到通过扩大模型的大小来显著提高性能。然而,在创建第一个广泛准确的零拍摄图像分类器,雷德福等人。 (2021)还创建了一个零拍摄句子编码器,该编码器的性能大大优于其在语言建模上训练的底层架构版本。此外,如果不需要GPT-2语句嵌入GPT-2最后一个令牌CLIP语句嵌入斯皮尔曼GPT-2语句嵌入GPT-2最后一个令牌CLIP语句嵌入自相似+v:mala2277获取更多论文对于计算上昂贵的汇集方法,并且尽管具有小于GPT-2小的参数计数的一半,CLIP LM产生的CWE匹配或超过了在两个内在评估任务上用基于语料库的方法实现的最佳性能,并且优于从GPT-2介质中的100,000个编码上下文形成的嵌入(Bommasani等人,,2020)。CLIP嵌入表明,Ethayarajh(2019)观察到的高各向异性不是情境化的必然结果,甚至也不是特定语言建模架构的必然结果,而是与模型的预训练目标有关。当在对比视觉语义目标上训练时,与GPT-2相比,CLIP形成的CWE在模型的每一层都具有低得多的自相似性这是值得注意的,因为CLIP实际上并没有将CWE投射到联合语言-图像空间中。虽然我们可能期望CLIP句子嵌入(其被投影到语言图像空间中)具有与GPT-2形成的CWE不同的属性,但也不一定得出CLIP形成的CWE也与GPT-2中的CWE如此不同事实上,我们仍然观察到Ethayarajh(2019)报告的顶层自相似性增加,以及Voita等人报告的与上层输入令牌相关的语义信息丢失。 (2019年)。然而,这些影响在CLIP中比在GPT-2中少得多,表明模型的对比视觉语义目标具有正则化效应,其形状不仅仅是投影的句子嵌入。我们的研究结果表明,在视觉语义目标上训练的语言模型很可能以使语义信息的编码具有特权,这对于将字幕与图像相匹配是必不可少的。我们观察到的各向同性表示在视觉语义目标上训练的模型将形成嵌入,以反映单词或句子的语义,而不是因果语言模型。从训练目标的角度来看,因果语言模型预测句子的句法无效延续(例如,然而,对于匹配图像,文本的语义内容变得至少与其句法属性一样重要6.1 局限性和未来工作我们的工作表明,一个既具有视觉语义又具有对比性的预训练目标然而,需要进一步的工作来解决我们观察到的结果在多大程度上是对比训练的结果,以及它们在多大程度上是视觉语义训练的结果。对比训练目标(其中模型必须区分正确和不正确的选项)可能会导致各向同性和高度语义的嵌入,即使两个模型都产生语言表示。另一方面,出于执行视觉语义任务的目的,编码语言对于实现CLIP中所见的效果可能特别重要,因为图像缺乏语法结构并且主要是语义组成。未来的工作可能会执行一个直接的评估之间获得的CLIP LM和表示学习的对比纯文本模型,如最近推出的Neelakantan等人。 (2022年)。这项工作研究语义上下文表示没有后处理,使用余弦相似性作为相似性度量。虽然这是一个常见的实验设计,在以前的工作中经常评估,但它不是评估上下文单词嵌入中语义例如,最近的工作表明,通过使用主成分分析重新移动高幅度方向等方法进行后处理和转换嵌入空间,可以在GPT-2等语言模型中更好地隔离语义(Wolfe和Caliskan,2022;Timkey和vanSchijndel,2021)。4未来的工作可能会评估这些后处理技术,或使用互信息评估语义的方法(Voita et al. ,2019)或线性探针(Tenneyet al. ,2019),也表明对比多模态预训练放大了嵌入空间中的语义。不正确的词性,而不是预测一个有点意想不到但在句法上仍然有效的句子的延续。当语言模型被训练来编码和关联正确的文本标题时,4CLIP在几乎所有情况下都优于GPT-2,超过后处理后报告的内在评估结果,CLIP嵌入也可能表现出嵌入空间的可比操作的改进。+v:mala2277获取更多论文最后,Radford等人(2021年)指出,CLIP最初旨在成为零镜头字幕生成器,此后使用的SimVLM架构实现了该设计(Wang等人,2011年)。,2021b)。对这些模型的分析,还不能以允许分析底层架构的方式提供给研究团体,可能有助于回答对比目标或视觉语义设置对于规则化各向异性和表示语义是否更重要的问题。7结论我们发现,对比视觉语义预训练产生各向同性的CWE,优于基于相同架构的语言模型的语义评估的单词级别和句子级别。我们的研究结果表明,将视觉语义目标与语言模型可能是有用的,以规范各向异性的CWE和提高语义质量的单词和句子表示。8伦理考虑虽然CLIP的对比视觉语义目标产生了语义丰富的自然语言表示,我们警告说,该模型也被称为编码有害的社会偏见。 Goh等 (2021)发现CLIP图像编码器形成的表征反映了对基于宗教和移民身份而被边缘化的社区的偏见,Wang等人(2021 a)和Agarwal等人(2021)报告了代表不足和陈规定型协会的偏见,这些偏见对女性产生了不成比例的影响。此外,Radford等人(2021)指出,他们使用基于频率的语法来构建CLIP训练的WebImageText语料库。其他关于语言模型的研究表明,类似的技术可能会加剧对边缘化群体的偏见,这些群体在这些数据集中往往代表性不足(Wolfe和Caliskan,2021)。因此,虽然我们的研究结果对视觉语义AI系统的未来确认本材料基于美国国家标准美国国家标准与技术研究院(NIST)授予60NANB20D212。本材料中表达的任何观点、发现和结论或建议均为作者的观点、发现和结论或引用Sandhini Agarwal,Gretchen Krueger,Jack Clark,Alec Radford , Jong Wook Kim , and MilesBrundage.2021. 评估剪辑:对更广泛的能力和下游 影 响 的 表 征 。 arXiv 预 印 本 arXiv :2108.02818。Eneko Agirre , Carmen Banea , Claire Cardie ,Daniel Cer , Mona Diab , Aitor Gonzalez-Agirre , Weiwei Guo , Inigo Lopez-Gazpio ,Montse Maritxavia,Rada Mihalcea,et al. 2015.Semeval-2015任务2:语义文本相似性,英语,西班牙语和可解释性试点。在第九届语义评估国际研讨会的会议记录(SemEval 2015)中,第252Eneko Agirre 、 Carmen Banea 、 Claire Cardie 、Daniel Cer 、 Mona Diab 、 Aitor Gonzalez-Agirre、Weiwei Guo、Rada Mihalcea、GermanRigau和Janyce Wiebe。2014. Semeval-2014任务10:多语言语义文本相似性。第八届语义评估国际研讨会论文集(SemEval 2014),第81Eneko Agirre,Daniel Cer,Mona Diab,and AitorGonzalez-Agirre. 2012. Semeval-2012 task 6 : Api-lot on semantic textual similarity.在 * SEM 2012中 : The First Joint Conference on Lexical andComputational Semantics-Volume1:Proceedings of themain conference and the shared task,and Volume 2:ProceedingsoftheSixthInternationalWorkshoponSemanticEvaluation(SemEval2012),pages385-393.Eneko Agirre , Daniel Cer , Mona Diab , AitorGonzalez- Agirre , and Weiwei Guo.2013. * sem2013 shared task:语义文本相似性。在第二届词汇和计算语义学联合会议(* SEM),第1卷:主要会议和共享任务会议录:语义文本相似性,第32Rishi Bommasani Kelly Davis 和Claire Cardie 2020.通过减少静态嵌入来解释预训练的上下文化表示。第58届计算语言学协会年会论文集,第4758- 4781页。Rishi Bommasani , Drew A Hudson , EhsanAdelli , Russ Altman , Simran Arora , Sydneyvon Arx,Michael S Bernstein,Jeannette Bohg,Antoine Bosselut,Emma Brunskill,et al. 2021.的 机 遇和 风 险 的 基 础 模 型 。 arXiv 预 印 本arXiv:2108.07258。+v:mala2277获取更多论文Tom B Brown , Benjamin Mann , Nick Ryder ,MelanieSubbiah , JaredKaplan , PrafullaDhariwal,Arvind Neelakantan,Pranav Shyam,Girish Sastry,Amanda Askell,et al. 2020.语言模型是少数成功的学习者。arXiv预印本arXiv:2005.14165。Xingyu Cai , Jiaji H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功