没有合适的资源?快使用搜索试试~ 我知道了~
4206视觉参与信号在表征学习中的应用Jia Menglin*1,2Zuxuan Wu*2,3 Austin Reiter2Claire Cardie1Serge Belongie1Ser-Nam Lim21康奈尔大学2Facebook AI3复旦大学摘要社交媒体平台中的视觉参与包括与照片帖子的交互,包括评论、分享和喜欢。在本文中,我们利用这种视觉管理线索作为表征学习的监督信号。然而,从参与信号中学习是不平凡的,因为不清楚如何弥合差距。对象分类:狗场景:室内细粒度分类:Eskie Mix物体检测:狗填充玩具图片说明:一只狗坐在一个毛绒玩具旁边视觉参与:低层次的视觉信息和高层次的社会互动之间我们提出了VisE,这是一种弱监督学习方法,它将社交图像映射到伪标签。•他知道自己有多可爱吗•他看起来好无辜•我是谁• !!!!❤❤•哈哈他们叫它们犬齿是有原因的。•没有被摧毁,只是被爱着。•哈哈!由聚集的参与信号驱动。然后,我们研究了以这种方式训练的模型如何使主观的下游计算机视觉任务受益,例如情感识别或政治偏见检测。通过广泛的研究,我们实证证明了VisE在超出常规识别范围的各种分类任务中的有效性1。1. 介绍人们在社交媒体上发布照片以邀请参与并寻求联系。一张可爱的狗的照片可以引起其他爱狗人士的共鸣,并引发诸如“喜欢”或“爱”按钮或评论,包括“多么可爱的狗”和“看看那些蓝色的与发布在社交媒体上的照片的广泛可用的交互,我们称之为视觉参与,包含丰富的语义描述(“狗”,“蓝眼睛”),并且比标准计算机视觉任务中的手动注释要便宜得多,包括粗粒度和细粒度的更重要的是,包括评论、回复、喜欢和分享的视觉参与提供了超出其中的图像内容的情感和文化背景例如,图1中的图像。1可以在标准字幕任务中描述为“一只狗坐在填充动物旁边”。这篇帖子的社交媒体受众可能会对狗的可爱做出反应,用异想天开的反应评论撕裂的填充动物,或者发起对话。*同等贡献。1项目页面:https://github.com/KMnP/vise图1.视觉参与与其他公共监控信号。给定相同的图像,视觉参与提供比传统的识别和字幕任务更丰富的语义和上下文信息由此产生的文本描述偏离了它在标准图像标题任务的锡方法上所说的内容,并表达了私人状态[65,82]:例如,意见,我们认为视觉参与也可以作为表征学习的监督信号,并很好地转移到主观的下游计算机视觉任务,如情感识别或政治偏见分类。受此观察的启发,我们提出从语义和上下文丰富的视觉管理信号(VisE)中学习图像表示我们假设,这样的学习表示,作为映射图像内容到人类反应的副产品,能够推断图像所表达的私人状态。这是有益的,并且可以作为对当前计算机视觉研究的很好的补充,当前计算机视觉研究通常集中在来自图像的客观呈现的事 实信 息(例如 ,“ 这是 一只 狗”vs 多可爱的狗啊!)。开放世界的视觉参与包含密集的主观线索,但本质上是固有的嘈杂。如何正确地利用这些信号进行表征学习是一个具有挑战性的开放性问题。受最近关于代理任务特征学习的研究的启发[19,3,84],我们对每种类型的视觉参与进行聚类,并获得与训练图像相关的所有响应的聚类分配指数这些群集分配用作监督42072--线索然后,我们从头开始训练一个网络,以多任务方式将图像映射到集群分配,以进行表示学习,其中每个任务都要预测该类型响应的集群指数。在本文中,我们考虑两种形式的人类反应:(1)评论和(2)反应。在前一种情况下,我们进行聚类表示编码的文本模型。与大多数现有的多模态方法不同,这些方法使用数亿个参数对语言和视觉模块进行预训练[12,66],我们只需使用现成的编码器来嵌入注释,这在计算上是有效的。然后,我们评估表示从engagement信号的下游任务。我们的主要贡献是证明,社会媒体的参与可以提供监督学习图像表示,有利于主观的下游任务。为此,我们探索了在2.5亿个公开的社交媒体帖子上预先训练的VisE。通过大量的实验,我们表明,在三个下游任务相关的私人状态检测,学习VisE模型,在某些情况下,可以超过一个相当大的利润率的ImageNet监督的同行这些结果突出表明,VisE拓宽了当前的表征学习范式,从而缩小了机器和人类智能之间的差距2. 相关工作视觉表示学习学习目标数据集的区分特征是许多计算机视觉研究工作的核心问题。小数据集上的特征学习特别困难,因为当目标训练数据量有限时,高容量深度神经网络会遭受过拟合。解决这个问题的一种流行方 法 是 使 用 手 动 策 划 的 类 标 签 ( 如 ImageNet 和COCO)在大规模图像数据集上进行预训练[13,15]。然而,在ImageNet上进行训练需要手动标记数据,这些数据获取成本高昂,难以扩展。这激发了大量的工作调查弱监督[73,55,41,42,47],半监督[86,87,84]和自我监督学习[3,96,14、4、22、48、90]。这些方法利用了监督的替代形式,例如用户提供的标签[76,55]和手工制作的借口任务(例如,修复[64],着色[91,92],预测拼图排列[60],输入旋转[17])。最近,对比学习[24,25]通过使图像比训练集中的其他样本更接近其增强版本来用于特征学习[83,89,26,58,6]。在本文中,我们使用视觉参与,其中包括高层次的语义,作为监督信号表示学习。使用自然语言人们对学习联合视觉语言表示[16,72,39,49,54,5,9]。其他研究将语言转换为离散标签或连续概率分布,例如单个单词、词性(POS)标签、句子特征的聚类分配和主题建模[38,46,19,2]。一些方法从预测来自图像的自然语言字幕的借口任务中学习视觉表示[2,12,69]。最近引入的方法包括ConVIRT [93],CLIP [66]和ALIGN[32]允许使用图像-文本对学习具有对比目标的视觉表示。这些工作使用客观的自然语言来描述和通知图像的内容,并且大多在常规识别数据集上评估它们的方法。相反,我们利用密度的主观性线索在社会媒体参与和探索的可转移性的学习表示替代下游任务。传统的计算机视觉任务专注于识别图像的有形属性,例如对象(入门级[11,51]和子类别[80,78,33])和场景[95]。上述关于表征学习的研究主要集中在这类任务上.相对较少的注意力已经支付给涉及私人国家[65,82]的主观性分析是相关的任务该领域包括(1)检测网络欺凌和仇恨言论[29,71,20,40],(2)识别情绪[43,1,59,62,81],(3)理解修辞和意图[36,37,70,30,31,88,74,45,34]。目前的工作旨在通过从高级别参与信号中学习有效特征来推进这一领域的研究。3. 方法为了学习捕捉图像内容和人类反应之间关系的表示,我们引入了一个简单而有效的它从图像中输入视觉接合信号(第第3.1节)。VisE以多任务方式在来自社会媒体平台的大规模图像参与对上进行训练3.2和第二节三点三3.1. 从参与到标签人们对图像的反应比内容本身更能说明问题在这项工作中,我们建议通过将它们转换为一个词袋多标签多任务分类任务来预测原始的社会参与信号。图2说明了我们在这项工作中使用的流水线。更正式地,令(x,e)是图像和一组相应的参与线索(例如,评论、回复、喜欢等)。设$为通用接合特征提取器,它将e转换为数值表示$(e)研发。我们在下面描述所提出的预处理和获得e的伪标记的方法。4208------CRDL⇥联系我们⇥3.3.培训VisE模型VisE学习目标通过最小化以下损失函数在多任务学习框架arg minE(xi,{ye}i)DLC(f(xi),{yC}i;W)+LR(f(xi),{yR}i;W), (1)其中L_C是具有软概率的交叉熵损失[55],图2.从视觉参与中学习。(a)我们通过预测来自一组参与信号(包括评论和原始反应)的伪标签来学习视觉表示。(b)伪标签是通过首先将原始约定(e)变换为数值表示$(e)来计算的聚类分配索引。更多详情请参阅正文。步骤1(聚类生成)我们首先从整个图像接合对的随机采样子集中收集e,并使用K均值算法生成k个聚类。在预训练期间将不使用数据集的这一部分。步骤2(标签创建)给定来自未处理子集的第i个示例(xi,ei),我们获得一组特征$(e)i,使用相同的函数$.接下来,我们收集得到的集群作为-作为用于该图像xi的标签集合ye的组索引。图2(a)总结了该步骤。3.2. 接合类型我们使用来自公开的Facebook帖子的文本评论()和原始反应()作为第一步,来研究表征学习的视觉参与信号。评论评论是来自图片帖子的直接人类反应。最多100条评论是从一个帖子中随机抽取的。我们使用词袋方法和词频-逆文档频率(TF-IDF)加权文档嵌入[68]作为注释特征提取器$C。从评论集导出的聚类分配被用作多标签分类目标,一个标签用于与该特定图像相关联的每个采样评论。原始反应反应被编码为在五个反应按钮(“哈哈”、“对不起”、“生气”、“哇”、“爱”)上的归一化分布。更具体地说,我们对每个图像帖子的5个反应按钮的总出现次数进行计数,并将它们归一化(L2)以考虑帖子的关注者和流行度的差异。每个帖子被映射到单个聚类质心索引。R是标准交叉熵损失,f表示由W参数化的图像特征编码器。代表训练数据,图像接合对从该训练数据中采样。另外,yC和yR分别表示评论和反应的伪在我们的实验中,我们训练卷积网络进行参与预测。为了与以前的工作进行比较,我们使用的CNN模型架构是:ResNet-50、ResNet-101 [28]和ResNeXt-10132 16d [85]。具有最大主干的VisE模型ResNeXt-1013216 d,在32个NVIDIA V100 GPU上训练了大约10天,其中包含2.5亿张图像,具有迷你批量为1536。其他培训前详细信息见附录C。4. 实验我们评估了VisE为广泛的下游任务学习的特征表示的有效性。在我们的实验中,我们的目标是表明,从参与信号学习的图像表示是有益的图像分类,超出了传统的识别任务的范围。我们首先描述我们的实验设置,包括替代表征学习方法的比较(第二节)。4.1),实施细节(第4.2),以及评估的下游任务总结(第4.3)。最后,我们提出的结果和讨论在第二节。4.4和Sec. 四点五分。4.1. 比较方法为了训练VisE,我们从社交媒体平台收集了总共2.7亿个公共图像帖子,其中2000万个用于集群生成(参见第二节)。第3.1节)。为了便于与ImageNet监督方法进行公平比较,我们还随机抽取了123万张图像进行预训练。我们将在123万(VisE-1.2M)和2.5亿数据(VisE-250 M)上预训练的VisE与其他特征表示学习方法进行了比较。我们首先将用从聚类分配导出的伪标签训练的VisE与用预定义的对象标签集训练的网络进行比较:线性投影伪标号对于反应y视觉编码器线性投影伪标签评论{yC}(一)“接合特征提取器(ф)%ф(%)(b)第(1)款W4209VisE-250M250M方法输入类型注释类型噪声标签预训练数据数据大小模型随机初始化---从零开始训练-(一)IN-Sup images object labels ImageNet [11] 1.28MCNN IG-940M-IN [55] images hashtags + labelsXIG[55] + ImageNet [11] 940M + 1.28MCNN我们的图像伪标签XVisE-1.2M 1.23MCNN表1. VisEvs.比较替代方法。七种表示学习方法分为:(1)单模式预培训:类似于VisE,这些方法仅在预训练期间使用视觉编码器;(2)跨模态预训练:像VisE一样,这些方法从自然语言中学习作为输入或监督信号。所有这三种架构都涉及文本模块的基于Transformer的模型[79]。当计算MoCo-v2和CLIP的总数据大小时,我们包括负图像-图像/图像-文本对。更多详情请参见附录。我们还承认,有效数据大小也受到其他因素的影响,如其他方法中的数据扩充。为了简单起见,我们使用实际的数据集大小进行非对比学习方法。• ImageNet监督(IN-Sup):图像编码器在ILSVRC2012 [11]训练分割(1.28M图像)上进行预训练2.该数据集有1000个类,基于WordNet [56]中的概念。• IG-imagenet(IG-940 M-IN)[55]:视觉编码器以弱监督的方式对9.4亿张公共图像进行预训练,其中包含1.5K的主题标签;编码器在ImageNet数据集上进一步微调。• VQAGrid [35]:一种主要用于视觉问答和图像字幕任务的预训练方法它通过在Visual Genome数据集[44]上训练Faster-RCNN [67]来学习视觉表示,该数据集具有1600个对象类别和400个属性。我们使用ResNet-50的最后一个瓶颈块的输出作为预训练的图像表示。• MoCo-v2 [27]:一种使用基于动量的编码器和在ImageNet上训练的内存队列的自监督对比方法。给定一个图像样本,它被训练成比数据集中的其他样本更接近其在超球面上的随机增强版本。我们使用改进的版本[7],它用800个epochs训练。请注意,此方法使用image作为监督标签,而不是ImageNet类标签。还考虑使用自然语言作为监督信号• ICMLM [2]:它使用来自COCO-captions [8]的118K图像-文本对,并使用掩码语言建模来从文本中学习视觉表示。我们包括两个版本的这种方法,ICMLMtfm 和 ICMLMatt-fc , 分 别 使 用 一 个Transformer和一个基于注意力的联合微调机制。2预训练模型来自ResNet-50/110的torchvision包• VirTex [12]:此方法也对COCO字幕进行预训练,但任务不同:基于图像生成字幕。• CLIP [66]:对比语言图像预训练方法(CLIP)利用图像编码器和文本编码器来预测哪些图像与400M图像-文本对的大规模数据集中的哪些文本描述配对值得指出的是,所有这些方法都训练文本编码器在预训练阶段学习更好的自然语言表示,而VisE只是使用现成的文本编码器来计算表示以用于聚类目的。如果这些文本表示像上述方法一样进一步微调[3],我们预计VisE的性能会更好。我们还报告了“随机初始化”的结果,其中没有使用预先训练的特征。表1总结了VisE与实验中使用的所有基线方法之间4.2. 评价方案和详细信息我们采用两种常见的协议来评估特征表示的有效性[55,21,57,27]:(1)线性评估:所有预先训练的模型都用作视觉特征提取器,其中图像编码器的权重是固定的。该协议优选用于目标任务的计算资源或训练数据有限的应用。测试性能指示学习的表示对于特定任务的有效性。(2)微调:预先训练的图像编码器的参数被用作高级权重初始化方法;这些编码器以端到端的方式被微调以用于下游任务。先前的研究[18,67]已经表明,后者的协议优于线性评估方法,因为它的灵活性和适应性更广泛的下游任务。MoCo-v2 [7]VQAGrid [35]图像对图像-对象+属性ImageNet [11]可视化基因组[44]83.9B年103kCNNFaster-RCNNVirTex [12]图像字幕COCO-标题[8]118kCNN + Transformer(2)ICMLM [2]图片+字幕字幕的掩码标记COCO-标题[8]118kCNN + Transformer剪辑[66]图片+文字-WebImageText[66]13.1TyCNN + Transformer4210有关更多实现细节,请参见附录C,包括所使用的超参数的完整列表(批量大小、学习率、衰减时间表等)以及对线性和微调实验的超参数的灵敏度。4.3. 下游任务我们评估这些视觉表示方法的四个下游任务,包括情感分类,政治偏见,仇恨言论检测和细粒度鸟类分类。UnbiasedEmotion数据集这个数据集[62]包含3045张图像,注释为六个情感类别。为了减少数据集中的对象偏差,不同的情感标签包含相同的对象/场景集合。由于该数据集没有正式的分割,我们将图像随机分为训练集(70%)、验证集(10%)和测试集(20%)五次,并报告所得准确度的平均值和标准差。该数据集的任务[75]是预测新闻媒体图像的政治倾向(左和右)该数据集总共包含749,932张图像。由于只有训练集和测试集是公开可用的,我们将训练集随机分为train(90%)和val(10%),并报告准确性分数。Hateful MemesHateful Memes数据集[40]包含多模态模因,包括图像和文本。任务是检测每个模因是否是仇恨言论。我们使用了来自Hateful Memes挑战3的第一阶段的数据,其中有8500个训练数据和500个验证数据。我们从预先训练的RoBERTa模型[52]中获得句子嵌入,并在将特征映射到标签空间的线性评估之前将文本特征和图像特征连接在一起。我们报告了val集上的宏观平均ROC AUC评分和准确度评分。Caltech-UCSD Birds-200-2011(CUB-200-2011)除了上述主观分类任务之外,我们还在标准图像分类任务上评估了我们的方法。为此,我们使用CUB-200-2011数据集。CUB- 200-2011 [80]共有11,788张图片,分布在200多种鸟类(主要是北美)中。它是一个用于从属分类的基准数据集我们在公开可用的训练集上训练,并在val集上报告top-1准确度。4.4. 用于主观识别任务的VisE按照第2节中描述的两个方案。4.2,我们比较了三个主观任务的迁移学习能力的VisE与其他基线方法。图3分别呈现了线性评估和微调方案的结果三个令人讨厌的模因:I期挑战VisEvs.从图3中,我们可以看到:(1)VisE在两个视觉主干选择上的三个数据集上始终优于其他仅图像编码器的方法,除了政治中的MoCo-v2。即使使用类似的数据量进行预训练(1.28Mvs.1.23M),VisE-1.2M仍然在所有三个任务中使用ResNet-50主干实现了比使用In-Sup标签训练的模型更好的性能(2)VisE-250 M的性能大大优于IG-940 M-IN,IG-940 M-IN是一种使用大量预训练数据(950 Mvs. 250M)。(3)MoCo-v2是一种不需要对象类别注释的自监督方法,在具有ResNet-50主干的方法中,它在政治方面的准确性得分最高这也突出了使用对象标签作为这种主观任务的预训练监督的局限性。VisEvs.从语言中学习的其他方法在这两种协议下,VisE提供比在预训练期间利用文本信息的其他方法更好或可比较的结果。VisE在所有三项任务中均实现了更好的这表明用视觉参与信号学习的特征更适合于主观下游任务。我们还观察到,所有其他四种视觉语言方法在微调时在UnbiasedEmotion数据集上获得比IN-Sup更好的结果,但它们比线性评估的IN-Sup更差这种差异 可 能 是 由 数 据 集 的 规 模 引 起 的 , 因 为UnbiasedEmotion在其他任务中是最小的。4.5. 标准识别任务的VisE我们比较了从视觉参与信号中学习的特征与使用CUB-200-2011上的Ima-geNet标签训练的特征的有效性。该任务扩展了ImageNet的一般对象分类,并专注于区分200种鸟类之间的细粒度差异。此外,ImageNet中的1000个类中有59个已经是鸟类类别,包括与CUB-200-2011 [77]重叠的定义。因此,基于图像网络的方法应该比VisE更好地转移到这项任务。表2示出了线性评估和微调转移方案的结果。事实上,IN-Sup和IG-940 M-IN单独使用线性分类器将特征映射到200种鸟类物种,实现了不错的准确度分数,这是可预见的,因为视觉接合信号不一定包含对象信息。可以理解的是,VisE特征不像在ImageNet上训练的模型那样可转移到这个任务当进行微调时,具有ResNet-50的VisE具有与IN-Sup相当或更好的性能。这强调了微调整个网络有时可以补偿学习特征的不灵活性,这与[66]中的讨论一致。4211⇥--}{(a) 线性评价:无偏情感。(b)线性评价:政治。(c)线性评价:讨厌的Memes(d)微调:无偏见的情感。(e)微调:政治。(f)微调:讨厌的Memes图3.所有三个数据集的VisE、单峰(ResNet-50)、交叉峰(ResNet-50)和单峰(ResNeXt-101 32 16 d)方法之间的线性评估(顶部)和微调(底部为了便于比较,两条蓝色虚线分别表示VisE-1.2M和VisE-250 M的性能。骨干法线性微调随机初始化3.42 63.39IN-Sup62.7072.15VisE-1.2M5.1. 训练前消融预训练数据大小的影响我们还使用微调设置使用随机采样的123k,308k,615k图像来训练VisE模型。图4显示了三个数据集与其他基线的3216dIG-940M-IN [55]72.69 85.28VisE-1.2M 9.76 73.73VisE-250M 10.93 79.54参考从图4(a)和4(b)中,我们可以看到训练数据大小与VisE的VirTex和ICMLM实现了表2. CUB-200-2011上的确认准确度。 学习的特征从Image-Net类标签转移到CUB-200-2011。5. 分析为了更好地理解视觉参与信号的值和我们预先训练的VisE模型,我们使用同一组主观目标任务进行消融研究和定性分析。除非另有说明,否则所有实验均使用微调方案。其他结果和分析见附录B)。与 VisE 相 比 , 结果 更 大 , 训 练 数据 更 少 (118kvs.615k,1.23M)。 这表明来自视觉参与的噪声伪标签可能需要更多的数据来补偿其弱监督性质。对于像Hateful Memes这样的多模态数据集,数据大小和性能之间的关系不如其他两个任务那么清楚,如图所示第4(c)段。微调后,VisE能够比其他基线表现得更好,证明了视觉参与信号的有效性。ResNet-509.9572.65VisE-250M9.9276.58随机初始化7.0462.80ResNeXt-101IN-Sup65.1684.214212⇥“#(a)无偏见的情感。(b)政治。(c)仇恨模因。图4.使用ResNet-50(顶部)和ResNeXt-101 32 16 d(底部)主干的数据大小消融。由于空间限制,我们仅呈现ICMLM att-fc和ICMLM tfm中的一个。两种ICMLM方法之间的差异在1%以内。骨干方法无偏见情感政治仇恨模因线性微调线性微调线性微调ResNet-50反应+评论45.74±2.1574.20±1.930.61000.604464.3064.69评论49.15±1.30“三点四一72.16±1.09 第2.04页0.6005 #0.00950.5921 0.012463.43 #0.8763.81 #0.88反应33.05±1.7512.69美元70.03±2.64 第4.17节0.6052 #0.00480.5980 #0.006463.09 #1.2163.42 #1.27表3.使用ResNet-50进行VisE-1.2M的任务消融。带有和的彩色文本指示与来自用反应和评论两者训练的VisE模型的结果的差异。(a)无偏见的情感。(b)政治。(c)仇恨模因。图5.可视脊柱消融。预训练任务的效果使用来自评论和原始反应的聚类分配来训练VisE。表3显示了消融研究,其中我们评价了不同接合形式的作用。一般来说,VisE在使用多任务目标进行训练时获得最佳性能图5呈现了使用不同视觉骨干的消融研究。VisE- 1.2M在所有三个主干选择和三个下游任务上都优于RandomInit和IN-Sup我们还注意到,VisE的优点随着主干的参数的数量变得更大而减少,这可能是由于下游训练集上的过度拟合。5.2. 多模态微调消融我们使用了一个图像编码器和一个冻结的文本编码器在第4节中对Hateful Memes数据集进行实验。到为了隔离两个模块对该数据集的影响,我们将VisE与以下设置下的其他基线进行比较:(1) 图像+文本(微调):在迁移学习期间更新来自两个编码器的参数。(2)图像+文本冻结(微调):与第4节中的实验相同的微调设置。(3)仅图像(微调):我们只在微调设置中使用图像编码器。(4)仅图像(线性):图像编码器仅用作特征提取器。请注意第二节中对仇恨模因的线性评价。4.4(图3(c))使用来自两个编码器的级联特征。图6呈现了结果。与其他基线相比,使用VisE的方法能够获得更好或可比较的结果。在图中,视觉语言方法优于IN-Sup。6(a)除了CLIP。这表明,当两个模块一起微调时,用文本模块预训练的视觉主干更好4213(a) 图像+文本(微调)(b)图像+文本冻结(微调)(c)仅图像(微调)(d)仅图像(线性)图6.多模式消融治疗仇恨模因瓣膜分裂。作为参考,单独使用文本编码器给出ROC AUC分数:0.6363(微调),0.5983(线性)。图7.使用ResNeXt-101 32 16 d对UnbiasedEmotion数据集的定性结果。从图如图6(a)-6(c)所示,ROC AUC分数越来越小,因为文本编码器的贡献越来越少。这表明,文本模块在预测多模态模因是否具有仇恨性方面具有主导作用如果仅使用图像编码器,则线性评估比微调协议获得更好的结果(图12)。6(c)与6(d))。这也表明文本信息在这个数据集中更重要。5.3. 定性分析我们还使用无偏电子运动进行定性研究,以进一步了解视觉参与的好处。图7示出了由我们的VisE-250 M和3种其他方法产生的样本预测。每种方法的预测类都用颜色编码(绿色表示正确,红色表示不正确)。我们还使用类激活映射[94]来可视化预测情感的区分图像区域。 尽管所有使用预训练模型初始化的方法都可以检测到图像中的感兴趣对象,但IN-Sup和IG-940 M-IN更有可能预测图1中的猫和狗照片的“喜悦”和“爱”。7,而VisE-250 M产生更多样化的预测(参见第2行左vs.右行1作为示例)。这似乎表明IN-Sup和IG-940 M-IN将狗和猫映射到积极情绪。另一方面,VisE-250 M不依赖于ImageNet在预训练期间标记对象,并能够区分狗和猫的不同图像之间的细微情感差异然而,所有方法都未能从左下角的图像中推断出其他可视化见附录A。6. 结论我们探索了社交媒体视觉参与作为表征学习的超级信号。我们提出了VisE,这是一种简化的预训练方法,它使用从人类对社交媒体帖子的反应(包括反应和评论)中获得的实验和分析表明,视觉参与信号可以很好地传递到超越传统视觉识别的各种下游任务。VisE能够在这些数据集上胜过各种表示学习模型。因此,我们希望VisE可以启发和促进未来的研究,重点是图像的认知方面。预训练模型将在工作验收后发布。致谢我们感谢马赛谁是特色图。1和2.这项工作得到了授予康奈尔大学的Facebook AI研究资助。4214引用[1] MM Bradley,BN Cuthbert,and PJ Lang. 国际情感图片系统:技术手册和情感评级。NIMH情绪和注意力研究中心,2005年。2[2] Mert Bulent Sariyildiz,Julien Perez和Diane Larlus。学习带有标题注释的视觉表示。在ECCV,2020年。二四十[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV,2018。一、二、四[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。二个[5] 陈嘉诚,胡鹤翔,吴昊,姜宇宁,王长虎。学习视觉语义 嵌 入 的 最 佳 池 化 策 略 在 arXiv 预 印 本 arXiv :2011.04305,2020。二个[6] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。二个[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。四、十[8] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la´r , andCL awrenceZitnick. Microsoft COCO字幕:数据收集和评估服务器。arXiv预印本arXiv:1504.00325,2015。1、4[9] Yen-Chun Chen , Linjie Li , Licheng Yu , Ahmed ElKholy , Faisal Ahmed , Zhe Gan , Yu Cheng , andJingjing Liu.Uniter : 通 用 图 像 - 文 本 表 示 学 习 。 在ECCV,2020年。二个[10] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie. 基 于 有 效 样 本 数 的 类 平 衡 损 耗 。 在CVPR,2019年。十个[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。一、二、四[12] Karan Desai 和 Justin Johnson VirTex : Learning VisualRepresentations from Textual Annotations.在CVPR,2021年。二四十[13] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。InICML,2014. 二个[14] 杰夫·多纳休和凯伦·西蒙尼扬。大规模对抗表示学习。NeurIPS,2019。二个[15] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器在2021年国际学术代表会议论文集二个[16] 作 者 : Andrea Frome , Greg S. Corrado 、 JonathonShlens、Samy Bengio、Jeffrey Dean、Marc米科洛夫Devise:一个深度视觉语义嵌入模型。InNeurIPS,2013. 二个[17] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR,2018年。二个[18] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在CVPR中,第5804[19] LluisGomez , YashPatel , MarcalRusinol ,DimosthenisKaratzas,and C.V.贾瓦哈通过将图像嵌入到文本 主题 空间 来进 行视 觉特征 的自 监督 学习 。在CVPR,2017年。一、二[20] Raul Gomez、Jaume Gibert、Lluis Gomez和Dimosthe-nisKaratzas。探索多模态出版物中的仇恨言论检测。在IEEE/CVF计算机视觉应用冬季会议论文集,第1470-1478页,2020年。二个[21] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在ICCV,第6391-6400页,2019年。四个[22] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,Mohammad Ghesh- laghi Azar , Bilal Piot , koraykavukcuoglu,Remi Munos,and Michal Valko.BootstrapYour Own Latent --自我监督学习In H.Larochelle,M.兰扎 托 河 哈 德 塞 尔 M. F. Balcan 和 H. Lin , 编 辑 ,NeurIPS,第21271-21284页,2020。二个[23] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的数据集。在CVPR,2019年。一个[24] 我的迈克尔·古特曼和阿波·海弗亚里宁。噪声对比度估计:非归一化统计模型的新估计原理AISTATS,2010年。二个[25] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数. CVPR,2006。二个[26] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。二个[27] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR中,第9729-9738页,2020年。四个[28] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。三个[29] Homa Hosseinmardi,Sabrina Arredondo Mattson,RahatIbn Rafiq,Richard Han,Qin Lv,and Shivakant Mishra.基于媒体的社交网络中网络欺凌事件的预测。2016年IEEE/ACM 社 交 网 络 分 析 和 挖 掘 国 际 会 议(ASONAM),第186-192页,2016年。二个[30] Xinyue Huang and Adriana Kovashka.通过肢体语言、背景和深层特征推断视觉说服力。在CVPRW,第73-79页,2016年。二个4215[31] Zaeem Hussain , Mingda Zhang , Xiaochong Zhang ,Keren Ye , Christopher Thomas , Zuha Agha , NathanOng,and Adri-ana Kovashka.自动理解图像和视频广告。在CVPR,第1705-1715页,2017年。二个[32] Chao Jia,Yinfei Yang,Ye Xia,Yi-Ting Chen,ZaranaPare
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功