没有合适的资源?快使用搜索试试~ 我知道了~
3790发现内涵作为弱监督图像-句子数据的标签0Aditya Mogadala卡尔斯鲁厄理工学院德国卡尔斯鲁厄aditya.mogadala@kit.edu0Bhargav Kanuparthi �0BITS 印度海得拉巴f20140527@hyderabad.bits-pilani.ac.in0Achim Rettinger卡尔斯鲁厄理工学院德国卡尔斯鲁厄rettinger@kit.edu0York Sure-Vetter卡尔斯鲁厄理工学院德国卡尔斯鲁厄york.sure-vetter@kit.edu0摘要0网络和社交媒体上多模态内容的增长产生了大量的弱对齐的图像-句子对。然而,由于固有的“内涵”,直接解释它们是困难的。在本文中,我们旨在使用内涵作为标签为这些图像-句子对进行注释,以捕捉其固有的“内涵”。我们使用一种内涵多模态嵌入模型(CMEM)和一种新颖的损失函数来实现这一目标。与以前的模型相比,它具有独特的特点:(i)利用多模态数据而不仅仅是视觉信息,(ii)在多标签场景中对异常标签具有鲁棒性,(iii)在大规模弱监督数据中有效工作。通过广泛的定量评估,我们展示了CMEM在多标签检测方面相对于其他最先进方法的有效性。此外,我们还展示了通过内涵标签注释图像-句子对的副产品,我们的模型本质上支持跨模态检索,即图像查询-句子检索。0CCS概念0• 信息系统 → 网络搜索和信息发现;• 计算方法 →神经网络;图像表示;学习设置;0关键词0图像-句子内涵标签,弱监督深度学习,多标签预测0ACM参考格式:Aditya Mogadala,Bhargav Kanuparthi,AchimRettinger和YorkSure-Vetter。2018年。发现内涵作为弱监督图像-句子数据的标签。在WWW'18Companion:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,美国纽约,8页。https://doi.org/10.1145/3184558.31863520� 在AIFB研究所实习期间完成的工作。0本文根据知识共享署名4.0国际(CC BY4.0)许可证发表。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18 Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.318635201 引言0每天都会产生大量的视觉数据,其中很大一部分可以在网络和社交媒体上找到。许多方法被用来利用这些数据(例如Flickr)来构建数据集[8, 19,21],通过人工努力来过滤噪音图像并为其注释对象类别。然而,人的参与包括成本,并且还会带来其他问题,如不完整性和偏见[22]。因此,另一种方法是直接学习视觉特征和目标检测器,而不使用任何手动标注。迄今为止,一些方法已经探索了自动利用不同类型的网络数据(仅包含图像的来源[7]和图像伴随的文本[36])来构建视觉模型[31]的想法。尽管声称数据是自动提取的(例如搜索引擎)并进行训练,但模型通常会受到其获取来源添加的偏见的影响。例如,图像搜索引擎(例如Google)通常专注于获取高精度而不是召回率,因此会将那些单个对象位于干净背景中的图像排名较高。在这种情况下,获取的图像可能包含误报,但图像本身并不是非常复杂,可以解释,即图像代表可以很容易定位的对象。然而,其他形式的网络数据(例如社交媒体)通常包含复杂的图像,可以用不同内涵表示的标签进行引用。从语言学上讲,内涵是指一个词可能具有的除了其主要或字面意义(即指称)之外的想法。对于图像来说,它表示一个图像除了通常的指称(例如表示WordNet类别的视觉对象)之外,还可以用内涵(例如抽象意义)来描述。从逻辑和语义的角度来看,内涵是指内涵[5]。图1显示了示例图像-推文对,其中通过增加内涵和指称来解释图像-推文对时与其余部分相比更好。很明显,在社交媒体平台上发现的复杂图像添加内涵是有益的。然而,目前的大部分研究通常只集中于构建仅处理指称并且仅从图像中学习的视觉模型。01 https://www.flickr.com/ 2不要与“意图”混淆。 3https://clarifai.com/0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂3800内涵0指示0移民0旗帜,国家0指示0公投0商业,领导者0移民0图1:从图像-推文对中获取的内涵增强了对“意图”的理解。红色框表示在图像-推文对中观察到的地面真实“意图”。指示仅从商业图像中捕获。0因此,在本文中,我们的目标是通过利用大规模数据来增加标签的多样性。通常,标准的网络规模图像数据集(例如YFCC100M[30])具有较短的文本上下文并且只提供指示。然而,只有从更大的文本上下文中才能获得内涵。因此,我们的第一个目标是获取提供这种上下文的图像-文本数据。具体而言,1)我们利用Twitter4来收集提供这种上下文的弱监督图像-推文对数据。由于在Twitter规模上手动注释图像-推文对是繁琐的,我们利用语义注释和消歧方法[3]生成内涵。2)其次,我们利用基于嵌入模型[13,33]的架构来捕捉图像-推文和内涵之间的相关性,通过学习它们的共同空间表示。此外,对于任何给定的输入图像-推文,根据内涵和图像-推文嵌入之间的点积对内涵进行排序。3)最后,我们的模型的副产品用于执行跨模态检索,以与其他类似方法进行比较其有效性。我们相信,这项工作将为利用社交媒体数据实现各种视觉任务提供一个新的方向,而无需人工标注。在本文的其余部分,第2节介绍了相关工作,第3节描述了我们从图像-推文对中学习特征的方法,然后学习内涵模型以对内涵进行排序。此外,实验设置第4节介绍了数据集和评估指标的基本情况,而实验结果则在第5节中呈现,最后是结论和未来工作。02 相关工作0我们的相关工作可以从许多紧密相关的领域中得出。04 https://twitter.com/02.1 使用网络监督学习对图像进行标注0长期以来,人们一直对从网络中挖掘视觉数据感兴趣[6]。许多方法[34]专注于通过利用从人类监督创建的数据集中构建的预训练模型来清理网络数据,或者旨在直接从中自动发现隐藏模式以训练模型[39]。我们的工作也专注于后一目标,并有意解决在这种情况下建立有效模型时涉及的噪声问题。已经有一些方法[35]在学习视觉模型时处理了类似的挑战。然而,与他们不同的是,我们不直接学习视觉表示模型(例如CNNs [16,28]),因为我们理解使用带有噪声标记数据的CNN仍然是一个未解决的问题。但是,我们利用多模态数据来解决这个挑战。此外,前述方法仅使用每个图像的单个标签,而我们预测每个图像的多个标签。02.2 图像和文本的跨模态检索0跨模态检索图像和文本是一个紧密相关的研究领域。在过去几年中,已经提出了许多关于图像和文本形式(如短语、句子和段落)的跨模态检索的方法。这些早期提出的方法大多属于子空间学习方法,它们学习跨模态数据的共同空间,在其中使用不同的距离度量来衡量模态之间的相似性。存在许多这样的子空间学习方法,例如典型相关分析(CCA)[23]等。然而,子空间学习方法通常容易受到扩展挑战的影响。为了克服这些问题,提出了基于概率图模型(PGM)的方法,例如对应潜在狄利克雷分配(Corr-LDA)[2]及其变体。然而,这些方法也面临着缺点,因为精确推理通常是难以处理的,必须依赖于近似推理方法,如变分推理、期望传播或吉布斯采样。基于深度神经网络的方法通过设计能够适应大规模数据并避免难以处理的推理问题的强大技术,克服了子空间学习和PGM模型中观察到的挑战。诸如深度受限玻尔兹曼机(DeepRBM)[29]、深度典型相关分析(DCCA)[1]、对应自动编码器(Corr-AE)[12]和深度视觉-语义嵌入[13]的方法使用多模态输入来学习共同空间的表示。我们的方法与深度学习方法家族保持一致,并且与视觉-语义嵌入方法相近。然而,我们的模型目标更大,我们旨在通过利用每个多模态对的共同空间来预测多个标签。02.3 标签预测0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂authors sentiment or comprehension on a particular topic. How-ever, they are usually illustrated with n-grams or abbreviations andsometimes difficult to interpret when compared with semanticallyenriched connotation labels.Nevertheless, initially several approaches have leveraged deepneural networks to build their models only with social media text(e.g. Tweets) for prediction or recommendation. However, theseapproaches pursued different paths to achieve their goal. Westonet al., [33] composed semantic embeddings from hashtags, whileDhingra et al. [10] utilized character-based embeddings and Gonget al., [15] used attention-based CNN. Only recently, using hashtagsfor image tagging was explored. Denton et al. [9] proposed a 3-waymultiplicative gating approach, where the image model is condi-tioned on the user metadata on Facebook dataset. While, Park etal. [24] Context Sequence Memory Network (CSMN) model mainlybuilt for personalized image captioning to predict hashtags on In-stagram dataset. However, none of the aforementioned approachesleveraged multimodal social media data for utilizing larger contexts.Also, none of the hashtags were semantically enriched for betterinterpretation.д(Φ(I),Ψ(T )) = W Φ(I) +WΨ(T )minθ1NNn=1l(f (д(Φ(In),Ψ(Tn)),EY;θ),Yn) + λ||θ||22(2)lprl =�ˆy�Yi�y Yimax(0,α + f ˆy (·) − fy (·))(3)lwarp =�ˆy�Yi�y ∈Yiw(ryi )max(0,α + f ˆy (·) − fy (·))(4)Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France38103 方法0让S={(Ij,Tj),Yj}Nj=1成为我们的数据集,其中(Ij,Tj)是第j个图像-推文对,Yj�Y是自动提取的相应内涵0内涵集,其中Y∆={1,2,,K}是所有可能内涵的集合。每个图像-推文可以有不同数量的内涵(Ij,Tj)=|Yj|。我们的目标是学习一个排名模型R(I,T,Y),它计算所有内涵的置信度分数,以对给定的图像-推文对的相关内涵进行排名。我们进一步将R(I,T,Y)=f(g(Φ(I),Ψ(T)),Ey)分解为EY∈Rd×K表示内涵标签嵌入矩阵,g(Φ(I),Ψ(T)):RI×RT→Rd表示计算模型,用于将推文偏差添加到图像表示中。此外,f(g(Φ(I),Ψ(T)),Y):(Rd,Rd)→RK计算g(Φ(I),Ψ(T))和内涵嵌入矩阵EY之间的点积,以找到相关内涵Y的置信度分数。现在,我们采用卷积神经网络(CNN)[16]用于图像表示(Φ(I)),采用字符级长短期记忆(charLSTM)[17]用于推文表示(Ψ(T)),以及一种用于学习R(I,T,Y)模型的新型损失函数。接下来,我们提供排名模型R(I,T,Y)的各个组成部分的详细信息。03.1 图像-推文双线性模型0图像-推文双线性模型的目标是计算g(Φ(I),Ψ(T))。首先,我们介绍用于从图像(I)和推文(T)中提取特征表示的架构,即Φ(I)和Ψ(T),然后是双线性模型。03.1.1推文表示。推文(T)是最多140个字符的序列,具有固有的语义和句法含义。将推文编码为嵌入向量(RT)可以概括整个推文的组合结构。因此,我们建议利用charLSTM即Ψ(T,Θ)为每个推文构建嵌入,其中Θ表示charLSTM的参数。最初,推文中的字符0按顺序读取,以进一步作为输入提供给charLSTM编码器,将推文编码为一个RT向量。03.1.2图像表示。将图像(I)表示为固定向量(RI)。我们使用在ImageNet类上预训练的CNN作为特征提取器,即Φ(I),从原始图像中获取图像嵌入。图像向量的维度为RI,从网络的最后一个全连接层提取而来,不包括顶部的Softmax层。03.1.3推文偏置图像表示。图像和推文表示属于两个不同的特征空间,没有共同的表示。为了关联图像和推文表示,图像-推文双线性模型通过在图像嵌入中添加一个推文相关的偏置项,提供了一种利用推文信息的简单方法。具体而言,推文偏置图像嵌入g( Φ( I ) , Ψ( T ) ): R I × R T → R d 由方程1定义。0其中 W I ∈ R I × d 和 W T ∈ R T × d是图像和推文的参数矩阵。03.2 内涵多模态嵌入模型0内涵多模态嵌入模型(CMEM)用函数f(g( Φ( I ) , Ψ( T ) ), E Y ; θ )∈ R K 表示,它学习了内涵嵌入矩阵( E Y)和推文偏置图像表示( д (Φ( I ) , Ψ( T )))的联合嵌入空间,以对内涵进行排名。图2展示了整体模型。为了学习f( ∙ ) ∈ R K的参数,使用方程2给出的损失函数(l)求解了一个优化问题。0其中 θ是CMEM的参数。此外,我们设计了损失函数(l),以便利用大型数据集,并强制f( ∙)生成的结果对于任何给定的图像-推文对来说,真实内涵的值大于负面内涵的值。特别是,成对排名损失(PRL)[4]适合这样的标准,如方程3所示。0其中 ˆ y 表示给定正面内涵 y 的负面内涵,alpha是表示边界的超参数。然而,l prl并非在任何地方都光滑,因此很难进行优化。因此,对于CMEM,我们提出了探索三种不同损失的建议,这些损失提供了比l prl更好的理论保证,并且更容易进行优化。接下来,我们首先介绍基于成对排名损失的两种现有技术(即WARP [32]和LSEP[20]),然后介绍我们提出的损失函数。03.2.1加权近似排名对比(WARP)损失。Weston等人[32]通过在违规上添加权重,扩展了方程3中提供的成对排名损失,得到了加权近似排名对比(WARP)损失,如方程4所示。CNNhtѰ(T)Φ(I)WTXWIX.............f(.)RdRd+llsep = loд 1 +�ˆy�Yi�y Yiexp(f ˆy (·) − fy (·))(5)lplsp = loд 1 +�ˆy�Yi�y Yiexp� min(f ˆy (·) − fy (·),s)max(f ˆy (·) − fy (·),−s)�(6)5https://trends.google.com/trends/6https://developer.twitter.com/en/docs/tweets/search/overview/basic-searchTrack: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France3820移民0公投0股票市场0推文 (T)0图像 (I)0字符LSTM0嵌入0内涵嵌入0矩阵0内涵0图2:内涵多模态嵌入模型及其不同组成部分。R d 表示与内涵嵌入维度一致的图像-推文对的最终d维表示。⊙ 表示逐元素乘积。0其中 w( ∙ ) 表示单调递增函数,r y i 是正面内涵 y的预测排名。直觉上,如果正面内涵的排名较低,则违规应该受到更高的惩罚。然而,由于其非光滑性,它在任何地方都不可微分,使得优化困难。03.2.2 对数和指数对偶(LSEP)损失。为了解决l prl和lwarp等不平滑、适应性边界等问题,Li等人[20]通过修改指数对偶排名损失(lepl)[38]提出了对数和指数对偶(LSEP)损失,其由方程5给出。0LSEP预计通过允许每个样本对适应性边界和使其在任何地方平滑来提供灵活性。此外,LSEP不使用权重函数w(∙),因为它预计具有隐含的权重效果,以更严厉地惩罚排名较低的积极内涵。尽管如此,LSEP具有许多优点,例如它可以与负采样技术[14]线性扩展词汇量,并提供更好的数值稳定性。然而,它仍然缺乏两个关键能力。(1) llsep不是α-凸[25]。这意味着我们无法对梯度下降的收敛时间设定上限。然而,它通过正则化部分缓解了这个问题。(2) llsep使用logisticloss的变体,因此对数据中的异常值敏感,并为它们分配较大的损失值。我们的提出的惩罚-逻辑和总和对偶(PLSP)损失旨在克服这些挑战。03.2.3惩罚-逻辑和总和对偶(PLSP)损失。从前面的部分可以理解,基于变体的hinge loss(例如l prl,l warp)、指数损失(例如lepl)和逻辑损失(例如llesp)的对偶排名方法。我们提出的方法是截断逻辑损失的变体,预计在鲁棒性和对异常值的敏感性方面是α-凸的。方程6显示了l plsp。0损失函数 l plsp。0其中s < 0表示截断位置。lplsp的一个重要特性是指数中的分母值不能变得极小,因为它受到s的下界限制。同样,方程的分子不能变得极大。因此,lplsp对异常值的噪声具有鲁棒性,并且由于指数函数在任何地方都平滑。04 实验设置 4.1 数据集0在本节中,我们介绍了一种名为TwitterBrexit的新数据集,该数据集是从Twitter收集的。04.1.1数据集采购。在接下来的内容中,我们介绍了数据集创建中涉及的各个阶段。推文收集是特定于一个领域的,即我们的情况下是英国脱欧。这样做是为了减少收集中的噪声,并确保可解释的内涵集。否则,我们将得到随机分布的标签,并可能导致无法解释的结果。最初,我们使用Google趋势获得了种子主题词。50在2015年5月至2016年5月期间搜索Twitter。然后,使用Brexit、移民、种族主义、特蕾莎等主题词作为Twitter搜索API6的查询,以收集推文。这个步骤被迭代多次,直到获得一长串推文。进行推文修剪以获取仅具有相应图像的推文。我们发现只有25%的推文附带有图像。进一步修剪图像-推文pairs is again processed to eliminate junk, tweets without words,English only tweets and duplicates.Accuracy = 1|q||q |j=1|Xj�Yj ||XjYj |(8)HL =1|q|N|q |j=1Nl=1[F (l ∈ Xj ∧ l � Yj ) + F (l � Xj ∧ l ∈ Yj )] (9)Cov = 1|q||q |j=1max(rank(Xj )) − 1(10)38304.1.2数据集的特殊性。本文介绍的新数据集在以下几个方面与其他类似数据集相比具有独特性,并且在处理时也具有挑战性。首先,数据集是从社交媒体平台收集的。因此,通常使用的语言将是非正式的,包括语法错误和大量的词汇。然而,还有其他有助于突出图像-推文对中的信息的特征,例如标签。其次,图像和推文之间的关联通常是松散连接的。因此,它们是弱监督的。第三,数据集适用于大规模训练,并可用于测试多标签分类器的鲁棒性。04.1.3概念的创建。为了获取集合中图像的概念,利用与图像对齐的文本。从社交媒体文本中提取意义或提取意图的常见策略是使用语义增强工具对其进行注释。获取的概念被视为对文本中存在的内容的简要总结。因此,概念还支持更好的信息解释。我们利用语义注释和消歧工具[37]获得这些标签。由于这些标签是从与图像对齐的文本中获取的,因此也期望标签能够描述图像。然而,它们不适合直接学习图像识别模型。因为它们是自动提取的,没有人工监督,因此可能会引入噪音。总共,数据集包含约30k个不同的概念标签。每个推文的平均标签数为2.3,标准差为1.3。大部分标签描述图像的内容,有许多同义词。其他标签描述抽象的含义,代表图像内容中可能的意图(例如经济学,仇外心理)。数据集中标签的分布远非均匀:前10个标签占总数的47%,其中约27k个标签在整个数据集中出现不到10次。很难预测不常见的标签,因此我们限制了在数据集中至少出现25次的前1387个标签,以创建一个平衡版本的数据集。图3显示了示例注释,而图4展示了整个数据集中排名前50的常见标签。总的来说,我们的0OCR 抽象0种族主义0联合0王国0股票市场0金融市场0欧洲0并集0图3:不同变体图像的示例概念标签。例如,“OCR”变体表示包含文本的图像,“抽象”表示接近现实世界实体的概念。0该数据集包含大约160,004个用于训练的图像-推文对,10,000个用于验证,以及10,220个用于测试。04.1.4数据集的应用。我们主要利用该数据集进行多标签预测。然而,我们还展示它对于跨模态检索也很有用。04.2 评估指标0为了衡量发现图像的概念标签的有效性,我们使用不同的度量标准,如召回率、多标签准确率、汉明损失[11]和覆盖率。04.2.1 召回率@k (R@k)。衡量每个测试图像-推文对中排名前 k的相关概念标签的比例,由公式 7 给出。0准确率 = 10| q0| q| �0j = 10| X j � Y j | | Y j | (7)0其中 X j 表示预测的正确标签,Y j 表示第 j 个查询的真实标签。04.2.2 多标签准确率@k (ML-A@k)。衡量在给定图像查询中排名前 k的预测正确标签占总体真实标签数量的比例。整体准确率由公式 8给出。0准确率值越高,性能越好。04.2.3汉明损失(HL)。衡量一个实例与类标签的相关性被错误预测的平均次数。汉明损失同时考虑了预测错误(即预测错误的标签)和缺失错误(即遗漏了相关标签),并通过公式9对总类别数和示例数进行归一化。0其中F表示指示函数,l表示语义标签。在实践中,汉明损失值越小,性能越好。04.2.4覆盖度。评估需要平均遍历标签排序列表多少次才能覆盖样本的所有相关标签,由公式10给出。0覆盖度值越小,性能越好。05 实验 5.1 实现0如前面所讨论的,我们的CMEM的重要组成部分包括CNN、charLSTM、内涵嵌入和损失函数。对于图像表示,我们使用了两种不同的CNN模型,主要是在ImageNetILSVRC数据集上预训练的VGG16[28]和ResNet50[16],从网络的最后一个全连接层提取了维度为4096和2048的特征,没有使用顶部的Softmax层。对于charLSTM,0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂7http://wiki.dbpedia.org/8https://github.com/idio/wiki2vecFigure 5 shows average precision-recall (PR) curves that allowus to comprehend the effect of label prediction. It can be perceivedthat our CMEM-plsp outperforms others suggesting the robustnessof our lplsp loss with CMEM when compared to other baselines.Figure 5: Average Precision-Recall Curve5.2.3Quantitative Analysis (Cross-modal Retrieval). A naturalconsequence of CMEM is learning of parametersWI andWT . Duringlearning, both of them are updated jointly when optimized w.r.tconnotations. Hence, they inherently share correlation betweenimage and tweets.In this section, we evaluate their effectiveness with image queryfor tweet retrieval and compare them with standard subspace learn-ing methods such as canonical correlation analysis (CCA) and itsvariants (i.e. regularized CCA (RCCA) ) using Mean rank. We alsoexplored other representations for the text such as latent Dirichletallocation (LDA) [2]. The LDA model is trained with 50 topics torepresent each tweet with 50-dimensional LDA feature by the topicassignment probability distributions. Table 2 shows the comparisonof different approaches for image to tweet retrieval.5.2.4Qualitative Analysis (Label Prediction). Figure 6 presentssample results attained with CMEM using different loss functions.Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France3840图4:前50个常见标签及其分布。0我们使用Glorot均匀分布初始化了512维的字符嵌入。从语义丰富器中获取的内涵是维基百科标题(即概念),这些概念也在DBpedia7中观察到。因此,我们利用wiki2vec8获得了256和512维的概念嵌入。现在,使用Adam优化器[18]对CMEM进行训练,梯度裁剪的最大范数为1.0,训练10个时期。方程式2中的正则化项的权重衰减λ设置为5e-5。05.2 结果与讨论05.2.1基线。我们根据使用不同损失函数的CMEM设计了基线。例如,CMEM-warp表示我们使用WARP损失的CMEM。05.2.2定量分析(标签预测)。为了进行评估,我们利用了第4.1节中提到的TwitterBrexit数据集。根据召回率(R@10)、准确率(ML-A@10)和汉明损失(HL)等指标对不同方法进行评估。表1显示了所得到的结果。我们可以注意到,与所有其他模型相比,CMEM-prl表现较差。然而,当只比较CMEM-warp和CMEM-lsep等高级模型时,可以观察到CMEM-lsep在召回率和准确率上优于CMEM-warp。然而,对于汉明损失,似乎没有显著差异。这可以归因于使用lsep进行更好的优化。此外,我们可以看到,使用我们提出的损失函数CMEM-plsp在准确率、召回率和汉明损失方面表现出色,与其他基线相比。结果还表明,我们在CMEM中提出的损失对异常值特别稳健,并且能够在召回率和准确率上取得显著的增益。此外,还可以对内涵嵌入的视觉特征和维度进行更多观察。ResNet50比VGG16表现更好,而具有更大维度的内涵嵌入比具有较小维度的内涵嵌入表现更好。Loss FunctionConnotation EmbeddingsCNN ArchitectureR@10ML-A@10HLCovCMEM-prl256VGG1618.1135.420.41612.61ResNet5018.1735.840.41212.54512VGG1618.8436.100.40812.46ResNet5018.9036.540.40612.44CMEM-warp256VGG1618.9536.690.40612.37ResNet5019.0236.780.40412.38512VGG1619.1037.800.39612.26ResNet5019.2438.240.38912.10CMEM-lsep256VGG1619.2238.150.39012.14ResNet5019.3038.840.38212.09512VGG1619.4439.160.37411.98ResNet5019.5139.400.37111.93CMEM-plsp (ours)256VGG1619.5439.840.36911.88ResNet5019.6340.050.36811.85512VGG1619.6340.080.36811.84ResNet5019.6840.260.36611.79Table 1: Connotation Label prediction Results on TwitterBrexit. R@10, ML-A@10 represent percentages (%). Bold denote best,while underline represent second best.Image → Tweet RetrievalMeasuresMethods102030405060708090100Mean RankCCA-LDA5371557056275767577957535774577057525766RCCA-100-LDA4902508352245303531253095312530653045315RCCA-1000-LDA48735060520352605269526752725262102635275CCA-charLSTM3616398941304347440945154572462746614690RCCA-100-charLSTM3637396541254328439745044565461346504682RCCA-1000-charLSTM3708390941814377445145514615464946834719CMEM-prl2618298631243341340335093562361736523688CMEM-warp2627295931123318338135023551360336413672CMEM-lsep2608289831013277331134813515354935833619CMEM-plsp2588290831213227328634963488352935753596Table 2: Mean rank (lower the better) using different percentage (%) of image queries for retrieval. RCCA-* represent differentregularization (100, 1000). Underline represents second best. All results are reported using ResNet50 as image features.9https://clarifai.com/3850可以看出,与仅使用从图像中捕获的指示相比,提取的内涵更好地表达了图像-推文对的意图。06 结论和未来工作0在本文中,我们提出了一种通过利用弱监督的图像-推文数据自动提取图像的内涵作为标签的方法。我们展示了该方法在许多新类别上的可扩展性,并且可以支持Web场景中所需的大规模图像识别。未来,我们的目标是将该方法扩展到不同的领域,并检查其泛化能力。此外,我们还希望解决其他问题,如标签之间的相互依赖性和稀疏性。0参考文献0[1] Galen Andrew, Raman Arora, Jeff Bilmes, and Karen Livescu. 2013.深度典型相关分析. In International Conference on Machine Learning . 1247–1255.0[2] David M Blei and Michael I Jordan. 2003. 建模注释数据. In Proceedings of the26th annual international ACM SIGIR conference on Research and development ininformaion retrieval . ACM, 127–134. [3] Kalina Bontcheva and Dominic Rout. 2014.通过语义理解社交媒体流. 语义网 5, 5 (2014), 373–403. [4] Zhe Cao, Tao Qin, Tie-YanLiu, Ming-Feng Tsai, and Hang Li. 2007. 学习排序: 从成对方法到列表方法. InProceedings of the 24th international conference on Machine learning . ACM,129–136. [5] Rudolf Carnap. 1988. 意义和必然性: 语义学和模态逻辑研究 .芝加哥大学出版社. [6] Xinlei Chen and Abhinav Gupta. 2015. 网络监督学习卷积网络. InProceedings of the IEEE International Conference on Computer Vision . 1431–1439.[7] Xinlei Chen, Abhinav Shrivastava, and Abhinav Gupta. 2013. Neil:从网络数据中提取视觉知识. In Proceedings of the IEEE International Conference onComputer Vision . 1409–1416. [8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, KaiLi, and Li Fei-Fei. 2009. Ima- genet: 一个大规模的分层图像数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功