没有合适的资源?快使用搜索试试~ 我知道了~
9769用于开放词汇图像主题标签预测的学习用户表示蒂博·杜兰德北极光AI西蒙弗雷泽大学thibaut. borealisai.com摘要在本文中,我们介绍了一种用于图像主题标签预测的开放词汇模型最近的工作表明,为了建立准确的主题标签预测模型,由于自我表达问题,有必要对用户进行建模,其中相似的图像内容可能被标记为不同的标签。考虑到用户的行为,我们提出了一个新的模型,提取一个代表性的用户基于他/她的图像历史。我们的模型允许改进,证明用户表示新的图像或添加一个新的用户,而无需重新训练模型。由于社交网络上不断出现新的主题标签,我们设计了一个开放的词汇表模型,它可以处理新的主题标签,而无需重新训练模型。我们的模型学习了用户条件视觉表示和标签词表示之间在YFCC 100M数据集的一个子集上的实验证明了我们的用户表示在用户条件标签预测和用户检索中的有效性。我们进一步验证了我们的模型的开放1. 介绍理解图像的内容是一项基本的和具有挑战性的计算机视觉任务,因为图像可以包含各种语义概念,并且语义概念可以具有不同的视觉外观。描述图像中视觉概念的词汇量非常大,并且有必要超越标准分类数据集中使用的语义类别(例如,COCO [31],ImageNet[36]),其专注于具有精确物理描述的一小部分类别此外,这些数据集的注释独立于拍摄照片的用户,并且忽略了情感/主观概念,如乐趣或快乐。主题标签问题作为图像理解的一般问题的透镜,因为用户的意图与图像内容不可分离。带有主题标签的图像可以大量使用-图1.概述了所提出的用于主题标签预测的用户条件联合嵌入模型。首先,从用户历史中提取用户表示(黄色)。然后,该模型计算用户条件图像表示(绿色),该用户条件图像表示被投影到具有#street(红色)的主题标签表示的联合嵌入空间社交网络的原因,但主题标签本质上是主观的,因为它们是由用户作为一种自我表达的形式提供的[43]。因此,主题标签可能具有同义词(不同的主题标签指代相同的视觉内容)并且可能是模糊的(相同的主题标签指代不同的视觉内容)。这种自我表达导致独立于图像内容的主题标签监督中的用户特定变化,并且因此限制了标准图像分类方法的有效性。为了克服这个问题,[43]引入了一个用户特定的模型,该模型模拟图像,主题标签和用户的联合分布,而不是标准图像分类模型中的图像-主题标签对。但这种方法有两个主要局限性:它不能在不重新训练模型的情况下处理新用户或新主题标签。为了处理新用户,我们提出了一个新的模型,从他/她的图像历史中提取用户的表示(图1的左上角)。给定一个用户,我们的模型只使用来自用户历史的图像及其相应的主题标签我们的方法是归纳的,可以提取一个新用户的表示,而无需重新训练模型。我们模型的另一个优点是,9770它构造动态(时变)用户表示,因此如果来自该用户的新图像可用,则它可以容易地改进该用户的表示。然后,将用户表示(黄色)与图像表示(蓝色)融合以计算用户条件图像表示(绿色)。与现有的图像主题标签预测模型不同[12,43]或文本[47,13],我们提出了一个开放的词汇主题标签预测:我们的模型可以概括和映射在训练时没有看到的新概念。开放词汇表模型很重要,因为社交网络在不断发展:用户的兴趣可以快速改变,并且新的主题标签频繁出现。我们的模型使用预训练的单词嵌入来表示连续语义空间中的每个主题标签(图1中的红色),然后将主题标签表示投影到具有用户条件视觉表示的联合嵌入空间中。连续的语义嵌入空间比使用单独的分类器更合适,因为它可以在同义标签之间共享知识类似地,它可以处理长尾分布问题(不一致的主题标签)和看不见的主题标签,因为它可以在主题标签之间共享信息。我们证明了我们的模型是可扩展的,可以处理55万个标签的词汇最后,我们的方法是对称的,可以用于图像到标签和标签到图像检索。总之,我们的贡献有三个方面。(1)提出了一种从用户的图像历史中提取用户表征的新模型。这种方法允许处理新用户或使用新图像改进用户表示,而无需重新训练模型。(2)我们引入了一个基于预训练词嵌入的开放词汇模型,可以处理训练过程中不常见的主题标签和未见过的主题标签。(3)实验表明,图像历史可以用来提取有效的用户表征。我们调查我们的用户表示为用户特定的图像标记和用户检索的功效。我们还评估了我们的模型概括预测的能力训练时看不到的标签2. 相关工作使用用户表示的图像标记。 最近的工作[12,43]表明,由于自我表达问题,对用户进行建模对于分析带有主题标签的图像很重要。Denton等人[12]引入了利用用户元数据(年龄,性别,GPS坐标和国家)的用户表示。即使这种用户表示可以处理地理域转移[38](在不同地理位置拍摄的图像中,相同的对象语义类别可能看起来非常不同),它也不能完全表示用户,因为这些用户元数据的信息量不足以完全捕获用户行为。另一个限制是,并不总是能够访问用户元数据。为了解决这个问题,Veitetal. [43]建议根据图像和相应的主题标签学习每个用户的嵌入然而,学习每个用户的嵌入仅限于转换设置;不适用于新用户。在本文中,我们提出了一个模型,可以捕捉用户的行为和处理新用户,而无需重新训练的模型。我们的模型通过仅利用来自他/她的图像历史的具有其对应的主题标签的图像来提取用户的表示我们的模型还可以使用新图像来改善用户表示,而无需重新训练模型。请注意,[47,23]也解决了主题标签预测的问题,但没有对用户进行建模。视觉识别的条件模型。我们的工作是与视觉识别的条件模型。最流行的例子可能是视觉问题回答(VQA)任务[19,25,49,14],其中输入图像是由问题决定的。最近,[39]提出了一个模型,通过对给定的风格和个性特征的输入图像进行条件化来进行个性字幕任务。而[39]使用一个加法来融合视觉和个性表示,我们使用一个双线性乘积,就像大多数VQA模型一样,来融合视觉和用户表示。我们的模型还与条件相似性网络[42]相关,该网络学习区分为语义上不同的子空间的嵌入,以捕获不同的相似性概念然而,该模型只能处理固定数量的相似性。开放的词汇。标准图像分类模型[28,22]不适合开放词汇预测,因为类通常在训练之前是固定的,并且模型被设计为在给定图像的这些类之间进行预测。[18]介绍了一种无词汇表的图像标记模型,该模型使用图像搜索引擎为词汇表中的每个标签收集图像,但它无法处理训练后的新标签。处理新类别的策略是使用零次学习(Zero-Shot Learning,简称ZRL)模型[29,30]。基于在训练期间提取的知识,在某些类别上学习并在其他类别上测试CNOL模型[35]。一个更现实的场景 是 通 用 化 的 零 次 学 习 ( Generalized Zero-ShotLearning)[9,48],其中在测试时存在可见和不可见的类。许多GML/GML模型[30,17,2,3,50,1,7,48,45]学习视觉空间和语义空间(属性,文本描述)之间我们的模型类似于[17],但主要区别在于[17]是为单标签对象分类而设计的,而我们的模型适用于具有大量不同主题标签集的多标签分类,这些标签集可 以 表 示抽 象 概 念 , 如乐 趣 。 Another im- portantdifference is that [17] preprocesses the labels based on theWordNet hierarchy to clean the vocabulary and avoidsynonyms whereas our model works for hashtags in the wildwithout this preprocessing.9771J不多模态嵌入。在过去的几年里,许多使用视觉文本嵌入的模型[27,20,46,37,16,15,8,39,44]已提出了几个应用程序。今天,大多数在文本和图像之间构建跨模态嵌入的方法都使用三重丢失[27]。虽然原始的三重态损失平均在迷你批次中的所有三重态上,[16]引入了硬负采样,因为平均策略可能导致梯度消失,因为随着优化的进行,大多数三重态倾向于对误差贡献较小。[16,21,15]通过在损失中使用硬负值然而,硬负三重态损失对噪声/异常值敏感,并且在学习过程开始时需要几个时期来“预热”,因为当许多三重态违反约束时,最近,[8]引入了一种自适应策略,可以自动调整丢失中这些三元组丢失对于标题检索这样的任务工作得很好[16],因为三元组的数量是小批量的大小,但它们对于我们的任务来 说 是 不 可 扩 展 的 , 因 为 hashtag 词 汇 太 大 了(>400k)。对于多标签设置,复杂性加剧,因为每个示例可以是多个主题标签的正面示例。[21]表明随机抽样一些三胞胎是没有帮助的,因为大多数三胞胎不会造成损失,因此不会改善模型。此外,很难定义负面的例子,因为标签有同义词。3. 模型我们的目标是学习一个用户特定的主题标签预测模型。我们的模型使用用户图像历史来计算用户表示,因此它可以处理新用户。我们首先提出了我们的模型,从图像历史中提取用户表示,然后我们的用户条件联合嵌入模型用于开放词汇标签预测。符号。我们用U={u1,. . . .,uU} U个用户的集合和K个主题标签的词汇表,{h1,. . .,hK}。 在开放式词汇设置中,用于训练的主题标签词汇表是用于测试的主题标签词汇表的子集,即,H训练H测试=H,而在固定词汇设置(图像分类的标准设置)中,主题标签的词汇是训练和测试也是如此,即,H列车=H试验=H。对于每个用户u,我们可以访问一个按时间1排序的列表,其中包含Nu个图像及其相关的主题标签:I<$(u)=[(I( u ) ,H( u ) ), . -是 的-是 的,(I( u ) ,H(u))],其中I(u)是图像模型概述。我们将我们的问题定义为基于推断主题标签的自动图像标记,以图像I和用户u为条件。在训练期间,我们的目标是学习模型f,该模型f输出以图像I和用户u为条件的标签y i上的概率分布:p(yi=1|I,u;Θ)=f(I,u,yi;Θ)(1)其中Θ是模型的整个参数集我们的方法的一般架构如图1所示。我们的模型首先从用户的图像历史中提取用户的表示然后,这些表示被融合以计算用户条件图像表示(绿色向量)。最后,模型学习用户条件图像表示和主题标签表示(红色向量)之间的联合嵌入。3.1. 用户表示我们模型的一个关键组成部分是用户表示,因为主题标签本质上是主观的,取决于用户。为了提取用户的表示,我们建议利用他/她的图像历史。我们的方法允许提取一个新用户的用户表示只利用图像历史,而无需重新训练模型。提取良好的用户表示是一个具有挑战性的问题,因为用户表示应该对关于用户的一些信息进行编码,例如所使用的主题标签(每个用户仅使用基于感兴趣的主题的主题标签的小子集)、语言(英语、西班牙语、法语等)、而且图像和主题标签之间的相关性。我们现在解释我们的方法来提取用户表示,它在图2中示出。给定用户u,我们作为-我们知道他/她的图像历史(或子集)I(u)。此后,为了清楚起见,我们忽略了u符号因为我们只考虑一个用户。为了预测第T张图像的主题标签,我们使用T-1张过去的图像及其对应的主题标签来提取用户表示u1:T-1∈Rdu。该模型首先提取用户历史中每个图像-主题标签对的表示。然后,它将这些表示与门控递归单元(GRU [10])聚合以计算用户表示。图像标签表示。目标是计算每个图像-主题标签对的矢量表示我们首先使用ConvNet文件为用户历史中的每个图像提取视觉表示:11Nu Nuj并且H(u)= H是第j个图像的非空主题标签集合。每个图像都与一个唯一的用户相关联,我们xim=fim(It)∈Rdi汽车旅馆(2)使用不相交的用户集进行训练和测试。1这个约束可以通过使用在社交网络上的上传时间来满足。类似地,我们计算与每个图像相关联的主题标签的表示。我们首先为每个hashtag提取一个单词表示(第3.2.2节),然后求和9772不tt图2.我们的开放词汇表模型用于主题标签预测,其中用户表示是基于用户历史提取的每个主题标签表示具有固定大小的表示,并且最后我们学习非线性映射f标签:用户历史。为了考虑图像的时间信息,我们使用门控递归单元[10]:xtag=ftag(yt)∈Rdt, ytΣ=(y) 汽车<旅馆(3)y∈Htht=fGRU(xt,ht-1)<$tT(5)其中ht是步骤t处GRU的隐藏状态,<其中,R(y)∈Rdw是哈希标签y的预训练的单词嵌入。如果一个主题标签是由几个词组成的,我们将每个词的表示相加。(黑+白)=如果一个标签没有一个词的代表,它是可能的近似它由我们-一些代数性质。预训练的词嵌入被用作辅助信息以在主题标签之间共享信息,使得从可见的主题标签学习的知识可以被转移到不可见的主题标签。它还允许处理长尾分布问题,因为它可以将知识从数据丰富的头部转移到数据贫乏的尾部标签。在我们的实验中,我们使用GloVe [34],但我们的模型适用于任何单词嵌入(例如,[33、47、6])。请注意,这些词嵌入不需要额外的监督,因为它们是从大型文本语料库中以无监督的方式学习的。最后,我们聚合图像和主题标签表示来计算每个图像-主题标签对的表示:xt=fusion(xim,xtag)融合T(4)我们使用元素级产品来融合这两种模式。在第4.2节中,我们分析了几种融合算子,并观察到融合算子的选择很重要。用户代表。目标是在给定特征集的情况下计算固定大小的用户表示u1:T−1{xt}t=1,.,T-1表示每个图像-主题标签对,h0=0。GRU将可变长度序列转化为平均值-简单的固定大小的表示。最后一个隐藏状态hT−1被用作用户表示u1:T−1。为了聚合图像主题标签表示,可以使用任何池化函数(例如,最大值,平均值),但我们的实验表明,考虑到时间信息IM-证明了性能。此后,我们使用所有先前的图像作为用户历史,并且为了清楚起见,我们用u表示用户表示。请注意,可以用其他时间模型(如TCN [4])代替GRU3.2. 用户条件联合嵌入模型我们现在介绍用户条件联合嵌入模型。给定图像和用户表示,我们的模型首先计算用户条件图像表示,然后学习用户条件图像和主题标签表示之间的联合嵌入。3.2.1用户条件图像表示首先将图像I和用户u分别嵌入到向量v和u我们使用ConvNet来提取图像视觉内容的固定大小的向量表示v∈Rdv 我们使用的ConvNet与Con-vNet在用户模型中使用,因为这两个网络有不同的目标(表示图像与表示用户)。通过实验,我们观察到使用分离网络可以提高性能。然后,使用双线性运算器融合图像和用户表示v和u,以产生用户条件图像表示9773nCnz∈Rdc。双线性模型是特别用于计算机视觉以捕获多模态相互作用的强大解决方案[12,19,25,43]。双线性模型更精确,我们的了给定用户u和图像In,后验主题标签概率为:比直接的级联、元素级乘积或元素级求和更有意义,定义如下:p(y)|I,u;Θ)=θexp(f(I,u,y);Θ)y∈Htrainexp(f(I,u,y;Θ))(八)zj=vTWju+bjj∈{1,. -是的-是的,dc}(6)dv×d u概率分布仅在训练期间已知的主题标签(H训练)上计算。在[24,43]之后,我们从以下随机均匀地选择单个主题标签y(u):其中Wj∈R是权矩阵,bj∈R是n(u)第j维的偏差 z =[zj]j=1,.,是作为每个图像的目标类的主题标签集合H的输出。 所有的双线性模型,并表示图像-用户对。我只为自己,只为自己,只为自己。需要学习张量W =[Wj]j=1,.,Dc并且偏置b=[bj]j=1,...,d∈Rdc。∈Rdv×du×dcGPU存储器的站)以端到端的方式通过最小化概率分布的负对数似然来联合优化:3.2.2联合嵌入在本节中,我们将介绍我们的联合嵌入模型,该模型可以处理训练过程中看不到的主题标签(图1)1L(Θ)=−UΣu∈U1NuNn=1logp(y)(u)|I,u;Θ)(9)图2)。我们的目标是学习将任意主题标签的表示和用户条件图像表示作为输入的函数,并将它们嵌入到联合嵌入中。为了学习联合嵌入空间,我们定义了两种模态之间的相似性函数。我们首先通过以下方式将每个模态投影到联合嵌入空间中:学习映射函数φiu:Rdc→Rd(resp. φtag:Rdw→Rd)从用户条件图像(分别hashtag)空间到联合嵌入空间。然后,我们去-将联合嵌入空间中的相似函数细化为通常的内积。给定用户条件图像表示g(v,u)(= z),我们计算任何给定主题标签y的兼容性得分如下:f(v,u,y; Θ)=φiu(g(v,u))Tφtag(g(y))(7)直觉是最大化用户条件图像表示与联合嵌入空间中的其相关联的主题标签之间的相似性与标准的视觉语义嵌入不同,我们的联合嵌入也取决于用户,因此图像可以相对于用户配置文件映射到联合嵌入空间中的不同点。请注意,与现有的图像主题标签预测模型[12,43]不同,我们的模型是可扩展的,因为我们模型的可学习参数的数量与主题标签词汇量无关。3.3. 学习我们的训练目标是增加与当前主题标签的相似性,同时降低与其他主题标签的相似性。由于通常用于学习联合嵌入的三重损失是不可扩展的,因此我们采用分类损失来完成这项任务。最近的作品[24,40,43,32]表明,即使在具有大量类的多标签设置中,softmax分类也可以非常有效,例如由于技术限制,不可能同时在内存中有多个用户。小批量包含单个用户的连续图像。4. 实验实作详细数据。我们在实验中使用PyTorch,每个实验都在1个GPU上运行。我们使用ADAM [26]在20个时期内训练我们的模型,起始学习率为5e-5。我们使用ResNet-50 [22]作为Con- vNet和GloVe嵌入[34]作为预训练的单词嵌入。GloVe在Common Crawl数据集上进行了训练,词汇量为190万个单词2。尽管双线性模型具有吸引力的建模能力,但对于我们的任务来说,双线性模型是难以处理的在我们的实验中,我们使用MUTAN模型[5]来近似双线性乘积(等式6),但也可以使用其他模型[19,25,49,14]。数据集。我们在YFCC 100M数据集的一个子集上进行实验[41]。YFCC100M由来自Flickr图像共享网站的约9900万张图像组成。我们收集所有用户的图像,这些用户拥有100到200张图像,其中至少有一个主题标签。我们使用了所有的主题标签,我们可以计算一个手套表示.训练集有442k个主题标签的词汇表,测试集有568k个主题标签的词汇表(大约125k个主题标签在训练过程中看不到)。我们忽略所有没有至少一个有效标签的图像。最后,我们保留所有至少有50张图片的用户。我们按用户ID分割集合,以确保来自同一用户的图像不会出现在两个集合中。我们分配70%(resp.10%和20%)的图像到训练(分别为验证和测试)集。此后,这个数据集被命名为开放词汇表2https://nlp.stanford.edu/projects/glove/u9774MODELUSER REP.USER FUSIONA@1A@10P@10R@1R@10[A]频率-0.01 0.13 0.03 0.00 0.07[B]用户不可知-14.57 37.60 7.52 4.79 15.86[C]已使用的主题标签最大值61.62 80.43 37.37 26.02 55.88[D]hashtag职业总数62.09 80.56 37.58 26.26 56.13[43]张量(MCLL)-14.75 37.66 7.53 4.86 15.94我们的(标签)俄罗斯GRU 71.90 85.21 47.60 31.51 62.83我们的(image+hashtag)俄罗斯GRU 74.13 87.49 50.88 33.36 66.49[A]频率-0.00 0.01 0.01 0.00 0.00[B]用户不可知-13.47 34.71 6.64 4.26 13.49[E]主题标签总和总和59.93 79.75 36.24 23.42 54.20[43]张量(MCLL)-13.49 34.73 6.65 4.26 13.50Ours(hashtag)俄罗斯GRU 65.06 83.31 44.84 26.87 60.69Ours w/o Glove(image+hashtag)GRU 46.24 64.17 20.36 17.08 31.49我们的(image+hashtag)俄罗斯GRU 67.46 86.32 46.68 27.90 62.99表1.两个数据集上的主题标签预测结果(越高越好)。我们比较了几种策略来提取用户表示的基础上,用户的图像历史。开放词汇数据集上的性能仅使用训练期间看到的主题标签进行评估。表2中显示了使用不可见主题标签的性能。我们的w/o Glove意味着不使用预训练的GloVe嵌入数据集。我们还提出了一个开放词汇数据集的固定词汇版本。我们使用与[ 43 ]类似的主题标签预处理,除了数据集是按用户ID拆分的。在这个数据集上,我们提出了一个没有预训练词嵌入的模型变体,以便与[ 43 ]进行公平的比较(参见补充材料的A.3小节)。有关这些数据集的更多信息和分析,请参见补充资料第A.1小节指标. 为了评估模型的主题标签预测性能,我们使用三个 标 准 度 量 [12 , 43] : Accu- racy@k ( A@k ) ,Precision@k(P@k)和Recall@k(R@k)。有关这些指标的更多信息,请参见补充资料第A.2小节我们使用k=1和k=10:例如,A@1衡量排名最高的主题标签在地面实况主题标签集中出现的频率,A@10衡量至少一个地面实况主题标签出现在10个排名最高的预测中的频率。4.1. 标签预测在本节中,我们将评估我们的主题标签预测任务模型,该任务试图将图像的真实主题标签排名高于它不包含的主题标签。在这些实验中,我们使用用户历史中所有以前的图像来提取用户表示。图像检索结果见附录A.5小节。基线模型。我们将我们的模型与以下模型进行比较:[A] F频率:这个简单的基线忽略了输入图像和用户表示,总是按其训练数据中的频率。[B] U SER AGNOSTIC:该模型相当于标准图像分类:没有用户表示。[C] USED HASHTags:此用户表示是用户在先前图像中使用的主题标签的二进制向量:u=[u1,. - 是的- 是的 ,uK],其中ui∈ {0,1}(10)其中,ui=1(分别ui=0)意味着第i个主题标签已经被使用(分别为从未被用户使用)[D] HASHTAGOCCURENCES : 这 个 用 户 表 示 类 似 于[C],除了它指示每个hashtag的发生次数:u=[u1,. - 是的- 是的 其中ui∈N(11)其中ui表示第i个标签已经被用户使用的次数。[E] HASHTAG SUM:该用户表示是用户在先前图像中使用的每个主题标签词嵌入的总和。模型[C]和[D]不用于开放词汇数据集,因为它们需要固定的主题标签词汇。请注意,不可能与[12]中提出的用户表示进行比较,因为它使用了数据集中不可用的用户元数据。我们还报告了我们模型的结果,只有用户表示模型(即,x=x标签)并且没有预先训练的GloVe嵌入(它们是随机初始化的)。为了将我们的模型与[43]进行比较,我们重新实现了用户特定的张量(MCLL)模型。因为这个模型对于转换设置,我们使用填充有值1/du的向量来表示不存在于训练集中的用户OPEN VOCAB(约440khashtags)已固定 VOCAB(第18页。5k标签)9775MODELUNSEEN主题标签(约120k主题标签)A@1 A@10 P@10 R@1 R@10ALL主题标签(约560k主题标签)A@1 A@10 P@10 R@1 R@10[B]用户不可知的0.060.400.080.030.2512.8933.216.073.7812.05[E]sum hashtags36.4155.4032.5126.6048.1258.9179.4734.0821.3551.42我们的(hashtag)44.0760.1539.3533.9753.0565.7583.9043.9926.0959.14我们的(图片+标签)45.9862.6241.3135.5355.3068.0686.9145.8027.0361.39表2.主题标签预测结果针对训练期间未看到的主题标签以及开放词汇数据集上的所有主题标签结果所有模型的性能总结在表1中,我们进行了七次观察。首先,用户不可知模型([A,B])相对于用户特定模型的所有指标都表现不佳,如[12,43]所示它还表明,用户历史可以用来提取良好的用户表示。第二,Ten- sor(MCLL)模型[43]与用户不可知模型具有相似的性能,因为它无法处理训练期间未看到的用户。有必要重新培训[43]以应对新用户。 我们还将我们的模型与[43]中的模型进行了比较。 下一段中的转换设置。第三,我们观察到主题标签出现用户表示[D]略好于使用的主题标签用户表示[C]。原因是[D]比[C]更丰富,因为它编码了用户标签频率。第四,使用循环网络对主题标签的时间信息进行建模(我们的模型仅使用主题标签)显著提高了主题标签池策略的性能([C,D])。第五,使用视觉信息可以改善结果,因为它可以利用主题标签和图像的视觉内容之间的相关性。第六,我们观察到预训练的词嵌入在不平衡数据上非常重要,因为它允许在主题标签之间传输知识。最后,我们在闭集和开集数据集上观察到相同的行为,因此我们的用户表示模型可以在两种设置中使用。目视检查结果见补充资料第A.4小节看不见的标签的结果。 我们还评估了来预测看不见的标签。在第一个名为UNSEEN HASHTags的实验中,我们只评估看不见的hashtags的结果(相当于设置为sweetL)。在第二个名为ALL HASHTags的实验中,我们评估了所有hashtags的性能(类似于GASHL设置)。虽然第一个实验直接评估了看不见的主题标签的性能,但第二个实验更现实,因为模型必须在可见和不可见的主题标签中预测主题标签。这些实验的结果在开放词汇数据集上的表2中示出。我们观察到,我们的模型能够预测看不见的主题标签,因此我们的模型能够处理新的主题标签,而无需重新训练模型。我们得出了与表1中的可见主题标签相同的关于用户表示的结论:对用户建模对于不可见标签很重要,MODELA@1A@10P@10R@1R@10[四十三]35.9263.0711.5115.9137.79Ours-FH48.2069.5933.0320.5046.41我们73.1987.2850.4432.1965.86表3.与[43]在固定用户集上的比较。Ours-FH意味着我们的用户表示是在固定的历史(训练图像)上计算的。我们的用户表示模型具有最好的结果,因为它建模了时间信息并利用了视觉内容。与最先进的模型[43]在传导设置中的比较。我们将我们的模型与[43]在固定词汇数据集上进行了比较,具有转换设置,即在培训和测试期间使用同一组用户。结果总结见表3。我们报告了我们的模型的结果,其中用户表示仅在训练图像上计算(固定的用户历史),而我们的模型的用户表示在所有以前的图像上计算。我们观察到我们的模型优于[43],因为[43]需要大量的图像才能有良好的性能,并且不能利用时间信息,因为每个图像在训练期间都是独立处理我们的动态方法的另一个优点是,它可以通过利用新的图像来提高用户表示,而无需重新训练模型。4.2. 模型分析在本节中,我们将分析模型的重要参数:用户表示的维度和图像-主题标签融合的重要性。图像历史大小对提取用户表示的影响在补充文件中进行了分析(第A.6)。用户表示维度。我们首先分析了用户表示维度的重要性,这是我们模型中GRU的隐藏状态维度我们在图3中显示了R@10和大范围用户维度(32到8192)的计算时间。我们观察到,对于所有指标,使用大用户表示比小用户表示更好然而,使用大用户代表-9776图3.用户表示维度的分析,相对于R@10。圆的宽度与用户表示的计算时间成比例(x轴对数标尺)产品介绍A@1A@10R@1R@10只有标签65.1683.2626.1260.89总和65.2983.2126.1960.75级联65.3683.2426.2160.71bilinear [5]65.9585.6326.6959.94葡萄糖[11]66.0285.7726.7360.28TIRG [44]63.9781.9425.1059.35elwise乘积67.2886.2727.1862.88表4.图像-主题标签融合算子的分析然而,这种方法更耗时,并且需要更多的内存来存储(GRU成为模型的瓶颈)。我们观察到,1024是准确性和计算时间之间的一个很好的权衡图像标签融合我们的第二个分析是关于用户表示模型中图像和主题标签分支的组合(公式4)。在表4中,我们显示了几个标准多模态融合算子的结果,以及我们的模型只有主题标签分支。我们比较了标准融合算子(元素求和、关联、元素乘积)和更复杂的算子,如双线性(MUTAN)[5]、GLU [11]和TIRG [44]。我们对每个模型都使用ReLU,除了元素式产品模型,我们使用SELU来避免向量有太多的零(使用带有元素式产品的ReLU会显着降低性能)。我们注意到,只有元素的产品融合显着提高性能。我们认为这是因为元素级产品融合迫使模型同时利用图像和主题标签表示。我们观察到,双线性和GLU算子都该实验还表明,主题标签分支比图像分支更具信息性。我们注意到,我们的结论与[44]不同,[44 ]表明最佳融合取决于用户代表A@1 A@10 MR DIM[C]已使用33.48 46.95 16 18,583[D]发生33.64 46.94 17 18,583我们的(标签)42.95 58.47 3 1024我们的(im+tag)45.64 61.45 21024[E]标签总数35.19 44.81 29 300我们的(标签)45.15 59.27 3 1024我们的(im+tag)47.90 61.56 21024表5.用户检索结果。MR是中位数排名(越低越好),dim是用户表示维度。任务。最后,我们想指出的是,它可能是使用/设计更好的融合策略之间的用户嵌入和图像嵌入,但它是本工作的范围。4.3. 用户检索在本节中,我们将分析我们的用户表示模型的区分能力。为了实现它,我们考虑用户检索任务:给定一个用户表示,目标是找到用非重叠图像历史计算的同一用户的用户表示,即,每个图像仅在一个图像历史中使用。我们使用来自测试集的用户,图像历史大小为20。例如,给定一个用户,我们首先使用前20个图像来计算用户表示,然后使用接下来的20个图像来计算同一用户的另一个用户表示。在这个实验中,我们从6,139个用户中计算了33,648个用户表示。对用户表示进行了归一化,并使用余弦相似度对用户进行排序。为了评估性能,我们使用Accuracy@k度量和中位数秩度量。表5中的结果表明,我们的模型能够从不同的图像历史大小中提取准确的用户表示。请注意,我们的用户表示模型没有为此任务进行关于用户表示模型,我们观察到与主题标签预测相同的结论。尽管我们的用户代表性比[C][D](它们是稀疏向量),我们注意到,模型将A@1性能提高了12点。相反,[E]的维数比我们的模型小,但表示不够有区别。5. 结论和未来工作我们引入了一个新的标签预测模型,可以处理新用户和新标签,而无需重新训练模型。本文表明,用户历史中的图像及其相应的主题标签可以有效地用于提取用户表示。我们的用户表示可以成功地用于用户特定的主题标签预测和用户检索。我们的用户表示模型可以扩展到利用用户关系或用户元数据。已固定OPEN9777引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。用于图像分类的标签嵌入。IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI),2016年。2[2] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。在IEEE计算机视觉和模式识别会议(CVPR),2015年。2[3] 吉米·巴,凯文·斯沃斯基,桑娅·菲德勒,和鲁斯兰·萨拉胡迪诺夫。使用文本描述预测深度零拍卷积神经网络。在IEEE国际计算机视觉会议(ICCV),2015年。2[4] Shaojie Bai,J. Zico Kolter和Vladlen Koltun。序列建模的 一 般 卷 积 和 递 归 网 络 的 经 验 评 估 在 arXiv1803.01271,2018。4[5] HediBen-Res,Re'miCadene,MatthieuCord,andNico-lasThome.MUTAN : Multimodal Tucker Fusion for VisualQuestion Questioning。IEEEInternational Conference onComputer Vision(ICCV),2017年。五、八[6] Piotr Bojanowski,Edouard Grave,Armand Joulin,andTomas Mikolov.用子词信息丰富词向量。在计算语言学协会的交易中,2017年。4[7] MaximeBuche r,Ste'phaneHerbin和Fre'd e'ricJurie。零样本分类中基于度量学习的语义嵌入一致欧洲计算机视觉会议,2016。2[8] MicaelCarv alho , Re' miCade' ne , Da vidPicard ,LaureSoulier,Nicolas Thome,and Matthieu Cord.烹饪环境中的跨模态检索:学习语义文本图像Em- beddings。ACM信息检索特别兴趣小组(SIGIR),2018年。3[9] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零次学习在野外物体识别中的实证研究与分析。2016年欧洲计算机视觉会议(ECCV)。2[10] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的经验评价。神经信息处理系统研讨会(NeurIPS)的进展,2014年。三、四[11] Yann N Dauphin,Angela Fan,Michael Auli,and DavidGrangier.用门控卷积网络进行语言建模。2017年,国际机器学习会议(ICML)。8[12] Emily Denton、Jason Weston、Manohar Paluri、LubomirBourdev和Rob Fergus。用户有条件的主题标签预测图像。2015年知识发现和数据挖掘国际会议(KDD)。二五六七[13] Bhuwan Dhingra , Zhong Zhou , Dylan Fitzpatrick ,Michael Muehl,and William W.科恩Tweet2Vec:基于字 符 的 社 交 媒 体 分 布 式 表 示 。 计 算 语 言 学 协 会(ACL),2016年。2[14] 作 者 : Brendan Duke , Graham W. Taylor. 基 于 广 义Hadamard 积 融 合 算 子 的 视 觉 问 题 分 类 InarXiv1803.09374,2018. 二、五[15] 马丁·恩吉尔贝、路易斯·谢弗·阿利耶、帕特里克·佩雷斯和马蒂厄·科德。在汉堡里发现豆子:深度语义-视觉嵌入与 本地 化。在IEEE计算 机视 觉和模 式识 别会议(CVPR),2018。3[16] 放大图片作者:David J. Fleet,Jamie Ry
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功