CSMN模型：个性化图像字幕的新方法

116 浏览量更新于2023-10-16 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

895SoftmaxytytAttend to You：Personalized ImageCaptioning with Context Sequence MemoryNetworksCesc Chunseong Park韩国首尔cspark@lunit.io首尔国立大学韩国首尔byeongchang.kim vision.snu.ac.krgunhee@snu.ac.kr摘要我们解决个性化问题的图像字幕，这还没有讨论过在以前的研究。对于一个查询图像，我们的目标是生成一个描述性的句子，占先验知识，如用户的活跃词汇在以前的作为个性化图像字幕的应用，我们解决了两个后期自动化问题查询图像CNN上下文存储器图像特征用户上下文字输出CSMN模型任务：在我们新收集的Instagram数据集上进行主题标签预测和帖子生成，该数据集由来自用户任务1。标签预测6.3K用户。我们提出了一种新颖的字幕模型，上下文序列记忆网络（CSMN）。其独特的更新，在以前的记忆网络模型包括（i）exploiting内存作为多种类型的上下文信息的存储库，（ii）附加先前生成的单词到内存中，以捕获长期信息，而不会遭受消失梯度问题，以及（iii）采用CNN内存结构，以联合表示附近的有序内存插槽，以更好地理解上下文。通过Amazon Mechanical Turk的定量评估和用户研究，我们展示了CSMN的三个新功能的有效性及其在最先进的字幕模型上对个性化图像字幕的性能增强。1. 介绍图像字幕是自动生成图像的描述语句的任务[3，4，9，12，20，22，28，31，33]。由于该任务通常被认为是人工智能的前沿问题之一，因此在最近的视觉和语言研究中一直受到积极的研究。它不仅需要一种算法来深入理解图像内容，超越类别或属性级别，还需要将其解释与语言模型联系起来，以创建自然的句子。这项工作解决了图像的个性化这项工作是作者在汉城国立大学时完成的代码：https://github.com/cesc-park/attend2u。任务2.后代图1. 以Instagram为例的个性化图像字幕问题陈述。作为主要应用，我们解决了标签预测和后生成任务。给定一个查询图像，前者预测一个标签列表，而后者生成一个描述性文本来完成一个帖子。提出了一种通用的上下文序列记忆网络模型。字幕，这在以前的研究中没有讨论过。我们的目标是生成一个描述性的句子的图像，占先验知识，如用户潜在地，个性化图像字幕适用于照片共享社交网络中的广泛的自动化服务例如，在Instagram或Facebook中，用户使用移动电话即时拍摄并分享图片作为帖子完成图片发布的一个瓶颈是使用他们自己的话来制作主题标签或相关的文本描述。事实上，对于一般用户来说，制作文本比拍照更麻烦;拍照可以仅通过智能手机屏幕上的单个标签来完成，而文本写作需要更多的时间和精神能量来选择合适的关键词并完成一个句子来描述图像的主题、情感和上下文在本文中，作为个性化图像字幕的示例，我们专注于两个后期自动化任务：主题标签896预测和后生成。图1显示了一个Insta- gram post示例。主题标签预测会自动为图像预测一系列主题标签，而生成后则会创建一个由普通单词、emo-jis甚至主题标签组成的句子个性化是这两项任务成功的关键，因为社交网络中的文本不是对图像内容的简单描述，而是用户为了实现个性化图像字幕任务，我们提出了一种记忆网络模型--上下文序列记忆网络（CSMN）。我们的模型受到神经网络的启发[5，24，29]，其中明确包括神经网络读取和写入数据以捕获长期信息的记忆组件。我们对以前的内存网络模型的主要更新是三方面的。首先，我们建议使用的内存作为一个上下文reposi-tory的先验知识的个性化图像字幕。由于社交网络帖子的主题过于广泛，用户我们的记忆保留了多种类型的上下文信息，以促进更集中的预测，包括用户其次，我们设计内存来顺序存储模型生成的所有单词。它有两个重要的优点。首先，它使模型能够在每一步都选择性地关注信息量最大的先前单词及其与记忆中其他上下文信息的组合其次，我们的模型不suf-fer从消失梯度问题。大多数字幕模型都配备了基于RNN的编码器（例如，[3，22，25，28，31，33]），其仅基于当前输入和单个或几个隐藏状态作为所有先前历史的隐式总结来在每个时间步预测单词。因此，RNN及其变体通常无法捕获长期依赖性，如果想要一起使用先验知识，情况可能会恶化另一方面，我们基于状态的序列生成明确地保留了内存中的所有通过使用教师强迫学习[30]，我们的模型在训练时具有马尔可夫性质;预测前一个单词yt-1对预测下一个单词y t没有影响，下一个单词y t仅取决于当前存储器状态。因此，来自当前时间步预测yt的梯度不传播通过时间。第三，我们建议利用CNN来联合表示附近的有序内存插槽，以更好地理解上下文。最初的记忆网络[24，29]利用时间嵌入来模拟记忆顺序。但它的表示能力仍然很低，因为它不能表示多个内存插槽之间的相关性，为此我们利用卷积层，导致更强的表示能力。为了进行评估，我们收集了一个新的个性化图像标题数据集，包括来自6.3K用户的110万Instagram帖子。Instagram是个性化字幕的一个很好的来源，因为帖子大多包括带有长标签列表的个人图片和具有广泛主题的特色文本。对于每个图片帖子，我们将正文文本或主题标签列表视为groundtruth标题。我们的实验结果表明，上述三个独特的功能，我们的CSMN模型确实提高字幕的性能，特别是个性化的目的。我们还验证了我们的CSMN显着优于几个国家的最先进的字幕模型与RNN或LSTM的解码器（例如。[27、28、31]）。我们用量化的语言指标来评估（例如，BLEU [21]、CIDER [26]、METEOR [14]和ROUGE[15]）Amazon Mechanical Turk的用户研究。我们总结这项工作的贡献如下。(1) 据我们所知，我们提出了第一个个性化的图像字幕方法。我们介绍两个实用的自动化后任务，受益于个性化字幕：后生成和主题标签预测。(2) 我们提出了一种新的记忆网络模型命名为CSMN个性化字幕。CSMN的独特更新包括（i）利用存储器作为多个上下文信息的存储库，（ii）将先前生成的单词附加到存储器中以捕获长期信息而不需要，以及（iii）采用CNN存储器结构来联合表示附近的有序存储器槽。(3) 为了评估个性化图像字幕，我们引入了一个新的Instagram数据集。我们公开代码和数据。(4) 通过AMT的定量评估和用户研究，我们证明了CSMN的三个新功能的有效性及其优于最先进的字幕模型的性能，包括[27，28，31]。2. 相关工作图像字幕。近年来，已经发表了许多关于图像字幕的工作，包括[3，4，9，12，20，22，28，31，33]，仅举几例。许多提议的字幕模型利用基于RNN的解码器从输入图像的编码表示生成单词序列。例如，长期递归卷积网络[3]是最早使用RNN对顺序输入和输出之间的关系进行建模的模型之一You等人[33]利用语义注意力结合自上而下和自下而上的策略，从图像中提取更丰富的信息，并将其与LSTM解码器耦合。与图像字幕研究的最新进展相比，用序列存储器代替基于RNN的解码器是新颖的。此外，没有以前的工作已经解决了个性化的问题，这是这项工作的关键目标。我们还介绍了后完成和主题标签预测作为图像字幕的坚实和实际应用。897数据集#posts用户数#posts/user#words/post字幕hashtag721,176518,1164,8203,633149.6（118）142.6（107）8.55（8）7.45（7）表1. Instagram数据集的统计数据。我们还显示了平均值和中位数（在括号中）。在我们的数据集中，唯一帖子和用户的总数是（1，124，815/6，315）。视觉和语言研究中的个性化。已经有许多关于计算机视觉和自然语言处理中的个性化的研究[2，8，1，32、10、23]。尤其是Dentonet al. [2]开发一个CNN模型，从图像内容和用户信息中预测主题标签。然而，这项工作没有将主题标签预测公式化为图像字幕，并且没有解决后完成。在计算机视觉中，Yaoet al. [32]提出了一种领域自适应方法来对用户特定的人类姿势进行分类。Almaev等人[1]采用迁移学习框架来检测特定于人的面部动作单元检测。在NLP中，Mirkinet al. [18]通过利用个人特质提高机器翻译性能。Polozov等人[23]通过逻辑编程为给定导师/学生规范与这些论文相比，我们的问题设置是新颖的，在图像字幕的个性化问题还没有被讨论。神经网络与记忆已经提出了各种记忆网络模型，以使神经网络能够在长时间尺度上存储变量和数据神经图灵机[5]使用外部存储器来解决算法例如排序和复制等问题。后来，这种体系结构被扩展到微分神经计算机（DNC）.[6]以解决更复杂的算法问题，如寻找最短路径和图遍历。 Weston等人[29]提出了最早的自然语言问答（QA）记忆网络模型之一，后来Sukhbaatar等人。[24]修改网络，使其能够以端到端的方式进行训练。Kumar等人[13]Milleret al.[17]解决语言QA任务，提出新的记忆网络，如[ 13]中的情景记忆动态网络和[ 17]中的键值记忆网络。与以前的记忆网络相比，我们的CSMN有三个新的功能，如第1节所讨论的。3. 数据集我们介绍我们新收集的Instagram数据集，其关键统计数据如表1所示。我们为完成后和标签预测制作单独的数据集。3.1. Instagram帖子我们从Instagram收集图片帖子，Instagram是增长最快的照片分享社交网络之一。作为一个帖子爬虫，我们使用内置的主题标签搜索功能单词，其中包括Pinterest的27个一般类别中的每一个的10个最常见的主题标签（例如，设计，食物，风格）。我们使用Pinterest类别，因为它们是定义良好的主题，可以获取不同用户的图像帖子。我们从17，813个用户中收集了3，455，021个原始帖子。接下来我们进行一系列的过滤。我们首先应用语言过滤只包括英语职位 ; 根据 PyEnchant 的词典www.example.com dict，我们排除了超过20%的单词不是英语的帖子en.us。然后，我们删除在正文中嵌入超链接的帖子-因为它们很可能是广告。最后，如果用户拥有超过max（15，0. 15 ×#用户帖子）非英语或广告帖子，我们将删除其所有帖子。接下来，我们将过滤规则应用于标题和主题标签的长度。我们将每个用户的最大帖子数量限制为1，000，而不是使数据集偏向少数主导用户。我们还将每个用户的最小帖子数量我们也会过滤掉长度太短或太长的帖子。我们将15设置为最大帖子长度，因为我们观察到冗长的帖子往往包含与相关图片无关的内容。我们设置3作为最小帖子长度，因为太短的帖子可能只包含一个感叹号（例如：好极了！）或简短的答复（例如，谢谢大家！）. 我们对hashtag数据集使用相同的规则我们观察到，超过15个的冗长标签列表通常太多余了（例如， #fashion ， #fash- ionblog ，#fashionista ， #fashionistas ， #fashionlover ， #fash-ionlovers）。最后，我们获得了大约721，176个标题帖子和518，116个标签帖子。3.2. 预处理我们分别为这两个任务中的每一个构建一个词汇词典V，通过选择我们数据集中最频繁的V单词例如，用于hashtag predic的词典-Tion仅包括最频繁的主题标签作为词汇表。我们设置V为40K用于完成后，并在彻底测试后设置60K用于哈希在构建字典之前，我们首先删除任何URL，除表情符号外的Unicode和特殊字符。然后，我们将单词替换并将用户名更改为@username令牌。4. 上下文序列记忆网络图2示出了所提出的上下文序列神经网络（CSMN）模型。输入是特定用户的查询图像Iq，输出是单词序列：{yt}= y1，. . . ，yT，其中的每一个是来自字典V的符号。也就是说，{yt}对应于主题标签预测中的主题标签列表，以及帖子中的帖子句子。一代可选输入是要添加到内存中的上下文信息，例如给定用户的活动词汇表。由于这两个任务都可以用单词序列来表达，由Instagram API提供我们选择了270个搜索关键字预测一个给定的图像，我们利用相同的CSMN898i=1i=1美国Jee&O&F/0/0i=1（Softmaxy嵌入&（）*）形象特征CtCNN卷积teeeResNet（e输出注意力输入y1 …y1 …不yt图像特征用户上下文文字输出Qt字输出Wq查询更新为新查询(a) 内存设置(b) 预测步骤(c) 字输出内存更新图2. 说明所提出的上下文序列记忆网络（CSMN）模型。(a)使用图像描述和来自查询用户先前帖子的D个频繁词的上下文记忆设置（第4.1节）。（b）基于存储器状态的每一步t的单词预测（4.2节）。（c）一旦产生新的输出字，字输出存储器的更新。模型，而只改变字典。特别地，我们也将hashtag预测视为序列预测，而不是一袋无序标签词的预测。由于帖子中的主题标签往往具有很强的共现关系，因此最好将以前的主题标签考虑在内以预测下一个。这将通过我们的实验结果得到验证。4.1. 语境记忆的构建如图2（a）所示，我们构建内存来存储三种类型的上下文信息：（i）用于表示查询图像的图像存储器，（ii）用于来自查询用户的先前帖子的TF-IDF加权D频繁单词的用户上下文存储器，以及（iii）用于先前生成的单词的单词输出存储器。在[29]之后，内存的每个输入都被嵌入到输入和输出内存表示中，我们分别使用上标a和c图像存储器。我们使用在ImageNet 2012数据集上预训练的ResNet- 101 [7]来表示图像。我们测试两种不同的描述：（7 × 7）res5c的特征图对于j=1。由方程式（3），我们用上标a/c把输入和输出存储器的两个方程简单地表示为一个方程。不失一般性，我们在下面推导公式，假设我们使用res5c功能。用户上下文存储器。在查询图像的作者是可识别的个性化设置中，我们定义{ui}D通过从用户以前的帖子中选择D个最频繁的单词。我们以分数的降序将{ui}D输入到用户上下文存储器中，以便利用CNN后来真的。这种上下文记忆通过更多地关注用户的活跃词汇表或主题标签的写作风格来提高模型为了构建{ui}D，我们计算TF-IDF分数并选择前D个单词，给定用户。使用TF-IDF分数意味着我们不包括许多用户常用的过于笼统的术语，因为它们对个性化没有帮助。最后，用户上下文记忆向量ma/c∈R1，024变为ua= Wauj，uc= Wcuj; yj; j ∈ 1，. . . 、D（4）我的天层和池5特征向量。The res5c feature map de-注意到，如果模型利用空间注意力;否则，池5特征Ip5∈R2，048a/cus，j=ReLU（Wh[ua/c]+bh），（5）作为图像的特征向量。因此，池5是其中u，j是第j个有效字的独热向量。参数-插入到单个存储单元中，而res5c功能其中Wa/c∈R512×V和Wh∈R1，024×512。我们map占据了49个单元格，在这些单元格上，记忆注意力可以集中在（7×7）图像网格的不同区域我们将在实验中比较这两个描述符。res5c特征的图像记忆向量mim∈R1，024表示为：输入和输出存储器使用相同的Wh我们学习单独的词嵌入矩阵Wa/c。字输出存储器。如图2（c）所示，我们插入一系列先前生成的单词y1，. . . ，yt-1输入到字输出存储器中，表示为ma=ReLU（WaIr5c+ba），（1）a a c cim，j任济任oj = We yj，oj = Weyj;j ∈ 1，. . . ，t − 1（6）mc=ReLU（WcIr5c+ bc ）、（2）a/Ca/Cim，j任济任mot，j=ReLU（Wh[o]]+ bh）。（七）&）e用户上下文ytyt-1…y1yt-1yt&更新存储器&&Myy1… yt-1899ime奥特，j任济任对于j = 1，. . . ，49。要学习的参数包括Wa，c∈R1，024×2，048和ba，c∈R1，024im. ReLU表示其中yj是第j个先前单词的独热向量。我们使用元素式ReLU激活[19]。对于池5，我们使用相同的字嵌入Wa/c和参数Wh，bhacim，j=ReLU（Wa/cIp5+ ba/c）。（三）在Eq.（四）、每当生成一个新词时，我们就为每次迭代更新ma/cM900ee不不im，1：49最后，我们连接输入和内存presenta-从（300×[47，46，45]）到（300×[1，1，1]）。最后我们所有内存类型：Ma/c=[Ma/c···通过连接ch获得cim，t从h=3到5。我们tim，1im，49im，tma/c ···⊕ma/c⊕··· ⊕ma/c]中。我们使用重复Eq.的卷积和最大池化操作（十）美国，1us，Dot，1ot，t−1其他类型的记忆也是如此。结果，我们得到-m表示内存大小，它是三种存储器类型：m=mim+mus+mot。tainct=[cim，t让我们，科图科特山]，其维度为4.2. 基于状态的序列生成RNN及其变体已被广泛用于通过贯穿时间的循环连接生成序列。然而，我们的方法不涉及任何RNN模块，而是将所有先前生成的单词顺序存储到内存中。它能够通过选择性地关注所有先前单词、图像区域和用户上下文的组合来预测每个输出单词。我们现在讨论如何基于存储器状态在时间步t预测单词yt（参见图2（b））。让前一个单词的独热向量为yt-1，我们首先生成一个在时间t将向量qt输入到我们的记忆网络中，qt=ReLU（Wqxt+ bq），其中xt= Wbyt−1。（八）其中，学习了Wb∈R512×V和Wq∈R1，024×512。接下来，qt被送入上下文记忆的注意力模型pt=softmax（Maqt），Mot（i，i）=pt<$Mc（i，i）.（九）2700 = 3 × 3 × 300。接下来，我们计算输出单词概率st∈RV：ht=ReLU（Woct+ bo），（11）st= softmax（Wfht）。（十二）我们通过等式得到隐藏状态ht（11）具有权矩阵Wo∈R2，700×2，700和偏置矩阵bo∈R2，700. 然后，我们通过等式中的softmax层计算词汇表V上的输出概率st（十二）、最后，我们选择达到最高概率yt=argmaxs∈V（st）的词。除非输出单词yt是EOS令牌，否则我们重复通过馈送来生成下一个单词yt输入到等式中的字输出存储器中。（6）和Eq.的输入。(8)在时间步长t+1处。作为仅用于主题标签预测的简单后处理，我们移除重复的输出主题标签。总而言之，这种推断是贪婪的，因为模型通过在每个时间步顺序搜索最佳单词来创建最佳序列。4.3. 培训t t我们计算如何以及输入向量qt匹配与内存Ma的每个单元格由一个矩阵乘法，其次是softmax。也就是说，pt∈Rm表示qt在m个存储单元上的压缩另一种解释是pt表示输入记忆的哪一部分对于当前时间步长的输入qt是重要的（即，注意力在时间t转向哪一部分语义[31]）。接下来，我们通过逐元素乘法（用表示）与pt∈Rm重新缩放输出存储器表示M c ∈ Rm × 1，024的每一列。因此，我们获得了参加输出内存表-表示Mot，它们被分解为三个存储器为了训练我们的模型，我们采用教师强制学习，提供正确的记忆状态来预测下一个单词。我们使用softmax交叉熵损失作为每个时间步预测的成本函数，其最小化从估计的yt到其对应的ta wordyGT ，t 的负对数似然。我们随机初始化所有的参数使用1.0因子的统一单位缩放：[± 3/dim]。我们应用小批量随机梯度下降。我们-选择Adam 优化器[11]，β2=0。9，β2=0。999，且π=1e−08。为了加快训练速度，我们使用四个GPU进行数据并行，并将每个GPU类型为Mot=[moa/Cus，1：Da/Cot，1：t−1GPU。我们获得最好的结果，初始学习率设置为记忆CNN。然后，我们将CNN应用于存储器Mot的参与输出。正如我们的实验所示，使用CNN显著提高了字幕的性能。这主要是由于CNN允许我们通过使用不同的滤波器融合多个异质细胞来获得一组强大的表示。我们通过改变窗口大小h=[3，4，5]来定义一组深度为300的三个过滤器。我们分别对每种内存类型应用单个卷积层和最大池化层对于h=[3，4，5]，0.001所有的模型在每5个时期，我们划分一个学习率降低1.2，逐渐降低。我们将模型训练到20个epoch。5. 实验我们通过定量测量和 Ama- zon Mechanical Turk（AMT）研究将我们的方法与其他最先进的模型的性能进行5.1. 实验环境欣姆特布勒姆布勒姆C+B]中。901imimimim，tim=maxpool（ ReLU（wh1：49（10）我们使用测试帖子的图像作为查询，并将关联的主题标签和文本描述作为groundtruth（GT）。其中，n表示卷积运算。参数-对于主题标签预测的评估指标，我们计算测试包括偏差bh∈R49×300和滤波器wh∈F1分数作为预处理之间的平衡平均度量，R[3，4，5]×1，024×300。通过最大池化，每个ch降低预测主题标签集和GT之间的精确度和召回率m902（GT）夏季游泳池通行证（我们的）游泳池绝对完美。森林里的脸The Face inthe（Ours）My FirstPainting of the Day（GT）城市的美景（我们的）城市（GT）这对我来说是文学上的（我们的）我喜欢这个#报价（GT）晚餐和饮料与@用户名（我们的）葡萄酒和电影（GT）空气在秋天（Ours）Fall is in theair（美国）这是假期（GT）漂亮的花从丈夫我美丽的花朵（NoCNN）海滩（Usr）没有增强功能灰姑娘真漂亮（Showtell）是唯一的事情与@username的赛季我老公需要（UsrIm）没有字这很重要_不详我的下午安排好了（NoFB）我爱图3. 使用查询图像、地面实况（GT）和我们的方法（Ours）和基线生成的帖子生成的七个示例。@username表示匿名用户。大多数的预测文本是相关的和有意义的查询图像。（GT）#fashionkids #stylish-（GT）#connectible#books（GT）#coffee #dailycortado#love（GT）#style #时尚#购物（GT）#闺房#心纹#爱情（GT）#greensmoothie #dairyfree小熊#kidzfashion#书店#vscocam #vscogood #vscophile#鞋#kennethcole#婚礼#PotteryBarn无麸质（Glutenfree）（Ours）#pink#babygirl（Ours）#书籍#阅读#coffeebreak（Ours）#newclothes#fashion（我们的）#decor#homedecor #interiors #vegetarian.#fashionkids#cutekidsclub#coffee#coffeetime#鞋#布洛克鞋© 2019www.greensmoothie.com版权所有并保留所有权利#咖啡心#拿铁#coffeebreak #vsco#婚礼#家#白色#smoothie #vegan#raw #juicing#eatclean #detox #cleaning图4. 六个使用查询图像、地面实况（GT）和我们预测的主题标签（Ours）进行主题标签预测的例子。粗体标签是在（GT）和（Ours）中出现的正确匹配的标签有色词是那些同时出现在预测记忆和上下文记忆中的词集合：2（1/查准率+1/查全率）-1。对于后生成的评价指标，我们计算预测句子和生成树之间的语言相似度。我们利用BLEU [21]、CIDER [26]、METEOR [14]和ROUGE-r [15]分数。在在所有的测量中，分数越高表示表现越好。我们将数据集随机分为90%用于训练，5K帖子用于测试，其余用于验证。我们按用户划分数据集，使训练用户和测试用户不相交，以便正确测量方法的预测能力如果用户虽然一些用于图像字幕的基准数据集（例如，Flickr30K [34]和MS COCO [16]）具有多个 GT（例如，MS COCO中每个图像5句话），我们的数据集每个测试示例只有一个GT帖子文本和主题标签列表。因此，这项工作中的绝对度量值可能低于这些基准数据集中的绝对度量值。5.2. 基线作为基线，我们选择了多个最近邻方法，一种语言生成算法，两种最先进的图像字幕方法，以及我们模型的多个变体。作为简单的基线，我们首先测试图像的1-nearest搜索，表示为（1 NN-Im）;对于查询图像，我们使用ResNet pool 5描述符上的102其次，我们测试了用户的1-最近搜索，表示为（1 NN-Usr）;我们找到最近的用户，其60个活跃词汇与查询用户的词汇重叠最多，然后随机选择一个帖子，最近的用户由（1 NN-UsrIm）表示的第三最近邻变体是在最近用户作为一个语言的方法，我们使用的序列到序列模型由Vinyals等人。[27]以（seq2seq）表示。它是一个具有三个隐藏LSTM层的递归神经网络该基线以TF-IDF权重的降序获取查询用户的60个活动词由于该基线不使用图像来生成文本，因此该比较量化了图像对预测标签或文本的重要性。我们还比较了两个国家的最先进的图像captioning方法，没有个性化。第一个基线是 [28] 的（ShowTell），这是一个多模态CNN和LSTM模型。第二个基线是 [31] 的基于注意力的字幕模型，由（AttendTell）表示。我们比较了我们的方法（CSMN-*）的不同变体为了验证每个组件的贡献，我们从我们的模型中排除了一个关键组件，如下所示：(i)在4.2节中没有由（-NoCNN-）表示的存储器CNN，（ii）没有由（-NoUC-）表示的用户上下文存储器，以及（iii）没有由（-NoWO-）表示的先前生成的单词到输出存储器的反馈。也就是说，（-NoCNN-）通过使用存储器CNN来量化性能改进（-NoUC-）是没有个性化的模型;也就是说，它不使用关于查询用户的信息，例如他们的D活动词汇表。最后，（-NoWO-）是没有序贯预测的模型. 对于主题标签预测，（-NoWO-）指示单独标签生成而不是序列生成的性能903∗方法B-1B-2B-3B-4流星苹果酒ROUGE-L（seq2seq）[27] 0.050 0.012 0.003 0.0000.0240.0340.065[28]第28话0.055 0.019 0.007 0.0030.0380.0040.081[31]第三十一话 0.106 0.015 0.000 0.0000.0260.0490.140（1NN-Im）0.071 0.020 0.007 0.0040.0320.0590.069（1NN-Usr）0.063 0.014 0.002 0.0000.0280.0250.059（1NN-UsrIm）0.106 0.032 0.011 0.0050.0460.0840.104（CSMN-NoCNN-P5）0.086 0.037 0.015 0.0000.0370.1030.122（CSMN-NoUC-P5）0.079 0.032 0.015 0.0080.0370.1330.120（CSMN-NoWO-P5）0.090 0.040 0.016 0.0060.0370.1190.116（CSMN-R5C）0.097 0.034 0.013 0.0060.0400.1070.110方法F1分数（seq2seq）[27]0.1320.085[28]第28话0.0280.011[31]第三十一话0.0200.014（1NN-Im）0.0490.110（1NN-Usr）0.0540.173（1NN-UsrIm）0.1090.380（CSMN-NoCNN-P5）0.1350.310（CSMN-NoUC-P5）0.1110.076（CSMN-NoWO-P5）0.1170.244（CSMN-R5C）0.1920.340（CSMN-P5）0.2300.390（CSMN-W20-P5）0.1470.349（CSMN-W80-P5）0.1350.341表2. Instagram数据集不同方法之间的后期生成评估。作为性能指标，我们使用语言相似性度量（BLEU，CIDER，METEOR，ROUGE-L）。带[ ]的方法不使用个性化。表3. 标签预测的评估。我们在左边显示了按用户划分的测试结果，在右边显示了按帖子划分的测试结果我们最初的建议的初步预测。我们还在4.1节中测试了两个不同的图像描述符：（7×7）res 5c特征映射和pool 5特征向量，分别用（-R5 C）和（-P5）表示最后，我们还评估了对用户上下文记忆大小的影响：（-W20-）和（-W80-）或（-W100-）。5.3. 定量结果表2和3分别总结了后生成和主题标签预测由于算法在两个任务中显示出相似的模式，我们在下面一起分析实验结果。首先，根据这两个任务的大多数指标，我们的方法（CSMN-*）显着优于基线。我们可以将算法分为两组，没有个性化 ; 后者包括（ ShowTell ）、（AttendTell）、（1 NN-Im）和（CSMN-NoUC-P5），而前者包括其它方法。我们的（CSMN-NoUC-P5）在没有个性化的方法中排名第一，而（CSMN-P5）总体上达到了最佳。有趣的是，使用仅占用单个内存插槽的pool5特征向量作为图像描述，比使用（7×7）res5c特征图具有更好的性能有49个插槽。这主要是由于注意力学习随着图像表示的更大维度，快速变得更难。另一个原因可能是用户不愿意讨论单个（7×7）图像网格的细节级别，因此图像内容的整体视图足以预测用户我们将其他有趣的观察总结如下。首先，在基线中，简单最近邻方法（1 NN-UsrIm）是最强的候选方法。其次，如果我们删除其中一个关键组件，例如内存CNN，个性化和顺序预测，我们的方法会变得非常糟糕。第三，在所测试的用户上下文存储容量中，60的性能最好随着记忆容量的增加，注意力学习变得更加困难。此外，我们根据数据集的统计数据选择60体积大，空槽多，也给集中学习带来困难。最后，我们观察到后世代比主题标签预测更具挑战性。这是由于帖子生成的表达空间要大得多，因为帖子文本包括单词，表情符号和符号的任何组合。鉴于Instagram在撰写新帖子时提供了从以前的帖子中自动提取标签的功能，我们测试了另一个用于标签预测的数据集分割。也就是说，我们按帖子划分数据集，以便每个用户我们称之为按帖子拆分，而原来的拆分是按用户拆分。我们观察到，由于自动化功能，我们的训练和测试集中的许多帖子具有几乎相同的主题标签。该设置非常有利于（1 NN-UsrIm），其返回查询用户的最接近训练图像的文本。表3显示了左侧按用户分列和右侧按员额分列的结果。有趣的是，我们的（CSMN-P5）的作品比（1 NN-UsrIm）更好，即使在设置的分裂职位，虽然其性能保证金（即。0.01 在F1 分数中）并不像在用户划分中那样重要（即，0.121）。5.4. Amazon Mechanical Turk用户研究我们进行AMT测试，以观察一般用户对于每个任务，我们随机抽取100个测试样本。在测试中，我们显示了一个查询图像和三个随机抽样的完整帖子的查询用户作为个性化线索，和两个文本描述生成的方法和一个基线在一个随机的顺序。我们要求土耳其人在两者中选择一个更相关的。我们从三个不同的turker获得每个查询的我们选择变体（CSMN-P5）作为我们方法的代表，因为它的定量性能最好。我们通过在每组1NN、图像字幕和仅语言方法中选择最佳方法（1 NN-UsrIm）、（ShowTell）和（seq 2seq），与三个基线进行比较。表4总结了AMT测试的结果，它证实了人类注释者明显更喜欢我们的结果904#艺术#艺术家#插图#油漆#爱#礼物#化妆#护肤#妈妈#头发#自然我的孩子们在场边为比赛欢呼美丽的清晨#设计#艺术品#绘画#粉红色#爱#情人节#订婚#周六夜#时尚和我的小兄弟打高尔夫！美丽的墨尔本我爱春天#爱情#家庭#快乐#新娘#婚礼#bridetobe#恶作剧#自拍#化妆. 今天在橄榄球赛上小熊队和姑娘们比赛婚礼的好日子#祈祷#祈祷#vintagebooks #kids #art #gift #vintage#handmade #packaging #books #diy#爱#家庭#亲#自拍我的宝贝表弟@username和我图5.三个hashtag预测的例子和两个使用查询图像和不同用户的多个预测（以不同颜色显示）的后预测的例子预测结果根据查询用户而变化，但对于查询图像仍然是相关的和有意义的#sew #art #stitch #artist#sewing #illustration#艺术#艺术家#室内设计#手工制作#室内设计#sketch #art #artist #illustration #instaart#design #artwork #webstagram #drawing#蓝色#素描#艺术#艺术家#树#夏天#大海#天空#cute #pet #catsofinstagram #cat #cats#刺绣#etsy #鸟(a) 设计题目(b) 实质性不同的主题图6. 六个针对一个用户的标签预测的例子，这个用户的大多数帖子都是关于设计的。(a)对于设计相关的查询图像，我们的CSMN预测设计主题的相关主题标签。(b)对于实质上不同主题的查询图像，我们的CSMN也有弹性来预测有意义的主题标签。标签预测vs. 基线（1NN-UsrIm）（Showtell）（seq2seq）（CSMN-P5）67.0（201/300）88.0（264/300）81.3（244/300）生成后（CSMN-P5）73.0（219/300）78.0（234/300）81.3（244/300）表4. AMT偏好的结果，我们的方法和三个基线之间的两个任务。我们显示了土耳其人投票支持我们的方法超过基线的百分比。与基准线相比。在基线中，（1 NN-UsrIm）是最受欢迎的，因为我们的方法的性能差距最小。这些结果与表2和表3中的定量评价结果一致。5.5. 定性结果图3示出了后生成的所选示例在每个集合中，我们展示了一个查询图像，GT，以及通过我们的方法和基线生成的在许多Instagram示例中，GT评论很难正确预测，因为它们是非常多样化的，主观的，并且是关于各种主题的私人对话。然而，大多数预测的文本描述与查询图像相关。此外，我们的CSMN模型能够适当地使用正常的单词，表情符号，甚至提到其他用户（通过@username匿名）。图4显示了主题标签预测的示例。我们观察到，我们的标签预测是稳健的，即使是各种主题，包括个人资料，食品，时尚和室内设计。图5显示了根据相同查询图像的不同用户，主题标签和帖子预测的变化程度的示例尽管预测结果会随着在所使用的词中，它们对于查询图像是相关的和有意义的。图6示出了根据同一用户的查询图像的文本预测的变化。我们首先选择一个用户的大多数帖子是关于设计的，然后通过改变查询图像来获得预测。对于设计相关的查询图像，CSMN预测设计主题的相关主题标签（图6（a））。对于基本上不同主题的查询图像，我们的CSMN也有弹性来预测相关的主题标签（图6（b））。6. 结论我们提出了上下文序列记忆网络（CSMN）作为第一个个性化的图像字幕方法。我们解决了两个后自动化任务：标签预测和后生成。通过对几乎收集的Instagram数据集进行定量评估和AM

下载后可阅读完整内容，剩余1页未读，立即下载