没有合适的资源?快使用搜索试试~ 我知道了~
3950时尚照片上的网友风格评论:数据集和多样性度量0林文华,陈冠廷,江宏岳和徐宏宇,台湾国立大学,台北,台湾,q868686qq@gmail.com,ktchen@cmlab.csie.ntu.edu.tw,kenny5312012@gmail.com,whsu@ntu.edu.tw0摘要0最近,深度神经网络模型在图像字幕任务中取得了有希望的结果。然而,当前的作品生成的“普通”句子,只描述表面的外观(例如,类型、颜色),不满足网友风格,缺乏互动、背景和用户意图。为了解决这个问题,我们提出了网友风格评论(NSC),自动生成特色评论给用户贡献的时尚照片。我们致力于以生动的“网友”风格调节评论,这种风格反映了指定社交群体中的文化,并希望与用户更多地互动。在这项工作中,我们设计了一个新颖的框架,包括三个主要组成部分:(1)我们构建了一个名为NetiLook的大规模服装数据集,其中包含300K个帖子(照片)和5M个评论,以发现网友风格的评论。(2)我们提出了三个独特的度量方法来估计评论的多样性。(3)我们通过将主题模型与神经网络相结合,增加了多样性,弥补了传统图像字幕作品的不足。通过对Flickr30k和我们的NetiLook数据集进行实验,我们证明了我们提出的方法在时尚照片评论和提高图像字幕任务的准确性和多样性方面的效果。0CCS概念0• 信息系统 → 文档主题模型; • 计算方法学 →自然语言生成;图像表示;0关键词0时尚;图像字幕;评论;多样性;深度学习;主题模型0ACM参考格式:林文华,陈冠廷,江宏岳和徐宏宇。2018。时尚照片上的网友风格评论:数据集和多样性度量。在WWW '18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,美国,第4篇,8页。https://doi.org/10.1145/3184558.318635401 引言0根据[ 30]的研究,时尚对我们的社会有着重要的影响,因为服装通常反映了一个人的社会地位。这也在不断增长的在线零售销售中得到体现,达到了5290亿美元。0本文根据知识共享署名4.0国际(CC BY4.0)许可发布。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18 Companion,2018年4月23日至27日,法国里昂 © 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31863540(a) Human : 哇,太惊艳了!喜欢这个造型,你也太漂亮了 �0(b) CaptionBot : 一个女人躺在草地上。0(c) NC : 爱这条裙子0(d) Attention : 爱这双鞋子0(e) NSC : 爱这件纽扣胸衣!太棒了!这个造型太赞了。0(a) Human : 哇!完美!0(b) CaptionBot : 一群人站在一起。0(c) NC : 爱这件西装外套!!!!!0(d) Attention : 爱这双鞋子0(e) NSC : 我喜欢你的穿搭。这个不例外 <30(a) Human : 爱你的渐变发色 <3333 +10(b) CaptionBot : 一群女人站在一个女人旁边。0(c) NC : 爱这件连衣裙0(d) Attention : 爱这双鞋子0(e)NSC:我喜欢这些组合:))今天我对你的心!:)0图1:来自不同评论(字幕)方法的每个图像的五个句子。(a)从我们收集的NetiLook数据集中随机选择的一个用户评论(即,真实情况)。 (b)来自Microsoft CaptionBot的句子。(c)来自神经图像字幕生成(NC)[33]的结果。(d)来自带有视觉注意力的神经图像字幕生成(Attention)[35]的结果。(e)我们提出的NSC。它将风格权重与生动的网民风格结果相结合。0到2018年,美国的时尚市场价值将达到2,000亿美元,欧洲将达到3,020亿欧元[9]。直到今天,人们要么穿上新衣服,要么在社交媒体上上传他们的新服装照片,以获得新衣服的评论。然而,不合适的着装有时会引起尴尬。因此,人们倾向于在事先知道他们是否适当地着装。由于图像字幕取得的有希望的结果,时尚图像字幕工作可以解决这个问题,它可以自动用类似网民的评论来描述服装。然而,尽管深度学习近年来发展迅速,图像字幕[7][8][14][24][33][35]仍然是一个具有挑战性且尚未充分研究的主题。为了生成类似人类的字幕,机器不仅要识别图像中的对象,还要用自然语言(如英语)表达它们之间的关系。为了解决这个问题,提出了大量的配对图像和描述的语料库,如MSCOCO[17]和Flickr30k[28]。设计了几种深度递归神经网络模型来跟随这些数据集并取得有希望的结果。然而,现代方法只关注于优化机器翻译中使用的度量标准,这导致缺乏多样性,产生保守的句子。这些句子在机器翻译度量标准中可以获得良好的分数。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂1lookbook.nu3960但是缺乏人性。与图1(a)中显示的人类评论相比,由于训练数据的限制,当前的方法(例如,图1(b))仅仅描述了低效的“普通”句子,这些句子仅仅描述了照片中的浅显外观(例如颜色、类型),并向用户生成无意义的机器人标记——缺乏参与、上下文和对用户意图的反馈,特别是在在线社交媒体的情况下。为了为时尚照片生成类似人类的在线评论(例如,服装风格),我们从一个在线服装风格社区收集了一个大型的用户贡献的时尚照片和评论的配对语料库,称为NetiLook。据我们所知,我们收集的NetiLook是最大的时尚评论数据集。在我们对NetiLook的实验中,我们发现这些方法过度拟合了一个通用模式,使得字幕结果变得平淡无味(例如,“喜欢...”)(对比,图1(c)和(d))。因此,为了弥补这个不足,我们提出将潜在主题模型与最先进的方法相结合,使生成的句子生动多样(对比,图1(e))。此外,为了评估多样性,我们提出了三个新的度量方法来量化多样性。为了丰富和多样化文本内容,我们提出了一种新的方法,通过将主题发现模型(即潜在狄利克雷分配(LDA)[2])与神经网络相结合,自动生成特色时尚照片评论,以实现具有生动的“网民”风格的多样评论。我们期待这一突破将促进社交媒体、在线客户服务、电子商务、聊天机器人开发等进一步的应用。在不久的将来,如果这个解决方案可以作为一个代理人(或专家)在客厅里工作,并在镜子前为用户的服装进行评论,那将更加令人兴奋。总之,我们的主要贡献如下:0•据我们所知,这是第一个在大规模时尚评论数据集中解决照片字幕多样性问题的工作(参见第1-2节)。•我们收集了一个全新的大规模服装数据集NetiLook,其中包含300K个帖子(照片)和5M个评论(参见第3节)。•我们研究了服装字幕的多样性,并提出了三个衡量多样性的指标(参见第5节)。•我们利用和研究了潜在主题模型的优点,该模型能够弥补传统图像字幕工作的不足(参见第4节)。•我们证明了我们提出的方法在时尚照片评论和改进Flickr30k和NetiLook数据集的图像字幕任务中,无论是在准确性还是多样性方面都有显著的好处(参见第6节)。02 相关工作0图像字幕是自动描述图像内容的重要应用,可以帮助视觉障碍用户和人机交互。根据[ 1 ][ 31],一个CNN-RNN框架,将从深度卷积神经网络(CNN)提取的高级特征作为递归神经网络(RNN)的输入。0在过去的几年中,在自然语言中生成完整句子的图像字幕任务中,已经有了一些有希望的表现。例如,[ 33]是一个端到端的CNN模型,后面跟着RNN的语言生成。它能够从输入图像中生成一个语法正确的自然语言句子。在CNN-RNN框架之后,提出了基于注意力的模型([ 35 ],[ 23])。由于人类在观看照片时对不同的对象有不同的注意力,基于注意力的模型允许机器对显著特征进行不同的加权。与将整个图像的高级表示作为输入相比,基于注意力的模型能够动态地对图像的各个部分进行加权。特别是当图像中出现许多对象时,基于注意力的模型可以给出更全面的描述。目前,最先进的作品主要是基于注意力的模型([25 ],[ 16 ]),因为它们关注描述的正确性。[ 5]为不同的单词分配了不同的权重以修复错误识别。[ 18]专注于评估神经图像字幕模型中的注意力的正确性。当将当前方法应用于生成评论时,多样性的需求就显现出来。与描绘图像相比,给出评论更具挑战性,因为它不仅需要理解图像,还需要关注与用户的互动。为了生成生动的评论,多样性是必要的。除了评论,多样性在其他领域(如信息检索[ 3 ])中也很重要。在[ 13]中,为了增加自动生成的电子邮件响应选项的效用,多样性是必不可少的。此外,在构建通用对话代理方面,这些代理需要与人类进行自然语言交互,多样性也是必需的。因此,我们将主题模型与传统方法相结合,以补充它们的多样性部分。与此同时,计算机视觉和多媒体社区对服装产品分析的兴趣越来越大。大多数现有的时尚分析工作都集中在对服装属性的研究,如服装解析([ 21 ],[ 19 ],[ 22]),时尚趋势([ 11 ],[ 4 ])和服装检索([ 10 ],[ 20])。与其他工作相比,我们开发了一个新颖的框架,可以利用学习到的网民风格嵌入来评论时尚照片。此外,据我们所知,这是第一个在全时大规模时尚评论数据集中解决照片字幕多样性问题的工作。我们将在下面的章节中详细介绍数据集和我们的方法。03 数据集 - NetiLook0[ 1 ]提到,与物体识别数据集(如ImageNet [ 6])相比,当前的字幕数据集相对较小。此外,这些描述需要昂贵的手动注释。随着社交媒体(如Facebook和Instagram)的发展,人们不断与世界分享他们的生活。因此,这些都是图像字幕(或评论)的潜在有价值的训练数据。在社交平台中,有一些专门用于服装风格的网站。Lookbook1是一个在线服装风格社区,会员们在这里分享个人风格,并从彼此那里获得时尚灵感。这样一个丰富而引人入胜的社交媒体有潜力带来好处。0Track: 认知计算 WWW 2018,2018年4月23-27日,法国里昂Flickr30kNetiLook 2https://mashyu.github.io/NSCFlickr30k30K150K13.3923,461MS COCO200K1M10.4654,231NetiLook350K5M3.75597,62939701. 一个戴着辫子和眼镜的可爱小女孩即将...0挥动棒球02. 一个戴眼镜的年轻女孩试图从一个...0独立式击球架03. 一个戴着辫子的年轻女孩,在一个... 4.一个小女孩在棒球场上用击球架...05. 一个小女孩正在打T球01. 非常漂亮的裙子!02. 哦天哪,我喜欢这个!�03. 你的头发太棒了,我喜欢这个造型04. 太漂亮了,你的头发太棒了 <305. 喜欢这件钩针裙子!:)0图2:来自Flickr30k和我们的NetiLook的示例。(a)大多数句子描述的是浅显的外观(例如,类型、颜色),并且具有相似的句子模式(例如,“一个小女孩...”)。(b)这些句子涉及丰富的用户意图和丰富的风格。此外,其中的表情符号使其更加亲密。0智能和类人评论应用程序。因此,我们从Lookbook收集了一大批用户贡献的时尚照片和评论,称为NetiLook。NetiLook2:据我们所知,这是第一个也是最大的网民风格评论数据集。它包含来自11,034个用户的355,205张图像和500万条相关评论,这些评论都是从Lookbook收集来的。如图1所示的示例,大多数图像都是以各种角度、不同滤镜和不同风格的拼贴方式呈现的时尚照片。如图2(b)所示,每个图像都与(多样的)用户评论配对。我们的数据集中,最多的评论数是427条,平均每张图像有14条评论。需要注意的是,我们观察到有7%的图像没有评论,我们在训练阶段将这些图像删除。此外,每个帖子都有一个由作者命名的标题、发布日期和其他用户给出的点赞数。此外,一些用户还添加了服装的名称、品牌、Pantone色号以及购买服装的商店信息。此外,我们还收集了作者的公开信息。其中一些包括年龄、性别、国家和粉丝数量(参见图3)。我们相信所有这些对于推动时尚照片评论领域都是有价值的。在本文中,我们只使用了我们数据集中的评论和照片。其他属性可以用于未来工作中对系统进行改进。为了与Flickr30k上的结果进行比较,我们还对其进行了采样,用于训练的样本量为28,000个,验证集样本量为1,000个,测试集样本量为1,000个。此外,我们还对每个图像采样了五条评论。与Flickr30k等常规图像字幕数据集相比,社交媒体上的数据非常嘈杂,充满了表情符号、俚语,并且长度更短(参见图2(b)和表1),这使得生成生动的“网民”风格评论更具挑战性。此外,许多照片的风格各不相同。0表1:与其他图像字幕基准(Flickr30k [28]和MS COCO[17])的比较。我们收集的数据集Netilook在社交媒体上具有最多样化和最真实的句子(例如,最大唯一词数)0数据集 图像 句子 平均长度 唯一词数0图3:Lookbook中一篇帖子的属性示例。帖子包括作者命名的标题、作者的国家、发布日期、服装的名称、品牌和Pantone色号。0拼贴画(参见图1中的照片)的视角多样,因此使图像特征比单一视图照片更加嘈杂。为了完全生成完全反映社交媒体文化的评论,我们在下一节中展示了我们的方法。04 方法 - 网民风格评论0在NetiLook中,我们观察到与一般图像字幕数据集中的句子相比,用户评论更加多样化。此外,还有一些经常在帖子中使用的句子(例如“喜欢这个!”,“不错”),这导致当前模型倾向于生成类似的句子。输出的评论变得毫无意义和乏味。为了使模型沉浸在生动的网民风格中,我们将主题模型的风格权重融合到图像字幕模型中,以保持长距离依赖关系,并从不同的观点中获取不同的评论作为主题。04.1 图像字幕0我们按照[33]的方法,通过CNN从图像I中提取图像特征,并将其在t =-1时馈送到图像字幕模型中,以通知LSTM(参见图4中的CNN)。我们从中提取FC7(完全连接层)特征作为图像的高级含义,并将其馈送到LSTM中。0跟踪:认知计算WWW 2018,2018年4月23日至27日,法国里昂00.51Alove<3coollike64128256512512409633333334096S0S2S6S8S8S6S2S23S65S48S3S7S11S3S5S10S43S54S68S57S97S22S31S45S77Convolution Neural NetworkNSCS48S5S3SNS65S48SNS7S11SNS5S10SNS21S22SNS5SNLSTMBeam SearchBeam SearchLatent Topicx 1 = CNN(I).(1)xt = Wes, t ∈ 0...T − 1.(2)With the CNN features, we can obtain probabilities of words ineach generating step from the image captioning model. Sentencesfrom general image captioning dataset basically depict commoncontent of images. Therefore, conventional image captioning mod-els are able to focus on accuracy. Nevertheless, to strike a balancebetween accuracy and diversity in current frameworks is arduous.To keep the merit of conventional models, we modify the gener-ating processes of modern models with topic models and makeoutputs diverse while facing vivid netizen comments.pt+1 = Softmax(LSTM(xt ))wstyle, t0...T1.(3)ϕz = P(w1 z), P(w2 z), ..., P(wN z) .(4)3980我喜欢颜色和你的配饰,很聪明的口红:>0图4:我们提出的框架示意图。我们的系统由LSTM(参见第4.1节)、主题模型(参见第4.2节)和波束搜索(参见第6.1节)组成。我们的方法利用基于CNN-RNN框架的图像字幕模型的输出和来自LDA的风格权重生成具有生动“网民”风格的多样化评论。0我们将一个单词表示为一个与字典大小相等的one-hot向量s。T是输出句子的最大长度。我们将单词嵌入表示为We。0利用CNN特征,我们可以从图像字幕模型中获得每个生成步骤中单词的概率。一般图像字幕数据集中的句子基本上描述了图像的常见内容。因此,传统的图像字幕模型能够专注于准确性。然而,在当前框架中在准确性和多样性之间取得平衡是困难的。为了保持传统模型的优点,我们通过主题模型修改现代模型的生成过程,并在面对生动的网民评论时使输出多样化。04.2 风格字幕0为了考虑生动的网民风格评论,我们引入了风格权重wstyle,将其与LSTM的每个步骤的输出逐元素相乘(◦)以调味生成的句子。0风格权重wstyle代表评论的风格,它教导模型在生成字幕时熟悉语料库中的风格。然而,抽象概念对人们来说很难给出具体的定义。为了获得NetiLook中的评论风格,我们应用LDA来发现潜在主题,并与当前的字幕模型融合。假设一个语料库包含M条评论。评论由N个单词的子集组成。我们为LDA指定了K个主题(z1,z2,...,zK)。它给出了N维主题-词向量和K维评论-主题向量。主题-词向量:每个主题z都有一个N个字典中的单词的概率向量。该向量描述了主题的词分布。主题z的主题-词向量ϕz为0其中w1,w2,...,wN是字典中的N个单词。0评论-主题向量:每个评论m还与一个主题的概率向量相关联,表示评论的主题概率。评论m的评论-主题向量θm为:0θm = {P(z1|m), P(z2|m), ..., P(zk|m)}. (5)0其中z1,z2,...,zK是不同的K个主题。为了找到语料库中的主题分布,每个评论通过argmax(θm)来投票选择具有最高概率的主题。tim是tm的第i个维度。根据我们的发现,投票给出了语料库中最具特色的风格。数学表示如下:0令tim = {1 if i = argmax(θm) 0 otherwise. (6)0现在可以通过将tm中的主题数量总和归一化为评论总数来计算语料库y的主题分布。这意味着语料库中评论的各种观点的比例:0y =0m = 1 tm / M. (7)0有了语料库y的主题分布和主题-词向量ϕ,我们的风格权重wstyle现在定义为:0wstyle =0k = 1 ykϕk. (8)0其中yk表示y的第k个维度。由于我们在公式(3)中嵌入了风格权重,它可以引导生成过程选择更接近社交媒体中学习到的网民风格的词语(例如,我们观察到一个风格权重突出了表情符号风格),LSTM能够生成具有语料库中风格的句子(参见图4中的潜在主题)。05种多样性度量0由于BLEU和METEOR不适用于多样性度量,因此在句子生成模型中,多样性度量变得越来越重要。目前,[15]和[32]通过计算生成回应中不同单词的数量与生成标记的总数之比来报告多样性程度。然而,对于来自互联网的多样化评论来说,这还不够,因为评论不仅可以用自然语言表示,还可以用各种句子模式表示,例如表情符号和表情图案。因此,为了弥补这一点,0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, Francewif t = (wit + 1)/N�i=1(wit + 1).(10)wif д = (wiд + 1)/N�i=1(wiд + 1).(11)WF-KL(wf t, wf д) =N�i=1wif t log(wif t/wif д).(12)tif t = (tit + 1)/N�i=1(tit + 1).(13)tif д = (tiд + 1)/Ni=1(tiд + 1).(14)POS-KL(tf t, tf д) =N�i=1tif t log(tif t/tif д).(15)3990针对BLEU和METEOR的缺点,我们提出了三种新颖度量方法来判断字幕模型生成的评论的多样性。我们观察到生成的句子越多样化,使用的唯一单词越多。因此,我们设计了一种直观且简单的唯一单词度量方法,称为DicRate。DicRate:我们在本文中提出的字典率是通过计算生成句子中的唯一单词数除以真实句子中的唯一单词数来衡量的。真实句子中的唯一单词数为Nt。生成句子中的唯一单词数为Nд。DicRate的计算方法如下:0DicRate(Nt, Nд) = Nд / Nt. (9)0DicRate反映了模型词汇丰富程度,但仍不能衡量句子多样性。受论文[29]中对话回应生成的启发,我们提出了两种基于熵的新颖度量方法来判断时尚照片评论的多样性。这些度量的描述如下:WF-KL:基于词频分布的KL散度(KL散度)用于衡量真实句子和生成句子之间的词频分布差异。它展示了模型在数据集中选择单词的倾向学习得有多好。数据集中的唯一单词数为N。真实句子中每个单词的出现次数为wt。真实句子的词频分布为wft。生成句子中每个单词的出现次数为wд。生成句子的词频分布为wфд。参考词项频率-逆文档频率(tf-idf)的公式,为了避免除以零,我们在wt和wд上加了一。wi是w的第i个维度。0WF-KL可以计算如下:0POS-KL:基于词性(POS)标注频率分布的KL散度,介于真实句子和生成句子之间。POS是一项经典的自然语言处理任务。其中一个应用是识别用户搜索查询中的产品文本范围[12]。除了词分布,POS还展示了句子中单词之间的交互。数据集中唯一标签的数量为N。真实句子中每个标签的出现次数为t t。真实句子的标签频率分布为t ft。生成句子中每个标签的出现次数为tд。生成句子的标签频率分布为t f д。为避免除以零,我们将0还要将 t t 和 t д 增加1。 t i 是 t 的第i个维度。0POS-KL可以计算如下:06实验 6.1实验设置0据我们所知,这是第一个专注于语料风格和句子多样性的字幕方法。一般来说,当前的方法都致力于优化机器翻译分数。因此,我们只选择了两种著名的字幕方法进行比较,而没有选择其他最先进的方法(例如,[1],[34])。为了展示多样性的改进,我们将我们的风格权重应用于我们的基线。数据集:请注意,我们只采用Flick30k进行实验,与NetiLook进行比较,因为Flick30k的特点主要是描绘人类,更接近NetiLook。此外,Flick30k和NetiLook中的图像都是从社交媒体中收集的,这使得图像处于相似的领域。预处理:我们认为学习过程应该是自主的,并利用自由和广泛可用的在线社交媒体。为了避免噪声,我们按照[33]的方法,在训练集中删除包含词频少于五次的句子。我们还过滤了数据集中超过20个单词的句子,以减少广告,使句子更易读[26]。请注意,为了彻底传达用户的意图和评论风格,我们不会删除句子中的任何标点符号。评估:BLEU和METEOR是常规的机器翻译分数,它们基于答案的匹配而不考虑多样性。BLEU和METEOR之间的区别在于METEOR可以处理词干和同义词匹配。在BLEU分数中,我们报告4-gram,因为它与人类的相关性最高[27]。对于BLEU和METEOR,分数越高意味着根据与真实答案的匹配而言,句子越正确。在我们的多样性指标中,较高的DicRate表示模型的词汇丰富度更高。此外,较低的WF-KL和POS-KL意味着生成的语料库更接近于真实词分布和句子模式。基线:我们在表2和表3中复制了两种著名的字幕方法(NC [33]和Attention[35])。NC是一种考虑图像全局特征的CNN-RNN框架方法。Attention是一种基于注意力的方法,它对显著特征赋予不同的权重。通过将NC与Attention在[35]中进行比较,BLEU和METEOR的关系与表2中报告的结果类似。我们提出的方法NSC在解码阶段融合了风格权重。我们采用了波束搜索,一种广泛用于图像字幕的近似推理算法,遵循[33]的方法来提高性能。0Track: 认知计算 WWW 2018,2018年4月23日-27日,法国里昂4000表2:在Flickr30k测试集上的性能。0方法 BLUE-4 METEOR WF-KL POS-KL DicRate0人类 0.108 0.235 1.090 0.013 0.6640NC 0.094 0.147 1.215 0.083 0.216 Attention 0.121 0.1481.203 0.302 0.0530NSC NC 0.089 0.146 1.217 0.075 0.228 NSC Attention 0.1190.148 1.202 0.319 0.0550表3:在NetiLook测试集上的性能。0方法 BLEU-4 METEOR WF-KL POS-KL DicRate0人类 0.008 0.172 0.551 0.004 0.3810NC 0.013 0.151 0.665 1.126 0.036 Attention 0.020 0.1330.639 1.629 0.0110NSC NC 0.013 0.172 0.695 0.376 0.072 NSC Attention 0.0300.139 0.659 1.892 0.0120由于句子长度的增加,可能的序列数量呈指数增长,束搜索可以通过在有限集合中扩展最有希望的节点来探索生成过程。我们在实验中比较了各种束搜索大小,这些方法在束搜索大小为3时获得了最佳性能。需要注意的是,最佳束搜索大小可能因数据集的特性而异[13]。在我们的实验中,对于LDA,通过将K从1变化到15来分析性能的敏感性。对于Flickr 30k的第一次实验,我们将主题数设置为3(K =3);对于NetiLook的实验,我们在NSC NC中设置了K =5,在NSC Attention中设置了K =3。我们观察到主题模型可以反映出一些评论的语义“风格”(例如表情符号风格)。因此,与Flickr30k相比,NetiLook选择了更多的主题模型,因为这个数据集中用户评论更加多样化。有趣的是,NSCNC中的适当主题模型数量高于NSCAttention。我们观察到更多的主题模型不会对基于注意力的方法产生好处,因为基于注意力的模型在词语选择上受到严格限制。06.2 定量分析 - 数据集0传统的字幕数据集,如Flickr30k [28]和MS COCO[17],只关注图像描述,而不强调风格和类似评论的句子。因此,我们在论文中解决了这个问题,并为全新的问题定义做出了贡献。为了比较模型与人类以及数据集的特点,我们不仅评估生成的句子,还评估人类评论。此外,从表2和表3的人类评估中可以看出,比较确实突出了Netilook和Flicr30k之间的区别。对于人类或机器给出的评论,很难用NetiLook中的传统度量标准(例如BLEU-4中表2中的0.108与表3中的0.008)进行评估。因此,我们提出了DicRate、WF-KL和POS-KL这些度量标准来评估评论。在在线社交媒体的情景中,标点符号、俚语、表情符号和表情符号对于传达情感在句子中非常重要。因此,Netilook比其他数据集具有更多的多样性和独特的词汇。0与其他数据集相比(例如DicRate中表2的0.664与表3的0.381),NetiLook专注于描述服装风格,如图5所示的示例。然而,与混合了数据集中所有类型图像的Flickr30k相比,描述和评论服装风格的一些常见词汇和一般模式存在差异。因此,NetiLook在WF-KL和POS-KL上得分较低(例如在表2中的1.090与表3中的0.551)。对于这样一个多样化和特色鲜明的数据集,机器需要考虑整体语料库分布并模仿评论风格,以在我们的评估中获得高性能。然而,对于学习人类评论风格来说,对于一般字幕模型来生成多样的词汇仍然具有挑战性,尽管有一些一般的评论可以达到普遍较低的损失(例如,“好看”,“我喜欢这个!”)。然而,我们的风格权重将人类风格带入机器生成的句子中。06.3 定量分析-模型评估0表2总结了Flickr30k数据集的性能。注意力模型在图像中放置权重,因此模型可以轻松描述图片中的对象,并达到更好的BLEU和METEOR(例如,BLEU-4中的0.094与0.121相比)。然而,在解码阶段,基于注意力的模型在词选择方面受到很大限制。在我们的实验中,与NC相比,POS-KL和DicRate要差得多(例如,在DicRate中,0.053与0.216相比)。通过我们的风格权重,模型NSCNC扩展了词的多样性,而不会在BLEU和METEOR上牺牲太多。风格权重鼓励模型选择更接近原始分布的词,而不是在训练阶段通常可以获得最低损失的词。正如我们在表2中所示,与NC相比,NSCNC改进了DicRate和POS-KL(例如,在DicRate中,0.216与0.228相比)。风格权重的影响也在注意力模型中显示出来。然而,我们观察到,在Flickr30k数据集中,嵌入风格权重并不能在多样性方面有很大改进,因为句子客观地描述了Flickr30k中的人们进行各种活动。在NetiLook中,表3中的实验表明,我们的方法可以极大地提高多样性。与表3中的注意力相比,NC的性能优于注意力(例如,在DicRate中,0.036与0.011相比),除了BLEU-4和WF-KL(例如,在WF-KL中,0.665与0.639相比),因为词的选择受到图像中显著特征的影响,这使得模型错过了语料库的意图,而整个数据集具有相似的对象。然而,通过风格权重,我们的NSCNC在POS-KL和DicRate方面优于其他基线(例如,在POS-KL中,NSCNC的值为0.376)。这证明风格权重可以引导生成过程,使得评论更接近社交媒体用户的行为,使机器模仿在线网民的评论风格。06.4 图像评论结果0我们在NetiLook上展示了一些时尚评论结果的真实示例,使用了各种方法。尽管有来自MicrosoftCaptionBot的表情符号生成,但评论仍然缺乏参与度,并且无法处理拼贴照片。在NetiLook上训练通用字幕模型(例如NC和Attention)时,评论比人类的要短得多,并且固定在某些模式中,缺乏多样性。0Track: 2018年4月23-27日,法国里昂的认知计算WWW 2018proposed NSCNC😯😐4010(a)(b)(c)(d)(e)(f)0人类0NC0注意0我们的0美丽!喜欢裤子,0太阳镜和0其他一切!;)0我喜欢你的连衣裙!0我喜欢你的造型0我喜欢这个0搭配很棒:))我今天的心情给了0你!:)0令人惊叹的造型!喜欢0里面的一切!点赞!0我喜欢你的鞋子 <30我喜欢你的鞋子0我喜欢你的鞋子!!!0点赞!<30方法0很棒的照片:-)0我喜欢你的发型和造型0我喜欢这双鞋子0我喜欢你的头发和外套,0难以置信的美丽。0点赞!0酷0不错0我喜欢你的造型0我喜欢你的头发0太棒了,伙计!0好看的造型0我喜欢你的鞋子0我喜欢你的风格!!:D0喜欢你的连衣裙!0我喜欢你的鞋子0喜欢这件连衣裙!0CaptionBot0一对站在旁边的女人0一个女人,她似乎0� .0一群人站在0一个穿着黑色潮湿套装的女人旁边,他们0似乎0� .0一个男人正在空中跳跃0站在滑板上。0一群人站在0彼此环绕。0一个小女孩走在街上,他们似乎0� .0一个站在砖墙旁边的女人,她似乎0� .0图5:不同方法生成的评论示例。这些示例显示了我们提出的方法NSC NC可以帮助生成更多样化和生动的评论。0与人类类似的意图:通过风格权重,NSCNC可以生成更接近用户意图的评论(参见图5(a))。更生动的评论:在传达相同意图的同时,NSCNC能够使用表情符号、标点符号和大写字母生成比其他字幕模型更多的网民风格评论(参见图5(b))。另一种观点:通过考虑数据的主题分布,NSCNC生成的评论与一般字幕模型不同,并且更接近人类(参见图5(c)-(e))。错误的对象:然而,我们的NSCNC仍然存在一些缺点,比如在图像中描述错误的对象。因为NSCNC仍然基于图像字幕模型,所以它会像其他字幕模型一样由于图像的相似性而生成错误的评论(参见图5(f))。通过联合训练主题模型和注意力模型,可以改进这一点。06.5 用户研究0受到论文[34]的启发,该论文通过向三名工作者展示图像来进行图像字幕的人类评估,我们从23名用户中进行了一项用户研究,以展示多样化评论的效果。用户年龄约为25岁,熟悉网民风格社区和社交媒体。我们的用户研究中的性别比例为2.83男/女。他们被要求为35张时尚照片排名评论。每张照片有4条评论,分别来自随机选择的一个人类评论、NC、Attention和我们的NSCNC。因此,每个用户必须评估来自不同方法生成的140条评论。此外,我们收集用户反馈,以了解用户对不同方法生成的评论的判断。如表4所示,805张票(35×23)中有36.8%的票将从NSCNC生成的句子排在第一位,超过了其他方法。0表4:用户研究结果。与其他方法相比,NSCNC的评论更容易被视为人类。0排名 人类 NC Attention NSC NC0排名1 46.1% 10.8% 6.3% 36.8%0排名2 24.5% 21.4% 14.4% 39.8%0排名3 18.1% 31.9% 34.3% 15.7%0排名4 11.3% 35.9% 45.0% 7.8%0NC和Attention。这意味着我们的NSC在某些图像中击败了人类的评论。此外,人类和NSCNC在排名1上的差距仅为9.3%。在前两个排名中,NSCNC的性能达到了76.6%。这也证明了我们的NSCNC能够生成具有人类质量的句子。根据我们的用户研究,人们普遍认为我们的NSCNC句子是人类评论。根据我们的用户研究,人们排名的主要关注点是表情符号。表情符号是句子中连接人类情感并使句子更生动的重要组成部分。例如,用户研究中的图5(d),NSCNC的投票在第一名(39.1% vs.34.8%)上胜过人类。评论和图像之间的相关性是人们排名的第二个关注点。句子中提到的对象不应该是琐碎的或与照片不匹配。例如,图5(c),NSCNC捕捉到了服装(外套)和飘逸的头发,导致在用户研究中与人类在第一名(39.1%)上获得相同的投票。总之,我们的风格权重使字幕模型模仿人类风格并生成与我们的用户研究中大多数人都同意的类人评论。0论文追踪:认知计算WWW 2018年4月23日至27日,法国里昂[1] Lisa Anne Hendricks, Subhashini Venugopalan, Marcus Rohrbach, RaymondMooney, Kate Saenko, and Trevor Darrell. 2016. Deep compositional captioning:Describing novel object categories without paired training data. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. 1–10
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功