没有合适的资源?快使用搜索试试~ 我知道了~
1705图像和视频广告宰姆·侯赛因张明达张晓忠叶可人克里斯托弗·托马斯祖哈阿加王永庆阿德里亚娜·科瓦什卡匹兹堡大学计算机科学系{zaeem,mzhang,xiaozhong,yekeren,chris,zua2,nro5,kovashka}@ cs.pitt.edu摘要图像不仅仅是其客观的物理内容:例如创建广告以说服观众采取某种行动。我们提出了新的问题,自动广告理解。为了研究这个问题,我们创建了两个数据集:一个是包含64,832个图像广告的图像数据集,另一个是包含3,477个广告的视频数据集。我们的数据包含丰富的注释encom-传递广告的主题和情绪,问题和答案描述了观众被提示采取什么行动,以及广告为说服观众而呈现的推理(“根据这个广告,我应该做什么,为什么我应该这样做?“),以及广告做出的符号引用(例如,鸽子象征和平)。我们还分析了最常见的说服性广告策略,以及计算机视觉系统应该具备的理解这些策略的能力我们提出了几个预测任务的基线分类结果,包括自动回答有关广告信息的问题。1. 介绍图像广告是相当强大的,网络公司货币化这种力量。2014年,Google五分之一的收入来自AdSense产品,该产品自动向目标用户提供广告。此外,广告是我们文化的一个组成部分。例如,图中左上角的两个广告。1可能已经被每个美国人看到,并已被改编和重复使用的无数方式。在视频广告方面,大众汽车广告之所以有说服力,是因为它们传达了某种吸引观众的信息。有时信息很简单,可以从肢体语言中推断出来,就像图中的“我们能做到”广告一样。1.其他广告使用更复杂的信息,例如推断,因为茄子和铅笔形成相同的对象,铅笔给出了一个非常真实,自然的茄子颜色,如图中右上角的广告。1.一、图1:两个标志性的美国广告,三个需要强大的视觉推理来解码。尽管广告理解具有潜在的应用,但这个问题以前在计算机视觉中还没有得到解决。解码右下角广告中的信息需要更多的步骤,阅读文本(“不要购买异国情调的观众不得不从她正在搬运一个手提箱的事实中推断出这个女人去度假了,然后从她手提箱后面的血迹中推断出她正在搬运死去的动物。人类知道这一点,因为她把血与伤害或死亡联系在一起。在左下角的“森林之肺”图像中,肺象征着呼吸,延伸开来,象征着生命。然而,人类首先必须将这些树木识别为肺部,这对计算机来说可能很难做到。这些只是广告如何使用不同类型的视觉修辞来传达信息的几个例子,即:常识推理、象征主义和非真实感物体的识别。理解广告自动需要解码这种修辞。这是一个具有挑战性的问题,超越了列出对象及其位置[72,21,61],甚至产生一个关于图像的句子[76,14,33],因为广告是关于1706物体是如何被描绘的,为什么被描绘,以及描绘什么物体我们提出了广告理解的问题,并开发了两个数据集,以使其取得进展。我们收集了超过64,000个图像广告的数据集(包括产品广告,如铅笔广告,以及公共服务公告,如反动物纪念品广告)。我们的广告涉及各种各样的主题。我们要求亚马逊的土耳其机器人工作人员在每个广告上贴上主题标签(例如:它宣传什么产品或公共服务公告的主题是什么),它试图在观众中激发什么情感(例如,环境保护广告中的干扰),以及它使用什么策略来传达它的信息(例如,它需要理解物理过程)。我们还包括两个问题的众包答案:“观众应该根据这个广告做什么?“和“他/她为什么要这样做?“最后,我们包括广告使用的任何象征(例如,事实上,一只鸽子在一个IM-年龄可能象征性地指的是“和平”的概念)。我们还开发了一个包含3,000多个视频广告的数据集,这些视频广告具有类似的注释(除了符号)和一些额外的注释(例如,“这广告好笑吗?“ 和“它令人兴奋吗?“)我们的数据收集和注释程序是由媒体研究中的文献提供的,媒体研究是一门研究大众媒体中的信息的学科,其中一位作者接受过正式培训。 我们的数据可在www.example.com获得http://www.cs.pitt.edu/~kovashka/ads/ 。数据集包含我们收集的广告图像、视频广告URL和注释。我们希望它能促进对广告解码这一新颖而重要的问题的研究。除了为理解广告修辞创建第一对数据集外,我们还提出了几个基线,这将有助于判断这个问题的进展首先,我们将解码广告作为一个问题回答问题。如果计算机视觉系统理解广告的修辞,它应该能够回答这样的问题:这是一项非常具有挑战性的任务,而且准确性很低。其次,我们为其他任务(如主题和情感识别)制定并这些任务更容易实现,并且具有更高的基线准确性。第三,我们展示了初步的实验,如何象征可以用于问答。自动理解广告的能力具有许多应用。例如,我们可以开发出预测某个广告效果的方法。通过自动理解广告使用的策略,我们可以帮助观众更加了解广告是如何诱使他们购买某些产品的。此外,如果我们能够解码广告的消息,我们可以根据用户的兴趣执行更好的广告定位。最后,解码广告将使我们能够为视障人士生成这些广告的描述,从而使他们能够更丰富地访问报纸或电视上显示的内容。2. 相关工作在这项工作中,我们证明,有一个方面的视觉数据,还没有处理过,即分析图像的视觉修辞这个问题已经在媒体研究中研究过[79,71,51,55,54,5,44,12]。此外,营销研究[83]考察观众对广告的反应以及广告是否会导致他们购买产品。虽然解码广告尚未在计算机视觉中研究,但这个问题与先前工作的几个领域有关。超越对象对语义视觉属性的研究不仅仅是对图像中的对象进行标记,例如。与形容词一样的属性,如“毛茸茸的”,“微笑”,或“金属”[39,15 ,56 ,38 ,68,35,36,17,77,2,27]。的对于一些需要主观判断或抽象分析的内容,社会亦作出初步尝试。例如,[59]学会检测一个人在运动中的表现。[41]使用机器的“imagination”来回答有关图像的问题。[32,73]研究艺术摄影的风格,[13,40]研究建筑和车辆的风格。虽然这些作品分析了潜在的主观内容,但它们都没有分析图像试图告诉我们什么。广告是一种新的形象,理解广告需要新的技巧.视觉说服力。与我们的工作最相关的是[29]的视觉说服工作,它分析了政治家的形象是正面还是负面的。作者使用捕捉面部表情、手势和图像背景的功能来检测正面或负面的描绘。然而,许多广告并不展示人,即使他们这样做了,通常也没有关于人的素质的暗示。相反,广告使用了一些其他的技术,我们将在第二节中讨论。4.第一章情绪我们的任务之一是预测广告旨在唤起观众的情绪。[57,58,6,42,30,45]研究图像中显示或感知的情感,但对于通用图像,而不是有目的地创建来传达情感的图像。我们与[6]进行比较,发现他们的方法并不适用于预测广告中的情绪。这再次表明广告代表了一个新的图像领域,其解码需要新的技术。以前的广告工作。据我们所知,没有任何人如我们所建议的那样,在解读广告的含义方面开展工作。[4,10]使用低层次视觉特征预测广告的点击率,而我们预测广告是关于什么的,它传达了什么信息。[47]通过捕捉人类观众的面部表情来预测他们对广告的喜爱程度[82 48]确定视频流中商业广告的最佳放置,或者使用用户影响和显著性来确定图像的一部分中的图像广告的最佳放置。[64,19]检测电视上显示的[85]通过寻找重复出现的模式(例如,标识)。人类面部反应1707放置和识别,以及检测标识,与我们解码广告信息的目标截然不同。视觉问答。我们为广告提出的任务之一是解码他们的修辞,也就是说,弄清楚他们想要说什么。我们制定这个问题的视觉问答的背景下。后者是最近的视觉和语言联合问题[3,62,46,80,67,81]也与图像字幕有关[76,33,14,37,16]。3. 图像数据集我们开发并提供的第一个数据集是一个大型的图像广告注释数据集,如图1所示。2(更多示例在supple-footer文件中显示)。我们的数据集既包括产品广告,也包括支持/反对某事的广告,例如保护环境和反对欺凌。我们称前者为我们将广告的产品或主题称为“主题”。我们在下面描述图像收集和注释过程。3.1. 收集广告图片我们首先收集了一个与广告相关的关键词列表(如supp所示),重点关注可能的广告主题。我们开发了一个关键字层次结构,以不同的粒度级别描述主题。这一层次结构包括两个粗略的主题,例如:“快餐”、“化妆品”、“电子产品”等,以及产品的品牌名称(例如,“雪碧”、“美宝莲”、“三星”)。类似地,对于公益广告,我们使用关键字,如:我们删除了所有大小小于256x256像素的图像,并获得了约220,000张噪声图像的初始接下来,我们从这个嘈杂的集合中删除重复。我们计算每个图像的SIFT词袋直方图,并使用卡方核来计算直方图之间的相似性。任何一对相似度大于阈值的图像都被标记为重复。经过重复数据删除,我们最终得到了大约19万张嘈杂的图像。最后,我们使用两阶段方法删除实际上不是广告的图像。首先,我们选择了21,945张图片,并将其提交到MTurk上进行注释,并询问“这张图片是广告吗?如果你认为这张照片可以作为广告出现在杂志上,你应该回答是的。”我们向注释者展示了丰富的示例,以证明我们认为是我们将至少有3/4的注释者标记为广告的图像ad,获得ad 8,348个和非ad 13,597个。其次,我们使用这些来训练ResNet [24],以区分广告和其余图像上的广告我们类型计数例如话题204,340电子情绪102,340开朗措施/原因202,090我应该骑自行车,因为它符号64,131危险(+边界框)战略20,000对比口号11,130拯救地球救你表1:为我们的图像数据集收集的注释。计票是在多数票清理之前。将我们的网络的召回率设置为80%,这对应于从21,945张人类注释的图像池中我们在168,000张未注释的图 像 上运 行ResNet 我 们 允许 注 释 者 在后 续 阶 段 将ResNet分类的使用自动分类步骤,我们节省了1,300美元的标记成本。我们总共获得了64,832个清理广告。3.2. 收集图像广告注释我们在Tab中收集了注释1,下面解释请注意,我们在第二节中描述了策略注释。4.第一章3.2.1主题和情感用于图像下载的关键字查询过程不能保证为每个关键字返回的图像实际上宣传了该主题。因此,我们开发了一个产品分类,并要求注释者用他们广告或宣传的主题来标记图像。我们还想知道广告给观众带来的感受,因为广告激发的情感是一种强大的说服工具。因此,我们还开发了一种情感分类法。为了得到这两种分类,我们首先要求注释者在一小批图像和视频上写下自由形式的主题和观点。这与用于测量对广告的情绪反应的“自我报告”方法一致然后,我们半自动地对它们进行聚类,并选择一组有代表性的词来描述每个主题和情感类型。我们列出了38个主题和30种情绪。在后面的任务中,我们要求工人选择一个主题和一个或多个情绪。我们收集了所有广告的主题注释,以及30,340个广告的情感。对于每个图像,我们从3到5个不同的工人那里收集注释。注释者之间对主题标签的一致性为85%(更多细节见supp)。示例见Tab。2.主题和情感的分布如图所示。3(左);我们看到体育广告和人权广告激发活动,而家庭虐待和人权和动物权利广告激发干扰和同情。有趣的是,我们观察到家庭虐待广告比动物权利广告更容易引发骚乱。1708惊讶/震惊或幽默/双关语对比人类体验产品文化/模因象征主义理解物理过程直接/文字广告(+OCR/NLP要求)非典型物体质量转移图2:根据解码广告所需的策略或视觉理解进行分组的广告示例。话题情绪餐馆、咖啡馆、快餐咖啡还是茶体育器材,活动电话,电视和网络提供商教育美容产品汽车,汽车动物权利,虐待吸烟、酗酒活跃的(精力充沛的,等等)担忧(concerned)惊奇(兴奋等)生气的(恼怒的,恼怒的)愉快的(高兴的,等)不安的(厌恶的,震惊的)受教育的(开明的,等等)Feminine(womanly,girlish)被说服的(印象深刻等)悲伤(沮丧等)表2:我们的话题和情绪列表中的一个样本。见supp的38个主题和30个情绪的完整列表。图3:关于主题和情绪的统计(左),以及主题和策略(右)。3.2.2问题和答案我们收集了202,090个问题和相应的答案,每个图像有三个问答对。选项卡. 31709表3:收集的问题-答案对的示例。你该怎么办?你为什么要这么做?教育旅行吸烟教育旅行吸烟去去烟雾帮助有趣吸烟学院访问香烟学习美丽像使用飞买想像杀出席旅行停止职业生涯想使学校航空公司退出事情伟大生活表4:来自图像数据集的对所选主题的行动和原因问题的回答中的常用词。展示了几个例子。我们问MTurk的员工:“根据这则广告,你应该做什么?为什么?“然后,回答者描述广告的信息,例如:“我应该买这件衣服,因为它会让我有吸引力。”我们-问题回答什么 你应该我应该买耐克运动服。- 你说什么?我应该买这个游戏机。- 你说什么?为什么?为什么?我应该喝绝对伏特加。因为他们支持LGBT权利。- 你说什么?为什么?为什么?我应该注意家庭暴力。因为它可以隐藏在众目睽睽之下。- 你说什么?为什么?为什么?我不应该在海里游泳。因为它破坏了海洋生态系统。1710要求工人以“我应该[行动]因为[原因]”的形式提供答案。由于问题总是相同的,我们自动将注释者的回答重新格式化为一个问题-回答对,如下所示。问题变成了“你为什么要[行动]?“”答曰: 对于后面的任务,我们将其分为两个问题,即我们分别问了“什么?“和“为什么”“但是,Tab。1将这些计数为单个注释。问题和答案中最常用的单词的例子4.第一章3.2.3符号在图的第二行。2、第一个意象用鲜血象征伤害,第二个意象用蒸汽象征狂欢精神,第三个意象用枪象征危险,第四个意象用烤箱手套象征炎热,第五个意象用冰柱象征新鲜,第六个意象用摩托车象征冒险。解码符号引用是困难的,因为它依赖于人类的联想。在媒介研究文献中,代表某种概念符号的物理对象或内容被称为我们使用MTurkers的帮助开发了一系列符号(概念,所指)和相应的训练数据。我们使用两个阶段的过程。首先,我们问注释者一个广告是否可以按字面解释(即,是直接的),或者它需要一些非字面的解释。为了简单起见,我们将所有非字面策略视为象征主义。如果大多数MTurker回应广告是非文字的,它进入第二阶段,我们要求他们标记能指和所指。特别是,我们要求他们画一个边界框(表示能指),并用它所指的符号(所指)标记它在所有图像中,有13,938幅被发现包含象征意义。我们修剪了极其罕见的符号,得到了一个221个符号的列表,每个符号都有一组边界框。最常见的符号是:“危险”、“乐趣”、“自然”、“美丽”、“死亡”、“性”、“健康”和“冒险”。更多统计数据在Supp。3.2.4口号此外,对于少数广告,我们还要求MTurkers撰写创意口号,以捕捉广告的信息虽然我们在工作中没有使用这些数据,但我们得到了一些有趣的答案,我们认为这些答案可以激发关于口号生成的有趣工作。3.3. 收集和质量控制这种规模的数据收集任务在三个方面提出了挑战:收集速度、成本和质量。对于每一种注释,我们根据完成任务所需的估计时间随着结果的到来,我们会调整这个价格,以考虑平均所需的实际时间,并且通常还会增加完成任务的速度。即使在大幅提高工资后,一些更困难的为了象征意义,我们为那些在一天内完成大量任务的MTurker提供了奖金总的来说,收集图像和视频广告的注释花费了13,030美元。对于MTurkers只需要选择选项的任务,例如主题和情绪,我们依靠多数票来忽略低质量的工作。对于问题回答,我们使用了简短或重复回答的数量以及答案中非字典单词的数量,以筛选可疑的回答。对于象征意义,我们手动审查了每个MTurker的随机子集,这些MTurker在一天内完成了超过预定数量的任务4. 我们如何解码广告?为了自动理解广告传达的信息及其说服技巧,我们的计算机视觉系统应该具备哪些能力例如,如果我们有完美的物体识别能力,理解广告会很简单吗?我们开发了一种分类法,可以捕捉广告使用的关键策略。虽然广告策略和视觉理解类型并不相同,但它们相互影响,因此我们的分析涵盖了两者。其中五位作者每人用广告使用的策略标记了100个广告我们使用一个共享的电子表格,当我们遇到新的策略时,我们会在自由格式的文本中逐步添加新的策略,或者选择以前列出的策略。在所有5x100张图像都被注释后,一位作者检查了一致性并迭代合并了类似的策略,结果是图1所示的九种策略的最终列表。第二章:• 直接/文字广告,只需要物体识别和文本识别和理解;• 广告暗示一些动态的物理过程正在发生,这个过程是产品有价值的原因(例如,吸管正在向罐努力)或为什么必须采取行动(例如,钟的手臂正在压碎熊,所以时间不多了);• 一个对象的质量(例如,茶杯的脆弱性)转移到另一个(人);• 一个物体象征一个外部概念的广告;• 涉及文化知识的广告;• 广告说明产品的质量与个人体验他们;• 展示非典型非真实感物体的广告;• 广告通过令人惊讶,震惊或者通过幽默来娱乐观众;• 通过对比展示产品质量或环境过程危险的广告。1711图4:策略和视觉理解统计。主图显示了作者的注释;插图显示了MTurk工作人员的注释。最好的颜色。每个图像都可以用多种策略进行标记。我们计算了广告中属于每个策略的策略实例总数的比例。我们在图1的主图中说明了结果。4.为了计算更多广告的统计数据,我们还要求MTurk工作人员为一组4000个广告的策略进行标记。我们获得了一个类似的图表(如图1中的插图所示)。4)更罕见的策略出现得更普遍,可能是因为不同的观众有不同的内部“聚类”策略,我们的MTurk注释者不是视觉专家。在作者的饼图和众包图中根据图中的统计数据4.能够被完美对象识别解码的简单因此,作为一个社区,我们还必须解决下面总结的一些其他挑战,以实现广告解码。请注意,解码广告涉及一个有点独特的问题:每个策略的广告数量不是很大,因此应用标准的深度学习技术可能是不可行的。• 我们需要开发一种方法来解码广告中的象征意义。我们在第二节中对这项任务进行了初步尝试6.2.• 我们需要开发技术来理解广告中的物理过程(例如,或以其人之道还治其人之身,或以其人之道还治其人之身。在理解物理力[53,52,86]和物体变换[26]方面有初步的工作,但这项工作仍处于起步阶段,不足以理解完整的物理过程,因为我们需要许多广告。• 我们需要强大的算法,可以识别高度非真实感模式的对象。例如,我们实验的视觉算法无法识别图中“典型对象”下的鹿、牛、猫头鹰和瓶子。2.这可能是因为这些物体的纹理与我们看到的非常不同11],但在广告的情况下的挑战是,来自每个“域”的数据(特定的方式,例如,鹿被穿孔托盘化)可以限于单个例子。• 我们需要技巧来理解广告中什么是令人惊讶或有趣的关于异常的初步工作[63,78]仅限于建模对象和属性的共同出现,以及漫画中的幽默[9],但惊喜/幽默检测在很大程度上仍未解决。最后,我们还分析了广告主题和广告策略之间的相关性,如图10所示。3(右)。我们看到,符号被用于各种广告,但最常见的是在吸烟广告。金融广告最常使用非典型的物体描绘,医疗保健和安全广告使用惊喜。5. 视频数据集视频广告有时甚至比图像广告更吸引人,更受欢迎。例如,一个Old Spice商业广告1有超过5400万的浏览量。然而,商业广告制作成本高昂,可能要花费数百万美元[23]。因此,网络上的商业广告较少,因此我们的视频数据集较小。5.1. 收集广告视频我们从互联网服务提供商那里获得了949个视频的列表。然而,我们想增加数据集的大小,所以我们额外 地 抓 取 了 YouTube 的 视 频 , 使 用 我 们 用 来 抓 取Google图像的关键字。我们挑选了播放次数至少20万次,“喜欢”多于“不喜欢”的视频。我们做了一个去重复的步骤。对于每一个视频,我们分别从开始和结束处分别获取(1)30帧和(2)30帧,降低它们的分辨率,然后对它们进行平均,以获得单个图像表示,这可能对轻微的变化不太敏感。如果两个视频的开始和结束帧根据哈希算法匹配[84],则它们被声明为重复。因此,我们获得了另外一组5,028个嘈杂的视频,其中我们提交了3,000个在Mechanical Turk上进行注释。我们将广告/非广告清理与注释过程的其余部分结合起来。我们使用直观的指标来确保质量,例如,我们删除了低分辨率,非常旧,欺骗或根本不是广告的视频。我们总共获得了3,477个视频广告5.2. 收集视频广告注释我们收集了Tab中显示的注释类型。5.我们在六个视频中向工人展示了如何注释的示例。主题和情感多项选择选项与用于图像的选项重叠。我们还获得了对“根据这段视频,你应该做什么?“and “Why should you dothis, according to训练图像。 在学习领域有工作-不变表示[22,75,7,8,18,20,31,43,1 https://www.youtube.com/watch? v=owGykVbfgUE1712类型计数例如话题17,345汽车/汽车,安全情绪17,345快乐,惊奇措施/原因17,345我应该买这辆车因为它是宠物友好型的好笑吗17,374是/否刺激?17,374是/否英语?15,380是/否/无关紧要有效?16,721不/./极其有效表5:为我们的视频广告数据集收集的注释。图5:视频数据集的统计数据。表6:对行动和原因问题的常见回答视频?”我们在图中显示了统计数据。5、Tab 6,更多的是在supp。例如,我们看到快乐是最常见的美容和汽水广告,渴望汽水广告,创造性的电子广告,和警觉的政治广告。我们的视频数据集有两个额外的注释,即视频广告是“有趣”还是“令人兴奋”。由于视频有更多的空间/时间来传达信息,我们认为幽默和兴奋是视频广告的典型特征。相比之下,我们发现象征主义不那么典型。6. 实验到目前为止,我们描述了我们收集的数据,并分析了解码广告所需的条件。我们现在描述我们对几个广告预测任务的基线评估对于大多数预测任务,我们将可能的标签视为互斥的,并报告准确性。对于符号检测,我们预测每个图像的多个标签,并报告总体F分数。6.1. 图像广告问答我们首先评估现有的问答方法在我们关于广告的问题上的表现。为了回答有关广告的问题,计算机视觉系统需要理解广告中隐含的视觉修辞和我们表明现有的方法不具有这种能力,通过其低性能。由于我们的数据量有限(64,832张图像,每张图像有3或5个问答对),我们选择了一种简单的问答方法[3],在我们的广告数据上进行训练。我们使用两层LSTM在2048D中编码问题,VGGNet的最后一个隐藏层[69]在4096D中编码图像。然后,我们将它们分别投影到1024D,将它们连接起来,并添加一个1000Dsoftmax层,用于生成一个单词答案。对于每一张图片,我们都有三个重新格式化的问题,关于广告使用的说服策略,类型是其中,Action可以是例如:“买件衣服”我们选择三个问题中的一个进行训练/测试,即TFIDF平均得分最高的单词。TFIDF分数是根据所有问题和答案计算我们将这个问题与注释者提供的三个答案的修改版本配对,形式为“Be- cause [Reason]”,其中Reason可以是例如。“它会让我变漂亮”由于我们的数据最初包含句子(而不是单个单词)答案,因此我们将三个答案中的每一个都修剪为单个最TFIDF得分最高的单词如果预测的答案与三个人类答案中的任何一个匹配,我们认为它是正确的。我们的人工注释员经常会提供不同的答案,这是由于同义词或因为他们对广告的解释不同。这与更客观的QA任务[3]形成对比,其中答案更有可能收敛。类似地,QA方法可能预测与注释者答案相关但不完全匹配的单词因此,我们的QA任务相当艰巨。使用所描述的方法,我们获得11.48%的准确率。活泼这低于“为什么”问题的准确性来自原始VQA(使用不同的测试设置)。为了简化QA预测任务,我们还进行了一个实验,其中我们将原始整句答案聚类为30个“原型”答案,并训练网络来预测30个聚类ID中的一个 直觉 虽然注释者使用许多不同的词来回答我们的“为什么”问题,但在提供的原因中有一些共同的特征。基线网络(使用128D问题编码和512D图像编码)在此任务上实现了48.45%的准确率。接下来,我们尝试通过符号解码来改进这些数字。6.2. 象征主义预测我们使用注意力模型[66,28]来检测符号;我们发现,要比直接分类更好地工作,你该怎么办?你为什么要这么做?教育旅行慈善教育旅行慈善Univ.访问支持帮助有趣帮助招收去捐赠得到家庭癌学院度假慈善程度旅行需要在线旅行钱Univ.地方儿童出席使用找到了。提供度假人1713第该模型的详细信息在supp中提供。多个符号可能与图像中的不同区域相关联。该网络在区分221个符号时的F值为15.79%注意,由于每个符号内的可变数据,学习符号检测器是非常困难的。例如,“男子气概”的象征概念可以用一个有吸引力的男人与一辆肌肉车摆姿势,一个男人被女人包围等来说明。我们在Supp中展示了一些例子。为了改进符号预测,我们还尝试了基于同义和同现将符号分组到集群中,获得了53个符号(详见附录)。经训练以区分这53种对称性的模型获得26.84%的F分数。我们还做了一个初步的实验,用来回答问题对于1000路单字预测任务,我们使用每个符号的类概率作为QA网络的额外特征,并获得了11.96% 的 略 微 提 高 的 准 确 率 ( 与 基 线 的 11.48% 相比)。在30路QA任务中,一种方法将基线的图像特征替换设计一种更好的方法来预测和使用问题回答的象征是我们未来的工作。6.3. 视频广告问答我们使用了与上述相同的过程和SEC的视频功能。6.5.我们实现了8.83%的QA准确率。6.4. 图像广告的主题与情感我们选择最常见的主题/情绪作为地面事实标签。我们训练了152层的ResNets [24]来区分我们的38个主题和30个情感。在主题上训练的网络在一个固定的集合上 达 到 了 60.34%的 准 确 率 。 情 感 网 络 的 准 确 率 为27.92%。因此,与上述QA实验中的预测消息相比,利用现有技术预测广告的主题更加可行。对于情感,我们还根据视觉情感本体[6]的数据训练了一个分类器,以确定我们广告上的情感识别与一般图像上的情感识别有何不同。我们将[6]的形容词名词短语(ANP)映射我们使用与映射到我们的情绪之一的所有ANP相关联的图像,得到21,523个训练图像(与我们的情绪注释图像的数量相似)。这达到了6.64%的准确率,低于我们广告数据的情感准确率,表明广告上的情感看起来与其他图像上的情感不同。6.5. 视频广告的主题和情感我们认为视频广告中的动作可能对理解广告有因此,我们使用最初用于动作识别的C3D网络[74,34]作为特征提取器。在Sports-1 M上进行预训练[34]并在UCF101上进行微调[70]。我们将视频转换为帧,并将连续的16帧作为剪辑。我们为每个片段提取了fc6和fc7特征,并简单地平均了同一视频中所有片段的特征。我们训练了单独的多类SVM来区分我们的38个主题和30个情感。我们发现FC7显示出更好的性能。利用验证集的最优参数,我们获得了35.1%的预测精度视频主题,情感的准确率为32.8%。 我们有直接训练网络来完成这项任务的成功有限6.6. 有趣/令人兴奋的视频广告我们使用类似的策略来预测视频上的“有趣”和“令人兴奋”二进制标签。我们排除了模糊的视频(即,获得分裂的赞成票/反对票)。我们在fc7特征上训练了二进制支持向量机,并获得了78.6%的预测幽默的准确率和78.2%的预测兴奋。请注意,多数类基线分别仅达到58%和60.8%。因此,预测幽默和兴奋是令人惊讶的可行。7. 结论我们提出了一个大型的带注释的图像广告数据集,以及一个配套的带注释的视频广告数据集。我们展示了分析,描述了我们需要为视觉系统构建哪些功能,以便它们能够理解广告,并展示了解码广告中符号的初始解决方案我们还展示了几项任务的基线,包括回答问题,捕捉广告的微妙信息。我们将为今后的工作寻找几个机会我们将进一步开发我们的符号检测框架,包括每个符号的附加弱标记Web数据我们还将利用知识库对广告进行解码。我们将使用LSTM网络和更好的功能对视频广告进行建模,并在我们的分析中包括音频处理我们将使用主题、情绪、幽默和兴奋预测来提高问答的准确性最后,我们还将追求识别非典型对象和建模的物理过程。鸣谢:本材料基于美国国家科学基金会资助的工作,资助号为1566270。这项研究还得到了Google FacultyResearch Award和NVIDIA硬件基金的支持。本材料中表达的任何观点、发现、结论或建议均为作者的观点,不一定反映国家科学基金会的观点。1714引用[1] AdSense.https://en.wikipedia.org/wiki/www.example.com[2] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的 标 签 嵌 入 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR),2013年。[3] S. 安托尔,A. 阿格拉瓦尔J. Lu,M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克VQA:可视化问答。IEEEInternationalConferenceonComputerVision(ICCV),2015年。[4] J. Azimi,R. Zhang, Y. Zhou,V. Navalpakkam,J. mao及X.弗恩 展示广告的视觉表现及其效果点击率。ACMInternational Conference on Information and KnowledgeManagement,2012。[5] J·比格内尔媒介符号学:一个介绍。曼彻斯特大学出版社,2002年。[6] D.博思河吉氏T. Chen,T. Breuel和S.- F.昌基于形容词名 词 对 的 大 规 模 视 觉 情 感 本 体 和 检 测 器 ACMInternational Conference on Multimedia,2013。[7] K. Bousmalis,G.Trigeorgis,N.Silberman ,D.Krishnan和D. 二汉域分离网络。神经信息处理系统进展,2016年。[8] L. Castre jon,Y. Ayta r,C. 冯·昂德里克,H. Pirsiavash,andA.托拉尔巴从弱对齐数据中学习对齐的跨模态表示。IEEE计算机视觉和模式识别会议论文集(CVPR),2016。[9] A. Chandrasekaran、A. Kalyan,S.安托尔湾Bansal,D.巴特拉角L. zitnick和D.帕里克我们是幽默的人:理解和预测视觉幽默。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。[10] H.成河,巴西-地V. Zwol,J. Azimi,E.马纳夫奥卢河张先生,Y. Zhou和V.纳瓦帕卡姆多媒体功能用于显示广告中新广 告 的 点 击 预 测 。 ACM SIGKDD InternationalConference on Knowl- edge Discovery and Data Mining,2012。[11] C. M.克里斯图迪亚斯河Urtasun,M. Salzmann和T.达雷尔。学习从看不见的形态中识别物体。欧洲计算机视觉会议,2010年。[12] M. 达内西消息,符号和意义:符号学和沟通的基础。加拿大学者出版社,2004年。[13] C. Doersch,S.辛格A.Gupta,J.Sivic和A.埃夫罗斯是什么 让 巴 黎 看 起 来 像 巴 黎 ? ACM Transactions onGraphics,31(4),2012。[14] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2015年。[15] A.法尔哈迪岛Endres、D. Hoiem和D. A.福赛斯以属性来描述物体。在IEEE计算机视觉和模式识别会议,2009年。[16] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨,C. Rashtchian,J. Hockenmaier和D.福赛斯每一张照片都讲述了一个故事:从图像生成句子。2010年欧洲计算机视觉会议(ECCV)[17] D. F. Fouhey,A. Gupta和A.齐瑟曼。3D形状属性。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2016年。[18] Y. Ganin和V. Lempitsky通过反向传播的无监督域自适应。国际机器学习会议(ICML),2015。[19] J. M. Gauch和A. 湿婆神 发现和识别未知的广告使用重复的视频序列检测。计算机视觉与图像理解,103(1):80[20] M. Ghifary,W. B. Kleijn,M. Zhang,L. Balduzzi,还有W. 李用于非监督域自适应的深度重构分类网络欧洲计算机视觉会议(ECCV),2016年。[21] R.娘娘腔。快速R-CNN。在IEEE国际计算机视觉会议(ICCV)中,2015年。[22] B.贡,Y. Shi,F. Sha和K.格劳曼用于无监督域适应的测地 线 流 核 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议(CVPR),2012年。[23] C. 格罗登 这是多少2016年的一项超级碗广告费用。http://fortune.com/2015/08/06/超级碗广告成本/.[24] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016年。[25] M.在酒吧。小达斯·维德揭示了原力背后的面孔。http://www.nbcnews.com/id/41455377/41458412.[26] P. Isola,J.J. Lim和E.H. 阿德尔森发现图像集合中的状态在IEEE计算机视觉和模式识别会议,2015年。[27] D. Jayaraman,F. Sha和K.格劳曼通过抵制分享的冲动来消除感官视觉属性的关联在2014年IEEE计算机视觉和模式识别会议(CVPR)上[28] S. Jetley,N. Murray和E.维格通过概率分布预测实现端到端显著性映射。IEEE计算机视觉和模式识别会议论文集(CVPR),2016。[29] J. Joo,W. Li,F. F. Steen和S.- C.竹视觉说服力:推断图像的交际意图。在2014年IEEE计算机视觉和模式识别会议(CVPR)上[30] B. Jou,S. Bhattacharya和S.- F.昌预测动画gif中的观众感 知 情 绪 。 ACMInternationalConferenceonMultimedia,2014。1715[31] M. Kan,S. Shan和X.尘用于无监督域自适应的双移位自动编码器。IEEE International Conference on ComputerVision(ICCV),2015年。[32] S. Karayev,M.特伦塔科斯特湾Han,A.Agarwala,T.达雷尔A. Hertzmann和H.温尼莫勒识别图像样式。英国机器视觉会议(BMVC),2013年。[33] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 在IEEE计算机视觉和模式识别会议(CVPR)上,2015年。[34] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类 。 IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功