广告的符号学和外部知识的解读

37 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ADVISE：解读广告的符号学和外部Keren Ye[0000−0002−7349−7762]和Adriana Kovashka[0000−0003−1901−9660]匹兹堡大学，Pittsburgh PA 15260，USA{yekeren，kovashka}@ cs.pitt.edu抽象。为了在有限的空间内传达最多的内容，广告通过象征手法嵌入对外部知识的引用。例如，摩托车代表冒险（广告想要与所销售的产品相关联的正面属性），而枪代表危险（劝阻观看者不要做出不期望的行为的负面属性我们展示了如何使用符号引用来更好地理解广告的含义我们进一步展示了如何锚定广告的理解，在通用对象识别和图像字幕提高结果。我们将广告理解任务制定为将广告图像与描述广告提示的动作的人类生成的语句进行匹配，以及它为采取此动作提供的理由我们提出的方法优于这项任务的最新技术，并在另一种形式的问答广告。我们展示了我们学习的表示的其他应用，用于将广告与口号相匹配，并根据其主题对广告进行聚类，而无需额外的训练。关键词：广告·象征主义·问答·外部知识·视觉与语言·表征学习1介绍广告是影响人类行为的有力工具。产品广告说服我们大量购买，例如。用于汽车和家用电器，或小额但经常性的购买，例如洗衣粉的公共服务公告（PSA）鼓励对社会有益的行为，例如：打击家庭暴力或安全驾驶。要想脱颖而出，广告必须既引人注目又令人难忘[71]，同时也要传达广告设计师想要传达的信息。所有这些都必须在有限的空间（一个图像）和时间（无论观众花多少秒看广告）内完成。广告怎样才能获得最大的一种技术是参考查看者已经拥有的知识，例如：文化知识，联想和符号映射人类已经学会[54，35，57，34]。这些符号参考可能来自文献（例如：蛇象征着邪恶或危险）、电影（摩托车象征着冒险或酷）、常识（弯曲的手臂象征着力量）或流行文化（尤塞恩·博尔特象征着速度）。在本文中，我们描述了如何使用符号映射来预测广告的信息。一方面，我们对广告的组成部分进行2Keren Ye，AdrianaKovashkaD测试火车丹格河枪一酷危险瓶酷摩托车B酷C瓶我应该买这杯酒，因为它很刺激。Fig. 1.我们的核心理念：使用黄色显示的象征性联想（枪象征着危险;摩托车象征着酷）和以红色示出的识别的对象，以学习图像-文本空间，其中每个广告映射到描述该广告的内容的正确语句。由图像B和C组成的“cool”类型将存储空间中的内容关闭，并从图像A开始，将其作为一个“social”类型。”在测试时，不提供符号标签图像作为图像外部概念的视觉锚点，使用[22]的广告数据集中的注释另一方面，我们使用主任务外部的知识源，例如对象检测模型，以更好地将广告图像与其相应的消息相关联。这两种都是使用外部知识的形式，它们都归结为学习对象和符号概念之间的联系。我们以两种方式使用每种类型的知识，作为约束条件或作为学习图像表示的附加组件。我们专注于以下多项选择任务，通过排名实现：给定图像和若干语句，系统必须识别正确的语句以与广告配对。例如，对于图1中的测试图像D。1、系统执行的是“通过执行该命令来执行”。” 该方法有三个组成部分：（1）考虑图像中的各个区域的图像嵌入，（2）对来自符号标记和对象预测的学习空间的约束，以及（3）使用符号分布的图像表示的附加扩展。这三个组件如图所示。1，所有这些都依赖于外部知识的形式符号和对象的预测。请注意，我们可以认识到，在图1中危险的象征性联系。1通过两个通道：或者直接检查将图像中的实际对象识别为“距离”概念，或者检查图像中的实际对象之间的关联，其可以通过对象检测方法（例如，“枪”），和象征性的概念。我们称之为ADVISE方法：广告视觉语义嵌入。我们主要关注公益广告，而不是产品（商业）广告。公益广告往往更具概念性和挑战性，往往涉及多个推理步骤。定量地，[22]的数据集中59%的产品广告是直接的，即几乎可以用传统的方式解决-ADVISE：解读广告的符号学和外部知识3国家认可的进步。相比之下，只有33%的公益广告使用直截了当的策略，而其余的67%使用具有挑战性的非字面修辞。我们的方法优于最近的几个基线，包括先前的视觉语义嵌入[11，10]和理解广告的方法[22]。除了展示如何使用外部知识来解决广告理解，我们还展示了对象识别的最新进展如何帮助完成这项任务。虽然[22]评估了基本技术，但它没有采用最近的进展，如区域建议[16，50，38，14]或注意力[7，70，67，56，69，49，45，39，12，75，47]。概括起来，我们的贡献如下：– 我们展示了如何有效地使用象征主义来更好地理解广告。– 我们展示了如何利用嘈杂的字幕预测来弥合预测广告消息的抽象任务与更容易获得的信息（如图像中存在的对象）之间的差距。检测到的对象通过特定领域的知识库映射到符号。– 我们将理解广告的技术水平提高了21%。– 我们认为，对于“抽象”的广告，通用的对象识别技术更有帮助，而对于产品广告，通用的对象识别技术更有帮助。本文的其余部分组织如下。我们在SEC中概述相关二、节中3.1，我们描述了我们的排名任务，并在第二节。3.2中，我们描述了广告上的标准三元组嵌入。节中3.3中，我们讨论了将图像表示为区域表示的组合，通过注意力模型对其重要性进行加权节中3.4，我们描述了我们如何使用外部知识来约束学习空间。节中3.5，我们开发了图像表示的节中4，我们将我们的方法与最先进的方法进行比较，并进行消融研究。我们在Sec中结束。五、2相关工作广告和多媒体。与我们最相关的工作是[22]，它提出了解码广告的问题，公式化为回答问题“为什么要我[ ac t i on ]？“当[行动]是我们应该做的最后一件事时，例如买一辆车或帮助防止家庭暴力。该数据集包含64，832个图像广告。注释包括广告的主题（产品或主题）、广告提示的情感和动作、为为什么应该做动作提供的理由、符号映射（称为能指-所指，例如摩托车-冒险）等。更广泛地考虑媒体领域，[26]分析照片如何描绘政治家，[27]研究候选人的面部特征如何决定选举结果。这项工作只适用于人的形象。还相关的是解析信息图表，图表和漫画的工作[4，29，23]。与此相反，我们的兴趣是分析广告的隐含论点。视觉、语言与图文嵌入。最近有很大的兴趣，联合视觉语言的任务，例如。字幕[63，28，9，25，2，70，62，61，73，68，13，4Keren Ye，AdrianaKovashka47，55，8，32]，视觉问答[3，72，41，69，56，66，59，76，77，19，64，24，60]和跨域检索[6，5，74，36]。这些通常依赖于学习的图像-文本嵌入。[11，30]使用三元组损失，其中图像及其对应的人类提供的字幕在空间中应当比不匹配的对更接近。[10]提出了一个双向网络，以最大限度地提高匹配图像和文本之间的相关性，类似于CCA [18]。这些研究都不像我们一样，认为图像具有隐含的说服意图我们在第11节中与[10]进行比较4.第一章视觉语言任务的外部知识[66，64，24，77，60]检查知识库的使用，并执行明确的推理来回答视觉问题。[62]使用外部资源来使其图像字幕模型多样化。[43]通过关联语义和视觉相似性来学习组合对象分类器[42，15]使用知识图或层次结构来帮助对象识别。这些作品都使用客观/科学基础的映射，即狮子是猫的一种。相比之下，我们使用的文化协会，出现在媒体/文学和内化的人类，例如。摩托车与冒险有关。区域建议和注意。区域建议[16，50，38，14]将对象检测器引导到可能包含对象的区域。注意力[7，70，67，56，69，49，45，39，12，75，47]将预测任务集中在可能相关的区域上。我们表明，对于我们的任务，参加的地区必须是那些可能是视觉锚符号参考。3方法我们学习了一个嵌入空间，在这里我们可以评估广告图像和广告信息之间的相似性我们以三种方式使用符号和外部知识：通过将图像表示为可能进行符号引用的区域的加权平均值（Sec.3.3），通过强制具有相同符号标签或检测到的对象的图像3.4），并通过增强图像表示通过注意掩蔽符号分布（第3.4节）。3.5）。节中4我们证明了每个组件的实用性。3.1任务和数据集在[22]中，所有的文章都提到了问题“Q：为什么要这样做？“w i t h“A：[ on e-w or d r eas on ]. “一个简单的问题是一个软件对”问：为什么我应该采取一些本地化的策略？A：bad. 在其他的设计中，问题回答被公式化为分类任务。在[ 22]中的地面实况一词和一个词的评估是从人类提供的模糊推理中得出的，也可在数据集中获得。然而，使用单个词不足以捕捉复杂广告的修辞。一方面，只用一个词来概括整个句子太有挑战性了，例如，对于问题“问：为什么我买了所有的这个词？”,ADVISE：解读广告的符号学和外部知识5在[22]中，不能通过“预处理”和“处理”的方法来实现，而在这种情况下，如果出现“Becauseit将预处理处理”，则会导致失败。另一方面，选择一个词作为答案可能会误导和不精确例如，对于“Q：我为什么要买三倍双Crunchwrap？“，将“shor t”从序列号中删除，因为它确保了数据的完整性，并且仅适用于“shor t i m e”。因此，当我们如何在[22]的原始问答任务上进行时，我们专注于另一种表述。我们要求系统选择哪个动作-原因陈述最适合图像。我们以以下格式检索语句：“我应该[行动]，因为[ r e as on ]。“e. G. “我应该建立一个本地化的数据库，以便更好地管理您的业务。“对于竞争，我们使用三个相对的陈述（即：由人类为该图像提供的陈述）并随机抽样47个不相关的陈述（为其他图像编写的）。系统必须根据这50个语句与图像的相似性对它们进行排名。这个排名任务类似于多项选择题回答，这也用于之前的VQA工作[3，59]，但与这些不同的是，我们不将问题作为输入。类似地，在图像字幕中，[28，11]从更大的候选池中寻找最合适的3.2基本图文三元组嵌入我们首先直接学习一个为排名任务优化的嵌入。我们要求一个图像和它的相应语句之间的距离应该小于该图像和任何其他语句之间的距离换句话说，我们最小化：ΣKΣΣL（v，t;θ）=Σ Σvi−tii=12 2+j∈Nvt（i）联系我们图像作为锚定、分级语句ΣΣ（1）Σ Σ+t−v2−t−v2+βi i2j∈Ntv（i）i j2+联系我们语句作为锚点，对图像进行其中K是批量大小;β是三重态损失的裕度;v和t分别是我们正在学习的视觉和文本嵌入;vi，ti对应于相同的ad; Nvt（i）是针对第i个图像的否定语句集，并且Ntv（i）是针对第i个语句的否定图像集，在等式（1）中定义。2.这两个负样本集涉及大小为K的批次中最具挑战性的k’个示例一个自然的解释Eq。2是它试图找到子集A{1，...，K}，其中包含k′个最令人困惑的例子。Nvt（i）= argminΣvi−tjΣ ti−vjA{1，…K}，′2j∈A，A{1，…K}，′j∈A，第二章|= k i j| = ki j|= k|= ki/=j6Keren Ye，AdrianaKovashka我是一个geembdi n g。我们使用[58]将图像的Incep t i on -v4 C NNf e at ur e（1536- D）进行处理，然后使用参数w ∈ R 200×1536的全连接层将其投影到200-D联合嵌入空间：v=w·CNN（x）（3）文本嵌入。我们使用均值池将单词嵌入向量聚合到200-D文本嵌入t中，并使用GloVe [48]初始化嵌入矩阵。我们选择均值池有两个原因：（1）与LSTM 1相当的性能，以及（2）更好的可解释性。通过使用均值池，图像和单词被投影到相同的特征空间，允许我们将单词级别的语义分配给图像，甚至分配给图像区域。相比之下，LSTM对附近单词的含义进行编码，这对于可解释性是不期望的硬负矿。不同的广告可能传达类似的论点，因此采样的负面可能是可行的正面。例如，对于具有作为局部数据的内容“我应该买这个汽车出租车的车”的汽车广告，可以发布一个具有“我应该出租这个汽车出租车的车”内容的广告。使用大小为K的批次中的k′m个最具挑战性2)是我们在使用所有和只使用最具挑战性的例子之间的权衡，受到[53，17，11，65]的启发我们实验（在supp中）表明这种折衷比任何一个极端都好。3.3使用符号区域的由于广告是精心设计的，它们可能涉及具有几个不同组成部分的复杂叙述，即：广告中的几个区域可能需要首先进行帧间识别，以执行完整的广告处理。因此，我们将图像视为其组成区域的集合，使用注意力模块来聚合来自不同区域的所有表示。重要的是，选择的区域应该是那些可能作为象征性参考的视觉锚点的区域（例如图1中的摩托车或阴影，而不是瓶子）。因此，我们考虑所有13，938个图像，这些图像被注释为包含符号，每个图像具有多达五个边界框注释。我们的直觉是，在一个特定的区域中，可以使用广告来描述每个视频的内容，并且可以使用没有符号标签的符号边界框来对此进行近似。更具体地说，我们使用由[20]实现的SSD对象检测模型[38]，在COCO [37]数据集上对其进行预训练，并使用符号边界框注释[22]对其进行微调。我们在Sec中显示。4.3这种微调是至关重要的，即诸如COCO盒的通用区域产生较差的结果。我们使用自下而上的注意力[1，60，31]来聚合来自符号区域的信息（见图1）。2）的情况。更具体地说，我们使用Inception-v4模型[58]以提取所有符号提案的1536-D CNN特征。然后，对于每个CNN特征xi，i∈ {1，. . .，M}（我们设置M=10，即，每个图像10个建议），应用全连接层将其投影到：1）200-D嵌入向量vi1词嵌入的非加权/加权均值池获得2.45/2.47的排名。LSTM的最后一个隐藏层达到了2.74的秩，而隐藏层的非加权/加权平均分别达到了2.43/2.46越低越好。ADVISE：解读广告的符号学和外部知识72区域建议和注意力加权0.60.40.20α1α2α3+XX1X2X3三元组训练200维图像嵌入200维文本嵌入“I should buy this motorbikebecause it’s“I should be careful on the roadso I don’t crash anduobj，usymbby符号KB知识推理与符号嵌入图二、我们的图像嵌入模型与知识分支。在主分支（左上）中应用注意力加权，并且图像被表示为区域的加权组合知识分支（右上）预测符号的存在，将其映射到200-D，并将其添加到图像嵌入。然后，我们执行三元组训练来学习这样一个嵌入空间，使图像接近其匹配的动作-原因陈述。（等式。4，w∈R200×1536），以及2）置信度得分ai，表示该区域应该对最终表示有多少贡献（等式4）。5，wa∈R1×1536）。最终的图像表示z是这些基于区域的向量的加权和（等式（1））。（六）。vi=w·CNN（xi）（4）ai=wa·CNN（xi），α=softmax（α）（5）ΣMz=i=1（6）用于学习图像-文本嵌入的损失与Eq. 1，但是使用基于区域的图像表示z而不是v：L（z，t;θ）来定义。3.4通过符号和标题进行约束接下来我们利用[22]的一部分符号标签。符号是一种抽象的文字，如“自由”和“跳跃”，它从广告中提供了对人类感官的各种形式的补充我们向损失项添加额外的约束，使得用相同符号注释的两个图像/语句在学习空间中比用不同符号注释的图像/语句更接近。在额外损失项中（等式7），s是符号字的200-D嵌入;z是在等式（1）中定义的基于200-D区域的图像表示。并且Nsz（i）和Nst（i）是图6中的第i个符号的否定图像/陈述集合。8Keren Ye，AdrianaKovashka该批次，定义类似于Eq. 二、ΣKΣΣLsym（s，z，t;θ）=Σ Σsi−zii=12 2+j∈Nsz（i）联系我们符号作为锚，分级图像ΣΣ（7）Σ Σ+s−t2−s−t2+βi i2j∈Nst（i）i j2+联系我们符号作为锚定、分级语句就像符号一样，图像中的物体也很能说明广告的信息例如，环境广告通常以动物为特征，安全驾驶广告以汽车为特征，美容广告以面部为特征，饮料广告以瓶子为特征等。然而，由于Ads数据集包含的数据不足以正确建模对象类别，因此我们使用DenseCap [25]来桥接Visual Genome[33]广告的推理陈述。更具体地说，我们使用DenseCap模型来生成图像标题，并将其视为预取的知识。例如，“woman wear ing a b l a c k d r ess”概念提供了一种基于信息中的对象的灵活形式：“woman”和“b l a ck d r e ss” 。Wecreateadditional约束：如果两个图像/语句具有类似的DenseCap预测标题，则它们应该比具有不同标题的图像/语句更接近。额外损失项的定义类似于等式7使用C表示字幕。在我们的设置中，单词嵌入权重不在三个词汇表（广告语句、符号和DenseCap预测）之间共享。我们的考虑是，相同的表面词的意义可能会有所不同，在这些领域，因此他们需要有不同的嵌入。我们用0.1来衡量基于符号和基于对象的约束，因为它们单独不能说明全部情况的AD。我们发现，在感兴趣的域中使用任何类型的标签作为约束是不够的（参见supp）：在[ 22]的数据中，使用符号作为约束给出了更好的适应性，并且在一般的代理学习文献[44]中没有讨论这个问题。3.5加性外部知识在本节中，我们描述如何利用自适应添加的外部知识该外部知识可以采取物理对象与隐式概念之间的映射的形式，或者采取将像素映射到概念的分类器的形式给定一个具有挑战性的广告，人可能会寻找视觉线索，并检查它们是否提醒他/她注意（例如：G. “d an ge r“，“b e aut y“，“n at u r e“）see n i n ot he r ad s. 我们的modeliinte以同样的方式制作广告：基于外部知识库，推断抽象符号。相比之下，SEC。3.4其在训练时间使用注释符号，这里我们使用在训练和测试时间的预测符号分布作为二次图像表示。图2（右上）示出了外部知识分支的一般思想。注意我们的模型只使用外部知识ADVISE：解读广告的符号学和外部知识9JJL以补偿其自身知识的缺乏（因为我们在视觉语义嵌入分支的收敛之后训练知识分支），并且它为无信息的知识分配小的权重。我们提出了两种方法来添加扩展的图像表示与外部知识，并描述了两种方式设置y符号在方程。8. 这两种方式都是知识库（KB）的一种形式，将物理证据映射到概念。KB符号。第一种方法是直接训练分类器将某些视觉效果与符号概念联系起来。我们学习多标签分类器 usymb 以获得符号分布ysymb=sigmoid（usymb·x）。我们学习一个权重α symb，对于每个j ∈{1，. . . ，C = 53}个符号，表示特定符号是否有助于语句匹配任务。KB对象。第二种方法是学习检测到的对象和抽象概念的表面词之间的关联。例如，什么类型的广告可以看到“汽车”？什么时候会出现“R O C K”或“A I M AL”？我们首先建立了一个将对象词与符号词相关联的知识库。我们计算符号单词和DenseCap单词之间的学习图像-文本嵌入空间中的相似性，每个符号及其五个最相似的DenseCap单词的核心映射规则（ “[objec t ] implies [symbol]” ）。这导致53×Vmatrixuobj，其中 V是DenseCaps的体积的大小。 Ea chrow包含5个1的条目，表示映射规则，V-5个0的条目。学习映射的示例如表3所示对于给定的图像，我们使用[25]预测DenseCap词汇表中最可能出现的三个单词，并将结果放入多热yobj∈RV×1向量中。然后，我们使用检测到的对象进行矩阵乘法，以积累所有符号存在的证据：ysymb= uobj·yobj。我们将权重αsymb与KB中的每个规则相关联对于这两种方法，我们首先使用注意力权重αsymb作为掩码，然后将53-D符号分布ysymb投影到200-D中，并将其添加到图像嵌入中。当它包含的信息还没有包含在主图像嵌入分支中时，这个加法分支最有帮助我们发现当发现的符号很罕见时会发生这种情况。3.6建议：我们的最终模型我们最终的广告视觉语义嵌入损失结合了第二节的损失。3.2、3.3、3.4和3.5：Lfinal（z，t，s，c;θ）=L（z+ysymb，t;θ）+0的情况。1L sym（s，z + ysymb，t; θ）+0。1Lobj（c，z+ysymb，t;θ）（八）4实验验证我们评估我们提出的方法在多大程度上能够将广告与其预期的消息相匹配（见第二节）。第3.1节）。我们提出了我们比较的基线4.1），我们的指标（第4.2），量化结果对我们的主要排名10Keren Ye，AdrianaKovashka任务（Sec.4.3），QA结果作为分类（第4.4）和三个附加任务（第4.5）。具体实施情况、深入量化结果、定性结果见补充文件。4.1基线我们比较了我们的ADVISE方法（第二节）。3.6)最近的文献中的以下方法。所有方法都是在Ads数据集[22]上训练的，使用60%/20%/20%的train/val/test分割，产生了大约39，000张图像和超过111，000个相关语句用于训练。– Hussain-Ranking适应[22]，这是用于解码广告消息的唯一现有方法。该方法也使用符号信息，但是以不太有效的原始方法结合了图像、符号和问题特征，并为1000路分类任务进行训练。为了适应它，我们逐点添加图像特征（对于我们的方法，Inception-v4）和符号特征（在53个预测符号上的分布），并使用等式（1）将它们嵌入200-D中。1（使用硬否定挖掘），将v设置为图像-符号特征。我们尝试了其他四种适应排名的方法（在supp中描述）[22]，但它们的表现更差。– [11][12][13][14][15][16][17][18][19][19]][19][19][ 3.2.它代表了一个主要的群体最近的图像-文本嵌入使用三元组样损失[46，40，28，51]。– VSE，类似于VSE++，但没有硬负挖掘，以便与下一个基线进行– 2-WaY NET s使用我们的[10]的实现（发布的代码仅在MNIST上演示了网络），并且代表了使用重建损失的第二种类型的图像-文本嵌入[10，21]。4.2度量我们计算两个度量：Rank，它是排名最高的真匹配语句的平均排名值（最高可能排名是1，这意味着第一名），以及Recall@3，它表示排名在前3名中的正确语句的数量。我们期望一个好的模型具有低的Rank和高的Recall分数。我们将数据集随机分为五个训练集/验证集/测试集，并显示了总共62，468个测试用例的平均结果和标准误差（删除了不遵循模板“我应该[行动]因为[原因]”的语句）。4.3主要排名任务我们在表1中显示了我们的方法相对于现有技术方法我们显示了更好的两种替代方法从SEC。3.5，即KB-S符号。公共服务公告（如家庭暴力或反欺凌活动）通常使用与产品广告（例如，广告的汽车或咖啡），我们分别显示的结果ADVISE：解读广告的符号学和外部知识11表1.我们的主要结果。我们展示了两种不使用硬负挖掘的方法我们的方法大大优于三个最近的方法在检索匹配的语句为每个广告。所有方法都在[22]的广告数据集上训练最佳方法以粗体显示，次佳方法以斜体显示排名（↓越低越好）召回@3（↑越高越好）方法PSA产品PSA产品2-WYNET s4.836（±0.090）4.170（±0.023）0.923（±0.016）1.212（±0.004）VSE4.155（±0.091）3.202（±0.019）1.146（±0.017）1.447（±0.004）VSE+4.139（±0.094）3.110（±0.019）1.197（±0.017）1.510（±0.004）侯赛因-兰克3.854（±0.088）3.093（±0.019）1.258（±0.017）1.515（±0.004）ADVISE（我们的）3.013（±0.075）2.469（±0.015）1.509（±0.017）1.725（±0.004）表2.（左）PSA的消融研究。所有的外部知识组件，除了注意力改善基本三重嵌入。（右）产品消融通用识别方法，例如地区和关注，产生主要的推动力PSA产品方法排名↓ 推荐@3↑改善百分比排名↓ 推荐@3↑改善百分比秩Rec@3秩Rec@3BasETRIPLET4.1391.1973.1101.510通用电气公司3.4441.37517152.6501.6701511sSYMBOLREGIONGIO n3.1741.442852.5391.69742+ aTTE nT iO n3.2581.428-3-12.4881.72622+ s符号/对象cT3.1491.466332.4691.7271<1+ KB对象3.1081.482112.4711.725<1<1+ KB % s符号 %s3.0131.509432.4691.725<1<1PSA和产品。我们观察到，我们的方法大大优于先前的相关研究。公益广告通常比产品广告更难（见第二节）。①的人。与2-WaY NET s[10]相比，不使用硬负挖掘的VSE更强（排名为14-23%，召回率为19-24%）。VSE++产生比2-WaY NET s和VSE更准确的结果，但优于Hussain-Ranking和我们的ADVISE。我们的方法是最强的整体。它比VSE++ [11]提高了20-27%的排名和14- 26%的召回率。与最强的基线Hussain-Ranking [22]相比，我们的方法在排名方面强20-21%，在召回方面强13-19%图3示出了对比最佳方法的定性结果我们还进行消融研究，以验证我们方法的每个组件的益处。我们示出了B作为三元组嵌入（Sec.3.2)类似于VSE++;使用使用在COCO [37]检测数据集上训练的[38]学习的图像区域的通用区域嵌入; s symbolREGIONGIO n embedding and a TTE n T i O n（Sec. 3.3）;添加符号/对象约束（第3.4）;并包括添加剂知识（第3.5）使用KB对象或KB符号。结果示于表2中（左侧为PSA，右侧为产品）。我们还显示了相对于前一行计算的每个新组件的百分比改进，但KB对象和KB符号除外，其改进为12Keren Ye，AdrianaKovashkaVSE++：“我应该试试这个化妆品，因为它很有趣。”侯赛因排名：“我应该戒烟，因为它毁了你的容貌。建议（我们的）：“我应该小心对待地球，因为当水离开时，我们就会死。VSE++：“我应该穿妮维雅，因为它不会留下痕迹。”侯赛因排名：“我应该吃这些，因为它有新鲜的食材。”建议（我们的）：“我应该买GeoPack纸，因为他们的餐具是环保的。”图三.我们的ADVISE方法与两个更强的基线进行了比较。在左边，VSE++错误地猜测这是一个化妆广告，可能是因为化妆广告中经常出现人脸。Hussain-Ranking正确地确定了这是一个PSA，但只有我们的方法能够预测主题，即水/环境保护。在右边，Hussain-Ranking和我们的方法都识别新鲜度/自然度的概念，但我们的方法选择了更具体的陈述。相对于倒数第三行计算，即这两种KB方法都基于该方法性能的最大提升来自于对图像中各个区域的聚焦这是有道理的，因为广告是精心设计的，多个元素共同作用来传达信息。我们看到，这些区域必须学习作为视觉锚符号概念（符号区域与一般区域），以进一步提高性能。除此之外，公益广告和产品之间的结果也有所不同。符号/对象约束和加法分支更有助于具有挑战性的抽象PSA，这是我们工作的重点。对于PSA，当我们直接预测符号（KB符号）时，外部信息的附加包含更有帮助，而且当我们首先提取对象并将其映射到符号（KB对象）时也是如此请注意，KB的符号需要64，131个符号标签。相比之下，KB对象依赖于对象和符号字之间的映射，这可以更有效地获得虽然我们在我们的学习空间中获得它们作为因此，KB对象将更好地推广到新的广告域（例如，不同的文化），其中来自[22]的数据不适用。在表3中，我们示出了KB对象（Sec. 3.第三章。5）美国。我们如何从[22]中的53个基本词汇、从行动/原因陈述中的27，999个词汇以及从[23]中的27，999个词汇中选择一个新的词汇823字从字幕预测广告。我们计算最近的邻居为一个或一个在这个线性的空间。这可以被用作“广告”：如果我看到给定的对象，我应该预测广告的消息是什么，或者如果我想做一个点，我应该使用什么？在第1版中，我们看到，在使用大量a的情况下，将所有内容都添加到“comfor t”。从1D2开始，如果这是一个安全驾驶广告，则这是一个安全驾驶广告，其中视觉效果暗示安全和伤害，并且包含汽车和高速公路。我们观察到“ketchup”（ID3）与“tomato”（ID4）的区别ADVISE：解读广告的符号学和外部知识13滥用/滥用睫毛膏表3.发现symbol、action/reason和DenseCap单词之间的同义词ID 符号声明DenseCap1 舒适沙发，沙发，软枕头，床，毯子2 安全、危险、伤害驱动汽车、挡风玻璃、货车3 美味的、热的、食物番茄酱啤酒，胡椒，沙司4 食物，健康，饥饿沙拉，食物，沙拉番茄见图4。广告图像检索应用程序（详见补充说明）。我们提取了一个chimageregion（Eq.4），使用“备份/备份”和“备份”的新版本将减少最小的内存区域（不使用内存块）在图4中，我们显示了单个单词和符号区域之间的学习关联。通过从广告图像和语句对学习，我们的ADVISE模型将语句中的单词传播到图像中的区域，从而将每个标签不可知的区域提案与语义上有意义的单词相关联。在训练时，我们既没有框级注释，也没有词级注释。4.4以问答为分类为了与[22]进行额外的比较，我们在问答任务上评估了我们的方法，该任务被制定为1000路单字答案分类（Sec.第3.1节）。我们现在直接优化此分类任务，但添加我们的基于符号的区域建议，符号/对象约束，和添加剂的基于知识的图像表示。Hussain等人的方法的实现。[22]逐点添加Inception-v4图像特征和符号分布，并在PSA上获得10.03%的top-1准确率，在产品广告上获得11.89%的准确率(or 11.69%的广告平均值，无论类型如何，主要是产品广告，接近[22]中报告的11.96%。表示图像通用区域的加权总和产生PSA的10.42%的准确度和产品的12.45%的准确度（分别提高4%和5%）。使用我们的方法导致10.94%的准确率为PSA，和12.64%的产品（9%）6%的改善[22]）。注意，已知对于许多识别任务工作良好的方法，即区域建议，在广告的QA分类的情况下导致非常小的改进，因此任何特定的方法都不可能导致对该任务的大的改进。这就是为什么我们相信我们在SEC中评估的排名任务4.3更有意义。14Keren Ye，AdrianaKovashka表4.我们学习的图像-文本嵌入可以帮助完成其他任务我们显示了前两个的等级（越低越好）和第三个的同质性[52]（越高越好）方法硬陈述（↓更好）标语（↓更好）聚类（↑更好）侯赛因-兰克5.595（±0.027）4.082（±0.090）0.291（±0.002）VSE+5.635（±0.027）4.102（±0.091）0.292（±0.002）ADVISE（我们的）4.827（±0.025）3.331（±0.077）0.355（±0.001）4.5其他任务在表4中，我们展示了我们学习的嵌入的多功能性，与表1中更强的两个基线没有一种方法被重新训练过即，我们简单地使用在语句排名上评估的预训练嵌入。首先，我们展示一个更难的语句检索任务：要被排名的所有语句都来自同一主题（例如，所有陈述都是关于汽车安全或关于美容产品的）。第二个任务使用MTurk员工被要求为2,000个广告撰写的创意标题[22]。我们使用图像作为查询对这些口号进行最后，我们检查如何嵌入集群广告图像相对于由广告的主题定义的地面实况聚类。5结论我们提出了一种方法，用于匹配图像广告的陈述，描述了广告的想法。我们的方法使用外部知识的形式的符号和预测对象在两种方式，作为约束的联合图像-文本嵌入空间，并作为一个附加组件的图像表示。我们还验证了国家的最先进的对象识别技术的区域建议和注意的形式的效果我们的方法优于现有的图像-文本嵌入技术[10，11]和以前的广告理解技术[22]。我们的区域嵌入依赖于视觉符号锚大大提高了传统的嵌入。对于PSA，使用外部信息进行正则化提供了进一步的好处。在未来，我们将研究其他外部资源解码广告，如预测的记忆或人类对广告的注意力，和文本资源之间的物理和抽象内容的额外映射。我们将使用我们的对象-符号映射来分析相同的对象类别在用于不同的广告主题时表现出的视觉变化。致谢本材料基于美国国家科学基金会资助的工作，资助号为1566270。这项研究也得到了NVIDIA硬件基金的支持本材料中表达的任何观点、发现、结论或建议均为作者的观点、发现、结论或建议，不一定反映美国国家科学基金会的观点。我们感谢匿名评论者的反馈和鼓励。ADVISE：解读广告的符号学和外部知识15引用1. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，张先生，L.：自下而上和自上而下关注图像字幕和视觉问答。在：IEEE计算机视觉和模式识别会议（CVPR）（2018年6月）2. 安妮·亨德里克斯Venugopalan，S.，Rohrbach，M.，穆尼河，Saenko，K.Darrell，T.：深度合成字幕：在没有配对训练数据的情况下描述新的对象类别。IEEE计算机视觉与模式识别会议（CVPR）（2016年6月）3. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。IEEE计算机视觉国际会议（ICCV）（2015年12月）4. Bylinskii，Z.，Alsheikh，S.，Madan，S.，Recasens，A.，Zhong，K.，中国农业科学院，Pfister，H.，Du- rand，F.，Oliva，A.：通过文本和视觉标签预测理解信息图表。arXiv预印本arXiv：1709.09215（2017）5. 曹玉，Long，M.，王杰，Liu，S.：用于高效图像检索的深度视觉语义量化在：CVPR（2017）6. Chen，K.，Bui，T.，方角王志，内华达河：Amc：用于图像搜索的注意力引导多模态相关学习IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）7. Chen，L.C.，杨，Y.，王杰，徐伟，Yuille，A.L.：注意秤：尺度感知的语义图像分割。计算机视觉与模式识别（CVPR）IEEE（2016）8. Chen T.H. Liao，Y.H.，Chuang，C.Y.，徐伟东，Fu，J.，孙，M.：展示、改编和讲述：跨领域图像字幕机的对抗性训练。在：IEEE国际计算机视觉会议（ICCV）（2017年10月）9. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议（CVPR）（2015年6月）10. Eisenschtat，A.，沃尔夫湖：用双向网络链接图像和文本在：CVPR（2017）11. Faghri，F.，弗利特DJ Kiros，J.R. Fidler，S.：Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.

下载后可阅读完整内容，剩余1页未读，立即下载