基于VQA的多模态广告创意主题推荐系统

47 浏览量更新于2023-11-29 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2521厚薄，恶劣的天气，基于VQA的广告设计主题推荐系统基于视觉语言表征的广告创意设计主题推荐周毅超加州大学洛杉矶yz@cs.ucla.eduShaunak Mishra雅虎研究shaunakm@verizonmedia.com马尼沙·维尔马雅虎研究manishav@verizonmedia.com摘要Narayan Bhamidipati雅虎研究narayanb@verizonmedia.com铎王加州大学洛杉矶weiwang@cs.ucla.edu问：为什么要喝佳得乐？OCR：佳得乐总是赢家在在线广告行业中存在对重新更新广告创意的长期需求，即，用于吸引在线用户对品牌感兴趣的图像和文本。这种更新是必要的，以减少在线用户的广告疲劳的可能性，并结合从其他成功的活动在相关产品类别的见解。给定一个品牌，为新广告想出主题对创意策略师来说是一个艰苦而耗时的过程。广告设计师通常从过去的广告宣传中使用的图像和文字中汲取灵感，以及对品牌的世界知识。为了通过这样的多模态广告源自动推断广告主题，brand：Other other/Wiki page：Gatorade问：为什么要喝可口可乐？OCR：Foul weatherfriendbrand：可口可乐维基百科：可口可乐获胜者，更擅长运动，表现更好信息在过去的广告活动中，我们提出了一个主题（关键词）推荐系统的广告创意策略。主题rec-好高度，创意策略师ommender基于来自视觉问答（VQA）任务的聚合结果，其摄取以下内容：（i）广告图像，(ii)与广告相关的文本以及问：我为什么要买奥迪Quattro？OCR：奥迪Quattrobrand：Other other/维基百科：Audi带到任何地方广告中的品牌，以及（iii）广告周围的问题我们利用基于Transformer的跨模态编码器来训练我们的VQA任务的视觉语言表示。我们沿着分类和排名的路线研究了VQA任务的两种配方;通过在公共数据集上的实验，我们表明跨模态表示导致显着更好的分类准确性和排名精度召回指标。交叉模态表示显示更好的性能相比，单独的图像和文本表示。此外，多模态信息的使用显示出仅使用文本或视觉信息的显著提升CCS概念• 信息系统→在线广告。关键词网络广告;变形者;视觉语言表征ACM参考格式：YichaoZhou，Shaunak Mishra，Manisha Verma，Narayan Bhamidipati，and WeiWang. 2020年。基于视觉语言表征的广告创意设计主题推荐。在网络会议2020（WWW '20）的会议记录，2020年4月20日至24日，台北，台湾。ACM，美国纽约州纽约市，7页。https://doi.org/10.1145/3366423.3380001本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7023-3/20/04。https://doi.org/10.1145/3366423.3380001图1：基于VQA方法的广告（创意）主题推荐器输入来源于过去的广告活动：（i）广告图像，（ii）广告图像中的文本（OCR），（iii）推断的品牌，(iv)维基百科页面的推断品牌，以及（v）围绕广告的问题。推荐的主题（关键词）是按品牌（或产品类别）聚合的，并且可以由创意策略师用来选择图像（例如，通过查询库存图像库）和新广告的文本。1介绍随着在线广告的广泛使用，以促进品牌（广告商），一直有一个稳定的需要，创新的广告格式，和相关的广告创意[2]。包含广告创意的图像和文字可以对在线用户产生重大影响，其周到的设计一直是协助品牌，广告平台和第三方营销机构的创意策略团队的重点。最近的许多研究表明，出现了一种称为广告疲劳的现象，即在线用户厌倦了每次访问特定网站时反复看到相同的广告。，他们的个性化新闻流）[25，31]。这种效果甚至在原生广告格式中也很常见，其中广告创意应该与它们出现的内容提要一致[2，31]。在这种情况下，经常刷新广告创意正在成为减少广告疲劳的有效方法[3，4]。从创意战略家的角度来看，提出新的主题并将其转化为广告图像和文本是一项耗时的任务，这本身就需要人类的创造力。许多在线工具已经出现，以帮助战略家在翻译原始的想法（主题）2522WWW转换成实际的图像和文本，例如，，通过查询库存图像库[6]，并通过提供关于成功广告图像和文本属性的一般见解[7]。本着类似的精神，还有空间通过自动推荐品牌特定主题来进一步帮助战略家，这些主题可以与类似于上述工具的下游工具一起使用。在缺乏人类创造力的情况下，使用与过去成功的广告活动（跨越多个品牌）相关的多模态（图像和文本）数据推断此类品牌特定主题是本文的重点。追求用于推断主题的上述数据驱动方法的关键使能器是跨越多个广告商的广告创意的数据集最近在[ 15]中引入了这样一个跨越64，000个广告图像的数据集[ 1 ]，并且也用于后续工作[30]。上述作品[15，30]的集体焦点是在情感，象征性参考和VQA方面理解广告创意。特别是，与创意中推断的品牌以及推断品牌的相关世界知识没有联系作为连接上述数据集的第一项工作，[1] [22]为品牌制定了一个关键词排名问题（通过其维基百科页面表示），这些关键词随后可以用作广告创意设计的主题。然而，在[22]中没有使用广告图像，并且推荐的主题仅限于单个单词（关键词），而不是更长的关键词，这可能更相关。例如，在图1中，短语take anywhere与Audi的相关性远远超过孤立的组成词。在本文中，我们主要集中于解决上述缺点，通过（ i ）ingeradad图像以及文本信息，即。，维基百科页面的品牌和文字的广告图像（OCR），和（ii）我们认为关键字（主题），而不是关键字。由于我们设置的多模态性质，我们提出了一个VQA公式，如图1所示，其中问题围绕广告产品（如[15，30]），答案以关键词的形式（来源于[1]中的答案）。随后可以从品牌相关VQA实例的预测输出中收集品牌特定关键短语推荐。与之前涉及图像问题的VQA工作相比，我们设置的不同之处在于使用品牌的维基百科页面和OCR功能;这两种输入都被认为有助于推荐广告主题的任务。我们的主要贡献概括如下：(1) 我们研究了基于VQA的广告主题推荐（分类和排名）的两种公式，同时使用多模态信息源（广告图像，OCR和维基百科），(2) 我们展示了基于Transformer的视觉语言表示对我们的任务的功效，与使用单独的视觉和文本表示相比，具有显著的性能提升(3) 我们表明，在我们的任务中使用多模态信息（图像和文本）明显优于仅使用视觉或文本信息，(4) 我们报告了从公共数据集中选择的广告见解[1]。本文件其余部分的组织如下。第2节涵盖了相关的工作，第3节描述了所提出的方法。数据来源、结果和见解在第4节中描述，我们以第5节结束本文。2相关工作在本节中，我们将介绍在线广告的相关工作了解广告创意和视觉语言表示。2.1在线广告品牌通常与出版商合作开展在线广告活动（即显示广告的网站）或迎合多个发布者的广告平台[21，32] 这样的广告摄像头可以与一个或多个广告创意相关联以瞄准相关在线用户。一旦部署，定位和广告创意的有效性将通过点击率（CTR）和转化率（CVR）等指标共同衡量[9]。为了将目标定位的效果与创意分开[19]哪些人的表现更好在本文中，我们专注于快速创建一个品牌的广告创意池（通过从过去的广告活动中学习到的推荐主题），然后可以通过定位细分进行在线测试。2.2广告创意的自动理解创意数据集[1]是建议推荐系统的关键推动因素之一。该数据集在[15]中引入，其中作者专注于从计算机视觉的角度自动理解广告图像和视频中的数据集具有带有注释的广告创意，包括主题（类别）、问题和答案（例如，广告背后的推理、由于广告的预期用户响应）。在后续工作中[30]，重点是理解广告中的象征意义（通过对象识别和图像字幕），以匹配描述广告中建议的行动的人类生成的陈述。从品牌的角度理解广告创意在两个[15，30]中都没有，[22]是第一个研究推荐关键词来指导品牌创意设计的问题。然而，[22]仅限于品牌的文本输入（例如，，该品牌在本文中，我们以一种非平凡的方式扩展了[22]中的设置，包括来自过去广告活动的多模态信息，例如，、图像、图像中的文本（OCR）以及关联品牌的维基百科页面我们还将建议从单个单词扩展到更长的关键短语。2.3视觉语言表征和VQA随着人们对视觉语言联合任务（如视觉问答（VQA）[8]和图像字幕[26]）的兴趣越来越大，最近有很多关于视觉语言表征的工作，这些工作是上述任务的关键推动因素特别是，使用变压器[11]的拟议方法激增，我们将在下面介绍其中的一些。在LXMERT [28]中，作者提出了一种基于Transformer的模型，该模型对使用五种不同预训练任务训练的文本和视觉输入之间的不同关系进行编码。更具体地说，它们使用编码器，该编码器使用（图像，句子）对作为训练数据对文本、图像中的对象以及文本和图像之间的关系进行建模他们在两个VQA数据集上评估模型最近提出了ViLBERT [20]，其中BERT [11]架构被扩展为通过在单独的流中处理视觉和文本输入来生成多模态嵌入，这些流通过共同注意Transformer层相互作用。共同注意基于视觉语言表征的广告创意设计主题推荐WWW2523----K =K（|）我K∈K--DTransformer层确保模型学习嵌入两种模态之间的交互。其他类似的作品包括VisualBERT [18]，VLBERT [27]和Unicoder-VL[17]。在本文中，我们的目标是专注于利用视觉语言表示来解决广告特定的VQA任务，制定推断品牌特定的广告创意主题。此外，关于广告创意的VQA任务往往相对具有挑战性（例如，与图像字幕相比），这是由于广告中经常出现的主观性质和隐藏的象征意义[30]。我们的工作和现有的VQA文献之间的另一个区别是，我们的任务不仅限于了解图像中的对象，而且还了解广告创意在读者中唤起的情感。我们的主要任务是预测不同的主题和情感，广告创意形象可以在其读者中，并使用这种品牌特定的理解，以帮助创意战略家在开发新的广告创意。3方法我们首先在第3.1节中将广告创意主题推荐的公式化描述为分类问题。接下来是关于文本和图像表示、跨模态编码器和优化的小节（图2给出了概述）。最后，在第3.5节中，我们将介绍推荐的另一种排序公式。3.1主题推荐：分类制定在我们的设置中，我们给出了一个广告图像Xi（由i索引），以及由Si表示的相关文本。文本Si来源于：（i）广告图像中的文本（OCR），（ii）广告周围的问题，以及（iii）广告中品牌的维基百科页面给定xi，我们将图像表示为对象xi的序列=xi，1，xi，2，.，xi，n以及它们在图像中的对应区域ri=ri，1，ri，2，...，ri，n（详见第3.2节）。句子Si被表示为单词序列wi = wi，1，wi，2，.，我，M。给定三个序列xi，ri，wi，目标是推荐一个关键短语k_i，其中，是预先确定的关键词词汇表换句话说，对于k，目标是估计概率Pk x，r，w，然后前k个短语k∈i，例如i可以选择为：ki=argmaxP（k|xi，ri，wi）。（一）k∈K上述分类公式与[30]中的VQA相似;不同之处在于下面解释的多模态特征3.2文本和图像嵌入文本嵌入。我们首先使用WordPiece Tokenizer [29]将句子wi转换为标记序列ti ={ti，1，ti，2，.，ti，l}。然后，岗位Dt和Dp是标记嵌入和位置嵌入的维数图像嵌入。我们使用边界框和它们的感兴趣区域（ROI）特征来表示图像。与[20，28]相同，我们利用Faster R-CNN [24]来生成边界框和RoI特征。Faster R-CNN是一种对象检测工具，它识别属于某些类的对象实例，然后用边界框将它们定位虽然与令牌序列相比，图像区域缺乏自然排序，但是可以对空间位置进行编码（例如，如[28]所示。图像嵌入层接收RoI特征xi和空间特征ri，并输出位置感知图像嵌入vi，如下所示：x<$i=Wx<$xi+bx，r<$i=Wr<$ri+br，vi=0。其中Wx和Wr是权重，bx和br是偏置。3.3基于transformer的跨模态编码器我们应用基于transformer的跨模态编码器来从视觉和文本特征学习联合嵌入。在这里，在不失一般性的情况下，我们遵循来自[28]的LXMERT架构来编码跨模态特征。如图2所示，标记嵌入hi首先被馈送到语言编码器中，而图像嵌入vi通过对象关系编码器。交叉模态编码器包含两个单向交叉注意子层，它们负责视觉和文本的相互嵌入。我们使用交叉注意子层来对齐来自两个模态的实体，并学习维度De的联合嵌入ei。我们遵循[11]将一个特殊的令牌[CLS]添加到令牌序列的前面针对该特殊令牌学习的嵌入向量被视为交叉模态嵌入1。在查询（Q）、键（K）和值（V）方面，当Q 、K和V为语言特征、视觉特征和视觉特征;d代表语言特征的维度[28]。文本交叉注意相似，但视觉特征和语言特征互换.3.4学习和优化。基于每个图像和句子对的联合嵌入，现在可以使用全连接层来处理关键词推荐任务。给定跨模态嵌入，所有候选关键词的概率分布由全连接层和softmax函数计算，如下所示：P（k|xi，ri，wi）=softma x（Wf·ei+bf）（6）标记被投影到嵌入层中的向量，其中W和b是全连接层的权重和偏置如图（2）所示。它们对应的位置pi也是f f和eproj ect edtovectorleadingtop′i（如（3）所示）。然后，将t′i和p′i相加形成hi，如下面的（4）所示t<$i=Et <$ti，（2）p<$i=Ep<$pi，（3）hi=0。5（t<$i+p<$i），（4）当reEt∈R |Vt|×Dt和Ep∈R |VP|×D为嵌入式矩阵。 |Vt|和|VP|a r是令牌的vocabula ry大小，并且令牌i是交叉模态嵌入。3.5主题推荐：排名制定我们还考虑通过排名模型来解决主题推荐问题，其中该模型针对给定的（图像，句子）对以相关性的降序1最近提出的ViLBERT[20]和VisualBERT[18]可以作为替代方案。WWWYichao Zhou，Shaunak Mishra，Manisha Verma，Narayan Bhamidipati，and WeiWang2524局部相互作用Q致密层匹配直方图前馈匹配网络项选通DMD2D1（）下一页∼（）下一页我我的广告是服装，汽车和美容产品与7798，ROI特征x′i交叉模态编码器对象关系编码器+自+FF+交叉+自我+FF+ 的里位置特征vi我为什么要喝佳得乐。单词嵌入Q跨模态嵌入提佳得乐总是赢家。OCR佳得乐公司是一家美国制造商，e我语言编码器FF+p′我自我+FF+交叉+自我+FF+的softmax饮料。. .WIKI指数hi嵌入图2：交叉模态编码器架构，以及随后的前馈（FF）网络与softmax层的分类目标。即， Xi ， Si. 我们使用最先进的成对深度相关匹配模型（DRMM）[13]，其主题推荐设置的架构如图3所示。值得注意的是，我们的成对排序公式可以改变，以适应其他多目标或基于列表的损失函数。我们选择了DRMM模型，因为它不受输入长度的限制，因为大多数排名模型，但依赖于捕捉本地查询和文档之间的相互作用，具有固定长度的匹配直方图。给定一个（图像、句子、短语）组合，该模型首先计算跨模态嵌入和短语嵌入之间的固定长度匹配直方图。每个匹配直方图都通过多层感知器（MLP），并且总得分与查询词门聚合，该查询词门是该查询中所有词的softmax函数。相关性分数跨模态关键词嵌入我们仅通过下面的imgq来表示（图像，句子）对给定一个三元组（im <$q，p+，p−），其中p+在图像问题方面的排名高于p−，损失函数定义为：L（im <$q，p+，p-;θ）=max（ 0， 1-s（im <$q，p+）+s（im <$q，p-）），（7）其中sim <$q，p表示短语的预测匹配分数p，以及查询图像-问题对。4实验在本节中，我们将介绍实验中使用的公共数据集、分类和排名结果以及推断的见解。4.1数据集我们依赖于一个公开的数据集[1，15]，该数据集由64，000个广告创意组成，跨越39个类别的700个品牌，其中80%是训练集，20%是测试集。我们从训练集中选择10%的数据进行验证。众包用于为每个创意收集以下标签：（i）主题（39种类型），(ii) 问题和答案作为购买创意中描述的品牌的原因（每个创意3个）。除了现有的注释外，我们还添加了以下注释：（i）创意中存在的品牌，（ii）与创意中的品牌类别对相关的维基百科页面，以及（iii）与每个图像相关联的目标主题（关键词）集。特别是，对于（i）和（ii），我们遵循[22]中的方法，对于（iii），使用位置排名方法[10，12]从每个图像的答案中提取关键词（标签）。关键短语的数量限制为最多5个（基于顶部查询项文件术语由位置等级返回的关键短语分数我们定义一个分数，每个关键词所有五个关键词的得分都为1。0，0。九，零。八，零。七，图3：关键词排名目标的DRMM模型的排序部分采用两个输入：（i）（X，S）的跨乙腈-0.六是有序2。与品牌相关联的图像的最小、平均和最大数量分别为1、19和282。前三类嵌入这个词然后它学会预测相对于查询（图像，句子）对的给定短语鉴于我们的输入文件（即，关键词）很短，我们6496和5317图像分别。最少的广告分别与赌博（32），宠物食品（37）和安全服务（47）有关。关于《选择交叉之间匹配直方图中的前θ交互模态嵌入和关键词嵌入。从数学上讲，2带注释的广告数据集可以在www.example.com上https://github.com/joey1993/ad-themes。基于视觉语言表征的广告创意设计主题推荐WWW252544.4%5百分2百分3百分220.0%3百分177.0%Ki3×N数据集（即，关键词长度、每个类别的图像和每个类别的唯一关键词）在图4、5和6中示出。预测的关键词和每个标签。然后，我们将相似性得分与每个标签的得分相乘，并将最大值作为样本的最终相似性得分。VQA Recall@3：我们使用Recall at 3（RV QA@3）作为分类任务的评估指标（基本上类似于[30]中的VQA 公式）。对于每个测试实例i，基础真值被限制为导致集合i的前3个关键短语。根据分类模型的预测，a r e被选择，导致设置Ki。RVQA@3只是|Kˆi∩Ki∗|.(a) #keyphrase per instance（b）#words per keyphrase4.2.2排名指标。我们使用与先前工作相同的评估指标[22]，主要是精度（P@K），召回率（R@K）和NDCG@K[16]评价所提出的排名模型。值得注意的是图4：关键词的频率和长度分布为了评估在这项工作中提出的排序和分类模型，召回率被不同地计算。形式上，给定一组查询Q ={q1···qn}，对于每个查询标记为相关的短语集合Diqi和相关短语集合Dik.由模型检索，qi在位置k处，我们定义R@K=1。4.3实现细节Ni=1|.|.|Di|图5：每个类别的图像分布（右侧为按计数排列的前10个类别，左侧为底部10个类别）。图6：每个类别的独特短语分布（前10名右边按计数分类，左边按最后10个分类）。4.2评估指标我们使用不同的评估指标来衡量我们的分类和排名模型的性能。我们使用三个不同的指标来评估每个模型的性能。4.2.1分类指标。我们依靠准确性，文本相似性和基于集合交集的召回来评估模型性能。精度我们预测每个图像的概率最高的关键词，并将其与图像的标签（地面真实关键词）进行匹配。我们使用匹配短语的得分作为准确率。如果没有标签与样本匹配，则精度为0。我们对所有测试实例的准确性得分进行平均，以报告测试准确性。相似性：准确性忽略了预测短语和标签之间的语义相似性例如，预测的关键词“a great offer”类似于其中一个标签“great sale”，但准确度因此，我们计算嵌入之间的余弦相似性[14]，对于分类模型，我们将对象关系，语言和跨模态层的数量设置为5，9，5，并利用[28]中的预训练参数。我们用我们的数据集对编码器进行了4个epoch的微调。学习率为5e-5（adamoptimizer），批量大小为32。我们还将Dt、Dp和De设为768。对于相似性评估，我们对短语中所有单词的GloVe [23]嵌入进行平均以计算短语嵌入。对于DRMM模型（排名公式），我们使用MatchZoo实现[5]，批量大小为300，10个训练时期，最后一层的大小为10，学习率为1。0（adadelta优化器）。我们将来自不同来源的文本数据以一致的顺序在一起，并在将它们输入编码器之前使用[SEP]符号进行分隔特征准确度（%）相似性（%）RVQA@3II×QI×（Q+W）I×（Q+O）I×（Q+W+O）10.0512.1819.0119.5020.4058.0558.2660.1260.3460.950.4470.4500.4670.4700.473Q+W+O13.3960.130.450非交叉模态18.6560.680.460表1：具有不同特征的分类性能（I：图像，Q：问题，W：关联品牌的维基百科页面，以及0：OCR，即广告图像中的文本：跨模态表示）;非跨模态表示使用单独的视觉和语言特征的添加。4.4结果对于不同组的多模态特征，性能结果分别在表1（用于分类）和表2（用于排名）中报告。维基百科和OCR文本的存在给了一个显着的提升，只使用图像。分类和排名指标在特征集方面显示出相同的趋势。表1显示，与仅使用视觉训练的模型的性能相比，语言特征在准确性、相似性和RV QA@3方面显著提高了103%、5%和6%。2人（0.7%）3人（1.8%）45(93.1%）3人（3.1%）21(77.0%）···WWWYichao Zhou，Shaunak Mishra，Manisha Verma，Narayan Bhamidipati，and WeiWang2526图7：使用文本功能后，不同类别的性能提升。为了准确性，提升被缩放（除以10）以更好地可视化相似性提升。特征，而只使用语言特征（Q+W+O）会导致所有性能的大幅下降与Wiki相比，OCR功能带来了更多的性能提升我们认为通过维基百科页面了解更多关于品牌的信息有利于向设计师推荐主题[22]，而图像上的文字（OCR）有时更容易推荐。此外，如表1所示（非交叉模态），使用从过去的广告活动的主题，并协助战略家设计新的创意，我们显示了一个例子，基于我们的分类模型在图8中。一般来说，策略师可以在品牌或产品类别中汇总推荐的关键词，并使用它们来设计新的创意。关键词：单独的文本和图像嵌入（从图2中的模型获得）与跨模态嵌入相比在性能上较差。我们注意到，准确性得分相对较低;朋友（1），乐趣（0.9），地段（0.8），使用（0.7），查询这反映了理解视觉广告的困难性[15]。在表2中，我们观察到非常相似的模式：OCR功能比维基百科页面带来更多的好处我们注意到，在P@10和R@5中，与添加问题特征相比，仅使用图像特征（I）获得更好的分数。这可能表明DRMM中的本地交互对简短的问题无效，但更喜欢较长的文本输入，如OCR和维基百科页面。特征精度召回NDCG@5@10@5@10@5@10II×QI×（Q+W）I×（Q+O）I×（Q+W+O）0.1500.1520.1540.1740.1830.1260.1240.1300.1370.1410.1610.1580.1600.1820.1910.2480.2590.2710.2870.2940.1580.1620.1610.1850.1980.2170.2270.2340.2540.265表2：不同特征的排名性能（I：图像，Q：问题，W：来自品牌维基百科页面的文本，O：广告图像中的OCR文本，×：跨模态表示）。4.5见解图7显示了每个类别的准确性和相似性度量的性能提升（其中提升被定义为在分类任务中不使用文本特征的情况下与基线结果的改进之比）。如图所示，多个类别，例如，围绕家庭暴力和动物权利的公共服务公告（PSA）广告受益于文本特征的存在;这可能与PSA中常见的隐藏象征意义有关[30]，其中文本可以帮助澄清甚至是人类的上下文。此外，相似性和准确性度量一般不具有相同的趋势沿着推断的思路消息传递（0.6）。图像ID：5/88215精度（I）= 0，精度（I+W+O+Q）= 1图8：左边的广告图像是公共数据集中的一个样本[1]，带有分数的地面真实关键词如图所示。在分类设置中，仅使用图像的准确度为零，而使用图像+文本特征则可以获得完美的准确度。预测的关键词可以用作对库存图像库的推荐查询[6]（如右图所示），以获得新的创意。5结论在本文中，我们取得了进展，自动推理的主题（关键词），从过去的广告活动使用多模态信息（即。图像和文本）。在模型精度方面，还有改进的空间，使用生成模型生成关键词可能是一个有前途的方向。在应用方面，即，自动化创意设计，我们认为以下是未来工作的自然方向：（i）自动选择广告图像并基于推荐的主题生成广告文本，以及(ii) 用新的创意（通过我们提出的方法设计）发起广告活动，并从他们的CTR和CVR表现中学习。尽管如此，本文提出的方法可以增加广告活动的多样性（并可能减少广告费），减少端到端的设计时间，并通过为每个品牌提供多个主题（以及通过库存图像库为每个主题提供多个图像）来实现更快的在线广告活动探索性学习。基于视觉语言表征的广告创意设计主题推荐WWW2527引用[1] 2019. 自动理解图像和视频广告。http：//people.cs.pitt.edu/~kovashka/ads的网站。[2] 2019. 横幅盲。 https://en.wikipedia.org/wiki/Banner_blindness。[3] 2019. Facebook业务：通过刷新创意来优化广告结果https://www.facebook.com/business/m/test-ads-on-facebook的网站。[4] 2019. 营销领域：社交媒体广告疲劳。 https://marketingland.com/ad-fatigue-social-media-combat-224234.[5] 2019. 比赛动物园。 https://github.com/NTMC-Community/MatchZoo。[6] 2019. Shutterstock：搜索数以百万计的免版税库存图片、照片、视频和音乐。https://www.shutterstock.com/。[7] 2019. 禁忌趋势。 https://trends.taboola.com/。[8] Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu，Margaret Mitchell，DhruvBatra，C. 劳伦斯·齐特尼克和德维·帕里克2015年。VQA：视觉问题分类。IEEEInternational Conference on Computer Vision（ICCV）[9] Narayan Bhamidipati ， Ravi Kant ， Shaunak Mishra ， and MingzhuZhu.2017 年。一个大规模的应用程序安装点击和转换预测引擎在CIKM2017。[10] 弗洛里安·布丹。2016年。pke：一个开源的基于python的关键词提取工具包。COLING 2016会议论文集，第26届计算语言学国际会议：系统演示。[11] JacobDevlin ， Ming-WeiChang ， WendonLee ， andKristinaToutanova.2018年Bert：深度双向转换器的预训练，用于语言理解。 arXiv预印本arXiv：1810.04805（2018）。[12] 科瑞娜 · 弗洛瑞斯库和科妮莉亚 · 卡拉吉亚 2017 年。 PositionRank ： AnUnsupervisedApproachtoKeyphraseExtractionfromScholarlyDocuments.《计算语言学协会第55届年会论文集》（第1卷：长文）。[13] 郭嘉峰，范义兴，艾庆耀，W.布鲁斯·克罗夫特。2016年。一种用于Ad-hoc检索的深度相关匹配模型。第25届ACM国际信息与知识管理会议论文集。[14] Jiawei Han，Jian Pei，and Micheline Kamber.2011年。数据挖掘：概念与技术。爱思唯尔[15] ZaeemHussain ， Mingda Zhang ， Xiaochong Zhang ， Keren Ye ，Christopher Thomas，Zuha Agha，Nathan Ong，and Adriana Kovashka.2017.自动理解图像和视频广告。在CVPR。[16] Kalervo Järvelin和Jaana Kekäläinen。2002年。基于累积增益的红外技术评估。ACM Transactions on Information Systems（TOIS）20，4（2002），422[17] 李根，段南，方月剑，姜大新，周明2019年。Unicoder-vl：一个跨模态预训练的视觉和语言通用编码器。 arXiv预印本arXiv：1908.06066（2019）。[18] Liunian Harold Li，Mark Yatskar，Da Yin，Cho-Jui Hsieh，and Kai-WeiChang.2019. Visualbert：视觉和语言的简单而高效的基线arXiv预印本arXiv：1908.03557（2019）。[19] Wei Li，Xuerui Wang，Ruofei Zhang，Ying Cui，Jianchang Mao，and RongJin.2010 年。基于性能的上下文广告系统的开发与研究。第 16 届 ACMSIGKDD知识发现与数据挖掘国际会议论文集。[20] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.2019年。ViLBERT：用于视觉和语言任务的任务不可知视觉语言表征在NeurIPS中。[21] H. 放大图片作者：Gary Holt，D.斯卡利、迈克尔·杨、迪特马尔·埃布纳、朱利安·格雷迪、聂岚、托德·菲利普斯、尤金·达维多夫、丹尼尔·戈洛文、沙拉特·奇克鲁尔、刘丹、马丁·瓦滕伯格、阿尔纳·马尔·赫拉夫恩凯尔森、汤姆·布洛斯和杰里米·库比卡。[n.d.]。广告点击预测：从战壕的观点（KDD2013）。[22] Shaunak Mishra，Manisha Verma，and Jelena Gligorijevic.2019年。引导在线广告创意设计（RecSys）。[23] Jeffrey Pennington、Richard Socher和Christopher D.曼宁2014年。Glove：单词表示的全局向量。在EMNLP中。[24] 任少卿，何开明，Ross Girshick，孙健。2015年。更快的r-cnn：用区域建议网络实现实时目标检测。神经信息处理系统的进展。91比99[25] 苏珊娜·施密特和马丁·埃克塞特。2015年。广告重复：广告有效频率的Meta分析Journal of Advertising44，4（2015），415[26] Piyush Sharma ， Nan Ding ， Sebastian Goodman ， and Radu Soricut. 2018.Concept-tual Captions：A Cleaned，Hypernymed，Image Alt-text DatasetFor Automatic Image Captioning.在ACL的诉讼中。[27] Weijie Su， Xizhou Zhu ， Yue Cao ， Bin Li ， Lewei Lu， Furu Wei ， andJifeng Dai.2019年。Vl-bert：通用视觉语言表征的预训练 arXiv预印本arXiv：1908.08530（2019）。[28] 郝坦和莫希特·班萨尔。2019年。LXMERT：从变压器学习跨模态编码器表示。在EMNLP-IJCNLP。[29] Yonghui Wu ， Mike Schuster ， Zhifeng Chen ， Quoc V Le ， MohammadNorouzi ， Wolfgang Macherey ， Maxim Krikun ， Yuan Cao ， Qin Gao ，Klaus Macherey，et al.2016.谷歌的神经机器翻译系统：弥合人类和机器翻译之间的差距。arXiv预印本arXiv：1609.08144（2016）。[30] Keren Ye和Adriana Kovashka。2018年ADVISE：广告的符号学与外部知识解读.In Computer Vision-ECCV 2018 - 15th Euro-Euro Conference ， Munich ，Germany，September 8-14，2018，Proceedings，Part XV. 868-886.[31] Seounmi Youn和Seunghyun Kim。2019年。Facebook上的Newsfeed原生广告：年轻的千禧一代的知识，讨厌的东西，反应和广告回避国际广告杂志38，5（2019），651-683。[32] Yichao Zhou ，Shaunak Mishra ， Jelena Gligorijevic， Tarun Bhatia ， andNarayan Bhamidipati.2019.使用基于注意力的递归神经网络理解消费者旅程。KDD（2019）.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于VQA的多模态广告创意主题推荐系统

从VQA到多模态综述 Survey v21

基于VQA的 BRISQUE算法的设计原理和设计流程图

多模态大模型的评测集，评测流程，评测工具

往vqa加transformer

VQA经典数据集的介绍

vqa-counting复现

vqa-cp v2数据集

VQA的几个经典数据集介绍

ViLT的vqa微调梗概

vqa 任务的评估指标

vqa的文本特征提取代码

OCR-VQA数据集评估指标

captions VQA\

怎么获取MMF imaging dataset数据集

FileNotFoundError: [Errno 2] No such file or directory: 'vqa-counting-master.zip'

复现一种IQA、VQA或PCQA的方法，在对应的数据库上实验并得到该方法在各数据库上的皮尔森相关系数（PLCC）、斯皮尔曼秩相关系数（SRCC）和均方误差根（RMSE）。

如何增强VQA模型的可解释性

我要测试vqa的代码，最终的实现效果是，我问一个关于图像的问题，模型告诉我答案

transformer模型在计算机视觉中的应用

Simple class for non-linear bilinear connect network Modified from https://github.com/jnhwkim/ban-vqa/blob/master/bc.py

最新资源