没有合适的资源?快使用搜索试试~ 我知道了~
������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������ �� �������� ����� ���� �� ������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������1http://tech.qq.com/a/20160518/067853.htmTrack: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France3430当电子商务遇上社交媒体:使用双向注意力LSTM识别微信朋友圈中的商业活动0陈天朗 University ofRochestertchen45@cs.rochester.edu0陈宇晓 University ofRochesterychen211@cs.rochester.edu0郭翰 中国科学院计算技术研究所 guohan@ict.ac.cn0罗杰波 University ofRochesterjluo@cs.rochester.edu0摘要0微信商业是在中国广泛使用的即时通讯平台微信上开发的一种新的商业模式,它在电子商务时代迅速进入人们的生活。作为最典型的微信商业行为之一,微信用户可以通过发布微信朋友圈来向他们的微信好友推广产品、宣传公司并分享客户反馈,微信朋友圈是一个包含图像和文本的公开状态。鉴于其受欢迎程度和重要性,本文提出了一种新颖的双向注意力LSTM网络(BiATT-LSTM),以基于文本和图像识别微信商业朋友圈。特别是,与之前的方案不同,这些方案同样考虑视觉和文本模态进行联合视觉-文本分类任务,我们从基于LSTM网络的文本分类任务开始工作,然后我们引入了一种双向注意力机制,可以自动学习每个单词的两种显式注意力权重,即1)对于与单词在同一朋友圈中的图像不敏感的全局权重,以及2)对于与单词在同一朋友圈中的图像敏感的局部权重。在这个过程中,我们利用视觉信息作为指导来确定特定朋友圈中单词的局部权重。两级实验证明了我们框架的有效性。它优于其他联合建模视觉和文本模态的方案。我们还可视化双向注意力机制,以说明该机制如何帮助联合视觉-文本分类。0关键词0关注模型,联合视觉-文本学习,多模态分析,微信商业0ACM参考格式:Tianlang Chen,Yuxiao Chen,Han Guo和JieboLuo。2018年。当电子商务遇上社交媒体:使用双向注意力LSTM识别微信朋友圈中的商业活动。在2018年Web会议伴侣,2018年4月23日至27日,法国里昂,Jennifer B. Sartor,Theo D'Hondt和Wolfgang DeMeuter(编辑)。ACM,纽约,美国,8页。https://doi.org/10.1145/3184558.31863460本文采用知识共享署名4.0国际许可证(CC BY4.0)发布。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW'18Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.318634601 引言0图1:微信朋友圈的示例。红色虚线框表示微信商业朋友圈,蓝色虚线框表示非商业朋友圈。0在电子商务时代,微信商业的兴起可以被视为中国电子商务历史上的一件重大事件。微信商业是在微信上开发的一种新的商业模式,微信是中国最知名的消息平台之一,每月活跃用户达到8.06亿1。微信商业是指卖家在微信上进行广告和交易活动。通常情况下,作为最流行和最有效的推广策略之一,卖家可以通过微信朋友圈来广告他们的产品、公司平台和其他服务。就像Instagram一样,微信朋友圈是一个用户可以发布文本和图片的平台,可以被他们的微信好友访问和评论。在一个朋友圈中,卖家可以有效地宣传他们的产品或服务,分享客户反馈并展示他们的交易成果。与这些主题相关的朋友圈应该被视为微信商业朋友圈。图1显示了几个属于微信商业朋友圈的示例。我们的目标是创建一个高性能的微信商业朋友圈分类器,可以根据其图像和文本内容准确地识别微信商业朋友圈。对于在线购物狂热者来说,他们需要来自这些朋友圈的推送通知服务,以提供即时和全面的潜在购买信息。然而,对于在线购物厌恶者来说,他们希望屏蔽这些朋友圈,因为它们是麻烦。一个强大的分类器对于这两种类型的用户都是有益的。它可以从朋友圈池中识别出微信商业朋友圈,并促使不同类型的用户采取适当的行动。3440未知0未知0未知0未知0未知0未知0未知0未知0未知0未知0未知0未知0本文方法来处理图像和文本的融合问题。0未知0未知0未知0未知0未知0未知0未知0未知0未知0图2:提出工作的概述。0我们将我们的任务正式定义为一个视觉-文本二元分类任务,用于分类微信商业时刻和非商业时刻,每个时刻可能包含一个文本消息和多个图像(最多9个)。为了准确识别微信商业时刻,我们提出了一种新颖的双向注意力LSTM网络。与以前的工作不同,我们的模型基于使用LSTM的文本分类,并通过创建图像引导注意机制充分利用弱图像信息。特别地,我们认为对于特定时刻中的一个词,有两个重要的权重来衡量它在其关联句子中的重要性,即全局权重和局部权重。全局权重反映了一个词对于分类任务的整体重要性,并且对于该词所属的时刻的相应图像不敏感。另一方面,局部权重反映了一个词在特定时刻中的局部重要性,这与该词的相应图像有关。换句话说,不同时刻中的相同词具有相同的全局权重,但具有不同的局部权重。一个词的最终权重应该是其全局权重和局部权重的组合。图2显示了我们模型的框架。当我们预测一个时刻是否与微信商业相关时,一个自学习的注意机制将学习每个词的全局权重,而一个图像引导的注意机制将进一步从时刻的特定图像环境中找出每个词的局部权重。在图2中,“吃饭”,“美味”,“食物”,“睡觉”,“亲爱的会员”,“患者”,“进口”,“交付”和“产品”具有较高的全局权重,因为它们是微信商业时刻分类任务的重要词汇。然而,结合每个词的局部权重,只有“亲爱的会员”,“进口”,“交付”和“产品”具有最高的最终权重,因为这些图像与微信截图和化妆品相关。最后,通过LSTM网络,可以正确预测时刻是否为微信商业时刻。本文的贡献如下:0•我们提出了一种端到端的双向注意力LSTM模型,可以成功捕捉特定时刻单词的全局和局部重要性。通过图像引导注意力机制来确定局部权重,我们提出了一种有效的方法,以半监督的方式准确地将微信朋友圈图片分类为不同的类别。0•我们在微信朋友圈数据集上进行了两级实验,以证明我们的框架的有效性。特别是,我们证明了与其他联合视觉-文本学习模型相比,图像引导注意力机制更好地利用了图像信息。我们还通过重要示例可视化了双向注意力机制,以说明其工作原理。02 相关工作0最近,随着电子商务的浪潮,许多研究者开始关注社交网络业务和广告。例如,Swani等人通过分析超过7000条关于财富500强公司的推文,得出结论B2B和B2C环境中存在不同的品牌推广和销售策略,例如在信息吸引力、线索、链接和标签方面[14]。Zhai等人构建了一个RNN网络,将查询和广告映射到实值向量,以便可以轻松计算(查询,广告)对的质量[23]。我们的工作在整合新的注意力模型的同时,也追踪了流行的电子商务研究。注意力模型近年来已被应用于不同的研究主题和任务,具有捕捉关键词或提供更重要信息的局部图像区域的强大能力。对于图像字幕生成,Xu等人首次提出了一种基于注意力的模型,自动学习描述图像内容。You等人通过语义注意力模型提出了一种结合自上而下和自下而上方法的新框架。在视频字幕生成方面,Guo等人提出了一种具有语义一致性的新型端到端注意力LSTM框架,将视频转化为自然语句。此外,在图像问答领域,Yang等人提出了堆叠注意力网络,可以从图像中学习回答自然语言问题。Shih等人创建了一个基于注意力的模型,通过选择与基于文本的查询相关的图像区域来回答视觉问题。受到这些结果的启发,我们提出了一种结合两种注意力机制的新模型,用于我们的联合视觉-文本分类任务。我们证明,与其他模型相比,弱图像特征可以更好地作为调整文本词权重的指导。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������3450尽管最近的社交媒体数据挖掘研究主要集中在西方社交媒体服务,如Twitter、Facebook和Instagram,但研究人员开始关注微信,因为它在中国非常受欢迎。例如,Wang等人调查了微信使用如何加强、重构和增强现有的中国社交实践。他们提出了一个新的理论概念,空间坍缩[15]。Zang等人分析了微信在线社交网络的增长模式,并提出了一个NetTide模型来拟合增长[22]。Qiu等人分析了微信消息群组的增长、演化和扩散模式[11],Li等人通过跟踪大量的朋友圈图片,发现了朋友圈信息的扩散模式[9]。03 BIATT-LSTM 3.1基本LSTM用于文本分类0对于我们的任务,可以实现一个基本的LSTM网络来通过分类其相关文本来识别微信商业朋友圈,它将每个朋友圈的文本作为输入样本,并预测其类别。这个基本的LSTM网络可以表示为图3中的蓝色部分。它包含一个将每个单词映射到特征向量的词嵌入层,以及一个LSTM层,在输入新单词后提取每个时间点的隐藏状态,我们可以提取最后一个时间点的隐藏状态(hT)或所有时间点的隐藏状态(h1,h2,...,hT)来表示输入句子的高级特征。最后,它通过几个全连接层和一个具有2个节点的softmax层转换这个高级特征,输出预测的微信商业朋友圈和非商业朋友圈的概率。03.2 自学习注意力VS图像引导注意力0如[19][18]所示,每个词在句子中应该具有唯一的权重,对于基于文本的分类或回归任务,引入注意力机制以捕捉每个词的适当重要性将提高模型的性能。对于我们的任务,我们认为一个词在特定Moment中的注意力权重应该是一个两级概念,特别是一个词在Moment中的最终注意力权重应该是全局权重和局部权重的组合。一个词的全局权重表示该词在分类任务中对样本进行分类的整体重要性和能力,在不同的Moment中保持不变。例如,“customer”和“mountain”这两个词都应该具有较高的全局权重,因为它们都是对文本进行分类的重要词汇。词“customer”与微信商业有很强的正相关性,包含这个词的Moment通常是一个微信商业Moment。相反,“mountain”这个词与微信非商业有很强的正相关性。需要注意的是,这个全局权重对于不同的Moment是不敏感的,换句话说,词“mountain”在不同Moment的不同文本中具有相同的全局权重。另一方面,特定Moment中的每个词“mountain”都有一个唯一的局部权重,它表示该Moment中的重要性,基于Moment的图像环境。例如,当“mountain”存在于一个文本中,其对应的图片完全与广告、生活用品、海报或食物相关,它应该具有较低的局部权重,因为它不应该是关键词。0Moment意图表达。相反,如果其对应的图片是山景照片、风景照片甚至户外自拍照,它在文本中应该具有较高的局部权重。最终,一个词在文本中的最终权重应该是其全局权重和局部权重的组合。0图3:提出的BiATT-LSTM的结构。它包含一个基本的LSTM网络(蓝色),一个自学习的注意力子网络(绿色)和一个图像引导的注意力子网络(红色)。0对于给定的词,在特定Moment中找出其局部权重,我们构建了两种特征,一种反映了对应Moment的图像环境,一种表示了词与特定图像环境的关系。特别地,首先,对于我们数据集中的所有图像,我们实施了一个半监督分类框架,将图像准确地分类为n个类别,作为两种特征的基础。整个过程将在第3.3节中描述。然后,对于一个词W和一个类别C,我们基于贝叶斯模型构建了它们之间的相关系数,并将其表示为ΘWC。特别地,如果一个词W属于一个Moment,我们将其定义为词W的出现,如果一个词W属于一个包含图像类别为C的Moment,我们将其定义为词-类别对(W,C)的出现。如果一个词在文本中出现多次,我们只记录一次。在遍历训练集中的所有文本之后,当我们观察到一个词W时,我们可以用后验概率来表示类别C:0Pr(C|W) = OO(W) (1)0O(W) (1)0其中O(W)和O(C,W)分别表示单词W和单词-类别对(W,C)的总出现次数。我们还记录了类别C在训练集中的先验概率,并将其表示为Pr(C)。因此,我们可以计算出相关系数ΘWC0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France������������3460通过以下公式计算类别C和单词W之间的相关系数:0ΘWC = Pr(C|0Pr(C) (2)0对于每个单词,我们构建一个n维特征向量,记录单词与每个特定图像类别之间的相关系数,我们称之为类别相关单词特征(CC单词特征),并将其表示为ΘW。对于测试集中的一个单词,如果它在训练集中出现,我们直接获得它的CC单词特征。否则,我们使用word2vec[10]来预测它在训练集中的五个最相似的单词,并通过这五个单词的CC单词特征的均值来表示它的特征。同时,对于每个Moment,我们针对其中包含的图像构建一个n维二进制类别分布特征向量,表示为DC。如果至少存在一个属于特定类别的图像,则将该类别的特征向量的相应值设置为1,否则设置为0。最后,对于输入的Moment,计算单词W的局部权重дl如下:0дl = sigmoid(σ((WWCΘW)⊙(WDCDC))) (3)0其中ΘW和DC分别是单词的CC单词特征和其对应图像的类别分布特征。WWC和WDC是将ΘW和DC映射到适当的特征空间的两个矩阵。它们与整个网络同步学习。在我们的实验中,我们将它们的维度设置为n x200,以获得最佳性能。最后,我们通过sigmoid变换计算两个向量的内积作为单词的局部权重,sigmoid变换将权重的范围限制在0到1之间。在整个过程中,类别分布特征起到了过滤器的作用,它增强了表达与图像相似语义内容的单词,并减弱了表达不相似语义的单词。由于这个局部权重是由图像信息引导的,我们将这个机制称为图像引导注意。对于单词的全局权重,我们训练一个具有sigmoid单元的两层子网络,它接收单词的嵌入特征向量作为输入,并输出一个在(0,1)范围内表示单词全局权重的值。特别地,单词W的全局权重дд计算如下:0дд = sigmoid(W2h1) (4)0其中XW是单词W的嵌入特征向量,W1和W2是与整个网络更新的学习矩阵。在我们的实验中,我们将W1和W2的维度设置为m x200和200 x1,以获得最佳性能,其中m是单词特征向量的维度。请注意,对于不同Moment中的特定单词,由于嵌入特征向量相同,输出的全局权重不会改变。最后,一个Moment中一个单词的最终权重定义为:0дf = дl ∙ дд (5)0与其他可能的定义相比,例如将全局权重和局部权重的均值作为最终权重计算,这个定义实现了最佳性能。03.3半监督图像分类0正如我们在第3.2节中所述,我们将所有Moment图像分类为n个不同的类别,作为图像引导注意机制的基础。考虑到Moment图像没有任何标签,我们通过提取和聚类其深度神经网络特征来对每个图像进行分类。整个过程如下所示。首先,我们从He等人提出的ResNet-50的最后一个“pool5”层中提取每个图像的深层2048维特征向量。然后,我们通过k-means聚类算法对这些特征向量进行聚类。我们根据著名的Silhouette系数确定k的值。为了降低时间复杂度,我们将一个样本到一个簇中所有样本的平均距离替换为该样本与该簇的质心之间的距离。我们将k设置为10到100,并发现当k大于60时,Silhoette系数显著下降。因此,我们将k设置为60,并获得60个具有对应Moment图像的类别。接下来,我们手动组合了几个我们判断为相同类别的类别(使其半监督),最终生成了50个类别,并根据其对应的图像进行标记。这50个类别的名称在表1中显示。测试集中的图像被分类为其质心与图像的高级特征之间的最小欧氏距离所持有的类别。为了评估图像分类方法的性能,对于每个类别,我们随机抽取500个图像,并请两名志愿者判断将图像分类到该类别是否准确。所有类别的平均准确率为88.7%,标准差为8.89,而其中43个类别高于80%。图4显示了几个典型类别的分类结果。我们可以看到,半监督图像分类具有足够高的准确性。注意到我们的类别与其他知名社交网络服务(如Pinterest2)具有一些不同的特点,后者为用户定义了34个可用类别供选择。由于我们生成类别的目标是为了提高模型的性能,因此类别的确切定义不太重要。0图4:几个典型类别的聚类结果。(a)花(b)餐饮(c)化妆品(d)聊天截图。03.4 BiATT-LSTM的架构0我们正式描述BiATT-LSTM模型的架构,如图3所示。基本的LSTM包含一个词嵌入层,一个LSTM层,两个具有ReLU非线性函数的全连接层和一个softmax层,输出代表微信商业Moment和非商业Moment的概率的两个值。对于模型的其余部分,词嵌入特征不仅作为LSTM层的输入项添加,而且作为学习词的全局权重的输入项。02 https://www.pinterest.com/0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France“Tourist Photo” represents full-length photo of tourist in a tourism scene.“Photoshop Photo” represents photo with words/graphs using photoshop.(6)3470表1:每个类别的名称0室内自拍 零食 化妆品技巧0宠物 风景照 展示架0床 游客照 手和腿0大字广告 太阳镜和手提包 钱包和配饰0小团体照片 Photoshop照片 水果和蛋糕0海报 明星 微信朋友圈0图表 美容广告座右铭0粉红色商品 拿着东西 自拍 微信表情0孩子 项链和手镯 二维码0花 宝宝 微信钱包0化妆品 全身照 聊天截图0化妆品广告 特效照片 其他广告0活动 非常长的图片 漫画0大团体照 餐饮 文章0建筑户外自拍 其他商品0电视和海报 截图 面膜 自拍 鞋子0玩具 衣服0另一方面,对于每个词,我们计算表示词和图像类别之间相关性的50维类别相关词特征,并通过50维类别分布特征确定词在特定Moment中的局部权重。最后,我们通过修改表示LSTM单元操作的方程[4]将一个词的双向权重输入到LSTM中,如下所示:0it = σ(дfWxixt + Whiht-1 + bi)0ft = σ(дfWxfxt + Whfhht-1 + bf)0ot = σ(дfWxoxt + Whoht-1 + bo)0дt = ϕ(дfWxcxt + Whcht-1 + bc)0ct = ft ⊙ ct-1 + it ⊙дt ht = ot ⊙ ϕ(ct)0对于当前时间步t的关注词,xt是32维词嵌入特征,дf是词的最终权重,由其全局权重和局部权重计算得出。W和b是LSTM网络的学习参数。最后,我们将最后一个时间步的隐藏状态与Moment的类别分布特征融合,并将它们输入到全连接层中。一方面,我们注意到除了减少网络复杂性外,将最后一个时间步的隐藏状态输入到下一个全连接层中比将所有时间步的隐藏状态输入效果更好。同时,我们发现对于Moment中的图像信息的实用性,即使图像引导的注意机制比后期融合的性能更好,但融合机制仍然可以提供补充信息并提高性能。因此,我们仍然将类别分布特征作为最后一个全连接层的一部分输入。我们使用交叉熵损失作为损失函数,并使用自适应学习率的小批量梯度下降算法来优化网络。04 实验0为了证明我们的BiATT-LSTM在任务中的有效性,我们进行了两级“垂直”和“并行”的实验,展示了不同模型在几个指标上的结果。对于“垂直”实验,我们将基本的LSTM框架与其他三种流行的文本分类框架进行比较,包括基于文本的决策树框架、基于Doc2vec的框架[7]和基于Latent DirichletAllocation的框架[3],以展示其有效性。然后,我们将双向注意机制输入模型中,如图3所示,并比较实验结果。对于“并行”实验,从本质上讲,我们将BiATT-LSTM视为一种新的框架,以新颖的方式共同建模视觉和语言内容,因此我们将我们模型的结果与其他多模态框架进行比较。近年来,许多创新模型[1, 2, 8, 18, 19,21]基于共同建模图像和语言内容实现了不同的任务。然而,由于我们的任务限制为1)分类任务,2)一个文本对应多个图像,3)语言风格非正式,其中一些模型不适用于我们的工作。因此,我们将我们的方法与四个模型进行比较,包括普通的后期融合模型、分解机模型[12]、Aishwarya的深度LSTM Q + norm I模型(LSTMQ)[1]和You的跨模态一致回归模型(CCR)[21]。You的CCR模型假设不同的模态在描述相同主题方面应保持一致,因此它在相关但不同的模态(视觉和文本)之间施加一致的约束。Aishwarya的LSTMQ模型用公共空间映射和逐元素乘法替换了视觉和文本特征的串联。分解机可以使用分解参数对特征之间的所有交互进行建模,因此它能够在具有巨大稀疏性的问题中估计交互。它适应了我们的类别分布特征,这是一个稀疏向量。所有基准模型都适用于联合视觉-文本分类任务。04.1 数据集0我们收集了一个数据集,其中包括570个用户的37,359条微信朋友圈和109,545张朋友圈图片,时间从2016年3月21日到2016年7月21日。所有这些用户都是一个化妆品品牌的VIP用户。我们选择这类用户收集数据,因为他们的朋友圈中有相当数量的内容与微信商务有关。除了化妆品,他们还会宣传其他产品,如服装、鞋子、餐厅、创业公司、异国水果、奢侈品、平台、洗涤剂、高科技装备等等。为了训练和测试微信商务朋友圈分类器,两位研究人员随机选择了10078条朋友圈,并分别将其中的一部分标记为微信商务朋友圈和非商务朋友圈。两位研究人员对微信商务朋友圈的标记比例相似(近43%),并经过了一系列的子样本验证过程,以确保标记过程的一致性。最终,10078条朋友圈中有4309条是与微信商务相关的正样本。对于所有的实验,我们随机选择80%的朋友圈作为训练样本,20%的朋友圈作为测试样本,并基于训练集的随机10%样本进行交叉验证模型超参数。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂Doc2vec[7]81.2383.1671.1876.70TFIDF+LDA[3]77.7174.8073.3974.09LSTM87.3486.1884.3785.27BiATT-LSTM89.8591.4884.4887.84LSTM(S)93.2689.8595.2392.46BiATT-LSTM(S)96.0196.0594.6795.1334804.2 实验设置0对于垂直实验,我们首先展示了LSTM的有效性。对于基于文本的决策树,我们通过TF-IDF[16]提取文本特征,并直接训练决策树进行分类;对于基于Doc2vec和LDA的框架,我们分别通过Doc2vec和TF-IDF与LDA的组合提取文本特征,并将特征输入到多层感知机进行分类。我们将Doc2vec的文本特征维度和LDA的主题数都设置为300以获得最佳性能。之后,我们将BiATT-LSTM框架与基准LSTM进行比较。与[21]一致,我们使用准确率、精确率、召回率和F-measure这四个指标来衡量性能。对于并行实验,我们将模型的性能与后期融合、分解机、LSTMQ和CCR进行比较。对于CCR,我们像[21]一样,添加了一个新的损失项,对视觉和文本模态施加一致性约束。对于分解机,我们用分解机层替换了顶部的全连接层。对于LSTMQ,我们将视觉特征(CD特征)进行了归一化,还实现了公共空间映射和逐元素乘法。另一方面,考虑到我们数据集的样本数量,我们还关注了使用大型数据集进行任务的模拟,并证明了双向注意机制仍然具有提高性能的强大能力。具体来说,由于复杂的语言环境、非常庞大的词汇表和相对有限的数据集样本数量,我们发现测试集中很多词只出现了几次,甚至在训练集中根本不存在。这种情况导致这些词的词嵌入不准确,使得模型的性能远远不及使用大型数据集,从中模型可以学习到测试集中每个词的准确词嵌入。对于我们的任务,预训练的词嵌入很难进行转移和使用,因为1)很难找到包含所有这些词/表达式的大型数据集来训练模型;2)最重要的是,该任务是高级的,即使在普通数据集中,具有完全不同语义意义的词(例如“洗衣粉”和“面膜”)也可能对我们的任务具有类似的属性(对微信商务积极),这削弱了预训练词嵌入的意义。因此,为了模拟使用大型数据集的情况,我们在LSTM单元中手动引入了一个强大的词特征。具体来说,对于一个词和一个标签,我们构造了它们之间的相关系数,方式与构造词和类别之间的相关系数相同,但是还添加了数据集的测试样本,而不仅仅使用训练样本,这个操作人为地弥补了测试词的词嵌入质量差的问题,并模拟了使用大型数据集的更接近的情况。由于我们的二分类任务的文本有两种类型的标签,所以词特征是一个二维特征向量,其中每个节点记录了该词与特定标签之间的相关系数。在我们的实验中,我们还展示了基于这种模拟的不同模型的性能。04.3 实验结果0表2显示了垂直实验结果,我们可以看到使用图像类别分布特征,准确率达到了77.12%。0表2:基于不同框架的准确率、精确率、召回率和F-measure的垂直比较。“LSTM(S)”代表模拟大数据集的实验。0准确率 精确率 召回率 F-measure0类别分布特征 77.12 76.86 67.77 71.960决策树 80.41 78.09 76.27 77.170图5:微信商务与每个图像类别之间的相关性。0实现了一个逻辑回归模型来计算微信商务与每个图像类别之间的相关性。图5显示了每个类别的逻辑回归系数,我们可以看到大多数图像类别具有分类Moment的能力(强正相关或负相关),但仅将它们直接用作我们任务的特征无法发挥它们作为调整文本词权重的更强潜力。对于文本信息,使用LSTM模型可以达到87%的准确率,这比基于LDA和Doc2vec的框架更好,这表明LSTM在我们的任务中表现更好。最重要的是,双向注意机制显著提高了普通设置和模拟大数据集设置的性能,分别将准确率从87.34%提高到89.85%和从93.26%提高到96.01%,这在基线准确率已经很高的情况下是显著的。除了最高的准确率外,BiATT-LSTM在精确率和召回率上都取得了平衡的性能,这表明它预测为正的大多数Moment确实是微信商务Moment,并且大多数真实的微信商务Moment被识别出来。在并行实验中,从表3可以看出,双向注意机制作为一种新的同时建模视觉和文本模态的方法,有助于网络更好地学习视觉和文本的交互,并在不同的实验设置上取得了出色的性能,它在几乎所有情况下都优于其他方法。此外,我们可以看到双向注意机制和后期融合的组合仍然可以提高性能,这表明双向注意机制与其他框架兼容,因为它作用于模型的底层,使其有可能与作用于模型顶层的其他方法共存。0Track: 认知计算 WWW 2018,2018年4月23日至27日,法国里昂LSTM+CD+LF88.9890.0284.0486.93LSTM+CD+CCR[21]89.1890.1784.2787.12LSTM+CD+FM[12]89.4289.9085.2287.50LSTM+CD+LSTM Q[1]88.6591.5381.3986.17BiATT-LSTM89.8591.4884.4887.84BiATT-LSTM+CD+LF90.3391.3685.7088.49LSTM(S)93.2689.8595.2392.46LSTM(S)+CD+LF94.2797.5789.0293.10LSTM(S)+CD+CCR94.6392.4895.3593.89LSTM(S)+CD+FM94.9494.8193.5594.18LSTM(S)+CD+LSTM Q94.1394.0292.3693.81BiATT-LSTM(S)96.0196.0594.6795.13BiATT-LSTM(S)+CD+LF96.2095.4795.7895.63[1] Aishwarya Agrawal, Jiasen Lu, Stanislaw Antol, Margaret Mitchell, C. LawrenceZitnick, Devi Parikh, and Dhruv Batra. 2017. VQA: Visual Question Answering.International Journal of Computer Vision 123, 1 (2017), 4–31.[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra,C Lawrence Zitnick, and Devi Parikh. 2015. Vqa: Visual question answering. InProceedings of the IEEE International Conference on Computer Vision. 2425–2433.[3] David M Blei, Andrew Y Ng, and Michael I Jordan. 2003. Latent dirichlet allocation.Journal of machine Learning research 3, Jan (2003), 993–1022.[4] Alex Graves et al. 2012. Supervised sequence labelling with recurrent neuralnetworks. Vol. 385. Springer.[5] Zhao Guo, Lianli Gao, Jingkuan Song, Xing Xu, Jie Shao, and Heng Tao Shen.2016. Attention-based LSTM with Semantic Consistency for Videos Captioning.In Proceedings of the 2016 ACM on Multimedia Conference. ACM, 357–361.[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2015. Deep ResidualLearning for Image Recognition. arXiv preprint arXiv:1512.03385 (2015).[7] Quoc Le and Tomas Mikolov. 2014. Distributed representations of sentencesand documents. In Proceedings of the 31st International Conference on MachineLearning (ICML-14). 1188–1196.[8] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang.2017. Person Search with Natural Language Description. arXiv:1702.05729 (2017).[9] Zhuqi Li, Lin Chen, Yichong Bai, Kaigui Bian, and Pan Zhou. 2016. On Diffusion-restricted Social Network: A Measur
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功