视频服装精确匹配：AsymNet深度神经网络的视频到购物图像跨领域任务

27 浏览量更新于2023-10-16 收藏 12.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

40480Video2Shop：将视频中的服装精确匹配到在线购物图像0程志琪1，吴晓1，刘阳2，华先生201 西南交通大学，2 阿里巴巴集团0{zhiqicheng,huaxiansheng}@gmail.com;wuxiaohk@swjtu.edu.cn;panjun.ly@alibaba-inc.com0摘要0近年来，在线零售和视频托管服务都呈指数级增长。本文提出了一种名为AsymNet的新型深度神经网络，用于探索一种新的跨领域任务Video2Shop，目标是将视频中出现的服装与在线商店中完全相同的服装进行匹配。对于图像方面，使用成熟的方法检测和提取任意尺寸的服装补丁的特征。对于视频方面，从每帧中检测到的对象区域提取深度视觉特征，并进一步将其输入到长短期记忆（LSTM）框架中进行序列建模，以捕捉视频中的时间动态。为了在视频和在线购物图像之间进行精确匹配，联合建模了视频的LSTM隐藏状态和从静态图像中提取的图像特征，使用具有可重构深度树结构的相似性网络。此外，提出了一种近似训练方法，以实现训练时的效率。在大型跨领域数据集上进行的大量实验表明，所提出的AsymNet的有效性和效率优于现有方法。01. 引言0随着电子商务的指数级增长，在线服装购物变得越来越受欢迎，占据了零售业的重要份额。受到巨大的利润潜力的驱动，服装项目检索在多媒体和计算机视觉社区中受到了极大的关注。同时，在线视频流媒体服务也越来越受欢迎。当观看偶像剧或电视节目时，例如韩剧《来自星星的你》，美丽的女孩穿着时尚的衣服，观众，尤其是女性，更容易被这些漂亮的衣服所吸引，并被激发购买视频中展示的相同服装。在本文中，我们考虑了这种在线购物的新场景，称为Video2Shop：在视频中找到与在线商店中完全相同的服装。0尽管以前已经探索过街头搭配服装匹配[9, 10, 16, 25,29]，即通过街头时尚照片搜索在线服装，但尚未对在视频中找到与在线商店中完全相同的服装进行深入研究。视频中的服装外观多样，背景杂乱，视角变化，遮挡，不同的光照条件和运动模糊使得Video2Shop成为一项具有挑战性的任务。更具体地说，视频和在线购物网站中出现的服装项目显示出明显的视觉差异。一方面，视频中的服装通常是从不同的视角（正面、侧面或背面）拍摄的，这导致了视觉外观的巨大变化。视频中的复杂场景和常见的运动模糊使情况变得更糟。另一方面，在线服装图像并不总是具有干净的背景，因为这些服装通常是在户外场景中由时尚模特穿着以展示真实的穿着效果。杂乱的背景给服装定位和分析带来了困难。这些问题使得Video2Shop任务比街头搜寻更具挑战性。0所提出的深度神经网络AsymNet的架构如图1所示。当用户通过网页或机顶盒设备观看视频时，系统将从在线商店中检索到完全匹配的服装项目并返回给用户。首先部署服装检测器，用于视频和图像两侧，提取一组提案（服装补丁）以识别潜在的服装区域，消除背景区域的影响，从而实现更准确的服装定位。对于视频，然后进行服装跟踪，从提取的服装补丁中生成服装轨迹，其中包含连续帧中出现的相同服装项目。直观地说，具有不一致视角的服装补丁可以被保留下来。由于性能和稳定性的优势，本文采用Faster-RCNN[22]和Kernelized CorrelationFilters（KCF）跟踪器[8]作为服装检测器和服装跟踪器。在视频特征网络（IFN）和视频特征生成的购物图像和服装轨迹中生成深度视觉特征。40490图1.所提出的AsymNet框架。在服装检测和跟踪之后，通过图像特征网络(IFN)和视频特征网络(VFN)分别生成深度视觉特征。然后将它们输入到相似性网络中进行成对匹配。0对于视频，深度视觉特征进一步被输入到长短期记忆(LSTM)框架[4]中进行序列建模，该框架捕捉视频中的时间动态。然后，Video2Shop问题被定义为一个非对称(多对一)匹配问题，即将视频中出现的一系列服装准确匹配到单个在线购物服装。然后将这些特征输入到相似性网络中，对视频中的服装区域和购物图像进行成对匹配，其中提出了一个可重构的深度树结构来自动学习融合策略。然后将排名靠前的结果返回给用户。所提出工作的主要贡献总结如下: •提出了一种新颖的基于深度的网络AsymNet，用于跨领域的Video2Shop应用，该应用被定义为一个非对称(多对一)匹配问题。它主要由两个组件组成:图像/视频特征表示和相似性度量。0•为了进行准确匹配，将视频中的服装轨迹的LSTM隐藏状态和从在线购物图像中提取的图像特征在相似性网络中进行联合建模，该网络具有可重构的深度树结构。 •为了训练AsymNet，提出了一种近似训练方法来提高训练效率。所提出的方法可以处理大规模的在线搜索。 •在第一个也是最大的Video2Shop数据集上进行了实验，该数据集包含26,352个视频中的服装轨迹和85,677个购物图像。实验证明了所提出方法的有效性，优于现有的方法。0本文的其余部分组织如下:第2节首先回顾了相关工作。特征的详细信息0在第3节和第4节中详细介绍了特征提取网络和相似性网络。第5节介绍了网络的近似训练方法。最后，第6节介绍了实验。2.相关工作02.1.服装检索0服装检索在商业系统中具有广泛的适用性。已经有大量的工作集中在相似服装检索[1, 2, 3, 10, 15, 18,19]和完全相同服装检索[16,25]上。对于相似服装检索，[15,18]中使用服装识别和分割技术来检索相似服装。为了解决街头照片和商店照片之间的领域差异，[19]中使用了稀疏表示。在采用深度学习的情况下，[10]中提出了一种属性感知的时尚相关检索系统。[1]中提出了一种使用对比损失的卷积神经网络来学习产品之间的视觉相似性。基于孪生网络，[9]中提出了一种双属性感知排序网络(DARN)来检索相似服装。对于完全相同的服装检索，[16]中首次探索了在线商店中准确匹配的街头服装照片。[25]中学习了一个强大的深度特征表示，以弥合街头和购物图像之间的领域差距。[20]中提出了一种新的深度模型FashionNet，通过联合预测服装属性和地标来学习服装特征。尽管在准确的街头到商店检索方面取得了一些进展，但很少有研究专门针对视频中的准确匹配服装到在线商店。02.2.深度相似性学习0随着深度卷积神经网络的普及，人们对相似性越来越感兴趣otgt =σσσtanh�,ct = ft ⊙ ct−1itgt,(1)ht = ot ⊙ tanh (ct) .40500使用深度模型进行学习[1, 6, 20, 26,28]。提出了几种用于图像块匹配的卷积神经网络[6, 26,28]。对于对象检索，设计了一个具有对比损失函数的神经网络[1]。提出了一种新颖的DeepFashion网络架构[20]，用于高效的相似性检索。这些技术与预定义的距离函数或多层神经网络相结合，学习相似性。受到这些工作的启发，我们提出了一种树状结构相似性学习网络，将视频中出现的服装与在线商店中完全相同的服装进行匹配。03. 表示学习网络0当在图像中检测到服装区域，然后将其跟踪为视频中的服装轨迹时，进行特征提取网络以获取深度特征。03.1. 图像表示学习网络0图像特征网络（IFN）基于VGG16[24]实现，其中输入图像块缩放为256x256，然后裁剪为随机的227x227区域，以满足最后一个卷积层的输出要求。在我们的Video2Shop匹配任务中，采用Faster-RCNN[22]来检测购物图像中的服装区域。不幸的是，检测到的服装区域具有任意大小，违反了输入大小的要求。受到最近提出的空间金字塔池化（SPP）架构[7]的启发，该架构在卷积层和全连接层之间插入了一个空间金字塔池化层，如图2所示。它通过空间池化聚合最后一个卷积层的特征，使池化区域的大小与输入的大小无关。03.2. 视频表示学习网络0视频特征网络（VFN）如图1所示。对于视频，上述图像特征网络（IFN）也用于提取卷积特征。由于视频中存在时间动态，传统的平均池化策略变得无效。循环神经网络（RNN）[4]是解决这个问题的完美选择。最近，由于其对建模序列数据具有长期短期记忆能力，长短期记忆（LSTM）[4]已成功应用于各种序列建模任务。本文选择它来描述视频中的服装轨迹。基于[27]中提出的LSTM单元，典型的LSTM单元由一个输入门 i t ，一个遗忘门 f t ，一个输出门 o t和一个候选细胞状态 g t组成。沿时间维度的状态和门之间的交互定义如下：0图2. 图像特征网络的架构0�0� � � M � h t − 1m t0这里，c t 编码了细胞状态，h t 编码了隐藏状态，m t是由图像特征网络生成的卷积特征。运算符 ⊙表示逐元素乘法。给定视频中服装轨迹的卷积特征 M ( m 1, ..., m n )，单个LSTM计算一系列隐藏状态 ( h 1 , ..., h n)。此外，我们发现单个LSTM无法完全学习到时间上的变化，因此我们堆叠LSTM网络以进一步增加网络的区分能力，通过使用一层的隐藏单元作为下一层的输入。经过实验证实，本文中采用了两层LSTM网络。04. 相似性学习网络04.1. 动机0为了在视频的服装轨迹和购物图像之间进行成对相似性测量，提出了一个相似性网络。输入是来自视频特征网络的几个LSTM隐藏状态（h1，h2，...，hn）和来自图像特征网络的卷积特征m�。输出是相似性得分sg。这个问题被形式化为一个非对称（多对一）匹配问题。传统上，通过对整个服装轨迹进行平均或最大池化来获得全局相似性，或直接选择轨迹中的最后一个相似性来解决这个问题。最近，提出了一种关键体积检测方法[30]来解决类似的问题。然而，由于视频数据的大变异性和复杂性，这些方法在我们的Video2Shop应用中将失败。平均值或最大值不能完全代表服装轨迹。虽然关键体积能够学习到最关键的部分，但仍然过于简单，无法解决这个任务。基于统计理论[11,14]，这些学习问题被形式化为混合估计问题。−zi(2)which indicates the i-th low-level node connecting to the j-th neighboring top-level node, an intermediate variable εijis deﬁned as:εij = vijT (xij)(3)where vij is the parameters of this FN and xij is the featurevector from the fc1 layer of corresponding SSN. Here, eachlow-level fusion node is connected to a speciﬁc SNN. Theoutput of the low-level fusion node gij is a weighted scorenormalized by the scores of all fusion nodes connecting tothe same top-level fusion node:gij =eεi,j�i eεi,j(4)Similarly, for the top-level fusion node FNj, an interme-diate variable εj is computed as: εj = vjT (xj), where xjis an average pooling vector from multiple low-level fusionnodes, which are connected to FNj, vj is the parameters ofthis fusion node. The fusion score gj is normalized by thescores of all top-level fusion nodes as: gj =eεj�j eεj . Withsuch a tree structure, for each mini-batch, the parameters offusion nodes are updated in the forward pass. Once the sim-ilarity network converges, the fusion strategy is obtained.4.3. Learning AlgorithmIn this subsection, we will introduce the learning methodof our similarity network. The learning is implemented ina two-step iteration approach, where similar network nodesand fusion nodes will be mutually enhanced. The featurerepresentation network and similar network nodes are ﬁrstlearned, and then the fusion nodes are learned when similarnetwork nodes are ﬁxed.Learning of Similarity Network Node:The learningproblem of SNN is formulated as minimizing a LogarithmicLoss. Suppose that we have N convolutional features fromthe ﬁrst fully-connected layer fc1 as X = {x1, x2, ..., xN}and each has a label ˆyk ∈ {0, 1}, where k ∈ [0, N], and 0means “does not match” while 1 denotes “matches”. Theloss function ▽(SNN) is deﬁned as:L = 1NN�k=1( ˆyklog (yk)+(1 − ˆyk) log (1 − yk))+λ ∥Wi∥2(5)where Wi is the parameters of i-th SNN, yk is the outputof single similarity network with xk as the input, which isdeﬁned in Eqn. 2.Learning of Fusion Node:For a given mini-batch featureset of the fc1 layer, when SNN is ﬁxed, the global similaritysg can be deﬁned as the mixture of the similarity of eachSNN:p(sg) =�jgj�igijpi(y)(6)40510通过将复杂问题划分为更简单的问题并将其解决方案组合起来得到复杂问题的解决方案。受到这个思想的启发，我们将广义混合专家模型新颖地扩展到递归神经网络，并修改混合估计策略以获得全局相似性。所提出的方法试图分配融合节点来总结位于不同视点的单一相似性。04.2. 网络结构0由于存在多个输入和只有一个输出，提出了一种树状结构来自动调整融合策略，如图1所示。树状结构中涉及两种类型的节点，即相似性网络节点（SNN）和融合节点（FN），分别对应树中的叶子节点和分支节点。相似性网络节点充当树的叶子节点，计算单个LSTM隐藏状态和卷积特征之间的相似性。然后，将这些结果传递给融合节点，生成控制相似性融合权重的标量输出。这些融合节点将逐层传递以融合内部结果。本文采用了一个五层结构。最后，给出一个最终的全局相似性。下面给出每个子结构的详细信息。0相似性网络节点（SNN）为了便于理解，我们首先介绍LSTM隐藏状态hi和卷积特征m�之间的一对一相似性度量。如[16]所示，余弦相似性过于一般，无法捕捉特征之间的潜在差异。因此，hi和m�之间的相似性被建模为一个具有两个全连接层的网络，如图1中所示的红色虚线框。具体来说，前两个全连接层分别具有256（fc1）和1（fc2）个输出。第i个SNN的最后一个全连接层的输出是一个实数zi。在网络的顶部，使用逻辑回归生成hi和m�之间的相似性yi：0y i = 10融合节点（FN）由于SNN是分段平滑的，类似于相应的广义线性模型（GLIM）[5]。一旦计算出单个SNN，所有融合节点的融合分数将以树状结构生成。在这个网络中，多个低级融合节点连接到一个更高级的融合节点，形成了一个树状结构。为了简单起见，我们以一个2级结构（如图1所示）作为示例。低级融合节点指的是叶子节点，而顶级节点是根节点的一侧。对于一个低级融合节点FN ij，where p(s) and pi(y) are similarities of global and i-thSNN. gj and gij are the fusion scores of higher and low-level fusion nodes. The meaning of the Eqn. 6 is that thesimilarity of all similar network nodes are passed to multi-ply layers of fusion nodes to generate the results of globalsimilarity.In order to implement the learning algorithms of Eqn. 6,the posterior probabilities of fusion nodes are deﬁned. Thefusion scores of top-level gj and low-level gij are referredas prior probabilities, since they are computed without theknowledge of corresponding output of SNN yi (as calculat-ed in Eqn. 3 and Eqn. 4). With Bayes’ rule, the posteriorprobabilities at the top-level fusion nodes and low-level n-odes are denoted as follows:hj =gj�i gijpi(y)�j gj�i gijpi(y)(7)andhij =gijpi(y)�i gijpij(y)(8)With these posterior probabilities, a gradient descent learn-ing algorithm is developed for Eqn. 6. The log likelihoodfunction of a training sample is obtained as:l = ln�jgj�igijpi(y)(9)40520在这种情况下，通过对参数求导，可以得到顶层和底层融合节点参数的梯度下降学习规则如下：▽ v j = α (h j - g j) x j(t) (10)0▽ v ij = αh j (h ij - g ij) x ij (11)0其中α是学习率。v j 和v ij分别是高层和低层融合节点的参数。这些方程表示了一种批量学习算法，用于训练融合节点（即树结构）。为了形成更深的树，每个SNN递归地扩展为一个融合节点和一组子SNN网络。在我们的实验中，我们有五层深的树结构，每一层的融合节点数量分别为32、16、8、4、2。05. 近似训练0直观上讲，为了获得良好的性能，不同的模型应该针对不同的服装类别进行独立训练。为了实现这个目标，首先训练一个通用的AsymNet，然后对每个服装类别进行微调，以获得特定类别的模型。需要训练14个模型。在本节中，我们将介绍AsymNet的近似训练。要训练一个稳健的模型，通常需要数百万个训练样本。训练过程非常耗时。0算法1近似训练方法。输入：包含IFN、VFN和SNN的AsymNet，LSTM隐藏状态L，卷积特征C。输出：AsymNet1：采样N个服装轨迹；2：获取L = net foward(VFN)，C= net foward(IFN)；3：将L复制2 ×S次作为ˆL，将C和ˆL发送到SNN；04：训练SNN并计算▽(SNN)如公式5所示；5：计算h i 和h ij如公式7-8所示；6：按照公式10-11训练融合节点；7：使用▽(SNN)训练IFN；8：使用▽(V FNu)如公式12训练VFT；0AsymNet使用传统的训练策略。基于该应用的内在特性，即训练阶段许多正样本和负样本（即购物衣服）共享相同的服装轨迹，提出了一种高效的训练方法，总结如算法1所示。假设训练的批次大小为N，并对轨迹采样了2 ×S张购物图像，其中正样本和负样本的数量等于S。总共，在每个批次中有N个服装轨迹的视频和2 × S ×N个服装购物图像。为了加速相似性网络的训练，将N个轨迹的LSTM隐藏状态复制2 ×S次，并将它们发送到相似性网络。为了训练视频特征网络，可以近似地计算服装轨迹的梯度如下：0▽(V FN) = 102 × S ▽ (SNN) (12)0同时，图像特征网络的梯度为▽(SNN)，如公式5所定义。06. 实验0在本节中，我们将评估AsymNet的各个组件的性能，并将提出的方法与最先进的方法进行比较。06.1. 数据集和评估指标0由于Video2Shop应用缺乏适当的数据集，我们收集了一个新的数据集来评估通过视频进行相同服装检索的性能。据我们所知，这是Video2Shop应用的第一个也是最大的数据集。在电子商务网站Tmall.com和Taobao.com上有许多在线商店，销售电影、电视和综艺节目中出现的相同款式的服装。相应地，这些商店上也发布了视频和相应的在线服装图像。我们从阿里巴巴集团的机顶盒设备TmallMagicBox下载这些视频，并手动提取包含相应服装的镜头作为40530图3. 表示网络性能比较0总共有来自14个类别的85,677张在线服装购物图像，从526个视频中提取了26,352个服装轨迹，以及39,479个精确匹配对。数据集信息如表1所示。我们还收集了类似的匹配对，以评估相似检索算法。为了训练服装检测器，手动标记了14个类别的服装，每个类别从在线图像中收集了2000个正样本。使用Faster-RCNN[22]作为服装检测器，并使用核化相关滤波器（KCF）跟踪器[8]生成服装轨迹。Faster-RCNN和KCF中使用的参数与原始版本相同。去除了重复的服装轨迹。我们数据集中的每个服装轨迹都与完全匹配的服装图像相连，并由注释者手动验证，形成了基准数据。按照大约4:1的比例，这些精确匹配的视频到购物匹配对被分为两个不重叠的集合（训练集和测试集）。同时，为了减少背景的影响并实现更准确的服装定位，还使用Faster-RCNN为在线购物图像提取一组服装候选区域。评估指标：由于类别被假定为事先已知，实验是在类别内进行的。按照[16,25]的评估标准，检索性能基于top-k准确率进行评估，即在返回的前k个结果中正确匹配的比例。请注意，在我们的设置中，只要在前5个结果中至少有一个与查询完全相同的产品，就被视为正确匹配。为简单起见，使用加权平均进行评估。06.2. 表示网络的性能0在本小节中，我们将表示网络与其他基线模型进行性能比较。1）平均池化，2）最大池化，3）Fisher Vector[21]和4）VLAD [12]。我们在[12,23]中常用的选择中，使用256个分量用于Fisher向量和256个中心用于VLAD。Fisher向量的PCA投影、GMM分量和VLAD的K-means中心是从近似数据中学习的。0在训练集中有大约18,000个采样的服装区域。对于这些基线模型，直接在服装轨迹的CNN特征上使用平均池化和最大池化。分别使用Fisher向量和VLAD对购物图像和服装轨迹的CNN特征进行编码。然后通过单一相似性网络估计相似度。此外，还研究了不同级别（1级、3级和4级）的LSTM网络的影响，分别表示为LSTM1、LSTM3和LSTM4。对于基于LSTM的网络，将相似性特征网络的最终输出用作最终匹配结果。性能比较如图3所示。从图3可以看出，随着k的增大，总体性能也增加，这意味着只要返回的前k个结果中至少有一个完全相同的项，就会被视为正确匹配。但我们也注意到，前10个的性能仍然远远不够令人满意，因为将视频中出现的服装与在线购物图像进行匹配仍然是一项具有挑战性的任务。这些跨域来源之间存在显著差异，包括多样的视觉外观、杂乱的背景、遮挡、光照条件、视频中的运动模糊等。平均池化的性能优于最大池化。FisherVector和VLAD的性能都优于平均池化表示。VLAD的性能略优于FisherVector。总体而言，所有基于LSTM的网络都优于基于池化的方法。提出的AsymNet取得了最佳性能，其性能明显优于其他两种池化方法。随着LSTM网络级别的增加，性能首先增加，然后在级别数超过两个时下降。我们的AsymNet采用了两级LSTM结构。06.3. 相似性网络的结构选择0为了研究相似性网络的结构，我们改变了级别和融合节点的数量，同时保持其他公共设置不变。我们评估了两种类型的架构：1）同质分支：所有融合节点具有相同数量的分支；2）变化分支：分支数量在不同层次上不一致。对于同质设置，我们测试了从具有32个融合节点的一级平坦结构到具有五个级别（62个融合节点）的分层结构。对于变化的时间分支，我们比较了六个网络，分支数量按照递增顺序排列：4-8、2-4-4、2-2-2-4和递减顺序排列：8-4、4-4-2、4-2-2-2。这些架构的性能如图4所示，其中结构以“#Level:#Branches”表示，从叶子到树根，用连字符连接。从该图中可以看出，随着级别和融合节点数量的增加，整体性能显著提高。40540图4. 使用不同结构的提出的AsymNet的前20个检索准确率（%）。0随着训练的进行，融合节点中的参数开始增长，这意味着融合节点的权重变得越来越合理。与此同时，随着epoch的增加，性能显著提高。然而，在4个epoch之后，改善不明显，因为融合节点的权重趋于稳定。权重调整变得微妙，因为整体权重已经优化。当采用一级平坦结构时，只有树结构中的叶子节点。整个相似性网络被简化为树根处的单个平均广义线性模型。随着训练的进行，融合节点中的参数开始增长。当融合节点开始发挥作用时，系统的性能得到提升。我们还注意到，当涉及到更多级别的融合节点时，总体性能会提高。前三层的提升非常明显。当形成多级结构时，改善变得较小。这表明当融合节点的级别超过三个时，相似网络变得稳定。06.4. 相似性学习网络的性能0为了验证我们的相似性网络的有效性，我们将所提出的方法在不包括融合节点的情况下与其他方法进行了性能比较。这些基线方法包括：通过所有相似网络的平均值（Avg）和最大值（Max）或最后一个（Last）相似网络来确定最终匹配结果。此外，还考虑了最新的工作KVM[30]，其中KVM中使用的关键体积提议方法直接用于融合SNN中的fc1特征。我们将相似性学习任务形式化为二元分类问题。因此，仍然可以使用KVM中的相同损失函数。图5显示了前20个检索性能的比较结果。从该图中可以看出，Avg的性能优于Max。Last的性能优于Avg和Max。主要原因是最后一个隐藏状态学习到了服装的整个时间信息。0图5. 相似性学习网络的性能0轨迹。服装轨迹中的噪声对Avg和Max的性能影响很大。KVM认为，关键体积中可能存在稀疏的区分信息，而其他体积与最终结果无关。尽管KVM能够从服装轨迹中学习到最关键的部分，但它过于简单，没有充分考虑轨迹中不同的局部视角。提出的AsymNet优于这些基线方法，具有显著更高的性能。06.5. 与最先进方法的比较0为验证所提出的AsymNet的有效性，我们将其与以下最先进的方法进行比较：1）AlexNet（AL）[17]：使用全连接层fc6（4,096-d）的激活来形成特征表示。2）DeepSearch（DS）[10]：这是一种基于卷积神经网络的属性感知时尚相关检索系统。3）F.T.Similarity（FT）[16]：训练了特定类别的两层神经网络，用于预测由AlexNet提取的两个特征是否表示相同的产品项。4）Contrastive &Softmax（CS）[1]：它基于孪生网络，使用传统的对比损失函数和softmax损失函数。5）Robust contrastiveloss（RC）[25]：采用多任务微调，其中损失是对比和softmax的组合。对于视频中的服装轨迹，我们计算平均相似度以获得最相似的购物图像。除FT外，所有这些方法都使用余弦相似度。详细的性能比较列在表1中。AsymNet在前20个检索准确率方面取得了最佳性能。它明显优于AlexNet，性能几乎翻倍。AlexNet [17]和Deep Search[10]的性能不令人满意，它们只使用卷积特征来检索图像，并没有学习潜在的相似性。两种基于对比的方法（CS[1]和RC [25]）的性能略优于FT[16]，因为对比损失具有更强的能力来识别细微差异。RC的性能优于CS，因为它利用了服装的类别信息。对于一些具有40550表1. 提出的AsymNet与最先进方法的前20个检索准确率（%）进行比较。符号表示图像数量（# I），视频轨迹数量（# TJ），查询数量（#Q）及其对应的结果数量（# R）。0类别 # I # TJ # Q # R AL [17] DS [10] FT [16] CS [1] RC [25] AsymNet0外套 18,144 5,581 1,116 3,628 17.31 22.94 26.97 27.61 31.80 42.58 连衣裙 14,128 4,346 869 2,825 22.93 24.9025.56 29.33 34.34 49.58 上衣 7,155 2,201 440 1,431 17.45 24.83 25.26 29.14 32.94 35.12 迷你裙 6,571 2,021 4041,314 23.35 24.83 27.47 29.50 31.30 32.48 帽子 6,534 2,010 402 1,306 15.82 13.98 20.19 25.87 33.81 35.12太阳镜 6,133 1,886 377 1,226 11.85 7.46 11.35 11.83 12.26 12.16 包包 5,257 1,617 323 1,051 23.78 27.63 27.4725.67 25.48 36.82 裙子 4,453 1,370 274 890 19.79 25.06 22.44 24.50 24.43 41.75 西装 3,906 1,201 240 781 18.6525.18 19.72 25.29 26.60 42.08 鞋子 3,358 1,033 206 671 11.45 24.10 23.92 25.03 27.58 26.95 短裤 3,249 999 199649 11.15 5.99 13.90 14.84 16.62 13.74 裤子 2,738 842 168 547 17.57 22.54 25.77 29.49 28.36 32.13 马裤 2,044628 125 408 23.45 22.99 25.03 28.52 28.76 48.28 高筒靴 2,007 617 123 401 12.05 13.11 14.57 15.46 16.04 14.940总体而言，85,677 26,352 5,266 17,128 18.36 21.44 23.47 25.73 28.73 36.630图6.提出的AsymNet的前5个检索结果示例。以红色框标出的是细节装饰图案的差异。0在服装轨迹方面，RC的表现略优于AsymNet，总体而言，我们提出的方法比这些方法表现更好。这主要是因为AsymNet能够处理视频中存在的时间动态变化，并通过自动调整融合策略来整合视频帧的区分信息。0图6中展示了提出的AsymNet的前5个检索结果的三个示例，其中精确匹配用绿色勾标出。相对而言，获得外观相似的衣服更容易，但获得完全相同的衣服则更具挑战性，特别是当查询来自视频时。对于前两行，这些返回的结果在外观上相似。然而，一些细节装饰图案是不同的，用红色框标出。在最后一行，虽然服装款式相同，但颜色不同，因此不会被视为正确匹配。06.6. 效率0为了研究近似训练方法的效率，我们将其与传统训练过程进行比较。所有这些实验都在一台服务器上进行，该服务器配备有24个Intel(R) Xeon(R) E5-2630 2.30GHz CPU、64GBRAM和一个NVIDIA K20 Tesla GraphicGPU。在我们的实验中，推理只执行一个样本，图像特征网络每秒处理200张图像，视频特征网络每秒处理0.5个轨迹，相似性网络每秒执行345对。计算可以进一步进行流水线处理和分布式处理，以适用于大规模应用。近似训练只需要传统训练时间的1/25。同时，近似训练方法不会影响AsymNet的有效性。我们的AsymNet模型的训练只需要大约12小时收敛。07. 结论0本文提出了一种新颖的深度神经网络AsymNet，用于在视频中精确匹配服装与在线商店。这个任务的挑战在于视频中的服装轨迹与在线购物图像之间存在的跨域源的差异，以及对精确匹配的严格要求。这项工作是对Video2Shop应用的首次探索。在我们的未来工作中，我们将整合服装属性以进一步提高性能。08. 致谢0本工作得到了中国国家自然科学基金（项目编号：61373121）和四川省科技厅杰出青年学者科研项目（项目编号：13QNJJ0149）的部分支持。40560参考文献0[1] S. Bell and K. Bala.使用卷积神经网络学习产品设计的视觉相似度. ACM TOG,34(4):98:1–98:10, 2015. [2] Z.-Q. Cheng, Y. Liu, X. Wu, andX.-S. Hua. 视频电子商务: 迈向在线视频广告. In ACM MM, pages1365–1374, 2016. [3] Z.-Q. Cheng, X. Wu, Y. Liu, and X.-S. Hua.视频电子商务++: 迈向大规模在线视频广告. IEEE Trans. onMultimedia, 2017. [4] K. Cho, B. van Merri¨enboer, D.Bahdanau, and Y. Bengio. 关于神经机器翻译的性质:编码器-解码器方法. arXiv, 2014. [5] G. Enderlein. Mccullagh, p.,j. a. nelder: 广义线性模型. chapman and hall london new york1983, 261 s., 16,. Biometrical Journal, 29(2):206–206, 1987. [6]X. Han, T. Leung, Y. Jia, R. Sukthankar, and A. C. Berg.Matchnet: 统一特征和度量学习的基于图像块的匹配. In CVPR,pages 3279–3286, 2015. [7] K. He, X. Zhang, S. Ren, and J.Sun. 深度卷积网络中的空间金字塔池化用于视觉识别. TPAMI,37(

下载后可阅读完整内容，剩余1页未读，立即下载