基于场景的互补产品推荐

63 浏览量更新于2023-10-18 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10532完成外观：基于场景的互补产品推荐Wang-Cheng Kang，EricKim，Jure Leskovec，Charles RosenbergPinterest、斯坦福大学、加州大学圣地亚哥分校{wckang，jmcauley}@ ucsd.edu，{erickim，jure，crosenberg}@ pinterest.com摘要基于产品的补充推荐建模时尚兼容性是具有挑战性的，因为它复杂性和主观性。目前的工作重点是预指示产品图像之间的兼容性（例如，包含T恤的图像和包含牛仔裤的图像然而，这些方法忽略了真实世界的“场景”图像（例如，自拍）;这样的图像由于其复杂性、杂乱、照明和姿势的变化（等）而难以处理。但是另一方面可以潜在地提供密钥上下文（例如，用户的体型或季节），以进行更准确的在这项工作中，我们提出了一个新的任务，称为我们设计了一种方法来提取训练数据的这项任务，并提出了一种新的方法来学习场景产品的兼容性，从时尚或室内设计图像。我们的方法通过CNN和注意力机制来测量全局和局部的兼容性。大量的实验表明，我们的方法实现了显着的性能增益比交替的系统。还进行了人的评价和定性分析我们希望这项工作可以导致有用的应用程序，链接大型语料库的现实世界的场景与可购物的产品。1. 介绍视觉信号是时尚分析的关键特征。深度学习的最新进展已被学术界[17，26，43]和工业界[15，51，52，55]采用，以实现各种与时尚相关的应用，从服装识别到时尚检索。时尚图像可以被分类为场景图像（野外的时尚图像）和产品图像（来自购物网站的时尚物品图像，通常包含在普通背景上的单个产品一般来说，前者（如自拍、街拍）在图像分享应用中占主导地位，而后者在在线购物网站上更常见。我们试图通过一个名为完成外观（CTL）的新任务，在这两种类型的图像之间架起一座桥梁。在Pinterest实习时完成的工作完成外观基于场景的补充推荐图1：基于产品和基于场景的互补产品推荐用例对比。我们的方法（底部）寻求基于真实世界场景推荐兼容的时尚项目，而基于产品的方法（顶部）考虑产品之间的兼容性。我们寻求推荐来自不同类别的时尚产品与现有的方法相比，这种设置更接近于现实世界的用例，在这些用例中，用户可能会根据他们“在野外”上传的图像寻求补充项目的推荐之前已经研究了时尚兼容性[40，11]，尽管现有方法主要只考虑产品图像（图1）。相比之下，我们的基于场景的CTL任务有三个显著特点：1）场景图像不仅包含主体（或用户）所穿的时尚物品，而且包含丰富的上下文，如他们的体型、季节等。通过利用这些辅助信息，我们可以潜在地提供更准确和定制的推荐;2）我们的系统可以被用户采用以给出时尚建议（例如，与你的服装搭配得很好的鞋子），只需上传（例如）自拍; 3）我们的系统可以很容易地适应现有的平台，以推荐出现在时尚图像中的产品。学习场景-产品兼容性是CTL任务的核心。然而，构建适当的地面实况数据来学习兼容性的概念是一个重要的，10533的挑战。现有的大规模时尚数据集通常标有服装片段，属性或地标[26，2，56]，这些都缺乏任何有关兼容性的信息。基于产品的方法采用（例如）亚马逊然而，这些数据集不能用于我们的CTL任务，因为它们缺乏来自真实世界场景的图像除了数据可用性的问题，另一个挑战是估计产品图像和现实世界的时尚图像之间的兼容性如上所述，现有的研究通常考虑产品图像的兼容性[40，11]，这意味着必须为我们的CTL任务引入新的数据和技术。另一种相关工作考虑了称为Street2Shop（也称为Shop the Look，或STL）的跨场景时尚检索任务[17，25]，该任务试图在给定场景图像和查询产品的边界框的情况下检索外观相似（甚至相同）的产品。人类标记的数据集已经被引入来估计跨场景相似性[17]，尽管我们的CTL任务与STL的不同之处在于我们试图学习互补性的概念（而不是相似性），并且关键的是所需的互补产品通常本文设计了一种基于STL数据裁剪生成CTL数据集的方法。除了利用时尚领域的现有数据集外，我们还考虑了室内设计领域（第3节）。我们从场景和产品图像中学习全局嵌入，从场景的局部区域中学习局部嵌入，并在具有类别引导注意力的统一风格空间中测量场景-产品兼容性（第4节）。我们根据各种基线评估了我们方法的整体和Top-K排名性能，定量和定性分析了参与的区域，并进行了用户研究以衡量任务的难度（第5节）。2. 相关工作视觉时尚理解。最近，时尚的计算机视觉引起了极大的关注，各种应用程序通常建立在深度卷积网络之上。服装由于服装具有细粒度的风格属性（例如，套筒长度、材料等），一些作品试图识别服装属性[4，18，3]，并检测时尚地标（例如，套筒、套环等）[43、26]。另一种工作考虑基于各种形式的查询来检索时尚图像，包括图像[26，35，52]、属性[8，1]、场合[24]、视频[6]和用户偏好[16]。我们的工作更接近于时尚产品出现在街头照片[25，17]，因为相同类型的数据可以适应我们的设置。补充项目建议。最近的一些研究试图确定两种产品是否互补，以便我们可以根据用户以前的购买或浏览模式推荐互补产品在时尚领域，视觉特征可以用于确定物品之间的兼容性，例如在成对兼容性方面[40，36，39，28]，或服装兼容性[22，11，13，38]。前一种设置将时尚项目作为查询，并寻求推荐来自不同类别的兼容项目（例如，推荐牛仔裤搭配T恤）。后者试图选择时尚项目，以形成兼容的服装，或完成部分服装。我们的方法基于包含丰富上下文的真实世界场景（例如，服装、体型、场合），这也可以被视为一种补充推荐的形式。然而，这不同于现有的方法，现有的方法试图从包含产品的图像对中对产品-产品兼容性进行建模除了检索现有产品之外，最近的一种方法使用生成模型来生成兼容的时尚项目[34]。注意机制。 ‘Attention’ has beenwidelyused incomputer vision tasks including image caption- ing[14，41]和生成[48，53]。注意力主要用于“空间注意力”）。为了识别模糊图像的相关区域，以前的方法采用预训练的person检测器来分割图像[25，37]。另一种方法通过属性激活图（AAM）[57]发现相关区域，使用包括布料属性[1]和描述[10]的标签生成。最近，注意力机制在服装分类和时尚地标检测等视觉时尚理解任务上取得了很好的表现[43]。我们的工作是第一个（据我们所知）应用注意力发现相关地区的监督指导下，在兼容的形式。深度相似性学习已经提出了各种方法来测量与深度神经网络的相似性。暹罗网络是一种经典的方法，它试图学习一个嵌入空间，使得相似的图像具有较短的距离，并已被应用于人脸验证和降维[7，9]。最近的方法倾向于通过考虑锚图像、正图像（类似于锚）和负图像（随机采样）来使用三重损失[32，42最近的研究发现，更好的采样策略（例如，采样'硬'底片）可以帮助性能[ 32，45 ]。在我们的方法中，我们试图学习一个统一的风格空间，其中兼容的场景和产品是接近的，因为它们应该代表类似的风格。105343. 数据集我们首先介绍用于Shop the Look（STL）任务的数据集，然后描述如何将STL数据转换为可用于完成外观（CTL）任务的格式。3.1. 购买外观数据集如图2所示，ShoptheLook（又名Street2Shop）任务包括基于场景图像和包含查询产品的绑定框检索视觉上相似（甚至相同）的产品例如，当用户看到名人穿着物品（例如，钱包），允许他们通过拍摄照片并选择物品的边界框来容易地搜索和购买产品（或类似的产品）。这里的主要挑战是由于产品之间的差异（例如，服装）与在线购物图像的对比，其中后者通常处于规范姿势、在普通背景上、充分照明等。为了解决这个问题，最近的一项研究试图收集人类标记的数据集，其中包括场景图像中产品的边界框，相关的产品图像以及每个产品的类别[17]（图2）。我们描述了三个可用于Shop the Look任务的数据集，如下所示：Kiapour等人为street2shop任务引入了第一个人类标记的数据集[17]。他们从在线时尚商店ModCloth中抓取数据，人们可以上传自己穿着产品的照片，表明他们穿着的确切物品。ModCloth还提供所有产品的类别信息。然而，由于没有提供边界框，作者使用亚马逊PinterestSTL时尚包含STL-Home包括室内设计和家居装饰项目。这两个数据集都有场景-产品对、产品的边界框和产品类别信息，所有这些都由内部工人标记与用户只提供产品匹配的Exact Street2Shop数据集[17]不同，这里的工人还标记与观察到的产品具有相似风格并且与场景兼容的此外，这两个数据集在图像和场景产品对的数量方面都要大得多（表1）。3.2. STL数据可以用于CTL吗？估计场景-产品兼容性是CTL任务的核心。虽然现有的STL数据集提供了大量的1http://www.tamaraberg.com/street2shop/2https://github.com/kang205/STL-Dataset选购造型外观相似产品数据查询输出完成外观+“兼容产品数据查询输出图2：STL和CTL之间的数据格式和任务比较。STL专注于检索类似的产品，而CTL则试图推荐场景中没有出现的兼容项目CTL数据包含兼容的场景产品（即，Is和Ip）对。Dant场景-产品对，直接使用它们来学习兼容性的概念（即，将每一对视为兼容的场景和产品）是有缺陷的。例如，假设我们想要学习一个基于STL数据的CTL模型。可以训练模型以预测STL数据中的每个场景/产品对（s/p+）的高兼容性分数，并且预测负产品p-（例如，通过随机抽样）。也就是说，乘积p+出现在场景s中，而乘积p-这里有可能模型将仅仅学习检测产品是否出现在场景中（即，如果出现，则给出高兼容性分数，否则给出低分数），而不是测量兼容性。在这种情况下，模型将在CTL任务上失败，该任务试图推荐不出现在场景中的兼容产品实证结果还表明，这种方法会导致较差的性能。出现上述问题主要是因为模型在场景图像中“看到"产品。为了解决这个问题，我们提出了一个策略，以适应STL数据集的CTL任务。其核心思想是通过裁剪场景图像来移除产品，这迫使模型学习场景图像的剩余部分与产品之间的兼容性。3.3. 生成CTL数据集为解决上述问题，本文提出了基于STL数据生成CTL数据集的方法。给定场景图像Is和产品的边界框B，我们考虑四个候选区域（即，上、下、左、右），10535i=1名称源#场景产品编号#配对产品类别（按数量降序排列）时尚-1[17]第十七话10,4825,238鞋类，上衣，外衣，裙子，紧身裤，包，裤子，帽子，腰带，眼镜时尚-2STL-时尚（Pinterest）47,73938,11172，198 鞋，上衣，裤子，手袋，外套，太阳镜，短裤，裙子，耳环，项链家STL-主页（Pinterest）24,02241,30693，274 地毯，椅子，灯具，枕头，镜子，壁炉，灯，沙发，桌子，装饰，窗帘表1：数据统计（预处理后）。每一对都包含一个兼容的场景和产品。区域作为裁剪的场景图像。具体来说，我们执行以下过程来裁剪场景图像：(i) 在某些情况下，边界框因为我们不想让模特看到产品的一小部分（这可能会暴露出，例如，它的颜色），我们稍微扩大边界框B，以确保产品很可能被完全覆盖。具体来说，我们将所有边界框扩展图像长度的5%。(ii) 计算候选区域的面积，并选择面积最大的区域。对于时尚图像，我们观察到几乎所有主体都处于垂直姿势，因此我们只考虑“顶部”和“底部”区域（因为左/右区域通常不包括人类主体）;对于家庭图像，我们考虑所有四个(iii) 最后，由于裁剪后的场景应该足够大，以便包含关键上下文，因此我们丢弃裁剪后的图像的面积为4.1. 风格嵌入我们采用ResNet-50 [12]从场景和产品图像中提取视觉特征基于场景图像Is，我们从最终层获得视觉特征向量vs∈Rd1ers（例如，pool5），以及来自中间卷积层（例如，conv4 6）。似-最后，将产品图像的视觉特征Ip表示为vp∈Rd1。这样的ResNet特征向量已经显示出强大的性能和可移植性[12，20]，并且特征图已经被证明能够从局部区域捕获关键上下文[30，47]。由于我们的数据集的大小有限，我们冻结ResNet-50的权重（在Imagenet上预训练），并将两层馈送应用于ward网络工作g（Θ;·）3，以将视觉特征转换为d维度量嵌入（其中单位长度）在统一的样式空间中。具体而言，我们有：fs=g（Θg;vs），fp=g（Θg; vp），小于阈值（我们使用整个区域的1/5如果裁剪的图像足够大，包含fi=g（Θl;mi），（一）=g（θl;mi），裁剪的场景和相应的产品被包括在CTL数据集中。其中fsfp是场景的样式嵌入，ˆ根据我们的启发式裁剪策略，我们手动验证，在大多数情况下，裁剪后的图像不包括相关的产品，裁剪后的图像包含一个有意义的和合理的区域，用于预测完成。在实践中，我们发现丢弃的实例主要是由于服装往往占据了很大的面积。我们发现，对于补充推荐，对占据图像大部分的对象应用裁剪策略通常是不实际的;因此，我们选择简单地从我们的数据集中丢弃连衣裙（注意，我们仍然可以基于人们穿连衣裙的场景推荐其他时尚物品）。图2示出了STL和CTL数据之间的比较; CTL数据统计见表1。4. 方法在完成外观任务中，我们得到一个包含由场景图像Is和产品图像Ip组成的兼容对的数据集（如图2所示），并试图学习场景-产品风格兼容性。为此，我们设计了一个模型，除了一个更细粒度的方法，匹配场景图像的相关区域与产品图像的兼容性测量全球。分别是乘积，fi，fi是场景图像的第i个区域。在嵌入上应用N2归一化以提高训练稳定性，这是最近深度嵌入学习工作中常用的方法[32，45]。4.2. 测量兼容性我们通过考虑统一样式空间中的全局和局部兼容性来衡量兼容性全球兼容性。我们试图从兼容的场景和产品图像中学习风格嵌入，其中附近的嵌入表示高兼容性。我们使用场景嵌入fs和乘积嵌入fp之间的（平方）Δ2距离来衡量它们的全局兼容性：dglobal （ s ， p ） =<$fs−fp<$2 ，（ 2）其中，λ· λ是λ2距离。本地兼容性由于场景图像通常包含包括许多对象的大区域，因此仅全局兼容性可能忽略场景中的关键细节。3网络架构为Linear-BN-Relu-Dropout-Linear- L2 Norm，并通过Θ参数化。10536特征地图特征地图特征地图特征地图场景场景（a）（b）（a）（b）（a）（b）（b）（a）（b）（b）图4：我们测试集中的二元问题示例。给定一个场景和两个产品，模型必须预测哪个产品与场景更兼容。正确的预测用绿色标记，不正确的用红色标记。图3：我们的混合兼容性测量的说明。我们将注意力地图的大小简化为2×2。乘积p+和负乘积p-：ΣL=[d（s，p+）−d（s，p-）+α]（s，p+，p-）∈T、（五）因此，我们将场景图像的每个区域与产品图像进行匹配，以实现更细粒度的匹配过程。此外，并非所有区域都具有同等相关性，在预测不同类别的互补性时，相关性可能会有所不同。因此，我们首先测量每个场景补丁与产品之间的兼容性，然后采用类别感知注意力来分配所有区域的权重：其中，α是裕度，我们在[32]中将其设置为0.2存储T中所有可能的三元组都是棘手的;我们使用小批量梯度下降来优化模型，其中每个批次的训练三元组是动态生成的：我们首先从所有兼容对中随机采样（s，p+），然后采样a负积p-来自p+的同一范畴。我们不从不同类别中抽取底片，因为在测试过程中，我们对同一类别的产品进行排名，这正是所采用的抽样策略所寻求的优化。dlocal（s，p）=ai<$fi−fp<$2，1≤i≤w×ha=softmax（a），（三）5. 实验5.1. 基线受欢迎程度：一个简单的基线，建议产品-其中c是乘积p的猫理论，且c∈Rd是范畴c的一个2-正规化嵌入. 在这里，我们使用Δfi和Δec之间的距离来测量当从类别c预测补集时场景图像的第i个区域。注意等式中的3可以被看作是对度量嵌入的关注的延伸，如果我们用一个n×2的内积来代替n × 2的距离，我们就恢复了传统的注意力形式（iaifi）Tfp。最后，我们通过定义一个混合体来衡量兼容性。结合全局距离和局部距离的距离：d（s，p）= 1 [d （s，p）+d（s，p）]。（四）102全球本地图3说明了我们的场景-产品兼容性测量过程。回想一下，我们使用的所有嵌入都是归一化为h_v_u_nit_length，并且注意力权重也被归一化（即，iai= 1）。请注意，所有距离（d、dglocal和dlocal）的范围都在0到4之间。4.3. 目的在[32]之后，我们通过考虑场景s的三元组T，采用铰链损失来学习风格嵌入，基于其流行度的评论（即，相关数量（场景，产品）对）。Imagenet功能：我们直接使用在Imagenet上预训练的ResNet的视觉特征，这些特征在检索视觉相似的图像方面表现出很强的性能[29，52]。相似性是通过嵌入之间的IBR[28]：基于图像的推荐（IBR）通过学习视觉嵌入之间的Mahalanobis距离来衡量产品兼容性。本质上，IBR学习了一种线性变换，将视觉特征转换为样式空间。暹罗网：Veit等人[40]采用Siamese CNN [7]从产品图片中学习风格嵌入，它们的兼容性使用一个0.02的距离。正如[40]中所建议的，我们根据预先训练的模型对网络进行微调BPR-DAE[36]：该方法使用自动编码器从服装图像和文本解压缩中提取表示，并将其纳入BPR推荐框架[31]。由于缺乏文字资料，在我们的数据集中，我们只使用它的视觉模块。由于上面的基线是为测量产品兼容性而设计的，因此我们根据问题调整基线注意事项12341234特征地图特征地图0.30.10.50.1注意力权重类别��∗+105370.300.250.200.150.100.050.0011020304050K(a) 时尚-10.200.150.100.050.0011020304050K(b) 时尚-20.300.250.200.150.100.050.0011020304050K(c) 家方法时尚-1时尚-2家图5：所有数据集上的Top-K准确度（即，前K个检索项目包含地面实况产品的频率通过将所有图像视为产品图像并应用与我们的方法中使用的相同的5.2. 实现细节为了进行公平的比较，我们使用ResNet-504（在Imagenet上预训练）实现了所有方法，作为底层。ing网络，其中层池5（2048d）用于视觉向量，层块3（7×7×1024）用作特征图。我们使用128的嵌入大小，并且我们没有观察到具有较大d的任何性能增益（例如，d= 512）。所有模型都使用Adam[19]进行训练，批量大小为16。如[ 32 ]中所建议的，对于基于度量嵌入的方法，视觉嵌入被归一化为具有单位长度，并且余量α被设置为0。二、对于所有方法，水平镜像和随机224×224裁剪256×256图像用于数据增强，单中心裁剪用于测试。我们随机分开场景（和相关的对）分为训练（80%），验证（10%）和测试（10%）集。我们训练所有方法100个epoch，每10个epoch检查一次验证集的性能，并报告达到最佳验证性能的模型的测试性能。5.3. 推荐性能如图4所示，给定一个场景s、一个类别c、一个正积p+和一个负积p-（从c中随机采样），模型需要决定哪个积与场景图像更兼容。这些二元选择问题的准确性被用作性能评估的度量。请注意，这里的准确性相当于衡量整体排名性能的AUC。表2列出了所有方法的准确度。首先，我们注意到第一组方法（无学习）表现不佳。Imagenet特征的表现类似于随机猜测，这表明视觉兼容性不同于视觉相似性，因此有必要从数据中学习兼容性即使是朴素的流行基线也能获得更好的表现（尽管仍然很差）其次，我们发现使用裁剪图像进行训练是有效的，因为与使用完整图像相比，它与其他基线相比，我们的方法具有4我们使用TensorFlow-Slim的实现该架构与原始文件略有不同（例如，不同的步幅）。表2：所有数据集上二元比较的准确性。最显著的性能下降与完整的图像，大概是因为我们的方法是唯一一个知道的局部外观，这使得它更容易错误地匹配场景补丁与产品，而不是倾斜compat-匹配（如第3.2节所讨论的）。Fashion-1和Fashion-2之间的性能差距可能与它们的尺寸有关。最后，我们的方法在时尚和家居领域的所有数据集上都实现了最佳性能除了总体排名测量之外，Top-K准确度（前K个推荐项目包含积极项目的次数）[1]可能更接近实际情况。图5显示了所有数据集的Top-K精度曲线。我们看到，我们的方法在最后两个数据集上的性能明显优于基线，并且在第一个数据集上的性能略优于最强基线。我们的补充材料中包含了对其他型号变体的性能分析。5.4. 参与地区我们可视化的关注领域直观地揭示了场景图像的哪些部分是重要的预测复杂性，并定量评估是否关注有意义的区域。图6显示了测试场景图像（裁剪后），来自我们模型的相应注意力图，以及DeepSaliency5生成的显着图[21]。DeepSaliency被训练来检测显著对象，而我们的注意力机制通过学习场景和产品图像之间的兼容性来发现相关区域。对于前两个时尚数据集，这两种方法都成功地识别了图像的主题（即，人）从各种背景。有趣的是，我们的注意力机制倾向于忽略人脸，更多地只关注衣服，这意味着我们的模型发现，当我们的模型被使用时，主体5http://www.zhaoliming.net/research/深度显著性我们的BPR-DAE暹罗网我们的BPR-DAE暹罗网我们的BPR-DAE暹罗网随机50.050.050.0人气52.157.555.6Imagenet功能49.451.648.1Train w/ full imagesIBR [28]56.558.557.0[40]第四十话63.067.172.4BPR-DAE [36]59.361.164.2我们63.170.075.0使用裁剪的图像训练IBR [28]54.555.958.0[40]第四十话64.069.073.1BPR-DAE [36]59.661.165.8我们68.575.379.610538方法数据集重叠人类人气56.560.756.0IBR [28]56.356.252.9[40]第四十话72.172.662.1BPR-DAE [36]62.563.858.3我们75.877.365.0人类75.0100100场景A和S场景A和S场景A和S表4：使用数据集标签、人类标签和重叠标签作为基础事实（分别）的采样数据的准确性图6：来自我们方法的注意力图（“A”）和来自DeepSaliency的显着图（“S”）的可视化善于提取服装品类预测的关键区域[43]。然而，对于表3：在有意义的区域上成功命中的分数。推荐补充。相比之下，室内设计领域的场景要复杂得多（关键是，它们包含许多对象而不是单个主题）。虽然一些有意义的对象（例如，枕头、灯等）在某些情况下，注意力或显着性似乎更难检测到关键对象。除了定性的例子，我们还定量测量是否注意力集中在场景图像的有意义的领域。在这里，我们假设与标记产品相对应的区域是相关的。具体来说，我们将图像分为7×7区域，如果区域明显重叠（即，面积大于区域）与任何产品然后，我们计算所有测试场景图像的注意力图（7×7），并根据分数对49个区域进行排名。如果前1个区域（或前3个区域之一）是表 3 显示了我们的注意力图、随机区域排名和DeepSaliency [21]的显着图的成功命中率在时尚数据集上，我们的方法这表明我们的注意机制可以在互补性监督的指导下发现和关注关键对象（在训练过程中不知道哪些区域是相关的这与最近的一项研究相似，该研究表明空间注意力似乎6注意，注意力仅在测量本地兼容性时使用，模型仍然可以通过全局兼容性利用无人值守区域中提供的上下文为了评估学习的模型与人类时尚感的一致程度，我们进行了一次人类受试者评估，其中要求四位时尚专家回答二元选择问题（如图4所示）。具体来说，每个时尚专家需要为每个数据集标记20个问题（从测试集中随机抽样），然后根据240个标记的问题评估表现一个重要的观察是，我们的模型实现了“人类水平”的性能：表4的第二列（“数据集”）显示，时尚专家达到75.0%的准确率，而我们的模型达到75.8%的准确率。考虑到时尚专家有时不同意地面实况，我们使用时尚专家我们还观察到，在数据集上更好的性能通常意味着与人类时尚感更好的一致性。最后一个问题与任务的主观性有关：我们的模型在有明确答案的情况下表现如何？为了回答这个问题，我们使用以下启发式方法来生成一个只包含明确问题的数据集：选择时尚专家和数据集标签都同意的测试数据在该数据子集上，我们的模型再次是最佳执行者，这表明我们的模型确实比其他方法产生更好的时尚推荐，即使在控制问题模糊性时也是如此（表4的第三列，5.6.定性结果图7显示了四个示例（来自测试集），描述了原始场景、裁剪的产品、查询场景、查询类别以及前3个最兼容和最不兼容的产品。方法时尚-1时尚-2家方法和DeepSaliency的性能仅略好于Top-1区域(or类似于）随机。这表明，随机13.212.316.4家庭领域比时尚形象更复杂，注意（我们的）22.424.418.9如图6所示。这也可能意味着，一个更sophis-[21]第二十一话24.825.017.8标准方法（例如，对象检测）可能需要前三大区域随机32.129.937.0提取归属域的本地模式。注意（我们的）43.345.038.35.5.人类表现[21]第二十一话49.247.836.810539袋帽子鞋上衣外套袋上衣眼镜袋枕头灯窗帘查询场景（裁剪）查询类别最兼容的产品最不兼容的产品（a）（b）（c）（d）图7：我们的模型生成的前3个最兼容和最不兼容产品的定性结果请注意，完整的场景和（地面实况）产品图像仅用于演示，并不是我们系统的输入。我们的算法选择的对象。通过将移除的产品与从第一类别（即，与被移除的项目相同），与最不兼容的项目相比，似乎最兼容的项目在风格上更接近地面实况从质量上讲，生成的兼容产品更符合场景。在（a）栏中，推荐的白色和透明的帽子（作者认为）比深色的帽子更相容;在（b）栏中，来自全场景的黄色外套在颜色和风格上与建议接近。我们还观察到，习得的兼容性不仅仅基于颜色等简单因素;例如，在（d）栏中，推荐的灯具有不同的颜色但具有相似的风格（现代、极简主义），并且在风格上与不兼容的项目完全不同。因此，模型似乎已经学会了一个复杂的风格概念6. 结论在本文中，我们提出了一个新的任务，完成外观，推荐互补产品给定的现实世界的场景。完成外观（或CTL）可以直接应用于电子商务网站，用户时尚建议，只需提供场景图像作为输入。我们设计了一种基于裁剪的方法来从STL（Shop the Look）数据构建CTL数据集。我们通过一个统一的风格空间来估计全局和局部的场景-产品兼容性。我们进行了大量的实验，以验证我们的方法的有效性的推荐性能。我们进一步研究了我们的注意力机制在不同领域的行为定性地说，我们的CTL方法生成兼容的建议，似乎捕捉到了一个复杂的概念“风格”。在未来，我们计划将对象检测技术，以提取更多的细粒度的兼容性匹配的关键对象。确认作者要感谢 Ruining He 、 Zhengqin Li 、 LarkinBrown 、 Zhefei Yu 、 Kaifeng Chen 、 Jen Chan 、 SethPark、Aimee Rancer、Andrew Zhai、Bo Zhao、RuiminZhu 、 Cindy Zhang 、 Jean Yang 、 Mengchao Zhong 、Michael Feng、Dmitry Kislyuk和Chen Chen对本工作的帮助充分场景产品图像10540引用[1] K. E. Ak、细叶甲A.A. Kassim，J.H. Lim和J.Y. Tham 通过本地化学习属性表示，实现灵活的时尚搜索。在CVPR，2018年。[2] K. E. Ak，J.- H. Lim，J. Y. Tham，和A. A.卡西姆有效的多属性相似性学习，实现基于属性的时尚搜索。在WACV，2018。[3] Z.哈拉河Stiefelhagen和K.格劳曼时尚前卫：预测时尚的视觉风格。InICCV，2017.[4] L. Bossard，M.丹通角莱斯特纳角Wengert，T. Quack和L.J. 诉好极了服装分类与风格。InACCV，2012.[5] L. Chen，H. Zhang，J. Xiao，L. Nie，J. Shao，W. Liu和T.- S.蔡SCA-CNN：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。[6] Z.- Q. Cheng，X. Wu，Y.刘，和X。- S.华Video2shop：将视频中的衣服与在线购物图片进行精确匹配。在CVPR，2017年。[7] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在CVPR，2005年。[8] W. 迪角，澳-地Wah，A.巴德瓦杰河Piramuthu和N.孙德尔先生。风格查找器：细粒度服装风格检测与检索。载于CVPRW，2013年。[9] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射来降低维数。CVPR，2006。[10] X. 汉，Z.Wu，P.X. Huang，X.Zhang，M.Zhu，Y.Li，Y.Zhao和L. S.戴维斯自动空间感知的时尚概念发现。在CVPR，2017年。[11] X. 汉，Z.吴玉-G. Jiang和L.S. 戴维斯学习与双向lstms的时尚兼容性。在MM，2017。[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[13] W.- L. Hsiao和K.格劳曼用时尚图片制作胶囊衣柜。在CVPR，2018年。[14]M. Jaderberg，K. Simonyan、A. 泽瑟曼，K. Kavukcuoglu空间Transformer网络。在NIPS，2015年。[15] Y. Jing、 D. C. Liu ， L. Kislyuk ， A. Zhai，J. Xu，J.Donahue和S.塔维尔Pinterest上的视觉搜索InSIGKDD，2015.[16] W.- C.康角，澳-地芳，Z. Wang和J.麦考利视觉感知的时尚推荐和设计与生成图像模型. InICDM，2017.[17] M. H. Kiapour，X.汉，S. Lazebnik，A. C. Berg和T. L.伯格。在哪里购买：在网上商店匹配街头服装照片。在ICCV，2015年。[18] M. H.基亚普尔湾山口A. C. Berg和T. L.伯格。潮人大战：发现时尚风格的元素。2014年，在ECCV[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议[20] S. Kornblith，J. Shlens和Q. V. Le.更好的imagenet模型传输更好吗？arXiv预印本arXiv：1805.08974，2018。[21] X.利湖，澳-地赵湖，加-地韦，M.- H. Yang，F. Wu，Y.庄H. Ling和J.王.深度显著性：用于显著对象检测的多任务深度神经网络模型。IEEE TIP，2016年。[22] Y.利湖，澳-地Cao，J. Zhu，and J.罗使用端到端深度学习方法在集合数据上挖掘时尚服装组成。IEEE TMM，2017.[23] X.梁湖，加-地林，W. Yang，P. Luo，J. Huang和S.燕.基于联合图像分割和标记的服装协同分析IEEE TMM，2016.[24] S. 刘，J.冯，Z.宋，T.Zhang，H.Lu，C.Xu和S.燕.嗨，魔法衣橱，告诉我该穿什么！在MM，2012年。[25] S. Liu，Z.宋，G. Liu，C. Xu，H. Lu和S.燕.街道到商店：通过部件对齐和辅助集实现跨场景服装检索。CVPR，2012。[26] Z. Liu，P. Luo，S. Qiu，X. Wang和X.唐Deepfashion：支持强大的服装识别和检索与丰富的注释。在CVPR，2016年。[27] J. J. 麦考利河Pandey和J.莱斯科韦茨推断可替代和互补产品的网络。InSIGKDD，2015.[28] J. J. McAuley，C.塔吉特，Q. Shi和A.范登亨格尔。基于图像的样式和替代品推荐。InSIGIR，2015.[29] A. S. Razavian，H.阿兹普尔J. Sullivan和S.卡尔森CNN的特色是现成的：一个令人震惊的识别基线载于CVPRW，2014年。[30] S. Ren，K.赫利河B. Girshick和J.太阳更快的R-CNN：朝向使用区域建议网络的实时对象检测。2015年，在NIPS[31] S.伦德尔角Freudenthaler，Z. Gantner和L.施密特-蒂姆。BPR：从隐性反馈中获得个性化排名。在UAI，2009年。[32] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。CVPR，2015。[33] K. J. Shih，S. Singh和D.霍伊姆在哪里看：视觉问答的焦点区域。在CVPR，2016年。[34] Y.-- S. 施，K.-Y. 张，H.-T. Lin和M.太阳用于项目推荐和生成的兼容性族学习。在AAAI，2018。[35] E. Simo-Serra和H.石川128个花车中的时尚风格：利用弱数据进行特征提取的联合排序和分类。在CVPR，2016年。[36] X. 宋，F.Feng，J.Liu，Z.利湖，澳-地Nie和J.MA. 神经造型师：服装匹配的神经相容性建模。在MM，2017。[37] Z. 宋，M。王X-S. Hua和S.燕. 通过人类的服装和环境预测见ICCV，2011年。[38] P. Tangseng，K.Yamaguchi和T.冈谷从个人衣橱里推荐服装。在WACV，2018。[39] M. I. 瓦西列瓦湾A. Plummer，K.Dusad，S.拉杰帕尔河Kumar和D. A.福赛斯学习类型感知嵌入以实现时尚兼容性。在ECCV，2018。[40] A.维特湾Kovacs，S. Bell，J. McAuley，K. Bala和S. J·贝隆吉学习视觉服装风格与异质并元同现。在ICCV，2015年。10541[41] F. Wang，M.江角，澳-地Qian，S.杨角，澳-地Li，H.张先生，X. Wang和X.唐用于图像分类的剩余注意力网络在CVPR，2017年。[42] J. Wang，Y.宋，T.梁角，澳-地罗森伯格，J。Wang，J.菲尔宾B. Chen和Y.吴通过深度排名学习细粒度图像CVPR，2014。[43] W. Wang，Y. Xu，J. Shen和S.- C.竹用于服装地标检测和服装类别分类的注意力时尚语法网络在CVPR，2018年。[44] Z. Wang， Z.姜，Z. Ren，J. Tang，and D.尹电子商务中鉴别可替代产品与互补产品的路径约束框架。在WSDM，2018年。[45] C.- Y.Wu 河 Manmatha ， A.J. Smola 和 P.Kraühenbuühl。采样在深度嵌入学习中很重要。InICCV，2017.[46] H. Xu和K.萨恩科提问、出席并回答：探索视觉问题回答的问题引导空间注意。在ECCV，2016年。[47] K. 徐，J.巴河Kiros、K.Cho，A.C. 库维尔河萨拉胡特-迪诺夫河S.

下载后可阅读完整内容，剩余1页未读，立即下载