DeepFashion2：时尚图像多任务分析的通用基准

191 浏览量更新于2023-10-18 收藏 3.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5337DeepFashion2：服装图像检测、姿态估计、分割和重新识别的通用基准葛玉英，张瑞茂，王晓刚，唐晓鸥，罗萍香港中文大学{yuyingge，ruimao.zhang}@ cuhk.edu.hk，xgwang@ee.cuhk.edu.hk，{xtang，pluo}@ie.cuhk.edu.hk摘要通过具有丰富注释的基准测试（例如DeepFashion），可以进一步理解时尚图像，其标签包括服装类别，地标和消费者-商业图像对。然而，DeepFash-Ion具有不可忽略的问题，例如每个图像的单个衣物项目、稀疏的界标（仅4× 8）以及没有每个像素的掩模，使得其与真实世界的场景有显著的差距。我们通过将DeepFashion2展示给解决这些问题。它是四个任务的通用基准，包括衣服检测，姿态估计，分割和检索。它有801K个服装项目，其中每个项目都有丰富的注释，如风格，比例，视点，遮挡，边界框，密集的地标（例如。39为“长袖外衣”和15为“背心”），和面具。还有873K的商业消费者服装。DeepFashion2的注释比它的同行，如8× FashionAI全球挑战赛。提出了一个强基线，称为匹配R-CNN，它建立在Mask R-CNN的基础上，以端到端的方式解决上述四个任务。在Deep-Fashion 2中，使用不同的标准进行了广泛的评估。DeepFashion2数据集将在以下位置发布：https://github.com/switchablenorms/DeepFashion21. 介绍服装形象分析因其巨大的产业潜力而成为近年来的研究热点。随着时尚数据集的发展[20，5，7，3，14，12，21，1]，在这一领域取得了重大进展[2，19，17，18，9，8]。然而，理解时尚图像在现实世界的应用中仍然是一个挑战，因为消费者和商业图像之间的大的变形、遮挡和跨领域的服装差异。一些（一）（b）第（1）款图1.（a）DeepFashion和（b）Deep-Fashion 2之间的比较。(a)每幅图像只有一个项目，用4×8个稀疏标志进行注释。边界框是从标记的地标中估计出来的，这使得它们具有噪声。在（b）段中，每名im ─年龄最少单项，最多7项。每个项目都手动标记有边界框，掩码，密集地标（平均每个项目20个）和商业客户图像对。挑战的根源可能在于最近的基准与实际情况之间的差距。例如，现有最大的时尚数据集DeepFashion [14]有其自身的缺点，例如每个图像的单个服装项目，稀疏的地标和姿势定义（每个服装类别）。gory共享相同的4 ×8个关键点的定义），并且没有如图1（a）所示的每像素掩模注释。为了解决上述缺点，这项工作提出了DeepFashion2，一个大规模的基准测试，具有时尚图像理解的解释性任务和注释。DeepFashion2包含13种流行服装类别的491K图像。一个完整的频谱上的任务定义，包括衣服检测和识别，地标和姿态估计，分割，以及验证和检索。所有这些任务都由丰富的注释支持-长袖外套短裤乌塞尔长袖外套tr衣胸长袖顶部衣胸裙子短裤背心背心开衫开衫深时尚2DeepFashion5338选项。例如，DeepFashion2总共有801K布料项目，其中图像中的每个项目都标有比例，遮挡，缩放，视点，边界框，密集地标和每像素蒙版，如图1（b）所示。这些物品可以被分组为43.8K个服装标识，其中服装标识表示具有几乎相同的裁剪、图案和设计的服装。顾客和商业购物商店都拍摄了同一身份的图像。来自顾客的物品和来自商业商店的物品形成一对。有873K双，比DeepFashion大3.5倍上述深入的注释使得能够发展出理解服装图像的强算法。这项工作有三个主要贡献。(1)我们建立一个大规模的时尚基准与全面的任务和注释，以促进时尚形象分析。Deep-Fashion 2拥有最丰富的任务定义，标签数量最多它的注释至少是DeepFashion的3.5倍[14]，ModaNet的6.7倍[21]和Fash- ionAI的8倍 (2)一个完整的任务范围被仔细定义建议的数据集。例如，据我们所知，服装姿态估计是首次在文献中提出的定义地标和姿态的13个类别，更多样化和富有成效的比人类的姿势。（ 3 ）使用DeepFashion 2，我们广泛评估了Mask R-CNN [6]，这是一种最近的高级视觉感知框架。还提出了一种新的Match R-CNN，用于聚合从服装类别，姿势和面具中学习的所有DeepFashion 2和Match R-CNN的实现将被发布。1.1. 相关工作服装数据已经提出了几个衣服数据集，例如[20，5，7，14，21，1]，如表1所示。它们的大小以及注释的数量和类型各不相同。例如，WTBI [5]和DARN [7]分别具有425K和182K图像。他们从网上购物网站收集的图片的元数据中抓取了猫- egory标签，使他们的标签变得嘈杂。相比之下，CCP [20]，DeepFashion [14]和ModaNet [21]从人类注释器获得类别标签。此外，在这些文档中还提供了不同类型的注释我的朋友例如，DeepFashion为每个图像标记4到8个地标（关键点），这些地标在功能重新定义时定义。大量的衣服（例如，“领”）。这些稀疏地标的定义在所有类别中共享，使得它们难以捕获服装图像的丰富变化。此外，DeepFashion没有掩码注释。相比之下，ModaNet [21]的街道图像具有单个人的面具（多边形），但没有地标。与现有的数据集不同，DeepFashion2包含491K图像和801K地标，遮罩和边界框的实例，2015年[5]2015年[7]2016年[14] 2018年[21]2018年[1]现在#图像425K#类别11182K20800K5055K13357K41四九一千13#bboxes 39K7K×××801K#地标××120K×100K801K口罩数量× × ×119K×801K数量对39K 91K 251K× ×873K表1. DeepFashion2与其他服装数据集的比较。行分别表示图像、边界框、地标、每像素掩码和消费者到商店对的数量。从其他注释推断的边界框不计算在内。以及873K对。这是迄今为止同类标准中最全面的一个.时尚形象理解。有分析服装图像的各种任务，例如服装检测[2，14]、地标预测[15，19，17]、服装分割，[2018 - 05 - 18][2018 - 05 - 18][2018 - 05 - 18][2018 - 05- 18]然而，仍然需要一个统一的基准和框架来考虑所有这些任务。DeepFashion 2和Match R-CNN填补了这一空白。我们报告了上述任务在不同变化方面的广泛结果，包括尺度、遮挡、放大和视点。对于服装检索任务，与之前执行图像级检索的方法[5，7]不同，DeepFashion2支持服装项目的实例级检索。我们还提出了一个新的时尚任务，称为服装姿势估计，这是受人类姿势估计的启发，预测服装地标和骨架的13个服装类别。此任务有助于提高时装图像分析在现实世界中的应用性能。2. DeepFashion2数据集和基准测试概况. 与现有的时尚数据集相比，DeepFashion2具有四个独特的特征。(1)大样本尺寸。它包含491K图像的43.8K感兴趣的服装标识（由购物商店展示的独特服装）。平均而言，每个身份有12.7个项目，具有不同的风格，如颜色和印刷。DeepFashion2总共包含801K项。它是迄今为止最大的时尚数据库。此外，每个项目与如上所述的各种注释相关联。(2) 多才多艺。DeepFashion2是为时尚理解的多个任务而开发的。其丰富的注释支持衣服检测和分类，密集地标和姿态估计，实例分割和跨域实例级衣服检索。(3) 表现力。这主要体现在两个方面。首先，多个项目存在于一个图像中，不像DeepFashion那样每个图像最多标记一个项目。其次，我们有13个不同的定义的地标和姿势（骨架）的13个不同的类别。有5339短袖上衣短裤长袖外套长袖连衣裙21675378163428361529914172730 35212223商业客户1013182631341112192532332024图2. DeepFashion2的例子。第一列显示四个类别的密集地标和骨架的定义。从（1）到（4），每行表示具有不同变化的衣服图像，包括在每一行，我们将图像分为两组，左边三列表示来自商业商店的衣服，而右边三列则来自客户。在每一组中，三个图像指示关于对应变化的三个难度水平，包括（1）此外，在每一行中，这两组图像中的物品来自相同的服装标识，但是来自两个不同的域，即，商业和客户。同一身份的物品可能有不同的风格，如颜色和印刷。每个项目都用地标和遮罩进行注释。平均每个类别有23个定义的地标。图2的第一列显示了一些定义。这些表示是不同的人的姿势，并没有在以前的工作。它们有助于学习满足现实世界要求的强大服装功能(4) 多样性我们通过控制它们在四个属性方面的变化来收集数据，包括比例、遮挡、放大和视角，如图2所示，使DeepFashion2成为一个具有挑战性的基准。对于每个属性，每个服装项目被分配到三个难度级别之一。图2显示，每个身份具有高度的多样性，其项目来自不同的困难。数据收集和清理。DeepFash-ion 2的原始数据来自两个来源，包括DeepFashion[14]和在线购物网站。特别是，DeepFashion中每个消费者到商店对的图像都包含在DeepFashion2中，而其他图像则被删除。我们进一步抓取互联网上来自商业购物商店和消费者的大量图像为了清理抓取的集合，我们首先删除没有相应消费者拍摄的照片的商店图像然后，要求人类注释者清理包含大遮挡、小尺度和低分辨率的衣服的图像最终，我们有801 K商品的491 K图像和873 K商业-消费者对。变化. 我们解释了DeepFashion2中的变化。他们的统计数据如图3所示。(1) 规模我们将所有的服装项目分为三组，根据项目与图像尺寸相比的比例，包括<图3（a）显示只有50%的项目具有中等规模。(2) 闭塞。有遮挡的项目意味着其重新-区域被头发、人体、附件或其他物品遮挡。请注意，如果一个项目的区域在IM之外（（5340百分之二十四（一）小型中型大型轻度中度重度没有介质占7%大正面背面无磨损（d）其他事项(1) 缩放（2）遮挡（3）放大（4）视点(b)（c）第（1）款慢跑运动裤图3.（a）显示了DeepFashion2中不同变化的统计数据（b）是DeepFashion 2中13个类别的项目数量(c) 显示DeepFashion [14]中的类别具有模糊性。例如，很难区分它们在标记数据时会导致歧义。(d)上图：当呈现复杂姿势时，蒙版可能不准确。下图：面具将由人工制作。年龄不属于这个案子。每个项目通过其被遮挡的地标的数量进行分类，包括<如图3所示，超过50%的物品具有中度或重度闭塞。(3) 放大具有放大的项目意味着其区域在图像之外。这是根据图像外的标志点数量进行分类的。我们定义我们看到超过30%的项目被放大。(4)观点。我们将所有的项目分为四个部分，其中7%的衣服不是在人身上，78%的衣服在人的正面观点，15%的衣服在人的侧面或背面观点。2.1. 数据标注类别和边界框。要求人类注释者绘制一个边界框，并为每个服装项目分配一个类别标签。DeepFashion[14]定义了50个cat-egories，但其中一半包含的图像数量不到5‰。此外，如图3（c）所示，50个类别之间存在歧义，使得数据标记困难通过在DeepFashion中对类别进行分组，我们可以得到13个没有歧义的流行13个类别的项目数量见图3（b）。服装地标，轮廓，和骨架。作为不同类别的衣服（例如，上身和下身服装）具有不同的变形和外观变化，我们通过定义其姿势来表示每个类别，其姿势是一组界标以及界标之间的轮廓和骨架。它们捕捉衣服的形状和结构。姿势定义在以前的工作中没有提出，并显着不同于人类姿势。对于一个类别中的每一件衣服，要求人工注释标记地标遵循这些指示。此外，每个地标被分配两种模式之一，“可见”或“遮挡”。然后，我们通过以一定的顺序连接地标自动生成轮廓和骨架。为了促进这一过程，注释者还被要求将地标区分为两种类型，即轮廓点或接合点。前一个是指在一个项目的边界关键点，而后者被分配到关键点结合，例如。‘endpoint of上述过程控制标记质量，因为生成的骨架帮助注释器重新检查地标是否以良好的质量标记特别是，只有当轮廓覆盖整个项目时，标记的结果才合格，否则关键点将被细化。面具我们标记每像素掩模为每个项目在半自动的方式与两个阶段。第一阶段自动地从轮廓生成掩模。在第二阶段中，要求人类注释者细化掩模，因为当呈现复杂的人类姿势时，生成的掩模可能不准确。如图3（d）所示，当从人交叉腿的侧视图拍摄图像时，标记不准确。面具将由人类来提炼.样式的如前所述，我们收集了43.8K个不同的服装身份，每个身份平均有13个项目。这些物品还标有不同的风格，如颜色，印刷和徽标。图2显示了具有相同身份的一对衣服可以具有不同的风格。2.2. 基准我们通过使用DeepFashion2的图像和标签构建了四个基准。对于每个基准，200000150000100000500001000开衫外套百分之十二占7%百分之八占6%实例编号5341391K图像用于训练，34K图像用于验证，67K图像用于测试。衣服检测这个任务通过预测边界框和类别标签来检测图像中的衣服。评估指标是边界框IoU=0。50IoU=0。75通过以下方式实现接入点盒、接入点盒和接入点盒COCO [11].地标估计。这个任务的目的是预测每个图像中每个检测到的服装项目的地标。类似地，我们采用COCO用于人体姿态估计的评估指标关键点精确度AP，APOKS=0。50，并且APOKS=0。75岁PTPT PT其中OKS指示对象界标相似性。细分此任务为项目中的每个像素分配类别标签（包括背景标签）。评估指标是平均精度，包括APmask，APIoU=0。5 0，且APIoU=0。75次计算，图4. Match R-CNN的示意图，包含三个主要组件，包括特征提取网络（FN），每个面具掩模掩模接收网络（PN）和匹配网络（MN）。商业-消费者服装检索。给定从消费者拍摄的照片中检测到的物品，该任务旨在在图库中搜索与该检测到的物品相对应的商品图像此设置比DeepFashion [14]更真实，DeepFashion假设提供了地面实况边界框。在这项任务中，top-k检索准确性作为评估指标。我们强调检索性能，同时仍然考虑检测器的影响。如果未能检测到服装项目，则该查询项目被计为遗漏。特别是，我们在训练集中有超过686K的商业消费者服装。在验证集中，有10，990个消费者图像和12，550个条目作为查询集，有21，438个商业图像和37，183个条目作为图库集。在测试集中，有21，550张消费者图片，24，402个项目作为查询，而图库中有43，608张商业图片，75，347个3. 匹配R-CNN我们为DeepFashion 2提供了一个基于Mask R-CNN[6]的强大基线模型，称为Match R-CNN，这是一个端到端的训练框架，可以联合学习衣服检测，地标估计，实例分割和消费者到商店检索。上述任务通过使用不同的流并在这些流之上堆叠连体模块来聚合学习到的特征来解决。如图4所示，Match R-CNN采用两个图像I1和I2作为输入。每个图像通过三个主要组件，包括特征网络（FN）、感知网络（PN）和匹配网络（MN）。在第一级FN包含ResNet-FPN [10]主干、区域提议网络（ RPN ） [16] 和 RoIAlign 模块。首先将图像输入ResNet50以提取特征，然后将其输入使用自顶向下架构的FPN使用横向连接来构建特征图的金字塔。RoIAlign从金字塔图的不同层次提取特征。在第二阶段，PN包含三个网络流，包括地标估计、衣服检测和面具预测，如图4所示。在第一阶段之后提取的RoI特征被分别馈送到PN中的三个流中。衣服检测流具有两个隐藏的全连接（fc）层，一个fc层用于分类，一个fc层用于边界框回归。地标估计的流具有8个分割流有4个在第三阶段，MN包含一个特征提取器和一个相似性学习网络的衣服检索。FN组件后学习的RoI特征在衣服类别、姿势和面具方面具有高度区分性。它们被馈送到MN以获得特征向量用于检索，其中v1和v2被传递到相似性学习网络中，以获得在I 1和I 2中检测到的服装项目之间的相似性分数。具体地，特征提取器具有4个相似性学习网络由减法和平方算子以及一个fc层组成，该fc层估计两个服装项目是否匹配的概率。损失函数。通过最小化五个损失函数来优化Match R-CNN的参数Θ，这五个损失函数被公式化为minΘL=λ1Lcls+λ2Lbox+λ3Lpose+λ4Lmask+λ5Lpair ，包括用于衣服分类的交叉熵（CE）损失Lcls，用于边界框回归的平滑损失[4] Lbox，用于地标es的CE损失Lpose。1FNRoIAlign14x14x25614x1428x28512× 32ResNetRoIAlign7x7x256界标PN类10241024框RoIAlign14x14x2514x1428x28256× 256掩模2561NxNx256NxNx102410241子NxNx256NxNx10241024MNSquareFC比赛分数不匹配分数2562PNFPNFN25342小规模中度大轻微闭塞介质重没有放大介质大无磨损观点正面或背面整体AP盒APIoU=0。50框AP IoU=0。75框0.6040.7000.6600.7120.6540.3720.6950.6290.4660.6240.6810.6410.6670.7800.8510.7680.8440.8100.5310.8480.7550.5630.7130.8320.7960.8140.7170.8090.7440.8120.7680.4330.8060.7180.5250.6880.7910.7440.773表2.Mask R-CNN [6]在不同验证子集上的衣服检测，包括比例，遮挡，放大和视点。的评估指标为AP，APIoU=0。5 0，且APIoU=0。75. 每个子集的最佳性能是粗体。框框框（一）（b）第（1）款图5. (a)示出了衣服检测中的失败情况，而（b）示出了衣服分割中的失败情况。在（a）和（b）中，缺失的边界框用红色绘制，而正确的类别标签也用红色绘制。不准确的掩码也由（b）中的箭头突出显示。例如，衣服在太小的尺度、太大的尺度、大的非刚性变形、严重遮挡、大的放大、侧面或背面视点中不能被检测或分割估计，用于衣服分割的CE损失L掩码，以及用于衣服检索的CE损失L对具体地，Lcls、Lbox、Lpose和Lmask与[6]中定义的相同。我们有L=-1n[ylog（y）+（1−y）log（1−y）]，其中分别进入界标分支和掩码分支。对于检索任务，选择消费者拍摄的图像中具有最高置信度的每个唯一检测到的服装项目作为查询。对ni=1i i i i iyi=1表示一对中的两个项目匹配，否则yi=0。实现方式的在我们的实验中，每个训练图像的大小被调整为800像素的较短边缘，边缘不超过1333像素。每个minibatch在一个GPU中有两个图像，8个GPU用于训练。对于小批量大小16，学习率（LR）调度开始于0的情况。02，并以0的因子减少。1，然后是11个时期，最后在12个时期终止。该调度器被表示为1x。Mask R-CNN采用2x sched- ule进行衣服检测和分割，其中长度是1x的两倍，LR按比例缩放然后，它采用s1x进行地标和姿态估计，其中s1x将1x时间表缩放约1.44倍。Match R-CNN使用1x时间表进行消费者到商店的衣服检索。以上模型均采用SGD进行训练。推理。在测试阶段，图像的大小调整与训练阶段相同。具有检测概率的前1000个建议然后，非最大抑制被应用于这些建议。过滤后的建议被馈送到4. 实验我们通过在多个任务中评估 Mask R-CNN [6]和Match R-CNN来为了进一步显示DeepFashion2的大变化，验证集根据其在比例、遮挡、放大和视点方面的难度水平被分为三个子集。Mask R-CNN和Match R-CNN的设置遵循第3节。以下 4.1 至 4.4 节报告了不同任务的结果，显示DeepFashion 2对Mask R-CNN和Match R-CNN都提出了4.1. 衣物检测表2总结了不同难度子集上的衣服检测结果。我们可以看到现代人的衣服-长袖外套长袖连衣裙长袖外套长袖上衣长袖上衣短袖连衣裙长袖连衣裙0.80短裤衣胸外套吊索衣胸裙子背心连衣裙5343小规模中度大轻微闭塞介质重没有放大介质大无磨损观点正面或背面整体AP角0.5870.6870.5990.6690.6310.3980.6880.5590.3750.5270.6770.5360.6410.4970.6070.5550.6430.5300.2480.6160.4890.3190.5100.5960.4560.563AP OKS=0。50PT0.7800.7640.8540.8390.7820.7740.8510.8470.8130.7990.5340.4790.8550.8480.7570.7440.5710.5490.7240.7160.8460.8320.7480.7270.8200.805AP OKS=0。75PT0.6710.5510.7790.7030.6780.6250.7600.7390.7180.6000.4400.2360.7860.7140.6330.5370.3900.3070.5710.5500.7710.6840.6100.5060.7280.641表3.Mask R-CNN [6]在不同验证子集上的地标估计，包括尺度，遮挡，放大和视点。每行分别显示仅对可见标志的评估结果和对可见标志和闭塞标志的评估评估指标为AP，APOKS=0。5 0，且APOKS=0。75. 每个子集的最佳性能是粗体。PTPT PT小规模中度大轻微闭塞介质重没有放大介质大无磨损观点正面或背面整体AP掩码APIoU=0。50掩模AP IoU=0。75掩模0.6340.7030.6660.7200.6560.3810.7010.6370.4780.6640.6890.6350.6740.8110.8650.7980.8630.8240.5430.8610.7910.5910.7570.8490.8110.8340.7520.8260.7730.8360.7800.4440.8230.7510.5590.7370.8100.7550.793表4.Mask R-CNN [6]在不同验证子集上的衣服分割，包括比例，遮挡，放大和视点。评估指标为AP，APIoU=0。5 0，且APIoU=0。75. 每个子集的最佳性能是粗体。掩模掩模掩模比例尺、轻微遮挡、无放大和正面视点具有最高的检测率。有几点意见。首先，检测具有小或大尺度的衣服降低检测率。图5（a）中提供了一些故障情况，其中项目可能占用图像的不到其次，在表2中，可以直观地看到严重遮挡和大放大会降低性能。在这两种情况下，衣服的大部分是不可见的，如图5（a）所示。第三，从表2中可以看出，不穿在人体上的服装物品也具有下降性能。这是因为它们具有大的非刚性变形，如图5（a）的失效情况所示。这些变化在以前的目标检测基准测试（如COCO）中没有出现。第四，如图5（a）所示，具有侧面或背面视角的衣服4.2. 地标和姿态估计表3总结了界标估计的结果。每个子集的评价在两种设置下进行，包括仅可见标志（不评价遮挡标志）以及可见标志和遮挡标志。由于估计被遮挡的地标比可见地标更困难，因此第二设置通常提供比第一设置更差的结果。总的来说，我们看到Mask R-CNN获得的总体AP仅为0.563，这表明衣服地标估计可能比COCO中的人体姿势估计更具挑战性。特别地，表3表现出与来自衣服检测的趋势类似的趋势。例如，具有中等比例、轻微遮挡、无放大和正面视角的布料项比其他子集具有更好的结果。此外，严重的遮挡和放大会大大降低性能。图6（a）给出了一些结果4.3. 服装分割表4总结了分割结果。当分割具有小和大尺度、重遮挡、大放大、侧面或背面视角的服装项目时，性能下降，这与先前任务中的那些趋势一致。图6（b）给出了一些结果图5（b）显示了一些故障情况4.4. 消费者到店取衣表5总结了衣服检索的结果。检索准确性报告在图。图6（d），其中示出了前1、前5、前10和前20的检索准确度。我们评估了（c.1）和（c.2）中的两个设置，当边界框由Match R-CNN中的检测模块预测并作为地面实况提供时。Match R-CNN在提供地面实况边界框的情况下达到了低于0.7的前20名准确度此外，当使用检测到的盒子时，检索精度会下降，这意味着这是一个更现实的设置。在表5中，还评估了学习特征的不同组合一般来说，特征的组合增加了准确性。特别是，从姿势和类中学习的特征比其他特征获得更好的结果。当比较从姿势和掩模学习的特征时，我们发现前者取得了更好的结果，这表明地标位置在场景中可以更鲁棒。如表5所示，当呈现小尺度、严重遮挡的衣物物品时，性能下降。具有大放大的衣服实现了最低的准确性，因为只有部分衣服显示在图像中，并且可能丢失关键的可区分特征。相比5344检索精度小规模中度大轻微闭塞介质重没有放大介质大无磨损观点正面侧面或背面top-1整体前10前20类0.5200.6300.5400.5720.5630.5580.6180.5470.4440.5460.5840.5330.1020.3610.4700.4850.5370.5020.5270.5080.3830.5530.4960.4050.4990.5230.4870.0910.3120.415构成0.7210.7780.7350.7560.7370.7280.7750.7510.6210.7310.7630.7110.2640.5620.6540.6370.7020.6910.7100.6700.5800.7100.7010.5600.6900.7000.6450.2430.4970.588掩模0.6240.7140.6460.6750.6510.6320.7110.6550.5260.6440.6820.6370.1930.4740.5710.5520.6570.6080.6390.5930.5550.6540.6130.4950.6150.6300.5650.1860.4220.520pose+class0.7520.7860.7330.7540.7500.7280.7890.7500.6200.7260.7710.7190.2680.5740.6650.6910.7300.7050.7250.7060.6050.7460.7090.5820.6990.7230.6840.2440.5220.617掩码+类0.6560.7280.6870.7140.6760.6540.7250.7020.5650.6840.7120.6580.2120.4960.5950.6100.6660.6490.6760.6230.5490.6740.6550.5360.6480.6610.6040.2080.4510.542表5.在一些验证消费者拍摄的图像的不同子集上匹配R-CNN的消费者到商店服装检索。这些图像中的每个查询项目在验证商业图像中具有超过5个相同的服装项目在每一行中分别示出对地面实况框和检测到的框的评估结果评估指标是前20名的准确性。每个子集的最佳性能是粗体。（a）从正面看衣服在人身上，从侧面或者后视点由于缺少像顶部前面的图案的区别特征而表现更差。图6（c）中显示了具有前5个检索到的服装项目的示例查询（b）第（1）款5. 结论（c）第（1）款(d)0.60.6这项工作代表了DeepFashion2，一个具有全面任务和注释的大规模DeepFashion2包含491K图像，每个图像都有丰富的样式，比例，遮挡，缩放，视点，边界框，密集地标和姿势，像素级蒙版以及来自消费者和商业商店的相同物品的图像对我们建立了涵盖时尚理解多个任务的基准，包括服装检测，地标和姿态估计，服装分割，消费者到商店的验证和检索。提出了一种基于Mask R-CNN的新型Match R-CNN框架，以端到端的方式解决上述任务。在DeepFash-ion 2中进行了广泛的评估。DeepFashion2丰富的数据和标签将明确促进算法的发展，（1）（2）0.40.201 5 10 15 20检索到的实例classposemaskpose+class掩码+类0.40.201 5 10 15 20检索到的实例classposemaskpose+class掩码+类在今后的工作中树立时尚形象。我们将重点关注三个方面。首先，DeepFashion2将探索更具挑战性的任务其次，探索服装图像的多领域学习也很有趣，因为时尚图6. (a)显示了地标和姿态估计的结果。（b）第（1）款显示了衣服分割的结果（c）示出了具有前5个检索到的服装项目的查询第一列是检测模块预测的带有边界框的客户图像，第二至第六列显示商店的检索结果(d)是具有（1）检测框（2）地面实况框的整个查询验证集的检索准确度。评估指标为前1、前5、前10、前15和前20的检索准确度。服装的流行趋势经常变化，使服装形象发生变化。第三，我们将在DeepFashion2中引入更多的评估指标，例如深度模型的大小，运行时间和内存消耗，以了解真实世界场景中的时尚图像。鸣谢本研究部分由善时集团有限公司资助，部分由香港研究资助局透过香港大学研究资助局资助。der GrantsCUHK14202217 ， CUHK14203118 ， CUHK14205615 ，CUHK14207814，CUHK14213616.检索精度5345引用[1] Fashionai数据集。http://fashionai.alibaba的网站。com/datasets/.[2] Huizhong Chen，Andrew Gallagher，and Bernd Girod.用语义属性描述服装。ECCV，2012年。[3] Qiang Chen ， Junshi Huang ， Rogerio Feris ， Lisa MBrown，Jian Dong，and Shuicheng Yan.基于细粒度服装属性描述人物的深度领域自适应CVPR，2015。[4] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[5] M Hadi Kiapour ， Xufeng Han ， Svetlana Lazebnik ，Alexan- der C Berg，and Tamara L Berg.在哪里购买：在网上商店匹配街头服装照片。在ICCV，2015年。[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。InICCV，2017.[7] Junshi Huang ， Rogerio S Feris ， Qiang Chen ， andShuicheng Yan.基于双属性感知排序网络的跨域图像检索。在ICCV，2015年。[8] Xin Ji，Wei Wang，Meihui Zhang，and Yang Yang.基于注意力建模的跨域图像检索。ACM Multimedia，2017年。[9] Lizi Liao，Xiangnan He，Bo Zhao，Chong-Wah Ngo，and Tat- Seng Chua.时尚产品的可解释多模态检索。ACM Multimedia，2018年。[10] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。[11] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV[12] Kuan-Hsien Liu ， Ting-Yen Chen ， and Chu-SongChen.MVC：用于视图不变服装检索和属性预测的数据集。ACM Multimedia，2016年。[13] 刘思，梁晓丹，刘洛奇，陆克，林良，曹晓春，颜水成视频背景下的时尚解析 IEEE Transactions onMultimedia，17（8）：1347[14] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：通过丰富的注释实现强大的服装识别在CVPR，2016年。[15] Ziwei Liu，Sijie Yan，Ping Luo，Xiaogang Wang，andXiaoou Tang.野外时尚地标检测。在ECCV，2016年。[16] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS[17] Wenguan Wang，Yuanlu Xu，Jianbing Shen，and Song-Chun Zhu.用于服装地标检测和服装类别分类的注意时尚文法网络。在CVPR，2018年。[18] Kota Yamaguchi，M Hadi Kiapour，and Tamara L Berg.Pap-per doll解析：检索相似的样式以分析服装项目。InICCV，2013.[19] Sijie Yan，Ziwei Liu，Ping Luo，Shi Qiu，XiaogangWang，and Xiaoou Tang.无拘无束的时尚地标detec-通过分层递归Transformer网络实现ACM Multimedia，2017年。[20] 魏央、洛平、梁林。基于联合图像分割和标注的服装协同分析CVPR，2014。[21] Shuai Zheng ， Fan Yang ， M Hadi Kiapour ， andRobinson Pi- ramuthu.Modanet：带有多边形注释的大型街头时尚数据集。ACM Multimedia，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载