属性预测器：基于属性对图像进行相似性评估

66 浏览量更新于2023-10-13 收藏 721KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1015属性预测器黄色乳房12有效利用属性实现视觉相似性SamarthMishra * 1ZhongpingZhang * 1YuanShen 2RanjithaKumar2Venkatesh Saligrama 1Bryan A. 管道工11波士顿大学2伊利诺伊大学香槟分校{samarthm，zpzhang，srv，bplum}@ bu.edu{yshen47，ranjitha}@ illinois.edu摘要(a) 以前的工作：单个图像的属性测量两个图像之间的相似性通常需要沿着不同的轴执行复杂的推理（例如，颜色、纹理或形状）。可以通过带注释的属性来提供对测量相似性的重要性的见解。先前的工作倾向于将这些注释视为完整的，导致它们使用预测单个图像上的属性的简单方法，这些属性进而用于测量相似性。但是，对于数据集来说，完全注释图像黄胸聊天属性预测器黄色阴影中的细微差异消失了预测：高相似性黄色乳房可能很重要因此，仅基于这些不完整的注释来表示图像可能会错过关键输入。纳什维尔莺(b) PAN（我们的）：来自联合图像特征的属性阵为了解决这个问题，我们提出了成对属性信息相似性网络（PAN），它将相似性学习分解为从两个图像的联合表示中捕获相似性条件和相关性得分。这使得我们的模型能够识别两个图像包含相同的属性，但是可以将其视为不相关的（例如，由于它们之间的细粒度差异），并且在测量两个图像之间的相似性时被忽略。值得注意的是，虽然使用属性注释的现有方法通常不能优于现有技术，但是PAN在服装项目之间的兼容性预测上获得了4-9%的改进。图像黄胸聊天纳什维尔莺关节特征部使用相关性黄色乳房在两个预测：低相似性在确定相似性时不太注意Polyvore Outfits，在使用Caltech-UCSD Birds（CUB）的图像少数镜头分类上获得5%的增益，并且在店内衣物检索上获得超过1%可在https://github.com/samarth4149/PAN1. 介绍学习图像之间的相似性度量是计算机视觉中的中心问题，具有广泛的应用，例如人脸识别[21，35]，图像检索[9，25，49]，基于原型的少镜头图像分类[16，36，39，44]，图像分类的持续学习-[2019 -02-22][2019 - 02][2019- 02 - 01][2019 - 02][2019 -01]* 表示贡献图1：在先前的工作（例如[17，28，41，50]），如（a）所示，为每个图像预测用于图像相似性的属性，然后将其用作图像相似性模型的输入然而，这可能导致丢失关于如何表达属性的重要信息（例如，属性黄色乳房的不同阴影）。因此，在我们的工作中，如（b）所示，我们通过使用两个图像的联合表示来计算多个解纠缠的相似性得分，每个相似性得分对应于一个属性，以及每个相似性得分在最终相似性预测中的这允许对不同的属性表现进行更细粒度的推理，从而提高性能。dation [6，40，41，42，43，52].最近的趋势是通过分解问题来学习这些指标相似预测器关联预测器低1016[red、链，...][gold、链，...]∈图像1属性标签1相关权重输出功能1图像编码器（第3.2节）概念条件相似模块（第3.1节）相似性得分输出功能2加权组合（第3.1.1节）属性监督图像2属性标签2红色：0链：0⋮红色：1链：1⋮图2：PAN概述。给定一对图像，PAN的目标是产生其相似性得分。我们首先使用图像编码器为输入图像生成特征向量。然后，图像特征被馈送到概念条件相似性模块（CSM）中，CSM使用这些特征来生成具有相应的相关性权重的一组相似性得分这使得PAN能够识别两个图像确实包含相同的属性，但是它们与相似性分数不相关，因为它们是属性的不同表现（参见图1的示例）。使用相似性条件及其相关性的加权组合来产生最终相似性得分p[0，1]请注意，不同颜色的线（蓝色，粉红色）表示与各个图像有关的信息流。lem到相似性或相似性条件的多个轴，这提高了各种任务的性能[12，20，26，27，28，40，41，42]。一般来说，自动学习这些条件代表什么的方法[27，40]报告了比使用标记的图像属性和项目类别等信息预定义此知识的方法更好的性能[20，42，41，28]。我们认为这主要是由于先前的工作使用属性来预测它们在单个图像上的存在（例如[17，50，41，28]），并随后使用这些预测来预测相似性（图1（a））。这会导致关于属性的不同表现形式的信息丢失，差异可能影响相似性预测，但在属性注释中可能无法虽然这可以通过收集每个可能的属性及其可能影响相似性的不同表现的注释的完整集合来解决，但是这样的收集将是昂贵的。此外，通常不可能清楚地表达可能影响相似性的每个细粒度在本文中，我们介绍了一个成对的属性信息相似性网络（PAN），有效地学习使用属性标签形式的超能力信息，避免信息丢失，创建一个强大的图像相似性模型，在一系列不同的任务上表现良好。为了说明我们是如何做到这一点的，我们参考图1（b）.该图显示了来自Caltech-UCSD Birds（CUB）数据集[45]的两只鸟（不同类别），其中，对于乳房颜色为黄色的二元属性，它们都被肯定地标记，指示它们具有黄色乳房。以前的工作（例如[17，28，41，50]）直接预测每个图像的属性，这往往会丢失关于属性表现中的细微差异的信息，例如黄色的阴影。我们的PAN模型通过首先在特征空间而不是属性空间中比较图像来避免这个问题，如图1（b）所示使用联合图像特征，然后预测由属性定义的不同相似性条件的相似性得分和相关性即使当相似性分数可以粗略地指示两个图像是相似的，因为它们具有相同的属性时，模型也可以拾取更精细的属性差异，并且决定仅仅存在相同的属性与正相似性预测的相关性低。正如我们的实验所示，这种差异会对学习的图像相似性模型的性能产生巨大影响。我们面临的一个主要挑战是属性如何与不同任务中出现的相似性函数相关的相当大的差异。例如，在少数镜头分类中，其中我们在最近邻分类器中使用标记的支持图像，视觉相似性分类器的目标将是通过匹配测试图像和支持图像之间的属性来简单地测量相似性相比之下，对于像时尚兼容性这样的任务，如果两个图像在一起1017在服装中，具有不同属性（例如，黑色和橙色）可以指示它们是高度相容的。此外，简单地对哪些属性对指示兼容性进行建模是不够的，因为通常导致兼容对的两个属性例如，黑色和橙色项目通常是兼容的，除非还存在一些其他属性，如红色。因此，视觉相似性模型在学习时尚兼容性时必须学习属性之间的一组复杂得多的关系这些差异意味着在少数镜头分类上表现良好的方法通常在时尚兼容性上表现不佳，反之亦然。然而，PAN可以通过我们用于将单个图像的不完整属性标签转换为图像对的监督信号的方法来考虑这一点，并提高不同任务的性能。如我们将在第3节中讨论的（并且在图2中示出），PAN自然地允许在没有任何附加数据（如属性）的情况下训练和自动学习我们还发现，PAN可以提高性能，即使在只有稀疏属性标签的情况总结我们的贡献：我们提出了一个成对的属性知情的相似性网络（PAN），它采用了细粒度的属性信息在训练过程中的基础上的两个图像的联合表示，使我们能够避免以前的工作所遭受的信息丢失。虽然结合属性信息的现有方法表现不如现有技术，但PAN 在三个不同的任务上优于它们-在Polyvore Outfits [41]上的时尚项目兼容性预测上优于它们4-9%，在CUB [45]上的少量分类上优于它们5%，并且在In-Shop Clothing Retrieval [22]上优于它们1%以上，证明了PAN与结合属性监督的现有方法相比，PAN更好，它在Polyvore Outfits上的表现超过了他们相当大的我们提出了不同的方法，使用属性沿相似性条件进行监督预测，深入研究每一个的解释，为它们在不同任务中的适用性提供见解。我们的分析还概述了培训程序的贡献这在以前的工作中通常被忽略，但可能对最终模型性能产生重大影响在这样做时，我们因素的培训过程中展示PAN的好处的贡献2. 相关工作视觉相似性学习学习视觉相似性可以用于广泛的视觉任务。一对夫妇广泛相似性学习所使用的评估任务是面部识别[5，21，24，35]和图像检索[25，9，49]，后者本身根据所涉及的图像类型以多种方式进行子分类，例如，时尚形象自然形象图像检索在电子商务中有着相当直接的应用。该行业的主要部分由销售服装和配饰的网站组成，从而产生了预测时尚兼容性的挑战性任务[43，14，41]，正如在引言中所讨论的，这是一种不同于传统概念的视觉相似性形式。然而，我们使用的相似性和时尚的兼容性可互换，因为它们在我们的论文中以相同的方式解决。一些先前的视觉相似性学习方法集中于学习单个相似性空间[43，14，10]。最近的研究[42，26，41，40，20]发现，学习多个相似性条件，每个条件捕获不同的概念，与其中一些同时，Cucurull等人讨论了在图像编码中使用上下文信息的作用。[6]的文件。他们在图像上使用了图卷积网络（GCN），其中相似性链接定义了图结构，以实现时尚兼容性预测的最新性能。到目前为止，使用预定义相似性条件[26，42，41]的方法表现不佳，自动学习这些条件[40，20]。通过PAN，我们展示了一种方法，将额外的属性注释到监督的相似性条件，同时提高最终的任务性能，打破这一趋势。少数射击学习。考虑到与获取人类注释的标签相关的成本，在计算机视觉中很好地寻求使用少量标记的示例进行学习，其中一系列先前的工作探索了可能的解决方案[23，19，18，16]。给定一些带有标记类的例子，[44]使用注意力权重对新例子进行分类，以计算已知类的概率分布。他们引入了一种情景训练范式，后来也被[31，36]采用。N路K个镜头分类任务中的每个片段是N个类别的样本，其中来自每个类别的K个图像可用于学习算法作为每一集还伴随着一些查询示例，学习者应该预测类标签。为了训练，学习算法被提供从基础训练数据集采样的片段，并且通常在从数据集的新分裂采样的测试片段上进行评估，所[44]和[36]都采用了最小化查询图像和用于训练的原型支持向量之间的特征空间中的距离度量的策略随后的工作[39]通过学习参数距离度量而不是使用没有可学习参数的封闭形式度量来改进少数镜头分类性能。另一个工作主体使用元学习[8，30，38]来····1018∈∈∈Σ∈∈1| ·|·我J12我J2初始化分类模型的参数，允许仅使用几个参数更新来快速适应新的少量任务。[3]对几个问题进行了深入的研究。表示每个相似性条件对最终相似性得分的重要性：最近的几次学习方法，并提出了一个强大的使用余弦相似性和数据扩充的基线分类器ρ=σ。WT|h−h|+bΣ（1）第最近的一些方法也采用了图神经网络网络用于少数镜头分类[33，15，34]。ω=softmax。WT|h−h|+bΣ（2）与[42，41，40]一样，PAN位于将相似性预测分解为多个相似性条件的空间中，但与它们不同的是，PAN可以在可用时使用属性监督来监督这些条件并提高性能。PAN是一种通用的相似性学习方法，并且其与多个相似性条件空间和属性监督的益处可以通过不同的图像编码器看到，无论是简单的CNN还是与[6]所使用的相似的上下文GCN编码器，以及不同的任务，如时尚兼容性和少数镜头分类。3. 成对属性相似网络给定两个图像x1和x2，我们的PAN模型的目标是在[0，1]中输出一个分数，表示两个图像相似的概率我们的方法的主要贡献在于其概念条件相似性模块（第3.1节），该模块采用表示输入图像的特征h1，h2Rd（使用第3.2节的图像编码器计算），并使用沿相似性ρ及其相关性ω的多个轴的预测的加权组合来预测其相似性p。如在引言中所讨论的，在属性定义的相似性条件上学习相关性权重可以帮助我们在所述属性存在时选择性地忽略它们，但是在确定图像之间的相似性时不太相关如我们的实验所示，相似性条件可以如先前工作[27，40]中那样是无监督的，但是PAN的目的是学习监督这些条件，使得它们表示特定的概念（即，特定属性）。这些属性可以表示数据集中已注释的任何概念例如，对于CUB [45]，这些表示鸟类的部分（即，喙或尾特征的类型）。在Polyvore Outfits [41]和InShopRetrieval [22]中，这些属性可以包含颜色和纹理等低级概念以及“正式”和“时尚”等高级概念。我们将在第3.1.1节中讨论如何将每个图像注释的属性/概念转换为图像对的标签。图2提供了我们的方法的概述。3.1. 概念条件相似模块Giv enfeatureshi，hj通过对两幅图像的分析，我们的概念条件相似度模块（CSM）生成了一组M相似性得分ρ =[ρ1，. . . ，ρM] ∈ RM和相应的相关权值ω =[ω1，. . . ，ωM] ∈ RM，其中M是不同相似性条件的数量，表示逐元素绝对值，并且一个元素式sigmoid函数W1，W2Rd×M，和b1，b2RM是可学习的参数。注意，使用属性标签来监督ρ，但是相关性得分ω被视为潜在变量并且被自动学习。最终的相似性得分p[0，1]被计算为通过它们的相关性加权的相似性条件的总和，即，Mp=ρmωm=ρTω。（三）m=1请注意，先前的工作预测了多个类似的-监督和非监督设置中的城市条件都基于单个图像的特征（例如，[20、26、41、42]）。相比之下，CSM预测这些条件的联合表示的两个图像。正如我们在补充说明中所示，当与相关性得分相结合时，这会显著我们相信这部分是由于这样的事实，即这种联合表示使得更容易识别属性表现的差异（由于采用两个图像的特征的差异）。因此，我们的方法可以更准确地识别何时忽略属性预测。3.1.1定义相似性条件根据图像标记属性的可用性，我们可以选择监督相似性条件，以赋予它们语义意义。该选择导致如下所述的两种相似性条件：无监督相似性条件。相似性条件被视为潜变量，如[40]中所做的。这种方法的好处是不需要额外的注释。请注意，我们预测的所有条件都是基于两个图像的联合表示，而不是在[40]中，它们是按图像计算的。监督相似性条件。无监督相似条件不需要属性注释。然而，我们希望通过一些关于图像中可能重要的内容的专业知识因此，不是将每个相似性条件视为潜在变量，而是训练监督相似性条件以反映特定概念。由于属性注释是按图像定义的，因此我们基于关节预测属性1019联系我们联系我们L（x，x，e，a）= L（e，p）+λ L（a，p），ElLL联系我们表示，我们转换这些标签以表示两个图像，如下所述。假设图像具有M个标记的二进制属性。然后，每个图像i伴随有M维向量ai0，1M。对于一对图像i和j，我们可以使用函数fa：0，10，1[0，1]来得到M维向量ai，j=fa（ai，aj）。然后，可以将ai，j的元素用作用于监督模型输出得分P中的相似性条件的标签。注意，如果由于缺失属性标签而在a i，j中存在缺失条目，则可以通过在ai，j的索引上使用二进制掩码将由它们导致的损失归零来处理这些条目。在第5.3节中，我们用常见的逻辑函数fa进行实验，它映射到清晰的语义。例如，使用fa=逻辑AND，利用相似性得分ρ，要求模型预测给定属性是否出现在两个图像中。与OR类似，模型预测属性是否在任一图像中，使用XOR预测它是否仅在一个图像中，并且使用XNOR预测属性是否在两个图像中或都不在。关于选择这4种fa选项的更详细讨论，请参阅补充资料。在实践中，对于给定的数据集，可以使用关于属性如何与相似性分数相关的一些先验知识来选择逻辑函数，或者可以使用保留的数据来凭经验选择逻辑函数。3.2. 图像编码器如前所述，图像编码器生成图像X的低维特征表示h。我们用三种不同的图像编码器进行实验。卷积网络除非另有说明，否则我们使用一个简单的卷积神经网络（CNN），特别是ResNet [11]来获得我们的图像特征表示（详见补充资料）。图形编码器（GE）[6]。对于一些图像相似性任务，如时尚兼容性，上下文可以是确定两个项目有多相似的重要线索。因此，我们探索的第二编码器是对由CNN提取的特征进行操作的图卷积网络（GCN）。GE（由CNN和GCN组成）将来自数据集的图像和它们的邻接矩阵作为输入该编码器也被Cucurull等人使用。[6]我们建议读者参阅他们论文的第3.1节以获得完整的细节。ProxyNCA++ [48]. 许多任务也可能发现上下文没有帮助，或者GCN可能在计算上过于昂贵而无法使用[20]。例如，在检索任务中，特别强调速度，因为方法可能必须搜索数百万个图像以便定位期望的项目。因此，对于我们的最后一个编码器，我们在评估In-ShopRetrieval 任务时使用最先进的检索方法 [22] 。ProxyNCA++的核心学习距离度量基于学习每个类别的代理特征表示在图像之间进行。因此，它依赖于图像的注释类别，并且不能直接应用于相似度度量学习，其中没有这样的注释可用。我们建议读者参考[48]以获得该编码器的完整细节3.3. 模型目标和培训一对图像上的最终目标函数xi和则Xj被定义为：BCE BCEiji，j i，j i，jeli，j（四）其中，λ是可调超参数，ei，j，0，1是图像xi和xi之间的真实相似性标签，BCE是二进制交叉熵损失，BCE是平均逐元素二进制交叉熵。注意，当没有监督属性时，等式4中的第二项为0。对于训练，从训练分割中随机采样相等数量的正对和负对，并且训练模型以预测它们之间的相似性关于每个编码器的确切过程的详细信息在补充文件中。4. 数据集和任务Polyvore Outfits [41]包含53K套服装（时尚单品）用于培训，5K用于验证，10K用于测试。它还提供细粒度的类别信息和项目的文本描述。我们使用[29]中的205个稀疏注释的属性作为监督相似性条件的标签评价涉及两项任务。首先，在填空（FITB）服装完成任务中，模特被给予部分服装，并且必须从四个可能的答案中选择最适合完成它的成绩是以回答正确率的百分之几来衡量的第二，在服装兼容性中，模特被要求区分好的和坏的服装。使用受试者操作特征曲线下面积（AUC）测量性能。在[41，6]之后，通过对服装中所有物品对的相似性预测进行平均来计算服装相容性分数。在测试分割中有10K个FITB问题和10K个用于装备兼容性的阳性和由于当前方法在原始装备兼容性任务上获得了几乎完美的性能，因此我们通过修改[41]中概述的程序创建了一个更具挑战性的相同大小的测试集，我们将其称为重采样集。为了服装的兼容性，我们通过仅替换地面真实服装的一部分来收集新的负面服装，而不像原来的分裂那样替换所有物品。我们随机选择要替换的项目数量，每个项目都被同一拆分中的另一个相同类型的项目替换（即，一个顶部只能用另一个顶部替换同样，我们做了一个更具挑战性的FITB任务，模型必须选择1020在10个候选答案之间（原始测试有4个）。与原始抽样一样，我们确保任何替换的项目和候选答案都是相同类型的。CUB-200-2011 [45]由200个类别和总共11，768张鸟类图像组成。我们使用[3]提供的分割进行实验，其中包含100个基类，50个验证类和50个新类。CUB数据集还具有为每个图像标记的312个细粒度二进制属性，其中在4点量表上的伴随分数指示所分配标签的置信度我们丢弃置信度得分小于或等于2的所有属性我们使用5路5杆分类任务进行评估。所报告的准确度在来自不同随机初始化的3次训练运行上平均，伴随95%置信区间。测试集由5个类的随机样本和来自数据集的新分割中的50个类的5个支持图像16个查询图像，不同于支持图像，也被采样为这5个类中的每一个。片段的准确度是分类器在16 X 5 = 80个查询图像上的5向准确度。几杆学习模型的平均分类精度超过600随机生成的测试集进行评估。In-Shop Retrieval [22]包含来自11，967个类别的52，712张服装图像。有14，218个查询图像和12，612个图库图像用于测试。给定查询图像，任务是从图库集合中检索相同项目的图像请注意，查询集和图库集与训练集不重叠。衣服总共有463个属性，我们将这些属性标签用于我们的PAN监督模型。方法基于Recall@1进行排名。5. 结果5.1. 与先前工作的表1、表2和表3比较了最佳设置（编码器、无监督相似性条件的数量等）我们的模型使用的代表性国家的最先进的结果报告在以前的工作Polyvore服装，CUB，和店内检索，分别。如表1所示，我们使用我们针对两个任务的更具挑战性的重新采样测试集，在时尚兼容性任务上获得了比现有技术高4%的FITB准确度和9%的AUC提升，同时还在原始分割上将FITB准确度提高了8%。类似地，在表2和表3中，我们观察到在细粒度少数镜头分类和In-Shop Retrieval上，与现有技术相比，性能提高了5%和1%。对不同任务的改进证明了PAN我们的PAN模型在没有监督的情况下也很有用，因为我们的PAN-无监督模型比Polyvore Outfits和CUB的先前工作获得了 3-4% 的收益，同时还提高了 In-ShopRetrieval的性能。请注意，时尚兼容性得益于使用图形图像编码器（GE），而很少-原始重采样方法FITBAUCFITBAUC（一）Tan [41]57.60.8838.10.66SCE-Net [40]61.60.9143.40.68CSA-Net [20]63.70.91--CGAE [6]74.10.9960.80.67（b）第（1）款X +属性多任务GE73.80.9957.60.65Attr. 相似性-GE69.50.9852.90.65PAN-无监督-GE78.40.9964.10.70PAN-监督-GE82.30.9969.70.71表1：PAN对Polyvore Outfits时尚兼容性的比较：（a）先前工作中报告的结果或使用作者代码复制的结果镜头分类报告了CNN编码器的最佳性能，我们将在第5.2节中进一步讨论。除了与先前的工作进行比较之外，表1、表2和表3还提供了两种替代方法使用图像相似性模型中的属性。在“X +属性”中“多任务在“Attr.相似性值得注意的是，使用属性的两种基线方法都仅提高了少数镜头分类的性能，但要么没有区别，要么甚至对其他两个数据集的性能有害（例如，Attr.与CGAE基线相比，相似性使FITB性能降低5-8%）。相比之下，我们的PAN监督模型优于所有其他方法，包括在时尚兼容性任务中，我们报告在重采样测试集上的属性基线上惊人地提高了6-17%。5.2. 图像编码器和批量大小以前的工作在训练方法和控制超参数（如批量大小）方面一直不一致，这可能会显着影响性能。表4通过将训练与整个训练分割与使用小批量。它还比较了使用图形编码器（GE）而不是简单CNN的效果。我们看到，将表4的第3行的数字与表1和表2中的现有方法的数字进行比较，使用整个训练集进行训练可以显着提高性能，使得即使是使用三重丢失训练的简单的连体网络在两个任务上都优于我们在这里注意到，在我们的单批训练实验中，我们使用预训练的CNN来提取图像特征，并且不对其进行微调。102170605040表2：CUB-200-2011上5向5次激发分类的PAN与（a）先前工作中报告的结果或使用作者代码复制的结果以及（b）其他PAN和属性监督方法的比较提供的区间为3次不同运行（采用不同随机模型初始化）的95%置信区间方法召回@1（一）MS [46]89.7[51]第五十一话89.4HORDE [13]90.4续[47]第四十七话91.3ProxyNCA++[48]90.9（b）第（1）款ProxyNCA++属性多任务90.8ProxyNCA++属性相似性86.4ProxyNCA++ PAN-无监督91.4ProxyNCA++ PAN-受监督92.1表3：在店内服装检索上的PAN与（a）先前工作中报告的结果和（b）其他PAN和属性监督方法的比较同样值得注意的是，在CUB上使用GE的性能比更简单的Siamese Network基线差，我们认为这是由于任务之间的差异。具体地，在时尚中，可能彼此非常不同的物品之间存在兼容性链接。因此，通过GE提供的附加上下文可能比在CUB中更重要，CUB在链接的项目之间具有较少的变化，因为它们都包含相同的鸟。5.3. 属性组合选择fa如第3.1.1节中所讨论的，选择fa作为公共逻辑函数之一可能导致对所提供的属性监督的不同解释表5比较了将图像属性标签转换为成对标签以用于我们的PAN模型的这些函数。乍一看，当两个图像中的一个有一个属性或两者都没有（即，使用XNOR）似乎是一个直观的选择。这将指示两个图像之间有多少属性匹配但是，一些功能，如时尚兼容性，图像可能会匹配性能变化测试Val102101100101102方法精度（一）基线++[3]83.58ProtoNet [36]87.42TriNet [4]84.10团队[30]87.17CGAE [6]88.00 ±1.13（b）第（1）款X +属性多任务GEAttr.相似性PAN-无监督PAN-有监89.29 ±0.5792.21 ±0.2192.60 ±0.1092.77±0.30FITB准确度102230(a) PAN监督GE在Polyvore Outfits上的FITB准确度性能变化92.592.091.591.090.590.089.589.0106105104103102101100101102(b) PAN的5向5次分类精度-在CUB图3：公式中λ的灵敏度（四）、因为它们包含不同的属性，所以XNOR将是不合适的，因为任何非共享属性将被忽略（即，具有监督标签0）。AND，鼓励模型仅在两个图像都具有属性时预测1，具有然而，OR不会面临这个问题，因为当图像中的任一个具有属性时，它可以是1，允许模型使用其相关性权重来决定属性的组合是否与相似性相关。在表5中，我们看到OR在PolyvoreOutfits上的时尚兼容性方面表现最好。值得注意的是，我们还看到OR在CUB数据集上仍然与XNOR竞争，其中目标是确定更传统意义上的相似性，即相似的图像应该具有匹配的属性。这个任务似乎很适合XNOR。然而，在CUB上，许多属性是互斥的（例如，鸟要么有“红喙”，要么有“黑喙”，但不是两个都有）。如果一个模型可以联合推理不同的属性，推断它们不应该共存，它就可以正确地完成这项任务。在我们的模型中的相关权重允许这种联合推理不同的属性。因此，训练模型以在任一图像具有属性（或监督）时预测1，可以5-5路射击精度测试Val1023方法单批培训Polyvore服装-重采样Cub-200-2011MFITBAUCM精度暹罗网络X +属性多任务----36.437.20.630.63--76.87 ±0.7281.96 ±1.01暹罗网络C-44.70.69--–31289.01 ±0.2575.82 ±0.4292.21 ±0.2192.60 ±0.1092.77±0.30X +属性多任务C-46.10.69Attr. 相似性C-31.10.63PAN-无监督C5027.30.62PAN监督C20628.20.62X +属性多任务GEAttr.相似性-GEPAN-无监督-GE PAN-有监督-GECCcC-–20657.652.964.169.70.650.650.700.71-–31289.29 ±0.5787.02 ±1.2789.55 ±0.4890.16 ±0.51表4：批量大小和图像编码器对时尚兼容性和少量拍摄任务的性能的影响GE是指图形图像编码器。讨论参见第5.2节。属性监督标签（fa）Polyvore服装Cub-200-2011店内原始重采样精度R@1FITBAUCFITBAUC存在于任一（OR）82.40.9969.70.7192.77±0.2792.61 ±0.3692.60 ±0.4192.61 ±0.2092.39 ±0.1391.5同时存在（AND）76.30.9862.40.6291.6同时存在或均不存在（XNOR）76.10.9960.80.6692.1唯一存在于一个（XOR）69.00.9851.80.6591.6ANDconcatXOR*78.90.9964.70.7191.9表5：由不同功能产生的不同种类的属性监督的效果*包含的相似条件数量是其他条件的两倍在这项任务上也表现良好，从表5中的经验结果中，我们看到它确实如此。提供AND和XOR输出（作为控制器）。链接）似乎是有利可图的，因为它似乎比OR更有信息量，但我们发现该模型使用其额外的能力来过拟合训练数据。由于属性预测是有噪声的，因此这在使用上也是具有挑战性的（参见属性识别性能的补充材料）。In-Shop检索任务涉及从对象的不同视图的图库中获取匹配项在这种情况下，XNOR非常适合匹配不同的视图，因为匹配属性可以直接转换为两个视图属于同一对象的推断，因此是相似的。5.4. PAN对λ的图3示出了PAN绘制了测试集和验证集的性能。在Polyvore Outfits上，我们看到当属性监督权重相对较高时（λ= 10时的最佳准确度），PAN监督GE模型表现良好模型性能在这两侧都会下降，当λ显著增加（到100）时下降幅度更大在CUB数据集上，我们看到了一个稍微不同的行为，其中最佳模型性能在λ= 10−5时达到，该值要低得多，表明相对较低属性监督对于该任务是最优的请注意，在In-Shop任务中，我们设置λ= 1，并且没有在该任务上对其进行调整，这表明PAN可以很容易地适应于提高其他任务/模型的性能。6. 结论我们提出了PAN，这是一种在图像数据集中合并附加属性注释以学习更好的相似性预测器的方法我们看到，PANPAN在一组不同的三个任务上优于现有技术-在Polyvore Outfits上的时尚物品兼容性预测上优于4-9%，在CUB上的少数镜头分类上优于5%，在In-ShopClothing Retrieval上优于1%以上的Recall@1-与使用属性监督的先前方法相反，这些方法无法优于在不同相似性条件下自动学习概念的方法在展示PAN的这些好处时，我们考虑了来自训练参数（如批量大小）的贡献，希望通过我们的分析为未来的工作提供信息。鸣谢：这项工作部分由DARPA和哈里里数据科学学院奖学金资助。1024引用[1] 瑞奇·卡鲁阿纳多任务学习：基于知识的归纳偏差来源。1993年，第十届国际机器学习会议论文集。6[2] 弗朗西斯科·M·卡斯特罗、曼努埃尔·J·马林-吉米·内兹、尼科·拉·吉尔、科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端渐进式学习。在欧洲计算机视觉会议（ECCV）的会议记录中，第233-248页，2018年。1[3] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangFrank Wang，and Jia-Bin Huang.更仔细地观察少数镜头分类。arXiv预印本arXiv：1904.04232，2019。四、六、七[4] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.用于一次性学习的多级语义IEEE Transactions on Image Processing，第1-1页，2019年。7[5] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。3[6] Guillem Cucurull，Perouz Taslakian和David Vazquez。上下文感知视觉兼容性预测。在IEEE计算机视觉和模式识别会议（CVPR）中，第12617-12626页，2019年。一、三、四、五、六、七[7] Ali Farhadi ， Ian Endres ， Derek Hoiem ， and DavidForsyth.按属性描述对象。在2009年IEEE计算机视觉和模式识别会议上，第1778-1785页。IEEE，2009年。6[8] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017. 3[9] 阿尔伯特·戈多、乔恩·阿尔·马萨安、杰罗姆·雷沃德和黛安·拉鲁斯。深度图像检索：学习图像搜索的全局表示欧洲计算机视觉会议，第241-257页。施普林格，2016年。第1、3条[10] Xintong Han，Zuxuan Wu，Yu-Gang Jiang，and Larry SDavis.学习与双向lstms的时尚兼容性。第25届ACM多媒体国际会议论文集，第1078-1086页。ACM，2017。3[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[12] 毁了他，查尔斯·帕克和朱利安·麦考利。不同类别的学习兼容性，用于异质项目推荐。2016年国际数据挖掘会议（ICDM）。2[13] Pierre Jacob ， David Picard ， Aymeric Histace ， andEdouard Klein. 使用Horde的度量学习：深度嵌入的高阶正则化器在IEEE计算机视觉国际会议论文集，第6539-6548页，2019年。7[14] Wang-Cheng Kang ，Chen Fang，Zhaowen Wang， andJulian McAuley.视觉感知的时尚推荐和设计与生成图像模型。2017年IEEE Interna典型的数据挖掘会议（ICDM），第207-216页。IEEE，2017年。3[15] Jongmin Kim、Taesup Kim、Sungwoong Kim和Chang D.你。用于少次学习的边标记图神经网络在IEEE计算机视觉和模式识别会议上，2019年6月。4[16] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，第2卷，2015年。第1、3条[17] Pang Wei Koh 、 Thao Nguyen 、 Yew Siang Tang 、Stephen Mussmann、Emma Pierson、Been Kim和PercyLiang。概念瓶颈模型。国际机器学习会议，第5338-5348页。PMLR，2020年。一、二[18] Brenden Lake ， Ruslan Salakhutdinov ， Jason Gross 和Joshua Tenenbaum。简单视觉概念的一次性学习。在Proceedings of the annual meeting of the cognitive sciencesociety，第33卷，2011年。3[19] Fei-Fei Li，Rob Fergus，and Pietro Perona.对象类别的一次性IEEE Transactions on Pattern Analysis and MachineIntelligence，28（4）：594-611，2006。3[20] Yen-Liang Lin，Son Tran，and Larry S.戴维斯时装配套项目检索。在 IEEE 计算机视觉和模式识别会议（CVPR），2020年。二三四五六[21] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在IEEE计算机视觉和模式识别会议论文集，第212第1、3条[22] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang

下载后可阅读完整内容，剩余1页未读，立即下载