ALADIN:学习艺术风格相似性的细粒度表示

20 浏览量更新于2023-10-13 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11926ALADIN：用于细粒度样式相似性丹·鲁塔1赛义德·莫提安2巴尔多·法耶塔2哲林2金海林2亚历克斯·菲利科夫斯基2安德鲁·吉尔伯特1约翰·科洛莫斯1、2萨里大学CVSSP2 Adobe Research图1.ALADIN通过学习用于艺术风格相似性的细粒度嵌入来实现基于风格的视觉搜索左：三个查询（蓝色）和他们的结果，即在ALADIN搜索嵌入中的最近邻。每个结果集都表现出细粒度的风格一致性;一致的素描风格。右侧（红色框）：先前样式搜索嵌入[ 6 ]中的搜索返回仅具有粗粒度样式一致性的结果;都是水彩风格的不同变体。摘要我们提出了ALADIN（All Layer AdaIN）;一种用于基于图像艺术风格的相似性来搜索图像的新颖架构。表示学习对于视觉搜索至关重要，其中学习的搜索嵌入中的距离反映了图像相似性。由于定义和标记风格的难度，学习识别风格中的细粒度变化的嵌入是困难的。ALADIN采用弱监督方法来学习数字艺术品的细粒度风格相似性的表示，利用BAM-FG，一种从网络收集的用户生成内容分组的新型大规模数据集ALADIN在粗糙标记样式数据（BAM）和BAM-FG上为基于样式的视觉搜索设置了新的最新精确度;一个新的262万图像数据集的310，000细粒度的风格分组也有助于这项工作。1. 介绍数字艺术作品涵盖了以不同视觉风格描绘的广泛内容。学习一种适合于基于视觉风格搜索艺术品的表示是一个开放的挑战，特别是在区分微妙的，细粒度的[39，37，25]风格变化时。这是由于（i）定义合适的细粒度本体来标记样式和（ii）专家注释任务的困难。因此，迄今为止的研究主要集中在粗晶粒有限数量的风格的歧视[17，6]。艺术风格是艺术作品的独特外观I.E. 一个艺术家如何描绘他们的主题[8]。风格可以通过视觉属性来表征，例如纹理，笔触，媒体，阴影或艺术品的布局;识别完整的属性列表的挑战是长期存在且未解决的[7]。我们的核心贡献是学习细粒度的艺术风格相似性（图）。1）并且经由不依赖于图像中的样式或样式属性的显式标记的弱监督方法来这样做。我们的技术贡献有三个方面：1. ALADIN细粒度样式嵌入。我们提出ALADIN;一种新颖的体系结构来学习图像风格的搜索嵌入。ALADIN是一个编码器-解码器（E-D）网络，其跨其风格编码器层汇集自适应实例归一化（AdaIN）统计数据以学习能够区分微妙的细粒度风格（例如，草图样式的变化）以及粗粒度样式（例如，素描、水彩画等）。图像风格化网络[14，10，15]以前使用AdaIN进行风格转移，但这些在测量相似性方面表现不佳（参见第5.2小节）。 ALADIN第一次明确地将E-D网络中的内容和风格分开，以展示如何利用AdaIN进行细粒度的风格搜索。2. Behance Artistic Media Fine-Grained （ BAM-FG）数据集。我们贡献了一个新的262万图像数据集的艺术品在310 K细粒度的风格分组，gath-11927来自一个创意组合网站（Behance.net）。数字艺术家将包括相关视觉主题的图像的微集合（“项目”）发布到Behance.net。假设这些群体内的图像同现意味着风格相似性的弱线索，我们抽样数百万这样的同现。此外，我们通过大规模的人群注释任务来划分和清理这些嘈杂的同现数据，在该任务中，项目内不同风格一致的图像子组被识别为具有高度共识（产生162万张图像和135K组）。3. 细粒度风格的弱监督学习。我们提出了第一个研究细粒度的艺术风格相似性的表示学习，采取弱监督的方法。现有的基于风格的视觉搜索只能直接从显式标记的数据（例如，文本）中学习粗粒度的风格区分。通过代理分类任务[17]或深度度量学习[6]）。我们使用监督对比学习[4，19]来训练ALADIN，以在粗粒度和细粒度风格搜索方面实现最先进的性能，而不需要任何明确的图像风格的粗粒度请注意，我们区分噪声和弱超视。由于没有细粒度的风格本体对图像进行显式标注，监督力度较弱;相反，通过隐式项目分组的弱代理是学习的基础。这些分组可能是嘈杂的，或者通过人群注释进行清理，但监督仍然很弱，因为数据没有明确标记为细粒度样式。我们通过客观和主观的用户试验表明，原始项目分组足以训练一个最先进的模型，以实现细粒度的风格相似性。我们清洁的数据用于评估和增强细粒度的风格判别ALADIN。2. 相关工作视觉风格的研究主要是从综合的角度（如综合性、综合性）来进行的.风格转移）和分类。早期的风格转移工作从照片艺术作品对学习视觉类比[13，20]。最近，深度表示使得能够从未配对的数据进行风格化[9]。值得注意的是，Gatyset al.在预先训练的模型的各层上计算Grammian（例如，VGG-19 [31]）从不同图像中的风格中提取内容;已被用于纹理描述[22]，风格一致的绘画[11]和通过风格特定的编码器-解码器网络的快速神经风格传输（NST）的表示[33，16]。后来提出了多尺度[36]和视频[28] NST的扩展。这种表示的变体（例如Grammian的余弦）被探索用于表示风格[5]，并且图像类比和NST的概念被结合用于风格转移[21，35]。实例归一化被提出来提高风格转移的质量[34]，并在此基础上，内容和风格特征之间的均值方差统计（AdaIN）[14，10]。最近，通过MUNIT [15]实现了无监督的风格传输，它通过AdaIN [14]分解了内容和风格;学习风格的潜在代码而在编码器-解码器（E-D）架构内没有标记的数据。类似的架构后来被用于在图像之间交换风格[26]。这些方法可以被认为是在建筑设计选择中嵌入风格的概念我们通过E-D模型探索学习搜索表示的互补问题。相比之下，风格的训练表示通过深度度量学习明确地分离内容和风格的嵌入，使用三元组进行监督[6]。他们的工作利用了大量粗略标记的数字艺术品的公共数据集（Behance Artistic Media较小的标记数据集合已被用于监督风格[41，17]或产品设计[2]甚至画家[3]和艺术流派[29]的分类。所有这些方法都使用对样式上的粗粒度类标签的直接监督，例如艺术之美[32]一个相关的领域使用社交媒体上的投票对图像美学进行建模[23]，最近探索了风格和情感之间的联系[1，24]。生成对抗网络（GAN），如周期一致性GAN [40]，已经被训练成将图像从一个域映射到另一个域，包括样式之间，并且需要标记的（未配对的）图像集。最近，样式- GAN [18]探索了在卷积编码器中的多个阶段注入学习的样式代码。我们的工作是用弱标签进行风格表示学习，而不需要明确的类监督，同时专注于（能够）区分细粒度的风格（图1）。①的人。3. 学习细粒度风格相似性我们的目标是从弱代理（组共同成员）中学习风格的细粒度表示，而不是在来自风格本体的标签下直接监督。3.1. ALADIN架构我们建议ALADIN; All-Layer自适应实例规范化设计用于使用自适应实例规范化（AdaIN eq. 1）[14，10]中的编码器-解码器（E-D）网络（图1）。2）的情况。AdaIN已被应用于神经风格转移（NST），其中内容与风格分离，以便在两者重组之前修改风格代码[15，26然而，这些模型的样式代码在用作搜索嵌入时表现非常差（参见图10）。亚秒5.2）。ALADIN实现了一个分解的E-D网络设计，但从潜在代码（“风格嵌入”）中的几个风格编码器层提取激活通过训练高重构保真度和对比的方法来鼓励年龄度量属性在这个潜在的空间，我们表明ALADIN可以学习一个搜索嵌入适合细粒度的风格搜索。ALADIN包括双编码器分支：（i）内容编码器;（ii）风格编码器。内容编码器使用4个卷积层将图像特征下采样为一系列语义聚焦的特征图;实例归一化被应用于每一层。公司简介11928⊂\联系我们Σ||我ΣΣ·我图2.提出了ALADIN架构，用于学习细粒度的样式嵌入。ALADIN使用多级编码器，其中AdaIN值从每个编码器层聚合并传递到对应的解码器级。来自风格分支上的编码器层的AdaIN特征的级联在来自项目组共同成员的弱监督下通过双重重建（Lrec）和对比损失（Lcon样式编码器/解码器主干可以采取若干卷积层（ALADIN-S）或VGG-16主干（ALADIN-L）的形式。有三个卷积层，分别由64、128、256个滤波器组成。我们使用特征图的AdaIN均值和方差统计来提取样式信息，而不是完全连接（FC）层，因为该编码器仅用于样式提取。样式代码由编码器中的过滤器的两倍多的值图2示出了ALADIN主干，其被构建为包括样式编码器级上的自适应实例归一化（AdaIN）和来自多个编码器级的激活（“样式代码”）的解码器镜像编码器形状，使得样式代码可以被分割回相同大小的片段并应用于解码器过滤器。这种镜像和AdaIN的多层编码都不同于风格化E-D网络（例如，MUNIT [15]），并使更有效的搜索嵌入从所得到的样式代码中学习在解码器风格化阶段，[meanµ（. ）3.2. 使用隐式项目组进行我们使用与logit累积相适应的监督对比学习的变体来训练ALADIN（sec. 3.2.1），以实现更大的批量。训练是弱监督的，避免明确的风格标签，以获得由从Behance.net创意作品集（c.f.第4小节）。用于搜索的深度度量学习的经典方法利用逐对比较（例如通过三重丢失）来增强视觉相似性和嵌入接近度之间的相关性。对于给定的训练集T，随机选择项目组G T，并且从G内随机挑选图像a作为“锚点”。该组内的其余图像形成假设示例G+=Ga，并且相等数量的负样本是从其他项目组中选出G−不G+。F或给定的小批B三元组（a，p，n），其中p∈G+，n∈G-，并对min-，方差σ2（. ）]样式编码器层激活（例如x）应用于来自镜像层的激活模仿哪里（a，p，n）∈B联系我们|f（a）−f（p）|2−|f（n）−f（p）|2]+，ALADIN解码器（例如，y），遵循eq. 1.一、x− µ（ x）. 2表示L2损失，表示小余量。最近，对比学习已经显示出改善的性能。使用更大的批量。我们形成一个小批B通过对图像对{a，p} ∈Gi进行采样，i=[1，N]AdaIN（x，y）=〇2（y）。σ2（ x）Σ+µ（y）（1）组（我们使用N=1024组）。因此，一个批次包括2N个图像，B={bl，b2，…b2N}，其中b2i和b2i−1来自同一群。对于给定图像bi，我们因此，有一个正置群G+={bp}和一个正置群G +={bp}对于ALADIN-S和ALADIN-L变体，我们将具有大小为512的隐藏层和L2归一化输出向量128-D的多层感知器（MLP）应用于编码的嵌入特征f（. ）的情况。我们将其称为投影网络，表示为h（f（. ）），并在以后探讨计算的功效群G−i=B\{bibp}，其损失为：2NLcon（B）=L（i），其中i=1（二）在该投影嵌入而不是学习的样式嵌入上的损失TBL.2）的情况。L（i）=−logp∈G+exp（f（i）f（p）/τ）n∈G−i exp（f（i）·f（n）/τ）11929Σ||| |--其中τ >0是如在自监督SimCLR [4]中的温度参数。ALADIN是编码器-解码器网络，因此我们采用还包括重构损耗项L_rec的对偶损耗：Lrec（B）为 |f（b）−b|.（三）b∈BLtotal（B）=Lcon（B）+λLrec（B），⑷其中. 表示L1损失，我们加权重建损失λ= 10−2。3.2.1Logit累积训练ALADIN与大批量B=1024是不切实际的当代GPU（不诉诸美联储或分布式计算）由于广泛的VRAM要求。为了解决这个问题，我们提出了一个logit累积策略。首先将大批量拆分为几个较小的块（梯度批量），推理模式下的模型将为其生成logit。一旦达到1024的目标批量大小，这些被连接并用于计算对比损失。进行反向传播以计算梯度，在logits级别停止并保留它们。原始块接下来再次一个接一个地通过模型，将梯度存储在模型中。在最终将梯度应用于权重之前，通过模型反向传播与给定块中的样本相对应的logit梯度。当所有块都通过模型重新转发时，批处理结束（参见sup-mat.用于该过程的可视化）。使用此技术，具有12GB VRAM的单个GPU可以满足所需的1024个批量大小。理论上，多个GPU可以处理更大的批次，因为瓶颈变成将MLP头部梯度存储在VRAM中，这可以跨GPU并行化。4. BAM-FG：Behance Artistic Media细粒度数据集我们提出了BAM-FG，一个新的数据集的262万数字艺术品在310 K项目组抽样从Be-hance.net我们假设这些组内的图像共现暗示风格相似性的弱线索，并且我们利用该信号来训练我们的模型。我们将BAM-FG分成两个不同的分区：BAM-FG-Raw。原始的“噪声”数据，其中图像在Behance上分组;我们将该数据集称为BAM-FG-Raw，其包括175 K项目中的1 M图像。我们用这些数据训练我们的模型。BAM-FG-CN.已经通过大规模众包实践“清理”的数据，使得图像组已知（而不是假定）是风格一致的。该数据集最初包括1.62M图像和135K组。我们从这些数据中推导出不同置信水平（参与者共识）的图像分组，表示为CN=图3.顶部：BAM-FG-CN数据集统计，在每个工作者共识水平CN=[1，5]处清理。底部：单个原始项目组内的三个子组，在共识水平CN= 3处确定1、…五、图3（顶部）描述了在每个一致性水平下BAM-FG中的图像（样本）的数量，其中CN=5返回最高的数据质量但最低的数据量。该数据用于评估ALADIN并微调其性能（列车/测试拆分详情见小节。5.1）。4.1. 清洁样式组（BAM-FG-CN）我们通过手动将135 K项目组整理成连贯风格的子组来构建 BAM-FG-CN 。一个 - 符号是通过 AmazonMechanical Turk（AMT）使用1073名工人众包的。向工作人员呈现来自项目的图像，并邀请他们标记共享相同视觉风格的任意数量的图像（包括零）（创建一个组）。如果有多种风格，他们会选择最大的一组。我们将每个注释任务发送给5个工人。一致性使用基于图的投票池方法来确定，其中由亲和矩阵Ai，j编码的边反映了在注释的聚类/moodboard内同时选择两个图像i，j每次共同指示图像对时，边缘计数递增阈值Ai，jat给定的一致性水平CN=[1，5]将该组划分为子组。这产生了具有不同风格相似性强度的图像组，通过将它们分组在一起的工作者的数量来测量。图图3（底部）示出了在CN=3处由单个原始组。补充材料包含任务示例和图形-投票算法的可视化。5. 实验与讨论我们评估的ALADIN的粗粒度和细粒度的检索任务的性能。我们使用10−4 的学习率，衰减0.9 ，ADAM优化器在11930- -Σ\∈||∈联系我们模型粗粒细粒度BAM-FGIR T-1 IR T-5 IR T-10Top-1BAM前3地图BAM-X顶部-1顶部-3 mAP卡拉耶夫[17]29.95 36.44 0.34 21.62 23.06 0.183.285.436.59NST [9]36.56 39.43 0.38 31.01 32.03 0.286.317.829.86NST-CGM [5]34.74 42.96 0.36 32.85 36.84 0.313.548.3210.89DML-BAM [6]93.16 99.32 0.61 67.12 88.69 0.503.576.879.95DML-BAMX98.16 99.95 0.49 79.97 92.68 0.693.046.188.70ResNet50 [12]73.59 96.01 0.162 51.05 78.01 0.1631.975.188.41[15]第十五话33.79 45.05 0.44 45.76 74.41 0.224.126.929.45[15]第十五话43.29 46.47 0.589 66.28 88.66 0.27117.6825.8931.67[15]第十五话42.63 46.45 0.404 70.98 91.85 0.22618.0424.9129.62MUNIT对比[15]53.80 86.36 0.284 27.87 58.49 0.1376.4310.0212.96ALADIN-Unsup。93.86 99.79 0.394 83.13 96.66 0.30811.4816.3819.84ALADIN-三联体96.59 99.90 0.638 78.60 95.28 0.33626.7035.0840.47ALADIN-Listwise95.59 99.90 0.550 76.16 94.12 0.31637.9047.8853.83ALADIN-对比99.48 99.95 0.737 85.28 98.07 0.47956.8966.8071.94表1.ALADIN模型的粗（BAM/BAM-X）和细粒度（BAM-FG）风格的歧视相比，基线的使用较大的ALADIN-L模型单个NVidia Titan-X 12 GB GPU用于所有实验。我们训练了所有模型，使其在早期停止的情况下收敛。5.1. 数据集和分区BAM-FG/-原始/-C N. 我们使用带有噪声分组的1 M图像（BAM-FG-Raw）从头开始训练所有模型。我们将BAM-FG-CN中的1.62M干净图像分成训练（115 K组）和测试（20 K组）分区。BAM-FG-CN被人群注释以形成子组，如第4节中所述。数据在不同的一致性水平C N=[1，5]（分组被称为BAM-FG-C1.. （五）。细粒度的检索评估超过78K图像测试BAM FG C3，我们使用C3作为大多数共识水平的最高数据量。BAM/-X 。 Behance Artistic Media （ BAM ）是从 Be-hance.net收集的200万当代艺术作品的公共数据集，并使用大规模主动学习管道进行注释[38]。我们对该数据集的70 k子集进行采样，其注释包括用于非摄影媒体（3D渲染、漫画、钢笔/石墨草图、钢笔墨水、油画、矢量艺术、水彩）的七个粗略样式标签。为了增加BAM上的粗尺度类别计数，我们添加了从网络照片集合中收集的另外70K图像，这些图像集中于摄影风格（豪华、霓虹灯、极简主义摄影、金属、抽象镜头、几何形状、柔和色调），使总数达到14个粗风格类别，每个类别10K图像。此140 K图像的扩展BAM（BAM-X）数据集用于粗粒度评估。这些都不包括在BAM-FG中。5.2. 基线方法和损失1. 方法. 我们比较几个现有的样式表示。Karayev等人来自CaffeNet的后期FC层的样本激活[17]。神经风格转移[9]使用VGG-19的NST特征[30]在ImageNet[22]与一个变量进行比较，以余弦的克马。跨层的三次 NST-CGM[5] 。基线判别网络 ResNet50[12]，从ResNet 50网络的倒数第二个FC层（2048-D）中提取风格表示（嵌入）。我们也比较对粗粒度的风格嵌入Collomosse等人。[6]通过三重丢失应用深度度量学习（DML）。他们的模型DML-BAM在BAM上训练[38]，我们也在BAM-XDML-BAMX上重新训练它。我们与MUNIT [15]提供的样式代码进行比较我们评估了MUNIT风格的代码，用于搜索，经过无监督训练（ MUNIT-Unsup[15] ），并根据 ALADIN（MUNIT-Contrastive）通过我们的对比方案进行训练节中5.6我们进一步探索ALADIN和ResNet的样式代码融合。2. 替代损失。我们还评估了ALADIN的替代培训策略和基线。Tripletloss和Listwiseloss [27]都被探索为对比训练的较小批量替代方案，例如。 MUNIT-Triplet，以及MUNIT-Listwise。对于三元组训练，我们使用随机否定挖掘进行训练，从随机项目中采样G −，以及从语义相似的项目中采样图像的硬否定挖掘（HN）。对于HN，nG−是满足语义阈值S（n）

下载后可阅读完整内容，剩余1页未读，立即下载