基于样式的卷积神经网络架构SRM及其提升CNN性能的研究

91 浏览量更新于2023-10-11 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1854SRM：一种基于样式的卷积神经网络李贤在公司hjlee@lunit.io金孝恩公司hekim@lunit.ioHyeonseobNam Lunit Inc.hsnam@lunit.io摘要随着卷积神经网络（CNN）在风格迁移方面的进展，风格在CNN中的作用从更广泛的角度引起了越来越多的关注在本文中，我们的目标是充分利用样式的潜力来提高CNN在一般视觉任务中的性能。我们提出了一个基于样式的重新校准模块（SRM），一个简单而有效的架构单元，通过利用它们的风格自适应地重新校准中间特征图。SRM首先通过风格池从每个通道的特征图中提取风格信息，然后通过通道独立的风格集成来估计每个通道的重校准权重。通过将各个样式的相对重要性合并到特征图中，SRM有效地增强了CNN的表示能力所提出的模块直接馈送到现有的CNN架构中，开销可以忽略不计。我们对一般图像识别以及与样式相关的任务为了解释SRM和SE之间的固有差异，我们提供了一个深入的比较，他们的代表性的属性。1. 介绍卷积神经网络（CNN）的发展不断推动复杂视觉任务的边界[20，23，2]。除了它们优越的性能之外，广泛的调查表明，CNN不仅能够处理内容（即，形状），而且风格（即，纹理）的图像。Gatys等人[6]发现CNN的特征统计有效地编码了图像的风格信息，这为神经风格转移奠定了基础[7，17，13]。最近的方法还指出，风格在标准CNN的决策过程中发挥了意想不到的重要作用[1，8]。Fur-1，Karras et al.[18]证明了仅基于样式操作的通用CNN架构在真实图像生成方面实现了显着的改进。受风格和CNN表示之间紧密联系的启发，我们的目标是提高CNN中风格的利用率，以提高其表示能力。我们提出了一种新的架构单元，基于样式的重新校准模块（SRM），它通过一种形式的特征重新校准明确地将样式合并请注意，CNN涉及具有不同重要性级别的样式。虽然某些风格发挥着重要作用，但有些风格对任务来说是一个讨厌的因素[25]。SRM动态估计各个样式的相对重要性，然后基于样式重要性重新加权特征图，这允许网络关注有意义的样式，而忽略不必要的样式。SRM的总体结构如图1所示。它由两个主要部分组成：样式池和样式集成。样式池化操作符通过跨空间维度总结特征响应来从每个通道提取样式特征之后是样式集成操作符，该操作符通过通道操作利用样式特征来生成示例特定的样式权重样式权重最终重新校准特征映射，以强调或抑制其信息。我们提出的模块无缝集成到现代CNN架构中，并以端到端的方式进行训练。SRM只增加了微不足道的附加参数和计算量，但它显著地提高了网络的性能.除了实际改进之外，SRM还提供了关于按通道重新校准效果的直观解释：它通过调整特征响应的全局统计同时保持它们的空间配置来控制样式的贡献。我们的图像识别实验[28，19]验证了SRM在一般视觉任务中的有效性。在整个实验中，SRM优于最近的方法[12，11]，尽管它需要数量级更少的附加参数。此外，我们证明了SRM的能力，在安排的风格的贡献为此，我们对风格相关的任务进行了广泛的实验，例如纹理-形状线索冲突的分类[8]，多域分类[32]，纹理识别[4]和风格转移[17]，其中SRM带来了卓越的性能1855输入张量风格池风格特点T��×��风格整合风格权重��×1输出Tenso r^× ×× ×图1：基于样式的重新校准模块（SRM）。SRM自适应地重新校准输入的特征图的基础上的风格的图像通过通道独立的风格池和集成操作。改进.我们还提供了全面的分析和烧蚀研究，以进一步研究SRM的行为。本文的主要贡献如下：• 我们提出了一个基于样式的特征重新校准模块，通过将样式合并到特征图中来增强CNN的表示能力• 尽管其开销最小，但所提出的模块显著提高了网络在一般视觉任务以及与风格相关的任务中的性能。• 通过深入分析和消融研究，我们检查了我们的方法的内部行为和有效性。2. 相关工作样式操作。操纵CNN的风格信息已经在生成框架中得到了广泛的研究Gatys等人的开创性工作。[7]通过利用二阶统计量（即，Gram矩阵）作为样式表示。Li等人。[21]还通过匹配各种CNN特征统计数据（如线性，多项式和高斯内核）来解决风格转移。自适应实例归一化（AdaIN）[13]进一步表明，传输通道平均值和标准差可以有效地改变图像风格。Karras et al.的最新研究[18]将AdaIN结合到生成对抗网络（GAN）中，通过调整中间层的样式来改进生成器。CNN中风格的潜力也在歧视性设置中进行了研究。BagNets [1]证明，在不考虑空间上下文的情况下，依赖于样式信息的CNN在图像分类上表现得非常好。Geirhos 等人 [8] 发现 CNN （例如， ImageNet 训练的ResNet）在决策过程中高度偏向于风格。批实例规范化[25]通过控制样式实现了实际的性能改进，学习各个风格的静态权重，并有选择地将不重要的风格标准化。在这项工作中，我们进一步促进了在设计CNN architec- ture的风格的利用。我们的方法动态地丰富了功能表示，无论是突出或抑制风格有关的任务。注意力和特征重新校准。众所周知，人类关注的是视觉输入的重要部分，以更好地把握核心信息，而不是一次处理整个视觉信号[15，27，5]。这种机制已经以细化特征激活的方式扩展到CNN，并且在包括对象分类[16，33]、多模态任务[36，24]、视频分类[34]等在内的广泛应用中显示出有效性。与我们的工作更相关的是挤压和激发（SE）[12]提出了一种通道式重新校准算子，该算子结合了通道之间的相互作用。它首先聚集的空间信息与全球平均池和捕获的通道依赖性使用一个完全连接的子网络。Gather-Excite（GE）[11]进一步探索了这个管道，以便更好地利用卷积聚合器的全局上下文。卷积块注意力模块（CBAM）[35]还表明，可以通过额外利用最大池化特征并与空间注意力模块相结合与先前的努力相反，我们重新制定了通道明智的重新校准方面的杠杆风格信息，没有通道关系的援助，也没有空间的注意。我们提出了一种风格池化方法，该方法优于我们设置中的标准全局平均或最大池化，以及一种通道独立风格集成方法，该方法比完全连接的对应部分更轻量级，但在各种情况下更有效。3. 基于样式的重新校准模块给定输入张量X∈RN×C ×H ×W，SRM基于X的样式生成通道级重校准权重G∈RN×C，其中N表示检查的数量在小批量中，C是通道数;H和1856Cσ=，NCW表示空间维度。它分为两个顺序子模块：风格池用于从X中提取中间风格表示T∈RN× C × d，其中d是风格特征的数量，从T估计风格权重G。然后通过G和X之间的通道乘法计算最终输出X。SRM很容易集成到现代CNN架构中，如ResNets [9]和经过训练的端到端。图- ure2说明了SRM的详细结构和我们的配置的SRM集成到一个残留块。3.1. 风格池从中间卷积特征图中提取风格信息在风格转换文献中得到了广泛的研究。受[13]的启发，我们采用每个特征图的通道方向的平均值和标准差作为风格特征（即，d= 2）。具体地说，给定输入特征映射X∈RN×C ×H ×W，T∈RN×C ×2的计算公式为：样式池样式集成乙状BNCFC标准池AvgPoolSRM残余(a) SRM（b）剩余SRM图2：（a）SRM和（b）SRM与残差块集成的方案。AvgPool：全局平均池化，StdPool：全局标准差池化，CFC：通道全连接层，BN：批量归一化。µnc=1 ΣH ΣW xnchw，（1）全连接层，具有两个输入节点和一个输出节点，HWh=1w=1‚放置，其中偏置项被吸收到随后的BN层中。然后，我们应用BN来促进训练和S形.HW.1 ΣΣ作为门控机制：σnc=，HWh=1w=1（xnchw−µnc）2，（2）1ΣNtnc=[µnc，σnc]。（三）风格向量tnc∈R2用作概括描述，µ（z）=Nn=1‚.中国（5）每个示例n的样式信息的改变和变化。（z）。1（z）-µ（z））2，（6）内尔角其他类型的风格特征，如相关性在不同的信道之间[7]也可以包括在公司简介Nn=1样式向量，但为了效率和概念清晰性，我们专注于通道统计。在第5节中，我们验证了C= C=C=C（ZNC-µ（z）（z））+βc，（7）与其他收集全局信息的方法相比，所提出的样式池的实际好处，例如，使用SE [ 12 ]中的平均池化，以及CBAM [ 35 ]中的最大池化。3.2. 风格整合通过样式集成运算符将样式特征转换为通道样式权重。样式权重应该对与各个通道相关联的样式的重要性进行建模，以便相应地强调或为了实现这一点，我们采用了一个简单的组合，一个通道式全连接（CFC）层，批归一化（BN）层和S形激活函数。给定样式表示T∈RN×C ×2作为输入，样式集成运算符使用可学习参数W ∈RC×2执行逐通道编码：znc=wc·tnc（4）其中Z∈RN×C表示编码的风格特征。该操作可以被视为与通道无关的1857σcgnc=1，（8）1+e−z<$nc其中，γ、β∈RC是仿射变换参数，G∈RN×C表示通道式权重。注意，BN使用平均值的固定近似值以及推理时的方差，其允许BN层合并到前一CFC层中。因此，每个通道的风格集成归结为一个单一的CFC层fCFC：R2→R，然后是一个激活层，函数fACT：R→[0，1]。最后，原创输入X由权重G重新校准，因此输出X∈RN×C×H×W由下式获得：xnc=gnc·xnc。（九）3.3. 参数和计算复杂性SRM的设计是轻量级的，在这两个方面的复杂性和计算我们首先考虑的1858基线SEGESRM前1个值准确度（%）Srs=180 8070 7060 6050 50400 10 20 30 40 50 60 70 8090历元400 10 20 30 40 50 60 70 80 90历元图3：ImageNet-1 K上的训练（左）和验证（右）曲线，使用ResNet-50（基线）和不同的重新校准方法。来自CFC的SRM的附加参数第二层BN层。每个项的参数数量为4.1. 对象分类我们首先评估SRM上的一般对象分类Ss=1 NS·CS·2和Ss=1 NS·CS·4，其中使用ImageNet-1 K [28]和CIFAR-10/100 [19]，在com-S表示级数，Ns是重复次数，第s级的输出通道的尺寸。我们遵循[12]中阶段的定义，它指的是一组具有相同空间维度的卷积。SRM的额外参数总数为：ΣS6Ns·Cs，（10）s=1这与SE的2 S N s相比通常可以忽略不计其中r是它的减速比.例如，给定ResNet-50作为基线架构，SRM-ResNet-50仅需要0.06M附加参数，而SE-ResNet-50需要2.53M。在计算复杂性方面，SRM也引入了可以忽略不计的额外计算到原来的架构。例如，SRM-ResNet-50的224×224像素图像的单次前向传递需要额外的0.02GFLOPs到ResNet-50，需要3.86 GFLOPs。通过仅增加0.52%的相对计算负担，SRM将ResNet-50的top-1验证准确率从75.89%提高到77.13%，这表明SRM在准确性和效率之间提供了4. 实验在本节中，我们将对各种问题和数据集进行全面评估，以验证SRM的有效性。我们重新实现了所有竞争对手，以便在一致的设置下进行公平比较，并提供源代码1以便于进一步研究。使用最先进的方法，如挤压和激发（SE）[12]和聚集激发（GE）2[11]。在[1，8]的扩展上，这表明风格在标准CNN的决策中起着至关重要的作用，我们进一步证明了风格在提高CNN总体性能方面的潜力。ImageNet-1K。ImageNet-1 K数据集[28]由1，000个类和130万个训练和50，000个验证图像组成。我们遵循数据增强和优化的标准实践[9]。将输入图像随机裁剪为224×224块，并应用随机水平翻转。网络由SGD训练，8个GPU上的批大小为256，动量为0.9，权重衰减为0.0001。我们从头开始训练网络90个epoch，初始学习率为0.1，每30个epoch除以10。单中心作物在224×224块上执行评估，其中每个图像首先被调整大小，使得较短的边为256。图3显示了使用SRM和其他特征重新校准方法的ResNet-50的训练和验证曲线。在整个训练过程中，SRM在训练和验证曲线上都表现出比SE和GE高得多的准确性这意味着在促进培训和提高通用化方面，与SE建模渠道相互依赖性或与GE收集全球背景相比，SRM使用风格更有效表1还表明，SRM显著提升了基准架构（ResNet-50/101）的性能，但参数和计算数量几乎相同。另一方面，由于其缓慢收敛的趋势，如[11]所述，GE不1https://github.com/hyunjaelee410/基于样式的重新校准模块2在GE的几种变体中，我们与他们的论文中主要探索的GE-θ进行了基线SEGESRM前1个trn准确度（%）1859表1：ImageNet-1 K验证集上的前1名和前5名准确率（%）以及复杂度比较。模型ParamsGFLOPStop-1top-5ResNet-5025.56M3.8675.8992.85SE-ResNet-5028.09M3.8776.8093.39GE-ResNet-5031.12M3.8776.7593.41SRM-ResNet-5025.62M3.8877.1393.51ResNet-10144.55M7.5877.4093.59SE-ResNet-10149.33M7.6078.0893.95GE-ResNet-10153.58M7.6077.3693.64SRM-ResNet-10144.68M7.6278.4794.20表2：CIFAR-10/100测试集与ResNet-56基线和复杂性比较的准确度（%）。模型CIFAR-10CIFAR-100Paramstop-1Paramstop-1基线0.87M93.770.89M74.76SE0.97M94.600.99M76.10葛1.91M94.321.94M76.02SRM0.89M95.050.91M76.93在固定长度的训练时间表下，在更深的网络中没有表现出改进的性能。值得注意的是，SRM优于SE和GE的数量级较少的附加参数。例如，SE-ResNet- 50和GE-ResNet-50分别需要ResNet-50的2.53M和5.56M额外参数，但SRM-ResNet-50仅需要0.06M（SE的2.37%和GE的1.08%），这显示了SRM的出色参数效率。CIFAR-10/100。我们还在CIFAR-10/100数据集上评估了SRM的性能[19]，该数据集由50，000张32×32像素的训练图像和10，000张测试图像在训练阶段，每个图像都用4个像素进行零填充然后，ELS被随机裁剪为原始尺寸，并且对原始图像执行评估。这些网络使用SGD进行了64，000次迭代训练，在单个GPU上的小批量大小为128，动量为0.9，权重衰减为0.0001。初始学习速率设置为0.2在32，000和48，000次迭代时除以10。如表2所示，SRM显著提高了CIFAR-10和100的准确性，参数增加最小，这表明SRM的有效性不受ImageNet的限制。4.2. 风格相关分类所提出的想法将通道方向的重新校准视为中间样式的调整，这是通过利用各个特征图的全局统计来实现的。这一解释促使我们探讨表3：在Stylized-ImageNet上训练时，Stylized-ImageNet和具有ResNet-50基线的ImageNet验证集的前1和前5准确度（%）。风格化的ImageNetImageNettop-1top-5top-1top-5基线53.9376.7556.1179.17SE58.3180.8060.1582.54SRM60.6982.5662.1284.06表4：具有ResNet-18基线的Risk-Home数据集的准确度（%），在5倍交叉验证上平均。ArCLPRRWAvg.基线37.4960.7372.8152.1255.47SE39.5562.7575.6055.5258.36SRM40.5064.9776.1256.3059.47SRM用于与样式相关的任务，其中显式操作样式信息可以带来显著的好处。Stylized-ImageNet. 我们首先研究SRM如何处理综合增加的风格多样性。我们使用 [8] 介绍的 Stylized-ImageNet，它是通过将ImageNet中的每个图像转换为Painter by Numbers数据集3（总共79，434幅绘画）中的随机绘画风格而构建的。由于随机传输的样式与对象类别无关，因此它是一个比ImageNet更难训练的数据集。我们按照与ImageNet实验相同的训练策略，从头开始在Stylized-ImageNet上训练基于ResNet-50的网络，并在表 3 中报告了 Stylized-ImageNet 和原始ImageNet 上的验证准确性。 SRM 不仅在 Stylized-ImageNet的基线和SE上带来了令人这支持了我们的说法，即SRM学习抑制讨厌的风格的贡献，这有助于网络更专注于有意义的功能。多域分类。我们还验证了SRM在处理不同输入域中固有的自然风格变化方面的有效性。我们采用了ESP-Home数据集[32]，该数据集由来自4个异构领域的65个类别的15，588张图像组成：艺术（Ar）、剪贴画（Cl）、产品（Pr）和现实世界（Rw）。我们结合了4个域的所有训练集，并基于ResNet-18训练与域无关的网络，除了网络在1个GPU上以64的批量大小进行训练之外，其他表4显示3https://www.kaggle.com/c/painter-by-numbers/4虽然[8]使用ImageNet预训练的网络，但我们从头开始训练网络，专注于Stylized-ImageNet上的特征。1860样式内容BN BN+SE BN+SRM IN图4：样式转换结果示例虽然BN+SRM和BN+SE与BN相比都提高了风格化质量，但BN+SRM产生了与IN相当的高得多的质量补充材料中提供了更多的例子表5：可描述纹理数据集的前1和前5准确度（%）平均值超过5倍交叉验证。4.54.03.53.02.52.01.50 255075100125 150迭代次数（x 1e3）6.56.05.55.04.54.03.5BN在BN+SEBN+SRM0 255075100125 150迭代次数（x 1e3）前1名的准确度平均超过5倍交叉验证。SRM一致地提高了准确性，在所有领域都有显著的利润，这表明SRM能够缓解不同领域的风格差异这也意味着SRM在领域适应问题[29，10]中的潜力，这些问题需要源域和目标域之间的风格差异纹理分类我们使用可描述纹理数据集（DTD）[ 3 ]进一步评估SRM的纹理分类，该数据集包括47个纹理类别（如裂缝，气泡，大理石纹等）的5，640张图像。这项任务提供了评估网络的不同视角：在识别图像中的对象之前提取引起视觉印象的大多数纹理图案的能力[4]。我们遵循[26]的数据处理设置，以及与我们的CIFAR实验相同的训练策略。使用ResNet-32和ResNet-56基线进行5重交叉验证的结果如表5所示，其中SRM实现了出色的性能改进。它表明SRM成功地模拟了个体风格的重要性，并强调了目标纹理，增强了图 5 ：样式丢失（左）和内容丢失（右）与 RainPrincess样式图像（图4中的第一行）的定量比较。关于风格属性的代表性权力。4.3.风格迁移最后，我们检查SRM的好处在生成问题的风格转移。我们使用一个单一风格的前馈算法[17]，在官方的PyTorch仓库中实现5 .网络使用来自MS-COCO数据集的内容图像进行训练[22]，遵循原始代码中的默认图5描绘了不同重新校准方法的风格和内容损失的训练曲线。如文献[31，25]中所报道的，使用实例规范化（IN）[30]从内容图像中删除样式比使用标准批量规范化（BN）[14]带来了巨大的改进。令人惊讶的是，配备SRM的基于BN的网络（BN+SRM）达到与IN几乎相同的风格/内容损失水平，而配备SRM的网络（BN+SRM）达到与IN几乎相同的风格/内容损失水平。5https://github.com/pytorch/examples/tree/主/快神经风格BN在BN+SEBN+SRM风格损失（x 1e5）含量损失（x 1e5）ResNet-32ResNet-56top-1top-5top-1top-5基线44.9673.8545.4675.54SE45.2075.6048.6377.40SRM46.5076.6350.4479.371861SE葛SRMSE葛SRMSEGESRM前1位准确度（%）前1位准确度（%）前1位准确度（%）stage280阶段380第四阶段80第五阶段8060 60 60 6040 40 40 4020 20 20 2000.0 0.2 0.4 0.6 0.81.0修剪率00.0 0.2 0.4 0.6 0.81.0修剪率00.0 0.2 0.4 0.6 0.81.0修剪率00.0 0.2 0.4 0.6 0.8 1.0修剪率图6：根据估计的通道权重修剪每个阶段的通道后，ResNet-50在ImageNet上的Top-1验证精度。阶段1被省略，因为它由单个卷积层组成，其中未应用重新校准模块。SE（BN+SE）表现出更差的风格/内容损失。这展示了SRM的独特效果，它通过动态抑制输入图像中不必要的样式来模仿IN的行为。我们还在图4中显示了定性示例。虽然BN+SE在一定程度上改善了BN的风格化质量，但与IN相比仍有很大差距。相比之下，BN+SRM不仅成功地完全转换到目标风格，而且更好地代表了内容图像的重要风格（例如，绿色玻璃和蓝天），产生竞争力的结果。总体而言，SRM的优势不仅限于区分性任务，而且可以扩展到生成框架，这仍然是未来的工作。5. 消融研究和分析在这一部分中，我们进行了烧蚀实验来验证SRM中各个部件的有效性，并对SRM的行为进行了深入的分析。正如Hu等人所指出的那样。[12]，对CNN的特征表示进行精确的理论分析仍然具有挑战性。相反，我们进行了实证研究，以深入了解SRM的区别作用。5.1. 消融研究样式池。我们验证了建议的风格池相比，不同的池选项的好处。在整个消融研究中，我们使用ResNet-50作为基础架构，并按照与第 4.1 节相同的程序处理ImageNet分类。表6列出了在我们的算法中融合了样式集成操作器的各种池化方法的结果而SRM的每个池化组件（即，AvgPool和StdPool）带来了有意义的性能改进，它们的组合进一步提高了性能。我们还将我们的方法与MaxPool以及CBAM [35]中提出的AvgPool和MaxPool的组合进行了比较，这些方法也优于我们的风格池方法。表6：不同合并方法对ImageNet验证的比较。池化top-1 acc.ResNet-50（基线）75.89ResNet-50 +平均池76.58ResNet-50 +标准池76.61ResNet-50 + MaxPool75.87ResNet-50 +平均池+最大池76.35ResNet-50 +平均池+标准池（SRM）77.13表7：不同集成方法在ImageNet验证上的比较。SP：风格池，MLP：多层感知器，CFC：通道全连接层，BN：批量归一化。设计top-1 acc.ResNet-50 + SP + MLP76.75ResNet-50 + SP + MLP + BN76.68ResNet-50 + SP + CFC76.91ResNet-50 + SP + CFC + BN（SRM）77.13风格整合。接下来，我们将研究样式集成模块，它由一个通道全连接层（CFC ）和一个批量规范化层（BN）组成。在我们的风格池运营商的顶部，我们比较CFC与多层感知器（MLP）的两个完全连接的层（在SE中使用），并验证BN在风格集成的效果。为了在样式池上构建MLP，我们沿着通道轴连接样式特征，然后按照SE的默认配置应用MLP。如表7所示，尽管CFC简单，但其表现出比MLP更好的性能，这突出了利用通道方式建模通道相互依赖性的优势。SE葛SRM前1位准确度（%）1862(a) SE（b）SRM图7：DTD上ResNet-56的conv 2 -6（64通道）中单个通道的顶部激活图像。补充材料中提供了更多的例子。这意味着SRM比其他方法更好地学习通道的相对重要性。注意，SRM仅基于样式上下文来预测通道重要性，这可以提供对网络如何在其决策过程中利用图像的样式的洞察5.3. SRM和SE数据块虽然建议SRM共享类似的方面的功能重新校准的SE块，我们观察到的字符的SRM是远远不同于SE在整个实验。为了进一步理解它们的代表性差异，我们通过寻找导致最高通道权重的图像来可视化每种方法所学习的特征。我们记录在DTD上训练的SE-ResNet-56和SRM-ResNet- 56获得的每个验证图像图7示出了顶部激活的IM。01020304050600102030405060(a) SE01020304050600102030405060(b) SRM整个验证集中conv 2 -6中单个通道的年龄。虽然SE导致跨通道的图像高度重叠，但SRM产生更大多样性的顶部激活图像。这意味着与SE块相比，SRM允许信道权重之间的更低的重叠，这导致我们进行以下探索。图8描绘了由SE和SRM产生的信道权重之间的相关矩阵。如所预期的，在SE块中的信道权重之间存在高相关性，但是SRM在信道之间表现出较低的相关性（就平方相关性的总和而言）。图8：相关性矩阵的可视化DTD上ResNet-56的conv 2 -6 （64×64）中的通道权重。补充材料中提供了更多的例子。5.2.频道修剪SRM学习自适应地预测特征图的通道重要性。在这方面，我们通过ResNet-50在ImageNet分类上的通道修剪来评估SRM学习的特征重要性的有效性。给定验证集中的输入图像，我们将每个残差块在某个阶段的通道权重按升序排序。然后，我们选择要修剪的通道，根据修剪率的顺序。由于每个修剪通道都填充零，因此要传递的信息量随着修剪比率的增加而减少在修剪比等于1的极端情况下，输入特征图直接通过恒等映射，忽略残差块。我们比较了在不同阶段将通道修剪应用于SE、GE和SRM时的验证精度，并在图6中报告了结果。在剪枝过程的早期阶段，准确性基本保持不变，但在一定的剪枝率之后，准确性迅速下降。在所有阶段中，SRMcom中的精度下降明显较慢，在整个网络中，SRM的数值143，909几乎是SE的420，509的三分之一。此外，SE的相关矩阵中的显著网格图案意味着通道组被同步打开或关闭，而SRM倾向于鼓励通道之间的去相关。我们之间的SE和SRM的比较表明，他们的目标非常不同的角度的特征表示，以提高性能，这是值得未来的研究。6. 结论在这项工作中，我们提出了基于风格的重新校准模块（SRM），一个轻量级的架构单元，动态重新校准功能响应的基础上风格的重要性。通过将样式合并到特征图中，它有效地增强了CNN的表示能力我们在一般对象分类上的实验表明，简单地将SRM插入标准CNN架构（如ResNet）可以提高网络的性能。此外，我们通过各种与风格相关的任务验证了SRM在控制风格分布方面的重要性虽然大多数以前的作品在图像生成框架中使用样式，但SRM旨在利用样式信息在更一般的视觉任务中的潜在能力我们希望我们的工作能够更好地利用风格来设计广泛应用的CNN架构。1.000.750.500.250.000.250.500.751863引用[1] 维兰德·布伦德尔和马蒂亚斯·贝奇。在imagenet上，用局部特征袋模型来近似cnns的效果出奇的好2019年，在ICLR。一、二、四[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2017。1[3] M. Cimpoi，S.马吉岛Kokkinos，S. Mohamed，和A.维达尔迪描述野外的纹理。 CVPR，2014。6[4] Mircea Cimpoi，Subhransu Maji，Iasonas Kokkinos，andAn- drea Vedaldi.用于纹理识别、描述和分割的深度滤波器组。IJCV，2016年。1、6[5] Maurizio Corbetta和Gordon L Shulman。控制大脑中目标导向和刺激驱动的注意力。自然评论神经科学，2002。2[6] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。2015年，在NIPS中。1[7] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。一、二、三[8] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。2019年，在ICLR一、二、四、五[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、四[10] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁：周期一致的对抗域适应。在ICML，2018。6[11] Jie Hu ， Li Shen ， Samuel Albanie ， Gang Sun ， andAndrea Vedaldi.聚集-激发：利用卷积神经网络中的特征上下文。NeurIPS，2018。一、二、四[12] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。一二三四七[13] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 一、二、三[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。6[15] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意TPAMI，1998年。2[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。 2015年，在NIPS中。2[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。1、6[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。一、二1864[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，2009年。一、四、五[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。1[21] 李阳浩，王乃彦，刘嘉颖，侯小迪去神秘化神经风格转移。在IJCAI，2017。2[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。6[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。1[24] Hyeonseob Nam、Jung-Woo Ha和Jeonghee Kim。用于多模态推理和匹配的双注意力网络。在CVPR，2017年。2[25] Hyeonseob Nam和Hyo-Eun Kim。自适应风格不变神经网络的批量实例归一化。NeurIPS，2018。一、二、六[26] Sylvestre-AlviseRebuffi ， HakanBilen 和 AndreaVedaldi。使用残余适配器学习多个视觉域。在NIPS，2017年。6[27] 罗纳德·伦辛克场景的动态表示视觉认知，2000年。2[28] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，2015年。1、4[29] Eric Tzeng，Judy Hoffman，Kate Saenko，and TrevorDarrell.对抗性判别域自适应。在CVPR，2017年。6[30] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。实例归一化：快速造型缺少的成分。arXiv预印本arXiv：1607.08022，2016。6[31] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。改进的纹理网络：最大化前馈风格化和纹理合成的质量和多样性。在CVPR，2017年。6[32] HemanthVenkateswara 、 JoseEusebio 、 ShayokChakraborty和Sethuraman Panchanathan。用于无监督域自适应的深度散列网络。在CVPR，2017年。一、五[33] Fei Wang，Mengqing Jiang，Chen Qian，Shuo Yang，Cheng Li ， Honggang Zhang ， Xiaogang Wang ， andXiaoou Tang.用于图像分类的剩余注意力网络。在CVPR，2017年。2[34] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在CVPR，2018年。2[35] Sanghyun Woo，Jongchan Park，Joon-Young Lee，andIn So Kweon. Cbam：卷积块注意模块。在ECCV，2018。二、三、七[36] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel和Yoshua Bengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。ICML，2015。2

下载后可阅读完整内容，剩余1页未读，立即下载