卷积的卷积：内核在空间上协作

84 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

651视杆细胞锥细胞双极细胞无分泌细胞化学突触Ret伊纳卷积的卷积：让内核在空间上协作荣珍赵健李振智吴伟林喜科技中国北京，邮编：100097{rongzhen.zhao，jian.li，zhenzhi.wu}@ lynxi.com摘要在生物视觉通路特别是视网膜中，神经元以电耦合作为其局部关联沿着空间维度平铺，而在卷积层中，核沿着通道维度单独放置。我们提出了卷积的卷积，在一个层中关联内核，让它们在空间上协作。通过这种方法，层可以为特征图提供额外的变换，并一起学习其内核，而不是孤立地学习。它只在培训期间使用，带来的额外费用微不足道;那么它可以在测试之前被重新参数化为普通卷积，从而在诸如分类、检测和分割的任务中无偿地提高性能。当需要更大的接收场时，我们的方法效果更好。代码可在网站上获得：https://github.com/Genera1Z/ConvolutionOfConvolution。1. 介绍近几十年来，深度学习方法极大地提升了各种计算视觉（CV）任务的算法性能特别是卷积神经网络（CNN）中的卷积运算，由于其强大的特征提取能力而显得尤为重要。为了提高性能或效率，已经尝试了各种方法来改进卷积运算。最早的努力是通过降低通道[1，10，30]或空间[19，31，33]或两者[34]中的连接性来实现轻卷积以下试验增加了内核形状或值的自由度[5，17，42]。最近的是由输入生成的动态权重[18，27，40]。有些人将注意力或多尺度引入卷积[4，9，12，22，39]，这更像是块。在模拟视网膜和随后的视觉通路，如图所 1 [11，36]，这些方法与标准卷积没有什么不同：不同的神经元群体*通讯作者。图1.电流卷积成功地模拟了视网膜的许多关键特征，除了电突触。不同类型的紧密神经元之间的我们通过在层内的内核上使用空间关联（左侧的垂直红色箭头）来被建模为不同的卷积层;群体之间的连接化学突触，被建模为连接不同层的权重;群体内的不同神经元类型由层内的不同核来建模，而相同类型的神经元由在空间维度上共享的一个相同核来建模;在靠近的神经元之间的电突触（图中的红色箭头）。1右），然而，没有得到很好的处理。电突触提供了神经信号在局部区域瞬时传递这种效应在协调相邻神经元一起执行视觉感知方面也起着重要作用[11，36]，我们认为在CNN的实现中不应忽视这一点在当前的方法中，相同类型的紧密神经元之间的电突触涉及那些相邻卷积滑动窗口的空间重叠（图1中的水平红色箭头）。1左）的一个单一的内核在一个层;电sysnapses之间的密切神经元的不同，仁空间共享视杆细胞锥细胞化学突触双极细胞无分泌细胞……视网膜…conv2conv1不同内核/通道652三种类型尚未实现。受此启发，我们提出了“卷积的卷积”（CoC）方法，其中核之间的空间关联（图中垂直的红色箭头）。1左），让他们在空间上合作。它可以无缝地取代目前的卷积层。它在训练过程中只会带来微不足道的额外成本，然后可以在完成后重新参数化为原始卷积版本，这使得各种网络在测试期间重新构建CoC时获得了巨大的我们的贡献是：(1) CoC方法的提出，为其他工作的跟进开辟了新的思路;(2) 实现关联以使内核在空间上协作以更好地进行特征提取;(3) 对超参数如何影响CoC的性能进行详细的消融研究(4) 在各种骨干和视觉任务上评估CoC，以证明其优越性。2. 相关作品现有的卷积技术可以粗略地归类为降低连接性的技术、调整统计的技术和放宽形状或值的技术。“Lonely”降低核的连通性的工作不提供联合核的约束。巧妙手工制作的轻卷积拓扑，如GWC，CWC，1D-Conv，PSConv和MixConv [1，10，19，33，34]，在层中的内核之间没有关联。这与基于L0正则化或修剪技术的稀疏卷积相同，例如SSL和DeepR [3，37]。自由化核的形状或价值的作品不考虑该协会。DeformConv、Active-Conv [5，17，42]等通过额外的特征映射来变形形状和调制权重， WeightNet 、DyNet、Involution[18，27，40]等通过输入动态生成权重，都不关注其他方面，如关联，除了卷积的自由化。相关内核其中一些调整内核统计数据的工作有代表性的，包括SO，SN和OCNN [2，26，35]，监督层中的内核以额外的损失收敛到正交状态，使得内核是多样的，权重得到充分利用。通过标准化和/或中心化来标准化权重的作品，例如WN，CWN和WS [16，28，29]，不一定会进行关联，但值得参考。协会vs 多样性我们用另一个卷积来关联内核由于卷积的平滑效应和线性相关性，卷积核的离散性往往受到损害因此，关联性和多样性是一对矛盾。典型的解决方案包括跳跃连接和扩张[14，20，38]。上述标准化和正交化也是可能的选择。重新参数化重新参数化的工作[6-3. 该方法我们的方法卷积卷积（CoC）首先提出，然后进行数学分析，其次是实现细节。3.1. 卷积的卷积这里有两个定义-基本卷积：对应于标准卷积;超级卷积：在基本卷积核上施加空间关联的额外卷积。Co基本核函数k…(1)重新排列成co/4输出“特色”……关联内核(3)重新排列超级内核*(2)超卷积*Ksco/4…2k…输入“特色”图2.在空间上关联内核。(1)将每组基本核沿宽度和高度重新排列成(2)将每个“特征”与特定的超级内核进行卷积;（3）将超卷积的“输出特征”重新排列回来。让内核在空间维度如图所示。2，给定一个基本卷积，其核的张量的形状为（c o，ci，k，k）。(0)将它们分组，例如，每四个内核作为一个组，并且如果C0不能被精确地划分，则填充零。(1)沿着宽度和高度将每组重新排列成形状（co/4，ci，2k，2k），并将它们视为“输入特征”。(2)对于“输入特征”，形状为（ci，1，2k，2k）的每个特征与形状为（1，1，k s，k s）的特定超核进行6531c1a1d1b3c4d1a2bD一B1a1a1a1cSS1a1d1b3c4d1a2bCcD一Bbbb0001a2b2b2b1a2b2b·滑动窗口出 fi(3)重新排列(1)重新排列成fu，v我超级补丁fu，v一B*4a4b3a3b2a2b1a1b4D3D2d1c 1dO1a2b* ξ-12b1a4dCD3c 4d3cb0的fu，vbξS（u，v）th超1a滑动窗口超出fb2b4d3cf外的第（u，v）个超滑动窗口O(2)超卷积BB我∗∗我O我我我O其在“批量”维度C1上共享(3)重新排列“输出特征”，得到空间关联的核。(4)最后，可以使用这些内核计算公共卷积。在训练期间，在每次迭代时执行步骤（1 - 3），以保持相关联的内核最新;其他的一切都和普通的情况没有什么不同。持续时间在测试中，预先计算步骤（1 - 3），即，将CoC重新参数化为普通卷积，这样模型就可以免费享受性能提升。请不要将我们将内核分组与分组卷积技术混淆。也不要混淆我们的重新安排每个组沿宽度和高度增加内核大小许多倍。CoC在前向和后向传播中究竟是如何工作的？数学分析如下。正向：在输出通道之间提供额外的转换在前向传播中，CoC假设CoC层具有基本内核b0和超级内核s;2和如图3较低，给定CoC超卷积是线性的，CoC运算可以等价于fo= Fcoc（fi）=<$−1（s<$$>（b0<$fi））（2）其中b0fi实际上是公共卷积fo=Fstd（fi）=b0<$fi（3）其余部分在Eq中。（2）表示输出通道之间的额外变换。注意：额外的变换是普通卷积所没有的，更重要的是，它可以在训练后重新参数化为普通卷积，因此在测试期间不会出现计算负担。此外，Eq.（2）发生在每个“超级滑动”窗口中，其中四个相邻的公共滑动窗口共享侧边，如图所示。3、青色盒子所以Eq.（2）可以重新定义为fo=θ（n−1（snn（b0nfu，v）=θ（fu，v）（4）对于所有可能的u和v，其中θ（）是超滑动操作，fu，v是第（u，v）个超滑动窗口中的输入特征块;f u，v是输出超级补丁：f u，v=<$−1（s<$*<$（b0<$f u，v））o我=−1（s（{k1pa，k2pb，k3pc，k4pd}））我我我（五）=−1（s（{p1a，p2b，p3c，p4d}））b b b b=−1（s（fu，v））其中，运算符*是在每个子补丁而不是超级补丁;k1和k4是基本的ker-nelsb0;pa和d是组成超级面片u，v1ai iu，vfi;pbp4d由fb组成，如图所示4.第一章（u，v）th super图3.上面是步骤（0 - 4）之后的CoC层，其中首先进行超卷积;下面是它的等价层，其中最后进行超卷积，即，在输出声道之间提供额外的变换。这里，基本核是b0，超级核是s;“重新排列成”和“重新排列成”“回退图4. Eq.的额外变换的意义。（5）描述。对于当前的超级滑动窗口，（1）将子块p1a~p4d重新排列成一个超级块;（2）对超级块进行卷积B b是fi和fo。如图3上部，CoC操作之后（3）将返回的补丁重新排列回原来的位置。这里fu，v是fi的超级面片，其中p ap d是它的子面片。注：填充零例程是重新-上述步骤（0 - 4）可以表示为fo= Fcoc（fi）=<$−1（s<$$>（b0））<$fi（一）通过填充当前超级滑动窗口周围的特征内容来放置。其中s <$（b0）是步骤（2）的超卷积，而<$−1（s<$（b0））是步骤（1 <$3），即空间关联现在这个额外的转换的意义很清楚了：对于当前的超级滑动窗口，（1）输出特性fiiiξb*B1可以训练后重新参数化S*ξ-1fob0的fiii以这种方式滑动重复滑动...一个滑动窗口fofbξ* ξ-1b0*S654……··一BCD捷克共和国1我捷克斯洛伐克2我我我我·∗∗Σ我我片P1a、P2b、P3c和P4d被重新排列成十字形，b b b b（2）该超级补丁然后被s卷积，产生具有相同大小的新超级补丁;（3）新的超级面片被重新排列回原来的形状。Eq的证明（二）、对于第（u，v）次超级滑动，f u，v=<$−1（s<$$>（b0<$f u，v））xconv1yconv2zo我=−1（s（{k1pi，k2pi，k3pi，k4pi}））=100- 1−1（s）a我k3磷酸丙酯1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000B（一）k4pdk20k1D=（s）（我k30k 40加...））k30k4炸药=100- 1（s）2019 - 01-2201：01：02（a0分+...Σ00ΣD ）））图5.上图是普通卷积的梯度流k3k4000pi其中，内核k=−1（s1号线k2电子邮件*appb）p1梯度和特征仅为y;较低的是CoCk3k4c d=−1（sk1k2）{pa，pd，pc，pd}层，其中k 1的梯度也取决于conv1中的其他内核。CoC内核通过相互引用来学习。这里x，y和k3 k4=−1（s（b0））fu，v我我我（六）z是层conv1conv2。其中，k*是在每个子块中运算的卷积解，其中ki′=α（ki;kj|j（i）是第i个关联内核，这意味着它与sQ都是线性的，-1（），因此可以移出并简化为。替换方程（6）到Eq.（4）证明已经完成。K1梯度K2K5K3…K4K1梯度K2K5K3…K4……我我655·∗·1克朗×∗反向：通过相互引用来学习层内的内核在反向传播中，CoC假设两个层conv1和conv2及其输入、中间和输出特征x、y和z，并且将累积到特征y的梯度表示为G。对于常见的卷积图。5、根据其值和梯度都显式地依赖于该层中的其他内核简单地说，CoC内核是通过相互引用来学习的。3.2. 实现细节简单的实现如图所示。六、最棘手的部分是步骤（2）“超级卷积”：C 0/4个“输入特征”中的每一个由特定的超级核卷积，该超级核的权重被共享C1次。注意XXX标记的行。根据链式法则，核k1###initg1=G×伊1号线=G×n（k1 n x，k2 n x，. -是的- 是的k4 x）1号线（七）co 4=输出通道//2**2weight1 =张量（out_channels，in_channels，*kernel_size）co，ci，kh，kw= weight1.shape# 0 #创建super conv=G×x其中G是累积梯度，取决于当前的训练示例和模型简单地说，普通卷积核只能粗略地学习。对于图中绘制的CoC 5在下面，将上述空间关联表示为α（）=ε−1（s ε（））。那么k1self.conv_super =Conv2d（co4，co4，super_kernel_size，super_stride，super_padding，super_dilation，groups=co4）#XXX# 1 #重新排列空间关联weight2 = rearrange(weight1, '(co4 2 2) ci kh kw -> co4 ci (2 kh) (2 kw)')重量3 =重量2。permute（1，0，2，3）#XXXself.weight =参数（weight 3）#转发# 2 #使用super conv关联重新排列的基本内核weight4 =self.conv_super（self.weight）#XXX# 3 #重新排列以获取相关的内核重量5 =重量4。permute（1，0，2，3）#XXXweight6 =rearrange（weight5，'co4 ci（2 kh）（2 kw）->（co4 2 2）ci kh kw'）# 4 #使用相关的内核来执行公共卷积xo= F。conv2d（xi，weight6，self.bias，stride，padding，dilation）g=G×μ y=G×n（k1′nx，k2′nx，. -是的-是的k4′x）1号线（八）图6.训练过程中CoC的伪代码。对于测试，步骤#2/3被移动到init中进行重新参数化。=G（k α（k1; k2，. - 是的- 是的 k4）+。- 是的- 是的 α（k4; k1，. - 是的- 是的 k3）x）1号线可配置超参数1656×××××Δ重排+元素求和*convolution-2dwb：基本内核ws：超级内核c1x1不|FXiWBwsΔ*+超级COCΔ基本*跳跃扩张STND不|FT|F不|FsaSKPXo1,2,3..0,2,4..奥斯特T| FSL1，2，3..图7.CoC的超参数左边是可配置的超参数：sa，空间关联; skp，超级内核+; sl，超级层的数量;跳过，跳过连接;dilat，扩张; stnd，标准化;正交化; c1 x1，替换conv 1x 1。右边是CoC重建的网络在Tiny-ImageNet上的性能：x轴为不同设置，y轴为val acc%;像201这样的数字表示sa/skp/sl连续;像no skip这样的标识符表示skip =false，默认值为true。为了优化，需要考虑一些超参数或辅助技术，如图所示。7左(1) 空间关联sa：为关联而分组在一起例如，在一个示例中，如果sa=2，则四个核关联在一起;(2) 超级内核加skp：超级内核大小在基本内核大小的基础上扩展或膨胀了多少。给定基本核大小为3.3，如果skp=2，则超级核大小为5.5;(3) 超层数sl：用作超卷积部分的层数;(4) 协会vs 多样性如第 2 、 skip connectionskip 、dilationdilat、-regonalizationorth[35]、standardizationstnd [28]等方法可以保证关联下核(5) 替换conv1x1c1x1：是否用CoC替换内核大小为11的卷积层。注意：由于关联是卷积，skp、sl、skip和dilat等点应该被视为CoC的内在部分，但orth和stnd不是，因为它们实际上是我们的竞争对手，但与CoC兼容。请参阅Sec。4.1更多信息4. 实验本文阐述了CoC的超参数对网络性能的影响，以便读者更好地理解我们的思路，在进一步的探索中少走弯路。然后是对我们的评价。在这些超参数的最优设置下，对典型任务进行了仿真。4.1. 确定超参数我们使用的代码库是mmcls1。我们使用的数据集是Tiny-ImageNet2，它是ImageNet的子集，包含200个类和10万个示例，其中的图像大小调整为128 128从64 64.主干是ResNet 18和ShuffleNetV 2 -1x，分别代表（a）标准和（b）轻量级模型。其他培训设置是完全相同的。结果示于图7右分析(1) sa：不同的设置得到类似的结果，sa=2似乎是最好的。这是因为超卷积只能提供其感受野内的关联，因此太大的sa没有本质的区别。请参考图8个用于视觉解释;(2) skp：应该大于0，即超级内核最好大于基本内核，但太大会影响性能。这可以解释为太大的超级内核可能过度地关联基本权重。也请参考图。8个;(3) SL：不是越大越好。考虑到我们实验中train/val精度之间的差距，超级层越多，越容易过拟合;1https://github.com/open-mmlab/mmclassification2http://cs231n.stanford.edu/tiny-imagenet-200.zipsaskp（nodilat）SLskip|迪拉特|Orth| STND|c1x15857.55756.55655.5原始ResNet1855101-201-401-801121-221-421-821 201-221-241 421-441-461221-222221无跳跃诺迪拉特无正角no_stndc1x1幼稚saskp（nodilat）SLskip|迪拉特|Orth| STND|c1x15352.5 5251.55150.550101-201-401-801 121-221-421- 821 201-221- 241 421-441-461 221- 222221无跳跃诺迪拉特无正角no_stndc1x1幼稚657sa=2sa=4sa=2sa=4sa=2sa=4sa=2 sa=4×××××...…skp=0;无扩张……skp=2; nodilat skp=2;dilat对于简单前馈和多分支交互模型，优化器为SGD，lr0 =0.1，nesterov=true，动量=0.9，权衰减= 1 e-4;学习速率在#30/60/90时期以比率=0.1的“阶跃”模式衰减，并且时期的最大数量为100。为轻质模特的优化器是SGD图8. sa，skpdilat的分析。假设基本内核（绿、蓝、紫）大小为3 3;超级内核（橙色）大小取决于Skp。左：如果skp=0，则相关面积最多为3 3，因此当sa > 2时它中心：如果skp=2，则相关区域为5 5，并且当sa>3时饱和。此外，当skp>0且dilat=false时，超级核几乎线性相关基本核中的每个元素，这损害了核的多样性. 右：如果启用dilat，过相关性将得到有效缓解。（4，5）skip，dilat：always beneficial.它们确实减轻了过度联想并保持了内核(6) orth[35]：总是有益的，特别是对于标准模型。这是因为正交化确实充分利用了模型(7) stnd[28]：对标准模型好，但对轻型模型不好。这可能是因为轻量级模型的权值有限，因此需要一些离群点来增加核的多样性，而权值标准化抑制了这种多样性;(8) c1x1 ：用 CoC 替换 conv1x1 是有害的，因为conv1x1最初是为通道投影而不是空间变换设计的总结首先，我们的CoC甚至与orth和stnd等竞争对手兼容，与他们联合使用CoC可能会创造更多的利益。我们的CoC的最佳设置是：sa=2，skp=2，sl=1，skip=true，dilat=true和c1x1=false。对于标准模型，最好将CoC与正交化结合使用;而对于轻量型，则很有必要抛弃标准化。4.2. 典型任务评估在上述最佳设置下，我们评估了多个典型视觉任务的CoC。我们进行这些实验都在他们广泛认可的设置，没有特殊的定制。图像分类我们使用的代码库是 mmcls 。数据集是 Im-ageNet3 ，输入大小为 224 224 。主干网是 ResNet18/50 、 HRNet 18/18 small 、 MobileNetV 3small 和ShuffleNetV 2 -1x [14、15、25、32]，代表主流架构，即（1）简单前馈，（2）多lr0 =0.5，动量=0.9，重量衰减= 4 e-5;学习速率以幂次=0.9和min-lr=1e-4的“poly”模式衰减，最大epoch数为300。所有这些模型都在RTX 3090型的四个GPU上以batch-size=64进行训练，具有相同的数据增强，即，调整大小裁剪和随机翻转。表1.ImageNet/val上的图像分类结果#骨干COC Orth STND访问%±%12C70.0170.400.0140.0183ResNet18C70.38 0.0204C70.65 0.0095CC71.20 0.01967ResNet50C76.2576.450.0400.0418CC77.07 0.037910C74.0374.250.0100.01511HRNet18-sC74.34 0.08212C74.59 0.00913CC75.14 0.0231415HRNet18C75.8276.070.0150.01616CC76.98 0.01017ShuffleV2-1.0xC69.59 0.0621870.24 0.06419 MobileV 3-小型C66.34 0.0582066.84 0.061根据结果Tab。1#1/2/3/4和#9/10/11/12，单独使用CoC确实可以提高性能，但优势不明显，仅为0.2 ±0.6%。但根据#2/3/5、#7/8、#10/11/13和#15/16，CoC与orth或stnd可以达到“一加一大于二”的效果因此，我们的方法是有竞争力的，在一定程度上，如果克服过度关联和内核的多样性得到保证。目标检测实例分割我们使用的代码库是 mmdet4 。数据集为 COCO20175，输入大小为1333 800。检测模型是RetinaNet-ResNet 50 [21]，实例分割模型是MaskRCNN-HRNet 18[13]。预训练的权重从上述分类任务中加载，即选项卡. 1#7/15。（3）轻质量。4https://github.com/open-mmlab/mmdetection3https://cocodataset.org/#detection-2017 https://image-net.org/challenges/LSVRC/2012/index.phpsa=2 sa=4sa=2 sa=4………………………………658×- -表2.COCO 2017上的对象检测实例分割结果#网络地图映射50 映射75图S地图M图L1RetinaNet-R5036.355.138.820.140.147.8bbox2RetinaNet-r50-stnd37.956.940.621.342.150.03RetinaNet-r50-orth37.656.440.721.041.949.94RetinaNet-r50-coc38.157.040.821.542.050.15MaskRCNN-hr1833.954.336.318.936.445.8掩模6屏蔽RCNN-hr 18-stnd34.956.037.419.937.947.27MaskRCNN-hr18-orth35.155.837.920.037.647.58MaskRCNN-hr18-coc35.656.238.220.338.147.8对于对象检测和实例分割，优化器是SGD，lr0=0.01，动量=0.9，权重衰减= 1 e-4;学习速率在时期#8/11以比率=0.1的“阶跃”模式衰减，并且时期的最大数量为12。所有这些模型都是在四个RTX 3090型GPU上以batch-size=4进行训练的，具有相同的数据增强，即，仅随机翻转根据Tab。2、对象或实例越大，我们的方法执行得越好。该方法对小 /中 /大目标的检测分别提高了1.4/1.9/2.3 mAP，对小/中/大实例的分割分别提高了1.4/1.7/2.0 mAP。语义分割我们使用的代码库是mmseg6。数据集为Pas- calVOC 07127，输入大小为512 512。型号为FCN-R50 d8[23]和HRNet-W18 [32]。预训练的权重从上述分类任务中加载，即选项卡. 1#7/15。优化器为SGD，lr0 =0.01，动量=0.9，重量衰减=5e-4;学习速率以幂次=0.9，最小线性回归系数= 1 e-4的“poly”模式衰减，最大迭代次数为20 k。所有这些模型都是在四个RTX 3090型GPU上以batch-size=4进行训练的，具有相同的数据增强，即，随机裁剪、随机翻转和照相测量失真。根据Tab。3、我们的CoC总是能提高他们的能力。FCN和HRNet的mIoU和mAcc分别获得近3.0分和3.5分如果没有预训练为了消除由于预训练的性能差距而产生的干扰，还进行了从头开始训练的实验，在这种情况下，CoC根据Tab。3#2/6，CoC将FCN的mIoU提高注意：进一步的训练迭代可能会缩小有和没有预训练的实验之间的差距，6https://github.com/open-mmlab/mmsegmentation7http://host.robots.ox.ac.uk/pascal/VOC表3.VOC 0712/val上的语义分割结果#网络预训练mIoU mAcc aAcc12FCN-r50d8C66.97 75.99 92.1623.53 32.23 80.203FCN-r50d8-stndC69.16 78.42 92.654FCN-r50d8-orthC69.01 78.36 92.6256FCN-r50d8-cocC69.52 79.1434.25 46.35 83.1778HRNet-w18C72.13 82.33 93.5935.23 49.74 82.289HRNet-w18-stndC74.34 84.87 93.9110HRNet-w18-orthC74.17 84.84 93.881112HRNet-w18-cocC74.81 85.65 93.9741.39 58.81 83.28这不会改变我们的方法加速收敛的事实。CoC引入在训练过程中，CoC通常会给这些网络带来不可避免的额外成本：不到0.5%的内存和5到10%的时间。在测试过程中，绝对没有额外的成本与他们的原始版本兼容。总结我们的方法在分类任务上的优势不是很理想，我们的方法的准确率只是略有提高，甚至不如现有的方法具有竞争力。然而，对于需要更大感受野的任务，如检测和分割，CoC显然是一种优越的方法。我们试图在SEC中解释这一点。五、5. 讨论在我们的空间关联下学习什么内核我们将ResNet我们选择ResNet50及其CoC变体的模型，对应于Tab。1#6/7。为了进行一致的比较，这些内核通过（w w.min）/（w.max w.min）进行归一化，其中w是内核。然后在CoC中学习内核6591024像素×以空间关联组为单位绘制，如图所9右边-每四个内核沿着宽度和高度平铺，就像它们在空间上的关联一样常见的卷积核，如图所示第九，以同样的方式画。8用于提取CAM，其中前10个类映射通过最大值融合在一起以覆盖准正确的分类，如图8所示。10右边的两列。根据图 10、ResNet 50完全感知落在其ERF内的小对象，而部分感知超出其ERF的大对象;我们的ResNet 50-CoC工作得更好，如图所示。10由于其更大的ERF和更好的特征提取。图9. ResNet50（左）及其CoC变体（右）的第一层内核。在右边，每四个是一个关联，左上角是它们的超级内核。原始图像ResNet50的CAMResNet50-CoC's CAM根据图9、在ResNet50的常见卷积中，不同风格的图案，例如，灰色与彩色，条纹与平面，不规则地散布在这64个通道之间。相比之下，在CoC中学习的模式总是相似的，但在每个空间关联组中是互补的。此外，四个子模式在一个组内的空间分布与其超核心模式有明显的对应关系特别是在红框中，第一列的两个图案分别是明暗明暗条纹和明暗明暗条纹;第二列具有类似的外观。从另一个角度看，这一群是垂直对称的，它们的超核图案也是垂直对称的。在紫色框中，子图案是彩色条纹、灰色条纹、灰色网格和彩色平面，这在某种程度上“打破”了上述组内图案具有相似风格的规律;然而，这四个子模式具有沿主对角线的对称性，它们的超核也是如此。这反映了我们所宣称的空间合作。为什么这种现象表明，我们的方法提供了更大的有效感受野（RF），这可以通过类激活图（CAM）[41]技术直观我们选择ResNet50及其CoC变体的模型，对应于Tab。1#6/7，其中前者的理论RF（TRF）为427，有效RF（ERF）经验10粉红方块从VOC12测试集中选取包含不同尺度对象的图像，调整大小并填充到1024 768中，使得模型的ERF内和ERF外都有对象尺度，如图110原始图像工具炬凸轮图10.标准ResNet50（第2列）及其CoC变体（第3列）的CAM。具体来说，在标准ResNet 50的有效RF范围内的小船或奶牛被完全感知;但是对于大船或奶牛，它们超出了ResNet 50的有效RF，仅感知到大船的顶部和直角或右角和眼睛。相比之下，我们的ResNet 50- CoC激活了大船的大部分区域或大型奶牛的几乎所有头部区域，反映了其更大的有效RF。6. 结论提出并研究了一种新的方法 -- 卷积的卷积法（CoC）。它可以无缝取代现有的卷积运算，并以其更大的有效感受野显著提高模型消融研究显示了如何使用这种技术，对典型任务的评估显示了它可以如何改善当前模型。它可以在训练中工作，并且可以在测试之前重新参数化，以便在部署时获得可观的性能增益而对于未来的作品，我们认为类似的思考方式也值得探索：用于修剪和内核之间的跨层连接而不是激活特征的空间/通道注意力等。鸣谢本工作得到了北京市科技计划（Z191100007519009）和科技创新2030 -“新一代人工智能”重点项目（2020 AAA 0109100）的支持8https：//github.com/frgfm/torch-cam，默认设置ResNet50的有效RFResNet50的理论RF1024像素768像素VOC12/2008_000086.jpg VOC12/2008_000005.jpg660引用[1] K. 亚历克斯岛Sutskever和G.E. 辛顿使用深度卷积神经网络的Imagenet神经信息处理系统进展（NeurIPS），2012年。一、二、七[2] N. Bansal，X.Chen和Z.王. 在训练深度网络时，我们能否从正交正则化中获得更多神经信息处理系统（NeurIPS）的优势，2018年。2[3] G. Bellec，D. Kappel，W. Maass和R.勒根斯坦深层重新布线：训练非常稀疏的深度网络。在国际学习代表会议（ICLR），2018年。2[4] J. Chen，X. Wang， Z. Guo，X. zhang和J.太阳动态区域感知卷积。IEEE计算机视觉和模式识别会议，2021。1[5] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。 IEEEInternational Conference onComputer Vision（ICCV），2017年。一、二[6] X.丁氏Y. Guo，G.丁宁和J.韩Acnet：通过非对称卷积块增强内核骨架，以实现强大的cnn。IEEEInternationalConference on Computer Vision（ICCV），2019年。2[7] X.叮，X。Zhang，J. Han，and G.丁Repmlp：将卷积重新参数化为全连接层以进行图像识别，2021年。2[8] X.叮，X。Zhang，N. Ma，J. Han，G.丁宁和J.太阳Repvgg：让vgg风格的convnets再次变得伟大。IEEE计算机视觉和模式识别会议（CVPR），2021。2[9] F.冯，W.关，Y. Qiao和C.动探索图像超分辨率的多尺度特征传播和通信，2020年。1[10] H. Gao，Z. Wang和S.纪电子邮件：通过通道卷积实现紧凑高效的卷积神经网络。神经信息处理系统进展（NeurIPS），2018。一、二[11] J. Gao. 生理学（双语）。中国中医药出版社，2018。1[12] S. Gao，Y.谭，M。程角，澳-地Lu，Y. Chen和S.燕.具有100k参数的高效显著对象检测。欧洲计算机视觉会议（ECCV），2020年。1[13] K.他，G.吉基奥萨里山口Dollar和R.娘娘腔。面具r-cnn 。 IEEEInternational Conference on Computer Vision（ICCV），2017年。6[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR），2016年。二、六[15] A. Howard，M. Sandler，G.楚湖，澳-地陈湾，澳-地Chen，M. 谭、W. Wang，Y.朱河，巴西-地Pang，V. Vasudevan，Q.V.Le和H.Adam.正在搜索mobilenetv3。IEEEInternationalConferenceonComputerVision（ICCV），2019年。6[16] L. Huang，X. Liu，Y.刘湾，澳-地Lang和D.涛.中心权重归一化加速深度神经网络训练 IEEEInternationalConference on Computer Vision（ICCV），2017年。2[17] Y.全和金金活动卷积：学习图像分类卷积的形状。在IEEE计算机视觉和模式识别会议（CVPR），2017。一、二[18] D. Li，J. Hu，C. Wang，X.李角她，L. Zhu，T. zhang和Q.尘卷积：将卷积的固有特性反转以用于视觉识别。IEEE计算机视觉和模式识别会议（CVPR），2021。一、二[19] D. Li，长穗条锈菌A.Yao和Chen Q.Psconv：将特征金字塔压缩到一个紧凑的多尺度卷积层中。在欧洲计算机视觉会议（ECCV），2019年。一、二[20] G. Li，M.Muller，A.Thabet和B.加尼姆Deepgcns：gcns能和 cnns 一样深吗？ IEEE 计算机视觉国际会议（ICCV），2019年10月。2[21] T. Lin，P.戈亚尔河格希克角He和P.美元. 用于密集对象检测的焦点IEEEInternational Conference on ComputerVision（ICCV），2017年。6[22]

下载后可阅读完整内容，剩余1页未读，立即下载