可微核演化算法：寻找更好的卷积神经网络层操作

106 浏览量更新于2023-10-12 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1834--∈× ×××∈×可微核演化刘宇1，3刘继豪2曾爱玲3王晓刚1，3cuhk.edu.hkliujihao@sensetime.com1中大-商汤科技联合实验室2商汤科技研究3香港中文大学摘要本文提出了一种可微核进化（DKE）算法，以寻找一个更好的卷积神经网络的层操作。与大多数其他神经架构搜索（NAS）技术不同，我们在基本范围内考虑搜索空间：甲，甲 nel空间，其将基本乘-累加（MAC）操作的组合编码到conv-kernel中。我们首先通过一些必要的约束条件推导出广义卷积算子的严格形式，并为其额外的自由度，即每个MAC的连接构造了一个连续的搜索空间。然后提出了一种新的无监督贪婪进化算法梯度一致引导搜索（GAGS），在空间连续的搜索空间中学习每个MAC的最优位置。我们利用DKE的多种任务，如对象分类，人脸/对象检测，大规模的细粒度和识别，与各种骨干体系结构。更不用说一致的性能增益，我们发现所提出的DKE可以进一步充当自动扩张算子，这使得很容易提高小型化神经网络在多个任务中的性能。1. 介绍最近，一些作品[2，7，10，32]注意到，一个设计良好/可学习的内核形状可以在不修改宏观架构的情况下提高卷积神经网络（CNN）在某些特定任务上的性能。对于离散空间中形状为k k c in的常规核w，其中一些[7]直接将卷积核的像素扩大0，将核形状增加到nk nk c in，以便它可以容纳更大的接收场。其他一些人[2，32]声称学习数据敏感偏移O，O R W×H×k×k×2到w是一个很好的选择，这使得网络能够根据每个位置的接收情况找到一个ad-hoc接收场。他们对这项工作作出了同样的第[10]一个固定的和共享的偏移量O，OR2×k×k具有较好的推广性. 由于这些作品所处的环境和任务不同，动机也不同，在某些任务中可能会失去一般性。例如，DCN [2，32]主要关注对象检测任务，其中输入图像的上下文变化，因此需要空间注意力机制，并且很自然地预测w的特定偏移在不同的地点。然而，对于具有固定输入大小和良好对齐的输入数据的任务，如人脸分类和细粒度识别，最好不要引入额外的不确定性，如依赖于数据的核形状。为了找到内核设计的一般方向，这项工作并不专注于一个特定的任务，而是卷积运算本身。首先，我们制定了一个广义的运营商之间的输入数据和内核的MAC操作。广义形式涵盖了上述所有相关工作。在此基础上，在不带任何偏见的情况下，我们构造了两个必要的约束，以保持两个吸引人的性质，即翻译等价性和数据独立性。在给定约束的情况下，最终形式将退化为广义卷积算子，每个内核和每个通道k中的MAC位置都是自由的。我们将MAC的位置称为集合Vk，其由内核中的“有效坐标”y组成注意，每个位置处的内核大小表示为k′。那么这项工作的主要贡献是提出提出了一种可微核进化算法（DKE），用于在空间连续空间中搜索MAC中k′用离散的输入数据源搜索连续坐标y是困难的。在这项工作中，贪婪搜索算法的构造。与其他工作类似，DKE通过插值访问连续点上的数据值.然而，我们发现常用的最近点插值和双线性插值会对搜索过程产生不利影响.由于插值函数的梯度方向控制着每个搜索步骤中的演化方向（见第二节）。4的细节），它应该是在同一方向上的特设最优在每次迭代。Un-1835·幸运的是，最近的和双线性都不自然地具有这种性质。这就是说，需要一个新的称职的插值函数。为了实现这一点，我们构造了三个基本规则，即连续性，单调性和梯度一致性，最佳插值函数。我们从理论上论证了贪婪搜索的必要性。然后提出了一种新的插值核，并满足上述约束。这样，稳定性就能得到保证。这项工作需要很大的努力来找到一个好的插值函数。这样做的动机是在理论上找到一种方法，将贪婪搜索过程嵌入到网络的反向传播中。这种设计使整个系统能够在没有任何迭代训练的情况下一起优化，例如一些强化学习方法[33，34，30]。尽管有复杂的理论支持，但通过实验证明了DKE的泛化能力和先进性。我们将DKE-conv嵌入到AlexNet [14]，ResNet [6]，Reti- naNet[18]和FPN [17]等多个网络结构中，然后在多个具有挑战性的任务中验证它们，例如Cifar [13]，ImageNet[3]，100万人脸识别[12]，人脸检测[9，31]和COCO [19]对象检测。本文的一些见解和有趣的观点可以总结如下：+ 从理论上推导并证明了卷积神经网络MAC基算子的一种最一般化形式;+ 基于所设计的搜索空间，提出了一种新的可微贪婪搜索算法;+ 我们从理论上证明了梯度一致性对于可微搜索的重要性，并由此导出了一种新的连续空间逼近插值算法;+ DKE的广义形式保证了它的能力的泛化。对于大多数具有任意主干的现代任务，可以提供一致的性能增益。+ 实验还表明，DKE可以作为浅层神经网络的自扩张算子，从而显著提高轻量级模型的性能。2. 相关工作2.1. 不规则核在分类、检测和识别等任务中，大多数目标都是由各种形状构成的。然而，常规卷积仅保持矩形接收场。最近的一些研究注意到了这个问题，并提出了不同的方法来解决这个问题。（8）这是学习从数据进行空间转换的良好开端，SGD以端到端的方式进行了优化。它通过反向传播学习一个仿射变换，然后将其应用于特征图，试图获得特征的不变表达式。这种全局变换是低效的，难以学习，不能应用于像ImageNet这样的大规模数据集[3]。相反，所提出的DKE将更有效的可微变换嵌入到每个卷积核中。另一方面，AUC [10]和DCN [2，32]试图学习空间偏移以建模变换。我们将在第二节中研究它们之间的本质联系和区别以及我们的算法。 4.第一章2.2. 神经结构搜索（NAS）一般来说，NAS主要有三个流派，它试图自动搜索一个好的CNN架构。第一种是基于强化学习（RL）。[33]是第一个用来搜索NN架构的。[34]进一步提出了一种新的搜索空间，称为NAS- Net搜索空间.除了基于RL的方法之外， [26]尝试利用进化算法更有效地搜索神经网络结构。此外，[20]以一种可区分的方式对NAS进行建模。他们为每个操作添加一个门，并通过端到端的反向传播优化网络。然而，即使我们的工作也提出了一种可微的网络进化方式，它考虑的搜索空间在一个更基本的核范围，和他们的搜索算法是很大的不同。3. 可微核演化我们的目标是找到一个广义的卷积类操作，只包含乘法累加（MAC）。这个新的操作应该仍然能够胜任任何基于CNN的任务，例如分类和对象检测，它应该服从等价约束和独立约束。为了探索我们可以突破常规卷积层的程度，在第二节中。3.1我们首先将MAC运算的集合公式化为等式：1，即广义卷积。然后我们用两个约束退化它。我们将展示最终形式Eq。9可以被认为是与附加参数集Vk的广义卷积。然后Sec。3.2将详细介绍寻找最优Vk的搜索空间和搜索算法。3.1. 广义卷积公式形式上，用x，y，t ∈ Z 2表示图像/特征图坐标，用函数f：Z 2<$→ R K表示每个坐标处的像素值，其中K是输入通道数。恒等运算符基于M A C，因此它遵循以下形式：F其中w是参数也可以表示为函数w：Z2›→ RK. 基于这些表示，1836K--KKKKKxixj→KKKXXMAC操作可以表示为：通过Eq. 4和方程式5，然后对内核进行中心归一化，我们可以很容易地得到Σ[fw]（x）=ΣKf k（yf）wx（yw（x））+b k. （一）等价约束：yf，yw∈Z2k=1注意：1）对于每个输出位置x，我们有一组内核宽x以及核坐标的偏移量yw（x）;2）在输入的特征图和算子有效区域之外，f和w的值分别等于零。我们称非零区域为激活场，作为第k个通道的坐标集Vk 例如，对于具有伸缩2的传统3×3wx将为零，除非在位置属于Vk{（−2，−2），（−2，0），（−2，2），.，（2，2）}，对于所有x和k，以及yw（x）<$yf− x. 但对于可变形卷积[2]，{ w }的非零区域对于不同的x而变化。然后，MAC在f k和{w}之间操作。yw（x）=yf− x。（六）约束2. （独立约束）运算符wx及其激活字段的权重应独立于输入数据x的位置。虽然一些工作，如可变形卷积[2]，预测不同x的w x的不同激活场V k，并在一些特定任务（如对象检测）中获得相当大的改进，但它们通常在其他任务中失去泛化能力，特别是当输入图像对齐良好时（见第二节中的实验）。5.2）。不失一般性，这里我们考虑一个数据独立的内核：记住这些，我们现在制定两个约束xi，xj，w =w（七）K K在1：约束1. （等价约束）理想算子w应该等同于翻译。传统的卷积层具有吸引人的属性，称为平移等价，即翻译输入的结果相当于翻译输出的特征图，这使得它自然地支持基于滑动窗口的任务，如目标检测、分割代入Eq. 6和Eq。7到Eq。1，我们可以得到服从上述约束的广义算子的公式：Σ Σ[fw]（x）=f k（y）w k（y-x）+b k。（八）y∈ Z2K为了便于理解，可以简化如下：Σ Σ关键点检测现在考虑理想的操作，令Lt表示特征图上的坐标平移xx+t，即、[fw]（x）=Ky∈Vkfk（x+y）wk（y）+bk，（9）[Ltf]（x）= f（x-t）。（二）[[Ltf]<$w]（x）= [Lt[f<$w]]（x）（3）对于左项，我们有我们表示s=card（Vk）表示坐标num。因此，w具有形状s×K，与传统的核形状sw×sh×K相比，它更灵活。实际上，Vk充当过滤器，输入映射和内核执行MAC的位置，如图所示。1，这相当于选择内核和输入之间的连接。也就是说，对于每个Σ[[Ltf]w]（x）=ΣK[Ltf]k（yf）wx（yw（x））输出位置x，我们找到一组有效的偏移量y∈Vk，它为in建立了一组连接{x+yParticipy}yf，yw∈Z2k=1将fk和核权重wk用于完成一个MAC操作ΣΣK=yf，yw∈Z2k=1ΣΣK=yf，yw∈Z2k=1对于正确的项目，fk（yf−t）wx（yw（x））fk（yf）wx（yw（x）+t），（四）1837·›→K∈⊂fk（x+y）wk（y）+. 显然需要一个最优的Vk一个好的表现。我们将在下一节介绍如何搜索它。3.2. 搜索空间设置不失一般性，我们考虑yV kR 2而不是N 2和w：R2R K，为了可导性。一个精心设计的插值（在第二节介绍。3.3）将用于估计f和w的值，Σ[Lt[fw]]（x）=Σf k（yf）wx（yw（x-t））.非整数坐标在开始时，通过高斯采样来初始化Vk在开始的时候，Al-yf，yw∈Z2k（五）出租m样品的位置y1. s∈V k从标准高斯分布G（μ，σ）。显然，传统的1838×1GL伊基于插值函数G（x + sy，x + s y）的平移不变性，奥奥KKy伊初始化可微演化XWyyyy1y2y3fSRFyi ~ Gaussian（0，I）（一）（Sy图1.可微核演化的图解（一）DKE的定义蓝色方块表示输入（大）和输出（小）特征图。（B）在一次迭代中的搜索过程。最好的颜色。卷积核具有固定的形状sw sh，是这种设计的特殊情况。在一次训练迭代期间，偏移量y处的每个MAC采用半径为r，找到最佳进化方向y，并将y更新为y+lr，ygrey。但是，访问和评价战略成果框架内所有连续地点是很费时的。接下来，我们将介绍一种新的微分搜索算法，称为梯度协议引导搜索（GAGS），以减少搜索延迟，同时优于大多数最先进的微分搜索方法。3.3. 梯度一致导引搜索我们引入了一种贪婪搜索算法，称为梯度协议引导搜索，以搜索的Vk，可以嵌入到反向传播精心设计的插值函数。如图1，每个有效偏移量y∈V k保持一个请注意，最常见的插值函数，如双线性和最近邻不满足这些约束，由于缺乏连续性和梯度协议，分别。细节将在SEC中显示。 4.第一章连续性和单调性规则是自然的，因为y的插值空间在反向传播期间应该是可导出的，并且参考点越接近内插点，参考点的系数越高，至少不会越低。10.80.60.40.20以y为中心的局部搜索区域Sy，搜索半径r在每次迭代中，命名为y，sy∈Sy，sy∈N2和sy−0 0.5 10 0.02 0.04y_2=r.保持x的一致含义如上所述，x+y∈R2可能不是整数坐标，因此我们需要在等式中为fk（x+y）插值一个适用的值9 .第九条。Σ图2.用梯度下降法模拟y的搜索路径离散搜索空间由不同的核函数插值y的初始坐标设置为[1，0.7]，最佳位置为[0，0]。双线性插值会导致不稳定，fk（x+y）=sy∈S yG（sy，y）∈fk（x+sy）（10）缺乏梯度一致性。现在我们推导出为什么梯度一致是必要的插值函数返回sy这有助于连续位置y，它应该严格遵守以下三个规则：约束3. 连续性：G（sy，y）应该是连续的-对于贪婪搜索过程：证据将层的输出（MAC的总和）和损失函数分别表示为0和，则从等式（1），9和10，我们有几乎所有地方都可以贴标签。y ∈R 2.限制4.单调性：G（sy，y）应该是单调的-联系我们. ΣΣnk，y，sy[G（sy，y）nfk（x+sy）]wk（y）+bk非递增w.r.t. |Sy-Y|.y=约束5. 梯度一致性：的偏导数+G（sy，y）=L·w（y）f（x+s）G（sy，y）.G应该是C·（sy-y），其中C∈R，即∂yand科多罗克K吉吉y，sy（sy−y）应该指向同一个方向。1本来应该是G（x + sy，x + y），但是这个方程留下了x（十一）G（sy，y）在每个加数<$L·w（y）f（x+s）<$L中，y) =G（s y，y）.或前一个标量的负值<$L·wk（y）fk（x+104双线性我们3双线性我们210-11839−奥Ly·C2G∈∼XxyK−Ky′sy）在整数位置上隐含s个MAC（wy=fx+sy）x+sy对梯度有正或负贡献L在给定G的单调性的条件下，基于贪婪策略，当y的贪婪度达到sy或在正、负搜索区域之外时，局部L可被最小化案件分别。所以贪婪的y=ygreedy等于：. s-y，·w·f0y∆y=阿罗克克−γ（sy−y），γ∈R+，else，（十二）其中γ>=r−1。让我们一起来看看sy−y当量1112.最后，我们G（sy，y）=C（s伊伊-y），C ∈ R +.（十三）(a)（b）第（1）款图3.不同插值方法的核空间和梯度场。请注意，绿点表示参考点□基于上述规则，我们构造了负指数函数族作为插值函数的基本形式：y也是y的最优解梯度一致性的缺乏几乎发生在双线性梯度场中的任何地方3.4. 详细信息和审查12G（sy，y） = exp（−αs−y），（14）考虑到大多数相关工作都是在常用形状为3×3×K的核上进行实验，其中C是归一化常数。它根据公平比较的原则，我们设k′= 9，即δG=2α（s伊，y）（sy-y）、（15）在我们所有的实验中，card（V k）= 9。方面的搜索空间，SRF的半径设置为2（r= 2），并且对于所有实验将超参数α设置为2不仅保持了上述三个良好的性能，但是具有可忽略的计算工作量--与双线性中的10+个相比，每个点对有4个多次累加运算。图2显示了简化模拟中的搜索路径，考虑到SRF中位置0处出现一个sy，y初始化为[1，0.7]，以及等式中的标量部分。11是积极的。在这种情况下，y的最优解是0。基于所提出的核函数插值的搜索空间，由于具有良好的梯度一致性，y快速收敛到最优点，而对于双线性插值不具有梯度一致性的搜索空间，y沿曲线路径移动，甚至在接近最优点时后退. 详细说明将在第2节中介绍。4.第一章这样，可以搜索有效位置yVk以及反向传播。由于GAGS搜索的算子是数据无关和位置无关的，因此在所有空间坐标上共享Vk。为了适应不同情况下的学习内核，这里我们在广义卷积上添加了一个轻量级的自注意算子。首先，注意力得分a将通过对所有y进行简单的1×1卷积产生在每个坐标上：ax= [gf]（x+y））∈Rk.在那之后，但当α∈[1e0，1e1]时，收敛性和性能对α不太敏感.给定一个网络架构，我们首先通过采样y来初始化每个内核中的V k高斯（0，I）同分布，然后，我们在任意任务上训练网络，并且在每次迭代中随着反向传播自动搜索y4. 讨论为什么双线性核函数不如负指数核函数有效和稳定？所有研究非规则核的工作[2，10，32然而，我们认为这是不好的贪婪搜索过程。为了更好地理解差异，我们在图3中可视化了双线性和负指数函数的核形状和相应的梯度场。很明显，双线性梯度场的方向并不指向大多数具有显著偏差的坐标上的最优值。这可以很容易地通过双线性GB（sy，y）.我们只显示当y和注意力分数将在每个相应的MAC中相乘。也就是说，Σ Σyyy和其他情况是对称的：[fw]（x）=Ky∈Vkaxf k（x+ y）w k（y）+bk.（十六）B=transs（y s伊）−1，ysy（十七）双线性缩放jµ负指数族缩放jµ插值核梯度场yyy1840·×其中transs（）表示交换x和y坐标。当然，Eq。17并不指向与sy−y相同的方向。更糟糕的是，双线性空间在最优解y=sy上产生大的有偏梯度，这导致不稳定的搜索过程。与DCN [2，32]和ACU [10]的区别虽然DCN，ACU和DKE-conv的动机是不同的，但从特定的角度来看，所有这些都试图为卷积层学习一个灵活的“内核形状”。这些作品之间的区别可以总结如下：+ 范围：DCN建议偏移量（向量）在每个位置（上下文）中应该不同，但偏移量相同在所有输入和输出通道上共享，因此对于（输入宽度，输入高度，输入通道，输出通道，内核宽度，内核高度），偏移量的设计大小为（W，H，1，1，3，3）。ACU建议学习像素和通道共享的偏移量，因此其形状为（1，1，1，1，3，3）。在DKE中，我们不设计，但推导出的形式的偏移量从一些基本的约束，并证明在最一般的情况下，偏移量应共享的空间位置，但可能会有所不同的通道。即，通过DKE学习的层具有（1，1，K，1，k′）个偏移。秒5显示了本设计的优越性;+ 模态：DCN实际上并不直接学习偏移量，它的偏移量是动态生成的，即局部数据的线性变换，类似于DKE [8]，而DKE和ACU学习固定的内核形状，偏移量是网络本身的一部分;+ 学习方法：DCN和ACU都通过双线性插值坐标空间，并通过SGD学习参数/偏移量。DKE通过贪婪搜索来演化核形状，由于新插值函数的新颖设计，该贪婪搜索进一步嵌入到反向传播中。5. 核心视觉任务中的DKE在本节中，我们将评估DKE在四个测试任务和各种网络骨干上的表现。所有可比较的实验共享相同的超参数，例如学习率、权重衰减、动量、最大迭代等，并给出了各种骨干网、DKE+骨干网以及一些相关工作的比较。5.1. 闭集分类Cifar-10 [13]，Cifar-100 [13]和ImageNet [3]是三个最流行的对象分类数据集，分别包含10，100和1000个对象类。ImageNet比前两者更具挑战性，通常用于评估新设计的神经网络结构的性能。我们遵循标准协议，对正式分割进行训练和评估，并报告前1名和前5名错误率。为了评估DKE在浅层和深层神经网络上的性能，AlexNet [14]和ResNet [6]适合作为骨干。 AlexNet中的所有卷积层都被ACU/DCN/DKE层取代。然而，由于DCN [2]在输入特征图的空间大小很大时需要很大的工作量，因此在ResNet-18和ResNet中只替换了最后12和30个卷积层。101.结果见表。1.一、基于DKE的骨干始终优于基线，甚至优于ACU [10]和DCN [2]，这表明了所提出的广义卷积和搜索策略的优越性。5.2. 开集细粒度识别我们采用Megaface [12]作为本文中的细粒度识别基准。Megaface比分类任务更复杂，因为分散类的数量（100万）要高得多，测试集中的类与训练集中的类严格分离，因此它是研究神经网络结构鲁棒性的好方法。作为人脸识别领域最流行的设置[4，22，25，24]，选择MS-Celeb-1 M [5]作为我们的训练数据。我们遵循相同的数据列表，网络骨干和损失函数在ArcFace [4]。RSA [23]检测并对齐面部，裁剪中心110110像素并将其调整为112像素作为输入。结果见表。二、有趣的是，除了DKE的恒定增益之外，DCN [ 2 ]的性能甚至比基本模型的性能更弱。这是因为所有的人脸图像都对齐得很好，但是DCN仍然预测不同人脸的不同偏移，即使在同一位置，这会给人脸表示带来不确定性和噪声。并且特征上的一点噪声会影响在这1对1上的匹配结果。一百万的任务。这一结果表明，DKE的鲁棒性5.3. 二值类人脸检测人脸检测是一个二值类的检测任务。由于不同情况下的大尺度和姿态变化，这是一个挑战。我们遵循RSA [1]中的所有超参数设置和RSA [23]中的管道。尽管RPN中的头设计复杂，但我们仅采用阴影主干和具有单个锚的简单检测头作为我们的基线，如[23，29]所示，表示为训练数据与RSA相同[23]。图4显示了两个著名的人脸检测基准的结果。由于不同的算法是由不同的数据和主干训练的，这里我们列出了一些相关的算法。1841∼模型深度基础特种Flops（GFlops）参数（男）Cifar-Xtop-1错误。（%）C10 C100ImageNettop-k错误。（%）前5名AlexNet [14]800.7861.122.8156.3042.820.1ACU-AlexNet[10]350.7861.1--42.220.0DCN-AlexNet[2]350.9061.4--40.719.3DKE-AlexNet350.8261.221.453.139.118.2ResNet-1818 01.8311.76.8 24.630.8 10.9DKE-ResNet-186 121.8811.96.5 22.927.15 9.1ResNet-10110107.944.55.321.722.76.4ACU-ResNet-101[1]71307.944.5--21.96.1DCN-ResNet-101[2]71308.346.5--21.65.9DKE-ResNet-10171308.044.64.719.921.15.7表1.Cifar和ImageNet在各种神经网络架构下的准确性我们将基于DKE的网络与其原始形式，以及一些相关的作品。“深度”下的所有的实验都是在相同的环境和超参数配置下进行的结果是随机初始化的独立样本的三次尝试的平均值模型深度基础特种Top-1 Acc.（%）R-ResNet-18[4]18 089.4ACU-R-ResNet-18[9]6 12不收敛DCN-R-ResNet-18[2]6 1269.5DKE-ResNet-186 1291.5R-ResNet-101[4]101 097.8ACU-R-ResNet-101[1]71 30不收敛DCN-R-ResNet-101[2]71 3097.5DKE-R-ResNet-10171 3098.0表2.在100万与100万人脸检索中排名第一的准确率(a) FDDB0.850.840.830.820.810.80.790.780.770.760.75基线+DKERPN++-Res9RPN++-Res18 RetinaNet-Res18(b) 机故障MegaFace的基准测试。请注意，所有面都严格对齐。ACU在两种设置下都无法收敛，而DCN由于其引入的不确定性而表现出很结果低于每幅图像0.001假阳性的最先进的方法[15，11]供参考。这一结果表明，DKE仍然具有很强的通用性，达到了最先进的性能。5.4. 多类别物体检测模型骨干mAP[.5：.95]mAP[.5][27]第二十七话Res1828.047.3Faster-RCNNDKE-Res1829.649.3Faster-RCNNRes5034.655.4Faster-RCNNDKE-Res5035.355.9FPN[17]Res5036.358.3FPNDKE-Res5036.759.0表3.DKE和基本模型在不同检测框架和骨干上的比较DKE也在MS COCO 2017上进行了评估[19]，图4.基于两个人脸检测基准的烧蚀性研究和相关工作的比较。（a）FDDB基准的精确-召回曲线请注意，我们只比较类似的架构和工作负载。(b)X和X+DKE 在MALF上的比较，其中X表示不同的体系结构或检测框架。最常用的对象检测数据集。它包含80个类的120K图像。采用最新的最先进的流水线FPN [17]和Faster-RCNN [27]作为基于标准评估程序，原始训练分割和5，000 miniVal分割分别用于训练和评估。选项卡. 3显示了比较结果。与以前的任务不同，DKE在不同的设置上略微提高了性能。这可能是因为有限的额外信息和网络容量可以通过固定的偏移来实现。尽管如此，一致的增益仍然证明了DKE的推广。进一步的探索和研究可以围绕这一任务展开。6. 感受野研究由DKE学习的内核坐标y很有可能落在非整数位置，并且理论上，recall @ fallback=0.0011842×图5.采样内核形状的可视化。每个图像在3个Res-block中显示9个3= 729的在最后一行中，选择整个输入通道中最突出的内核（具有最高a）进行可视化。注意，为了相等比较，{[-1，-1]，[-1，0]，...，[1，1]}用于初始化y。这种情况的接收场大于原始核的接收场。图5在ResNet-18网络的最后一个特征图的一个像素上可视化了原始网络、DCN和DKE的接收场。DKE的接收场确实比原始网络更大。人们可能会担心感受野的大小会影响性能。我们通过扩大基线模型中的核大小和层的膨胀大小来研究这一点。同一组层被修改为DKE。选项卡. 4显示了ImageNet上的比较结果。增加接收场实际上会带来更好的性能。然而，DKE的性能仍然领先相当大的幅度。模型修改Top-1错误前5名错误。图6.学习9层人脸检测网络不同分支中的核形状左：通道上的平均偏移。右：在通道上随机采样的偏移。顶部/底部：大锚点/小锚点分支中的偏移。7. 自扩张浅网络最近越来越多的工作[16，28，21，17]热衷于设计用于多尺度目标检测的多分支检测器头。具体来说，不同分支的卷积运算器可以容纳不同的扩张尺寸，不同尺度的对象被分配到不同的分支。灵感来自SEC。6，我们认为有趣的是，如果不同分支的扩张大小被初始化为1，并让卷积核形状由DKE进化。我们使用9层，理论接收场为7878是一个面部检测器的骨干。检测器在第7层分成2个分支，我们分配面比128像素更小的像素将成为第一个通过设置较大的锚定尺寸（128二千二百五十六（2）为它。对于这个经济分支，我们分配三个小锚点，（十六）二、三十二2、64、2）。ResNet-18原始30.810.9ResNet-185 ×529.610.4ResNet-18扩张230.410.7ResNet-18膨胀430.110.5ResNet-18膨胀630.210.5ResNet-18DKE27.159.1表4.ImageNet上的接收域调查图6显示DKE倾向于扩展内核形状在大锚支中获得更多的感受野，而在小锚支中学习轻微和不规则的偏移。8. 结论和未来工作本文推导了卷积层的一般形式，并提出了一种新的贪婪搜索算法，使其从随机初始化演化而来。通过对插值函数的理论研究，将搜索算法嵌入到反向传播算法中。在多个主干和任务上的实验显示了这项工作的先进性。未来的工作目标应该是理解学习偏移背后的哲学。平均炮检距大锚平均炮检距小主播DKEDCN原始ResNet-6原始51.726.4ResNet-65 ×546.623.1ResNet-6扩张248.324.7ResNet-6膨胀447.924.1ResNet-6DKE42.920.71843引用[1] 陈冬，刚华，方文，孙建用于有效人脸检测的监督Transformer网络欧洲计算机视觉会议，第122-138页施普林格，2016年。6[2] Jifeng Dai ， Haozhi Qi ， Yuwen Xiong ， Yi Li ，Guodong Zhang，Han Hu，and Yichen Wei.可变形卷积网络。在 Proceedings of the IEEE internationalconference on computer vision，第 764 一、二、三、五、六、七[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页Ieee，2009年。二、六[4] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。arXiv预印本arXiv：1801.07698，2018。六、七[5] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。6[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、六[7] Matthias Holschneider 、 Richard Kronland-Martinet 、Jean Morlet和Ph Tchamitchian。一种利用小波变换进行信号分析的实时算法。见Wavelet，第286-297 页。Springer，1990年。1[8] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et al. Spatial Transformer networks.神经信息处理系统，第2017-2025页，2015年二、六[9] Vidit Jain和Erik Learned-MillerFddb：无约束环境下人脸检测的基准测试技术报告麻省大学阿默斯特分校技术报告，2010年。2[10] 全允浩和金俊模主动卷积：学习卷积的形状以进行图像分类。在IEEE计算机视觉和模式识别上，第4201-4209页，2017年一、二、五、六、七[11] Huaizu Jiang和Erik Learned-Miller。用更快的r-cnn进行人脸检测在2017年第12届IEEE自动人脸手势识别国际会议（FG 2017），第650-657页IEEE，2017年。7[12] Ira Kemelmacher-Shlizerman ，Steven M Seitz ，DanielMiller，and Evan Brossard. megeface基准：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议论文集，第4873-4882页二、六[13] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。二、六[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。神经信息处理系统的进展，第1097-1105页，2012年。二六七[15] Haoxiang Li ， Zhe Lin ， Xiaohui Shen ， JonathanBrandt，and Gang Hua.用于人脸检测的卷积神经网络级联。在IEEE计算机视觉和模式识别集，第5325 7[16] Yanghao Li ， Yuntao Chen ， Naiyan Wang ， andZhaoxiang Zhang.用于对象检测的尺度感知三叉神经网络。arXiv预印本arXiv：1901.01892，2019。8[17] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。二七八[18] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年。2[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 二、七[20] 柳寒笑，凯伦西蒙尼扬，杨一鸣。 Darts：差异化架构搜索。arXiv预印本arXiv：1806.09055，2018. 2[21] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议的论文集，第8759-8768页8[22] Yu Liu，Hongyang Li，and Xiaogang Wang.重新思考大规模识别的特征鉴别和聚合arXiv预印本arXiv：1710.00870，2017年。6[23] Yu Liu ， Hongyang Li ， Junjie Yan ， Fangyin Wei ，Xiaogang Wang，and Xiaoou Tang.cnn中目标检测的递归尺度逼近在IEEE国际计算机视觉会议论文集，第571-579页，2017年。6[24] 刘玉，宋光禄，邵景，萧进，王晓刚.用于半监督大规模识别的直推质心投影。在欧洲计算机视觉会议（ECCV）的会议记录中，第70-86页，2018年。6[25] Yu Liu，Fangyin Wei ，Jing Shao ，Lu Sheng ，JunjieYan，and Xiaogang Wang.探索面部识别之外的非纠缠特征在IEEE计算机视觉和模式识别会议论文集，第2080-2089页，2018年。6[26] Esteban Real、Sherry Moore 、Andrew Selle、SaurabhSaxena、Yutaka Leon Suematsu、Jie Tan、Quoc V Le和Alexey Kurakin。图像分类器的大规模进化第34届机器学习国际会议论文集 - 第70，第 2902JMLR 。 org ，2017.2[27] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn ： Towards real-time object detection with regionproposal networks. 神经信息处理系统，第91-99页，2015年。7[28] Bharat Singh和Larry S Davis。目标检测剪切中的尺度不变性分析在Proceedings of the IEEE1844计算机视觉和模式识别会议，第3578-3587页，2018年。8[29] 宋光禄、刘玉、姜明、王玉洁、严俊杰、冷彪。超越权衡：以更高的精度加速基于fcn的在IEEE计算机视觉和模式识别会议论文集，第7756-7764页，2018年。6[30] Mingxing Tan ， Bo Chen ， Ruoming Pang ， VijayVasudevan ， and Quoc V Le.Mnasnet ： Platform-awareneural architec- ture search for mobile. arXiv 预印本arXiv：1807.11626，2018。2[31] 杨朔，罗平，陈昌华，唐晓鸥。更宽的脸：人脸检测基准。在IEEE计算机视觉和模式识别会议论文集，第5525-5533页2[32] Xizhou Zhu，Han Hu，Stephen Lin，and Jifeng Dai.可变形Conv

下载后可阅读完整内容，剩余1页未读，立即下载