谐波网络：深度平移和旋转等变性

82 浏览量更新于2023-10-15 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1谐波网络：深度平移和旋转等变性DanielE. 斯蒂芬·沃拉尔放大图片作者：Garbin，Daniyar Turmukhambetov，Gabriel J.布罗斯托{d.worrall，s.garbin，d.turmukhambetov，g.brostow}@ cs.ucl.ac.uk伦敦大学学院摘要平移或旋转输入图像不应影响许多计算机视觉任务的结果。卷积神经网络（CNN）已经是平移等变的：输入图像平移产生成比例的特征映射平移。这不是旋转的情况全局旋转等方差通常通过数据增强来寻求，但逐块等方差更困难。我们提出了谐波网络或H-Nets，这是一种表现出分片平移和360度旋转等方差的CNN。我们通过用圆形谐波替换常规CNN滤波器来实现这一点，为每个感受野贴片返回最大响应和方向H-Nets使用了丰富的、参数高效的和固定的计算复杂度表示，我们证明了网络中的深层特征映射编码了复杂的旋转不变量。我们证明了我们的层足够通用，可以与最新的架构和技术结合使用，例如深度监督和批处理规范化。我们还在旋转MNIST上实现了最先进的分类，并在其他基准挑战上取得了有竞争力的结果1. 介绍我们解决了在卷积神经网络（CNN）中表示360次旋转的挑战[19]。目前，卷积层受设计约束，以将图像映射到特征向量，并且图像的转换版本映射到相同特征向量[21]（忽略边缘效应）-参见图1。然而，到目前为止，如果旋转CNN输入，那么特征向量不一定以有意义或易于预测的方式旋转。广受欢迎的属性，直接将输入变换与特征向量变换联系起来，称为等方差。等方差的一个特殊情况是不变性，其中特征向量在输入的所有变换下保持不变对于一个模型（比如分类器）来说，这可能是一个全局性的理想属性，但是我们应该小心，不要将所有中间级别的处理都限制为变换不变。比如说，http://visual.cs.ucl.ac.uk/pubs/harmonicNets/图1.CNN中的逐块平移等方差来自平移权重绑定，因此输入图像I的平移π导致特征映射f（I）的相应平移π，其中π=π，一般来说，由于池效应。然而，对于旋转，CNN还没有一个“硬烤”到其结构中的特征空间变换，并且如果它存在的话，发现它可能是什么是复杂的。Harmonic Networks有一个硬烤的表示，它允许更容易地解释特征映射-参见图3。考虑检测诸如蝴蝶的可变形对象翅膀的姿态在范围内是有限的，因此我们的探测器通常只能看到某些姿态一个变换不变探测器，擅长探测翅膀，会探测它们是否更大，更远，旋转等，它会用相同的表示来编码所有这些情况。然而，它不会注意到无意义的情况，例如一只蝴蝶的翅膀旋转超过了通常的范围，因为它已经扔掉了多余的姿势信息。另一方面，等变检测器不处理局部姿态信息，因此它将更丰富和更有用的表示传递给下游过程。等方差将更多关于输入的信息传递给下游过程，它还将可能的学习模型的空间约束为在自然图像形成规则下有效的模型[30]。这使得学习更可靠，并有助于泛化。例如，考虑CNN。关键的见解是，自然图像的统计数据，体现在像素之间的相关性，是a）平移不变的，b）高度本地化。因此，CNN中每一层的特征都是在局部感受野上计算的，其中权重是共享的50285029translated翻译receptive接受fields领域. 这种权重绑定既作为对图像统计的平移结构的约束，又作为减少可学习参数数量的有效技术-参见图1。从本质上讲，平移等方差已经被我们对旋转做同样的事情，并将其称为硬烘焙。目前广泛接受的应对旋转的做法是使用积极的数据增强进行训练[16]。这当然提高了泛化能力，但并不精确，无法捕获局部等方差，也不能确保网络中每一层的等方差如何保持局部旋转信息的丰富性，是本文研究的内容。数据增强的另一个缺点是它会导致所谓的黑盒问题，即缺乏特征图的可解释性。事实上，仔细检查CNN中的第一层权重可以发现，它们中的许多都是旋转的，缩放的，以及彼此的平移副本[34]。为什么要浪费计算来学习所有这些冗余的权重呢？在本文中，我们提出了谐波网络，或H-网。他们通过将滤波器约束到圆谐函数族中，将逐块360次旋转等方差设计到深度图像表示中。圆谐波是可操纵滤波器[7]，这意味着我们可以表示滤波器的所有旋转版本，只需使用有限的线性组合。这克服了在CNN中学习多个过滤器副本的问题，保证了旋转等方差，并产生了在输入旋转下可预测地变换的特征图2. 相关工作多种现有方法试图将旋转等方差编码到CNN中。其中许多都遵循一种广泛的方法，即在不同的旋转位置引入过滤器或特征映射副本。没有一种做法成为主流做法。在H-Nets的根源在于过滤器可操纵性的属性[7]。展示可操纵性的滤波器可以在任何旋转被filters. 这消除了在不同旋转时学习多个过滤器的需要，并且具有恒定内存需求的好处。因此，H-Net可以被认为是使用无限的旋转过滤器副本库。一项将可操纵滤波器与学习相结合的工作是[23]。他们从可控滤波器中构建浅层特征，这些特征被输入到核SVM中进行对象检测和刚性姿态回归。H-Net使用相同的过滤器，并添加了旋转偏移项，因此不同层中的过滤器可以具有相对于彼此的方向选择性CNN中的硬烤变换虽然H-Nets将分片式360度旋转硬烤到特征表示中，但许多相关工作已经将等方差编码为离散旋转。以下作品可分为那些对全局等方差与逐块等方差进行编码的算法，以及那些对特征映射进行旋转滤波的算法。[3]通过复制不同位置的变换滤波器，将等方差引入CNN中的90次旋转和二面角翻转。旋转翻转组合。最近，他们在[ 4 ]中将这个理论推广到所有群结构变换，但他们只展示了有限群上的应用-扩展到连续变换将需要抗锯齿和带宽限制的处理。[24]使用大量的旋转来进行纹理分类，[26]也使用许多旋转的手工过滤器副本，选择不学习过滤器。为了实现更大数量的旋转的等方差，这些方法将需要无限的计算量。 H-Nets实现了所有旋转的等变，但计算有限。[6]馈入CNN输入的多个旋转副本并融合输出预测。[17]对更广泛的全局图像变换做同样的事情，并提出了一种新的用于输出融合的逐像素池化技术如所讨论的，这些技术仅导致全局等方差，并且不产生可解释的特征图。[5]再进一步，以四次90度旋转复制每个特征图他们提出了4种不同的等方差保持特征映射变换。他们的CNN在计算内容方面类似于[3]，但旋转特征图而不是过滤器。这样做的一个缺点是，所有的输入和特征图都必须是方形的;然而，我们可以使用任何大小的输入。学习广义变换其他人试图直接从数据中学习变换虽然这是一个吸引人的想法，但正如我们所说的，对于某些转换，为了可解释性和可靠性，硬烤这些转换更有意义。[25]构造一个高阶玻尔兹曼机，它学习输入输出对中变换的线性滤波器的元组。虽然功能强大，但他们只在浅层架构上显示了这一点。[9]引入了胶囊，神经元的单位，旨在模仿皮质柱的作用。胶囊被设计为对输入的复杂变换不变性它们的输出在最深层合并，因此只对全局变换不变。 [22]提出了一种使用目标回归等变特征检测器的方法，该目标惩罚远离等变流形的表示。同样，这只会鼓励全局等方差;尽管该工作可以适于鼓励在深管线的每一层处的等方差。3. 问题分析许多计算机视觉系统努力成为视图独立的，诸如对象识别，其对于仿射变换是不变的，或者边界检测，其对于非刚性变形是H-Nets通过将 CNN的卷积滤波器约束为来自圆谐波家族，将360次旋转等方差硬烘焙到其特征表示中下面，我们概述了等方差的正式定义（第3.1节），圆谐函数如何表现出旋转等方差（第3.2节）以及圆谐函数的一些属性，我们必须注意这些属性才能成功集成到CNN框架中（第3.2节）。连续域特征映射在深度学习中，5030M图2. 复高斯滤波器W（r，φ′;e−r2，0）=e−r2 e imφ，对于某些旋转阶。作为一个简单例如，我们已经设置了R（r）=e−r2和β=0，但一般来说，我们学习这些量。旋转阶数为n的特征图与旋转阶数为m的这些滤波器之一的互相关导致特征图旋转顺序为m+n。注意，与正阶相比，负旋转阶滤波器具有翻转的虚部特征图，它们存在于离散域中我们将使用连续空间，因为分析更容易。稍后在4.2节中，我们将演示如何转换回离散域以供实际实现，但现在我们完全在连续欧几里得空间中工作。3.1. 等方差等方差是一个有用的属性，因为输入的变换π产生特征的可预测变换π，这是可解释的，可以使学习更容易。形式上，我们说特征映射f：X →Y与一组变换是等变的，如果我们可以将输入x∈X的每个变换π∈π与一个变换相的特征;即，[f（x）]=f（π[x]）。（一）这意味着我们应用特征映射和转换的顺序并不重要-它们可以互换。图1中描绘了一个示例，其显示在CNN中，整数像素平移的应用顺序和特征图是可互换的。注意的一个重要点是π=π，因此如果我们寻求Π是图像域中的旋转，我们不需要找到f的集合，使得π特征空间中的变换类等变的一个特殊情况是不变性，当I ={I}时，恒等式。图3.DOWN：输入贴片与Wm的互相关产生标量复值响应。交叉-然后-向下：与θ旋转图像的交叉相关产生另一个复值响应。波顿：我们将未旋转的响应转换为旋转响应，通过乘以e imθ。这里，r、φ是图像/特征图的空间坐标，以极坐标形式表示，m ∈ Z被称为旋转阶数，R：R+→R是被称为径向轮廓的函数，其控制滤波器的整体形状，并且β ∈[0，2π]是相位偏移项，其给出滤波器取向选择性。期间在训练中，我们学习径向轮廓和相位偏移项。示例的实部的Wm为“高斯包络”和不同的旋转顺序的例子中由于我们处理的是复值滤波器，因此所有滤波器响应都是复值的，并且我们从现在开始假设读者理解所有特征图都是复值的，除非另有说明。请注意，还有其他作品（例如， [32]），其使用复数滤波器，但我们的处理不同之处在于响应的复数相位明确与旋转角度相关。圆谐函数一些深度学习库实现了互相关*而不是卷积，因为理解起来稍微容易一些，我们考虑相关性。严格来说与复杂函数的互相关要求其中一个参数是共轭的，但我们在模型/实现中没有这样做，所以∫3.2. 复圆谐波通过数据增强，CNN可以学习一些旋转等方差，但这很难量化[21]。H-Net采用了更简单的方法，将这种结构硬烘焙。如果f是[W <$F]（p′，q′）=∫[W<$F]（p′，q′）=W（p−p′，q−q′）F（p，q）dpdq（3）W（p ′−p，q′−q）F（p，q）dpdq.（四）标准卷积层的特征映射，然后通过将滤波器限制为来自圆谐波家族的，可以硬烤360°旋转等方差（补充材料中的证明）Wm（r，φ;R，β）=R（r）ei（mφ+β）.（二）5031考虑将m阶圆谐波与旋转图像补丁。我们假设图像块只能围绕滤波器的原点局部旋转这意味着互相关响应是输入图像块旋转θ的标量函数。使用等式1中的符号，并回顾我们在极坐标（r，φ）中工作，5032M01图像F（r，φ）围绕原点逆时针旋转角度θ是F（r，πθ[φ]）=F（r，φ−θ）。作为简写，我们记为Fθ：=F（r，πθ[φ]）。这是一个众所周知的结果[23，7]（补充材料中的证明），[Wm<$Fθ]=eimθ[Wm <$F0]，（5）其中，为了简洁起见，我们用Wm代替Wm（r，φ;R，β）。我们可以看到，对θ旋转图像Fθ和m阶圆谐波的响应等价于未旋转图像F0与谐波的互相关，然后乘以eimθ。当在输入空间中进行旋转时，在特征空间中执行乘以eimθ ，并且因此，使用来自等式 1 的记法，εθ[·]=eimθ··。该过程如图3所示。请注意，我们在特征空间变换中包含了下标m这是重要的，因为我们应用的特征空间变换的种类取决于谐波的旋转阶数因为响应的相位随频率为m的输入旋转，我们说响应是m-等变特征映射。通过将输入图像视为虚部为零的复值特征映射，我们可以将其视为0-等变。过滤器的旋转顺序定义了其对输入旋转的响应属性特别地，旋转阶数m=0定义不变性，m=1定义线性等方差。对于m=0，这是-因为，记fm：=[Wm<$F0]，n∈θ[fm]=ei·0θ·fm=fm，它与θ无关. 当m= 1时，<$θ[fm]=ei·1θfm-as输入旋转，eiθfm是一个复数值的常数fm，旋转的相位等于θ。自然地，我们不限于仅使用旋转阶数0或1，并且我们在工作中使用更高和负阶数。在补充材料中证明的圆谐函数的其他重要性质是：1）旋转阶数m1和m2的链式互相关导致具有旋转阶数m1+m2的新响应。2)逐点非线性h：C→C，仅作用于幅度保持旋转等方差，因此我们可以将互相关与适应于复域的典型CNN非线性交织第三章两个相同阶数m的响应之和仍为阶数m。因此，为了构造输出与输入旋转M等变的CNN，我们要求沿任何路径的旋转阶数之和等于M，因此ΣNmi=M。（六）i=1这是支撑H-网的等方差性质的基本条件，因此我们称之为等方差条件。我们在这里注意到，对于我们的目的，我们的滤波器W−m=Wm（复共轭），这节省了参数，但这图4. 一个2隐层H网的例子，m = 0输出，输入-输出从左到右。每个水平流表示一系列具有恒定旋转顺序的特征图（圆圈）边缘表示互相关，并且用对应滤波器的旋转顺序编号。沿着通过网络的连续边的任何路径的旋转阶数的和必须等于M=0，以保持旋转阶数的解纠缠。4. 方法我们已经考虑了由与圆谐波的互相关引起的特征图的360π-旋转等方差接下来，我们使用这些结果来构建一个深度架构，该架构可以利用圆谐波的等方差特性4.1. 谐波网络特征图和滤波器的旋转顺序基于互相关求和，因此为了实现给定的输出旋转顺序，我们必须遵守等方差条件。事实上，在每个特征图上，必须满足等方差条件，否则，应该可以沿着两条不同的路径到达相同的特征图，具有不同的求和旋转顺序。问题是，将复杂的特征与以不同频率旋转的相位相结合，会导致响应的纠缠生成的特征图不再与单个旋转顺序等变，这使得它很难使用。我们通过在每个特征图上强制执行等方差条件来解决我们的解决方案是通过网络创建独立的恒定旋转顺序响应流-参见图4。这些流包含多层特征图，由旋转顺序零互相关和非线性分隔。在流之间移动，我们使用旋转顺序等于这两个流之间的差的互相关很容易检验这些网络中的等方差条件是否成立当多个响应在一个特征图上收敛时，我们有多种选择如何组合它们。我们可以将它们堆叠起来，也可以将它们合并，或者将它们相加[5]。为了节省内存，我们选择对相同旋转阶数的响应求和Σ不一定意味着响应的共轭性，除非F是实数，只有在输入端才为真Yp=Wmmn.（七）m，n：m+n=p5033嗯嗯嗯限带重采样信号图5. H-Net在连续空间域中运行，但我们可以在像素域数据上实现它们，因为采样和互相关可以互换。该示意图显示了H-Net的一个层的示例（仅限幅度）。实线箭头遵循实现的路径，而虚线箭头遵循可能的替代方案，这更容易分析，但计算上不可行。采样的引入定义了像素中心（黄点）处的等方差中心，特征图围绕该等方差中心旋转等变。然后将Yp馈送到下一层。通常在我们的实验中，我们使用0阶和1阶的流，我们发现它们工作得很好，并且CNN滤波器往往包含很少的高频信息[12]。上面我们看到谐波网络的结构非常简单。我们用径向重新加权和相移的圆谐波代替了常规的CNN滤波器这使得每个滤波器响应与阶数为m的输入旋转等变。为了防止不同旋转阶数的响应在求和时纠缠，我们将滤波器响应分离成相等旋转阶数的流。在互相关之间，我们使用复非线性，它作用于复杂的特征映射，以保持旋转等方差。一个例子是ReLU的复杂版本C-ReLU b（Xiφ）= ReLU（X+b）eiφ。（八）像素滤镜极性滤镜图6.图像是在矩形网格上采样的，但我们的滤波器是在极坐标域中定义的，因此我们在通过高斯重采样进行互相关之前对数据进行了带限和重采样互相关是可互换的[7];因此，我们要么在连续空间中进行相关，然后进行下采样，要么在离散空间中进行下采样然后进行相关。由于逐点非线性和采样也是可交换的，因此整个H-Net被视为一个深度特征映射，与采样交换。这可以让我们在非规则网格上实现H-Net;尽管我们没有探索这一点。查看离散域上的互相关，可以深入了解等方差属性的行为。在图5中，我们看到采样策略引入了多个原点，每个特征图补丁一个原点我们称之为等方差中心，因为特征映射将显示关于这些点中的每一个的局部旋转等方差如果我们转而使用更奇特的采样策略，如跨交叉相关或平均池，那么等方差的中心被消融或移动。如果我们使用最大池化，那么等方差中心将是输入图像和谐波权重的复杂出于这个原因，我们在实验中没有使用最大池实际上，值得一提的是，可以使用4个实互相关有效地实现复互相关WReFRe−WImFIm+iWReFIm+WImFRe）。（九）`x` x实响应虚响应因此，循环谐波可以在当前的深度学习框架工作中实现，只需进行小工程。请执行以下操作滤波器的网格重采样版本W（xi）=jgi（rj）W（rj），我们可以为其他非线性和2 2提供类似的类似物批量归一化[11]，我们在实验中使用其中hgi（xj）<$e−<$ri−xj<$2/（2σ）（见图6）。Thepolar表示（r，φ）可以从分量映射到目前为止，我们已经介绍了谐波网络。每个jj层是不同旋转顺序的特征图的集合，其在输入到网络的旋转下可预测地变换，rjbyrj= [rjcosφj，rjsinφj]。我会把所有的极化滤波器我们可以将每个点写为径向张量Rj和三角角张量的外积[cosmΦr，isinmΦr]相位偏移β可以被分离计算接下来，我们将展示如何在实践中实现这一点4.2. 实施情况：离散互相关J J他指出，ΣIΣΣΣ ΣW （r）=R（r）Icosβ −IsinβcosmΦrj（十）到目前为止，我们已经操作了一个域，空间维数k =R×R×{1，k∈}。然而，H-NetMJi=1jIsinβIcosβisinmΦrj需要对真实世界的图像进行操作，这些图像是在2D网格，因此我们需要对每个离散化层的输入进行抗锯齿处理我们用一个简单的高斯模糊来做这件事然后，我们可以使用常规的CNN架构，没有任何问题。这是基于这样的事实，即带限采样的顺序和其中复指数和三角函数项为是单位矩阵。这只是对星环元素的重新加权。一般来说，我们也可以使用每半径相位βri，这将允许类似螺旋的左手和右手特征，但我们没有对此进行研究5034103520352020162016m=0256256256256128128646411646416464132321161611111表1.结果我们的模型在2020CNN88H-Net3232DSN188H-DSN1个旋转的MNIST数据集，将测试误差降低了26%。* 我们的重新实施图7.我们实验中使用的网络LEFT：MNIST网络，根据[3]。RIGHT深度监督网络（DSN）[20]用于边界分割，根据[33]。红框表示特征图。蓝色框是池化（CNN的最大值和H-Nets的平均值绿框是根据[ 33 ]的侧面特征图;这些用虚线连接到DSN以便于查看。所有的主要互相关都是3×3，除非在实验部分另有说明。4.3. 计算成本我们增加了互相关的计算成本，以换取连续的旋转等方差.在这里，我们分析了计算成本的数量，乘法在标准互相关中，对于大小为h·w·iZ（高度、宽度、输入通道）的输入和大小为k·k·oZ（高度、宽度、输出通道）的滤波器，形成与输入相同大小的特征图所需的乘法次数。是M（Z）=hwk2iZoZ。在H-Net中，我们在输入上有f个旋转阶数，在输出上有r个旋转阶数，因此执行fr个复互相关。每个复数互相关可以由4个实数互相关形成，因此乘法的数量是4M（H）fr，其中iH和oH分别是输入和输出通道的数量。因此，对于类似的计算成本，我们将两者等同，得到M（Z）=4M（H）fr。重新排列;设置iH=oH，iZ=oZ和f =r;并取两边的平方根，我们得到了网络设计的简单经验法则，iZ=2fiH。例如，如果我们想构建一个计算成本与每层64个通道的常规CNN相似的H-Net，那么如果我们使用2个旋转阶数m∈{0，1}，第n个H-Ne测试通道数为64/（2·2）=16。5. 实验我们在下面验证了我们的旋转等变公式，执行一些内省调查，并针对旋转MNIST数据集[18]上的分类和Berkeley分割数据集[1]上的边界检测的相关基线进行测量我们选择我们的基线作为当前最先进的代表性示例，并证明H-Net可以用于不同的架构，用于不同的任务。我们使用的网络如图7所示。5.1. 基准在这里，我们比较了H-Nets的分类和边界检测。分类是一个典型的旋转不变的任务，应该很好地适合H-网。相比之下，边界检测是一个旋转等变任务。H-Net成功的关键是它可以实现全局等方差，而不牺牲特征的局部等方差。当然，这是一个小数据集，具有简单的视觉结构，但它很好地表明了如何将正确的等方差引入CNN可以帮助推理。我们研究了旋转MNIST数据集（新版本）[18]作为基线的分类。它有10000张训练图像，2000张验证图像和50000张测试图像。360次旋转和小的训练集大小使得这对于经典CNN来说是一项困难的任务我们与以前的最先进的论文集和[3]进行了比较，他们构建了一个深度CNN，过滤器副本为90次旋转。我们尝试尽可能地模仿他们的H-Net网络架构，使用2个旋转顺序流，m∈ {0，1}直到最深层，以及ReLU非线性和批处理归一化的复值版本（参见方法）。我们还将max-pooling替换为mean-pooling层，如图7所示。我们使用Adam [13]和自适应学习率对交叉熵损失执行随机梯度下降，如果在过去10个时期中验证准确性没有提高，则将其除以10 我们用随机选择的超参数训练多个模型，并报告在验证集上表现最好的模型的测试误差，在组合的训练和验证集上训练表1列出了我们的结果。这个模型实际上有33k个参数，比标准CNN大50%，[3]，有22K这是因为它使用5×5卷积而不是3×3。有趣的是，它在如此小的数据集上不会过拟合，并且仍然优于使用旋转训练的标准CNN我们不使用的增强我们设置了新的最先进的，与以前的最佳模型相比提高了26%深边界检测边界检测等价于非刚性变换;尽管边缘存在对于取向是局部不变的。目前最先进的m=1m=0m=1方法测试误差（%）#参数支持向量机[18]11个国家。11-[31]第三十一话4.第一章2-Conv-RBM[27]3 .第三章。98-美国有线电视新闻网[3]五、0322kCNN [3]+ data aug*3 .第三章。5022k5035表2. 我们的模型在BSD500上击败了未经预训练的神经网络基线[1]。* 我们的实现。†ImageNet预训练图8.对输入旋转角度的响应幅度的稳定性黑色m=0，蓝色m=1，绿色m=2。通过硬烘焙局部旋转等方差的可学习模型的搜索空间，我们不需要学习那么多的参数。5.2. 模型洞察依赖于微调ImageNet预训练的网络，以每个补丁为基础回归边界概率。为了证明硬烤旋转等方差作为一个强大的泛化工具，我们与以前的最先进的架构[33]进行了比较，没有预训练。我们试图尽可能地模仿[33]，如图所示。7 .第一次会议。主要区别在于，我们将所有特征图的数量除以2，以获得更快，更稳定的训练。他们使用VGG网络[29]扩展了深度监督网络（DSN）[20]侧连接。这些是1×1卷积，它对所有相关特征执行加权平均地图，调整大小以匹配输入。二进制交叉熵损失应用于每个边连接，以稳定学习。最后的我们通过在加权平均之前使用特征图的复幅度来调整H-Net的这意味着所得到的边界预测对于旋转是局部不变的。我们在代价函数中添加了一个小的稀疏正则化器，因为我们发现它稍微改善了结果。我们将DSN的Harmonic变体称为H-DSN。我们还比较了[33]与H-DSN匹配的参数数量（第一层有7个特征，而不是16个，等等）。我们还与[ 14 ]进行了比较，他们使用均值和协方差RBM。他们的技术有五个主要贡献：1）输入的零均值、单位方差归一化，2）隐藏单元的稀疏正则化，3）平均地面真实边缘注释，4）对16个输入旋转的平均输出，5）通过Canny方法对结果的非最大抑制。我们在这里，我们研究了H-Net实现的一些属性，确保H-Net设计背后的动机通过实现来实现旋转稳定性作为一种合理性检查，我们测量了m∈{0，1，2}的幅度响应对旋转的不变性。我们展示了将随机输入旋转到H网图8中的层。响应非常平坦，由于抗混叠的不精确性而具有周期性的小波动过滤器可视化来自边界检测训练的H-Net的第一层的过滤器的实部如图9所示。它们在零相位（β= 0）处对准以便于观察。由于网络是在零均值、单位方差、归一化彩色图像上训练我们在现实世界的图像中看到的自然颜色尽管如此，我们还是可以从这些检查中收集到有用的信息。大多数第一层过滤器检测颜色边界，没有通常在CNN中看到的空白过滤器，并且很少有重新定向的副本。我们还从相位直方图中看到，整个网络中的所有相位第1层第3层第5层第7层第9层执行前两种方法，但不要使用后三种方法。特别是，他们没有在ImageNet上进行预训练，而是尝试某种旋转平均来实现全局等方差，因此是一个很好的基线02460246 0246 0246 0246来衡量。我们在伯克利分割数据集（BSD 500）上进行了测试[1]。如表2所示，对于非预训练模型，H-Nets提供了优于当前最先进架构的性能，包括[14]，他们也编码旋转等方差。最值得注意的是，我们只使用了[33]中 5%的参数，显示了如何通过限制0246 0246 0246 0246 0246图9.从BSDS 500训练的H-DSN中随机选择的滤波器和相位直方图滤波器在β =0处对齐;并且定向圆表示相位。我们看到很少的过滤器副本，没有空过滤器，就像在CNN中通常看到的那样我们还看到相位上的平衡分布，表明边界及其深层特征表示在方向上均匀分布。m=1 m=0m=1方法ODSOIS#参数HED，[33]*0.6400.6502346kHED，低#参数[33]*0.6970.709115kKivinen等人[14个]0.7020.715-H-Net（我们的）0.7260.742116kCSCNN†，[10]0.7410.759DeepEdge†，[2]0.7530.772N4-Fields†，[8]0.7530.769DeepContour†，[28]0.7560.773[33]第三十三话0.7820.8042346kDCNN + sPb†，[15]0.8130.831m=05036的相位信息。这很有趣，因为这意味着模型数据消融在这里，我们研究H-网的数据效率。CNN是一个数据饥渴的群体。克里热夫斯基[16]使用了6000万个参数，在量化为256位的120万张256×256 RGB图像上训练，并在1000个类之间划分，每个权重总共有10位信息。连这大量的数据不足以进行培训，需要增加数据以改善结果。我们在旋转的MNIST数据集上运行了一个实验，以表明使用硬烤旋转等方差，我们需要比竞争方法更少的数据，这确实是事实（参见图10）。有趣的是，可以预见的是，用数据增强训练的常规CNN仍然比H网表现得更差，因为它们只学习全局旋转不变性，而不是每层的局部等方差。我们在MNIST训练的H-Net的较低层中可视化特征图（见图11）。对于给定的输入，我们看到特征映射编码非常复杂的结构。从左到右，我们看到H-Net学习检测边缘，角落，对象存在，负空间和对象的轮廓我们对BSD 500训练的H-DSN执行此操作（参见图12）。它显示了等方差被保留到最深的特征映射。它还强调了特征存在和姿态的紧凑表示，这是常规CNN无法做到的。6. 结论我们提出了一个卷积神经网络，它对分片平移是局部等变的，并且第一次对连续360度旋转是局部等变的。我们通过将滤波器限制为圆谐波来实现这一点，本质上是将旋转硬烘焙到架构中。这也可以移植到其他架构上。使用圆谐函数的好处在于，我们使用很少的参数就得到了完全的旋转等方差。这导致了良好的泛化，即使训练数据较少（或较少增强）。到目前为止，我们看到的唯一缺点图11.来自MNIST网络的特征图箭头显示相位，颜色显示幅度信息（喷射颜色方案）。有各种各样的特征编码边、角、整个对象、负空间和轮廓。表示. 特征图的更好的可解释性是一个额外的好处，因为我们知道它们在输入图像旋转下如何变换我们将我们的网络应用于旋转MNIST的分类问题，建立了一个新的最先进的。我们还将我们的网络应用于边界检测，再次实现了非预训练网络的最新结果。我们已经证明了 360° 旋转等方差是可能的和有用的。我们的TensorFlowTM实现可在项目网站上找到未来的工作扩展这项工作可能涉及硬烘烤更多的变换到谐波网络的等方差属性这将使网络表示具有更多的可表达性，将我们所看到的旋转等方差提供的好处扩展到更大的一类模型和应用程序。鸣谢支持来自Fight for Sight UK、微软研究院博士奖学金、 EPSRC Nature Smart Cities EP/K503745/1 和ENGAGE EP/K 015664/1。1.000.980.960.940.920.900.88CNNCNN+da 塔八HNet（ours）2000 4000 6000 8000 10000 12000训练集大小图12.最好的颜色。H-DSN的定向特征图图10.数据消融研究。在旋转的MNIST数据集上，我们对不同大小的训练集进行了测试准确性我们将每种方法的最大测试精度归一化为1，以直接比较训练大小的下降显然，H-Nets比常规CNN更有效，后者需要更多的数据来发现旋转等方差。色轮显示方向编码。请注意，层之间的边界方向被不同地着色，因为每个特征具有不同的β。该可视化展示了特征图内和多个层之间方向图像从第2层、第4层、第6层、第8层和第10层按顺时针顺序从大到小拍摄。标准化检验准确度5037引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence ， 33（5）：8982011年5月六、七[2] G. Bertasius，J.Shi和L.托雷萨尼Deepedge：一个用于自顶向下轮廓检测的多尺度分叉深度网络。在IEEE计算机视觉和模式识别会议，CVPR2015，美国马萨诸塞州波士顿，2015年6月7日至12日，第4380-4389页，2015年。7[3] T. S. 科恩和M。威林分组等变卷积网络。arXiv预印本arXiv：1602.07576，2016年。二、六[4] T. S.科恩和M。威林可控cnn。CoRR，abs/1612.08498，2016。2[5] S. Dieleman，J.De Fauw和K.Kavukcuoglu 利用卷积神经网络中的循环对称性。arXiv预印本arXiv：1602.02660，2016。二、四[6] B. Fasel和D. 加蒂卡-佩雷斯旋转不变的新感知器第18届模式识别国际会议（ICPR 2006），2006年8月20-24日，中国香港，第336-339页，2006年。2[7] W. T. Freeman和E. H.阿德尔森可操纵滤波器的设计和使用。IEEE Transactions on Pattern analysis and machineintelligence，13（9）：891二、四、五[8] Y. Ganin和V. S. Lempitsky N4-fields：Neural NetworkNearest用于图像变换的相邻字段。CoRR，abs/1406.6558，2014年。7[9] G. E. Hinton，A. Krizhevsky和S. D.王.转换自动编码器。人工神经网络和机器学习- ICANN 2011 -第21届人工神经网络国际会议，芬兰埃斯波，2011年6月14日至17日Proceedings，Part I，pages 442[10] J. Hwang和T.刘某用于轮廓检测的逐像素深度学习。CoRR，abs/1504.01989，2015。7[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在Proceedingsofthe32ndInternationalConference on MachineLearning，ICML 2015，Lille，France，6-11 July 2015，pages 4485[12] J. 雅各布森，J。C. van Gemert，Z.Lou和A.W. M. 史默德斯中枢神经系统感受野的结构化。 CoRR ，abs/1605.02971，2016。5[13] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。6[14] J. J. 基维宁角K. I. Williams和N.海斯视觉边界预测：深度神经预测网络和质量分析。在第十七届人工智能和统计国际会议，AISTATS2014，雷克雅未克，冰岛，2014年4月22-25日，第5127[15] I. Kokkinos 使用深度学习推动边界检测的边界。arXiv预印本arXiv：1511.07386，2015。7[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展25：26神经信息处理系统2012年年会。2012年12月3日至6日在美国内华达州太浩湖举行的会议记录第1106二、八[17] D. 拉普捷夫N.Savinov，J.M. Buhmann和M.波勒菲斯 TI-POOLING：用于卷积神经网络特征学习的变换不变池。CoRR，abs/1604.06318，2016。2[18] H. Larochelle、D.Erhan、A.C. Courville，J.Bergstra和Y.本吉欧。对具有许多变化因素的问题的深层体系结构的经验评估。在 MachineLearning ， ProceedingsoftheTwenty-FourthInternationalConference （ ICML2007 ）， Corvallis ，Oregon，USA，2007年6月20-24日，第4736[19] Y. 莱昆湾E. Boser，J.S. Denker、D.亨德森河E. 霍华德W. E. Hubbard和L.D. 杰克基于反向传播网络的手写体数字在神经信息处理系统的进展2，[NIPS会议，丹佛，Colorado，USA，November27-30，1989]，pages 3961[20] C. 李，S。Xie，山核桃P.W. Gallagher，Z.zhang和Z.涂。深层监控网。在第十八届人工智能和统计国际会议论文集，AISTATS 2015，美国加利福尼亚州圣地亚哥，2015年5月9日至12日。六、七[21] K. Lenc和A.维达尔迪通过测量它们的等方差和等价性来理解图像表示。在IEEE计算机视觉和模式识别会议CVPR 2015中，Boston，MA，USA，June 7-12，2015，pages 991第1、3条[22] K. Lenc和A.维达尔迪学习协变特征检测器。CoRR，abs/1605.01224，2016。2[23] K.刘，智-地Wang，W. Driever和O.朗尼伯格基于等变滤波器和核加权映射的2d/3d旋转不变检测在2012年IEEE计算机视觉和模式识别会议上，Providence，RI，USA，2012年6月16-21日，第917-924页，2012年。二、四[24] D. Marcos，M.Volpi和D.Tuia学习用于纹理分类的旋转不变卷积滤波器arXiv预印本arXiv：1604.06720，2016年。2[25] R. Memisevic和G.E. 辛顿学习用分解高阶玻尔兹曼机表示空间变换。NeuralComputation，22（6）：1473 -1492，2010. 2[26]

下载后可阅读完整内容，剩余1页未读，立即下载