没有合适的资源?快使用搜索试试~ 我知道了~
球面CNN学习SO(3)等变
用球面CNN学习SO(3)等变Carlos Esteves1,Christine Allen-Blanchette1,Ameesh Makadia2,KostasDaniilidis11宾夕法尼亚大学GRASP实验室2Google@ seas.upenn.edumakadia@google.com抽象。我们解决了卷积神经网络中的3D旋转等方差问题。3D旋转在3D分类任务中一直是具有挑战性的麻烦,需要更高的容量和扩展的数据增强以便解决它。我们用多值球面函数对3D数据进行建模,并提出了一种新的球面卷积网络,该网络通过在球面调和域中实现它们来实现球面上的精确卷积。所得滤波器具有局部对称性,并且通过强制平滑光谱来定位。我们在谱域上应用了一种新的池化,并且我们的操作独立于整个网络的底层球面分辨率。我们表明,网络具有低得多的容量,而不需要数据增强,可以表现出的性能与最先进的标准检索和分类基准。1介绍卷积神经网络(CNN)取得巨大成功的原因之一是它们对欧几里得空间中的平移的等变性以及由此产生的相对于其他干扰的不变性传统上已经用数据增强来解决,而像点云这样的非欧几里得输入已经由像体素空间这样的欧几里得表示来近似直到最近,关于其他群的等方差已经得到了解决[1,2],并且CNN已经被提出用于流形或图[3,4,5]。等变网络保留有关输入和网络各层特征图上的组动作的信息。由于其特殊的结构,特征变换与输入的这种等变结构在未知数方面产生了比空间Transformer [6]等替代方案更低的网络容量,其中学习规范变换并将其应用于原始输入。在本文中,我们主要感兴趣的是分析三维数据对齐,检索或分类。 体积和点云表示已经产生了平移和尺度不变方法:翻译规范化http://github.com/daniilidis-group/spherical-cnn2C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis并且可以通过设置阻塞或将阻塞的范围限制为固定常数来进行计算。然而,3D旋转仍然是对当前方法的挑战(图2说明了当引入任意旋转时,传统方法的分类性能如何受到影响)。806040200PointNet SubVolSup SubVolSup MO MVCNN 12x图1:列:(1)输入,(2)初始球 形 表 示 , ( 3-5 ) 学 习 的 特 征图。椅子腿的激活说明旋转等变性。图2:点云[7],体积[8]和多视图[9]方法的ModelNet40分类。准确度的显著下降说明常规方法不能推广到任意(S 0(3)/S 0(3))和看不见的取向(z/S0(3))。在本文中,我们用Rn中的球面函数对3D数据进行建模,并引入一种新的具有球面输入的等变卷积神经网络(图1说明了等方差)。我们阐明了具有球形输出的卷积与具有旋转群SO(3)中的输出的相关之间的差异,并且我们应用产生带状滤波器的精确卷积即沿着相同纬度具有常数值的滤波器。卷积不能应用于空间不变的脉冲响应(掩模),但可以精确地计算在球谐域中通过逐点乘法。为了获得本地化的过滤器,我们执行一个平滑的频谱,只在几个锚频率和它们之间的插值学习权重,产生,作为额外的优势,一些独立的空间分辨率的权重然后在谱域中应用池化是自然的。光谱合并具有的优点是,它保持等变,而球面上的空间合并仅近似等变。我们还提出了一个加权平均池的权重是成比例的细胞面积。返回到空间域的唯一原因是校正非线性,这是逐点算子。我们进行3D检索,分类和比对实验。 我们的目的是表明,我们可以以低得多的网络容量实现接近最先进水平的性能,其中我们对SHREC'17 [10]数据集和ModelNet40 [ 11 ]数据集进行了分析。(三)/测试3)/SO(3)2018-05-1201准确度[%]用球面CNN学习SO(3)等变表示3我们的主要贡献可概括如下:– 我们提出了第一个基于球面卷积的神经网络– 我们引入池和参数化的过滤器在频谱域,强制空间定位和容量独立的分辨率。– 我们的网络比应用于3D数据的非球形网络容量低得多,而不会牺牲性能。我们从相关的工作开始,然后介绍群卷积的数学,特别是球卷积,以及我们网络的细节。最后,我们进行了广泛的实验检索,分类和对齐。2相关工作我们将开始描述组等方差的相关工作,特别是球体上的等方差,然后深入研究3D数据的CNN表示。用于在CNN中实现等方差的方法可以分为两组。在第一种方法中,通过类似于基于Lie生成器的方法[12,13]约束滤波器结构来获得等方差。Worral等人[14]使用从实现旋转和平移等方差的复谐波导出的滤波器第二组需要使用一个本身是等变的过滤器轨道,以获得组等方差。Cohen和Welling [1]与学习滤波器的轨道进行卷积,并证明了在存在整流和池化的情况下群卷积的等方差和旋转等方差的保持。Dieleman等人[15]单独地处理图像轨道的元素,并使用该组输出进行分类。Gens和Domingos [16]产生有限多参数群的映射,Zhou等人。[17]Marcoset al. [18]使用旋转滤波器轨道来产生定向特征图和旋转不变特征,并且Lenc和Vedaldi [19]提出了一种变换层,其通过首先置换然后通过线性滤波器变换来充当组卷积。最近,出现了关于图卷积网络(GCN)的大量工作。在这个空间中有两个线程,光谱[20,21,22]和空间[23,24,25]。这些方法在不规则但结构化的图表示上学习过滤器。这些方法与我们的不同之处在于,我们正在寻找明确学习3D数据建模为旋转下的球函数的等变和不变表示。虽然这样的属性是很难构建一般的流形,我们利用集团的作用旋转的领域。与我们的方法最相似并且在并行1中开发的是[5],其使用球面相关性将球面输入映射到SO(3)上的特征,然后在SO(3)上进行一系列卷积处理。主要的区别是我们使用了球面卷积,它可能快一个数量级,具有更小(少一个维度)的过滤器和特征映射。此外,我们在谱域中强制平滑,从而更好地定位1这项工作的第一个版本于2017年11月15日提交给CVPR,就在我们意识到Cohen等人之后不久。[5] ICLR于2017年10月27日提交。4C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis在球体上的感受野,并且我们以两种不同的方式执行池化,或者作为谱域中的低通或者作为空间域中的加权平均。此外,我们在SHREC' 17基准中给出了一些公式[ 5 ]。3D数据的球形表示并不新颖,并且由于其不变性和球形相关性的有效实现,在深度学习时代之前已用于检索任务[26,27]。在3D深度学习中,2D方法的最自然的适应是使用3D对象的体素网格表示,并修改2D CNN框架以使用3D滤波器的集合来代替传统的2D滤波器进行级联处理。这种方法需要大量的计算来实现非常基本的体素分辨率,并且需要更高的容量。已经进行了几次尝试来使用CNN从体积数据产生有区别的表示。3D ShapeNets [11]和VoxNet [29]提出了一种全体积网络,其中3D卷积层后面是全连接层。Qi等人[8]在尝试训练上述端到端时观察到显著的过拟合,并选择使用子体积分类作为辅助任务来修改该技术,并且还提出了一种替代的3D CNN,其学习将体积表示投影到2D表示,然后使用传统的2D CNN架构进行处理即使有这些适应,Qiet al.[8]受到过度拟合的挑战,并建议以定向池的形式进行增强作为补救措施。Qi等人[7]还尝试训练直接在点云上操作的神经网络。目前,最成功的方法是基于视图的,在3D对象的渲染视图中操作[9,8,30,31]。这些方法的高性能部分是由于使用了大型预训练的2D CNN(例如在ImageNet上)。3预赛3.1群卷积考虑对称性,特别是旋转对称性,自然地引起傅立叶变换的在导出旋转不变表示的上下文中,傅里叶变换特别有吸引力,因为它表现出对旋转变形直至相位的不变性(可以通过应用模算子来实现真正不变的表示)。要利用此属性进行3D形状分析,必须构造我们的3D输入的旋转等变表示。对于群G和函数f:E→F,称f与变换g ∈G等变,当f(g◦x)=g′◦f(x),x∈E(1)其中g作用于E的元素,g′是变换F的元素的相应群作用。若E=F,则g=g′。等变表示的一个直接例子是轨道。对于一个物体x,定义了它关于群G的轨道O(x)O(x)={g ◦ x |g∈ G}.(二)用球面CNN学习SO(3)等变表示5◦◦◦◦M通过这个例子,可以直观地了解群卷积的等方差;卷积可以被看作是具有“浮点”滤波器的全部或部分的函数f的内积。通常,群卷积被定义为∫(fGh)(x)=f(gη)h(g−1x)dg,(3)g∈G其中η通常是f的域中的正则元素(例如,如果E=Rn,则为原点;如果E=SO(n),则为In平面上常见的卷积是群G=R2的群卷积的一个特例(f h)(x)=∫f(g η)h(g−1x)dg =g∈R2∫g∈R2f(g)h(x −g)dg.(四)群卷积可以被证明是等变的。对任意α∈G,((α −1<$f)<$Gh)(x)=(α −1<$(f <$Gh))(x).(五)3.2球谐函数直接遵循以上预备,我们可以定义球面信号f与球面滤波器h关于3D旋转组SO(3)的卷积∫(fGh)(x)=g∈SO(3)f(gη)h(g−1x)dg,(6)其中η是球体上的北极。为了实现(6),期望用具有传递性的均匀分布且紧凑的细胞(存在使细胞一致的旋转)对球体进行采样。不幸的是,这种离散化并不存在[32]。无论是按经纬度的相似采样还是按柏拉图立体的均匀分布采样都不满足所有约束条件。这些问题与在球体上执行级联卷积的最终目标是为了规避这些问题,我们选择在谱域中评估球面卷积 这是可能的,因为傅立叶分析的机器已经将众所周知的卷积定理扩展到球面上的函数:卷积的球面傅里叶变换是球面傅里叶变换的逐点乘积(更多细节见[33,34])。傅里叶变换和其逆函数在球面上的定义如下[33]:Σ Σf=fY,(7)∫f=f(x)Ydx,(8)嗯嗯嗯0≤≤b |M|≤S2其中b是f的带宽,Y是是次球谐函数命令M。我们将(8)称为球面傅立叶变换(SFT),并且将(9)称为球面傅立叶变换(SFT)。(7)作为其逆(ISFT)。重温(6),设y=(f <$Gh)(x),球面卷积定理[34]给出了我们.yπ=2π4π fh(9)6C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidism2+ 1m0用球面CNN学习SO(3)等变表示7JMMMM−mM−mM为了计算信号f与滤波器h的卷积,我们首先将f和h展开为它们的球谐基(8),其次计算逐点乘积(9),最后反转球谐展开(7)。值得注意的是,球面卷积的这种定义与球面相关性是唯一的,球面相关性在SO(3)上产生输出响应。这里的卷积可以被视为边缘化负责使滤波器围绕其北极旋转的角度,或者等效地考虑球体上的带状滤波器3.3实际考虑和优化为了评估SFT,我们根据[34]的采样定理在球体上使用等角样本<$2π2<$b−12<$b−1f=a(b)f(θj,φk)Y(θj,φk),(10)m2bj=0JMk=0其中θj=πj/2b,φk=πk/b,对于振幅矩阵,a(b)是样品重量。请注意,所有需要的操作都是矩阵逐点乘法和求和,它们是可微的,并且在大多数自动微分框架中都很容易获得在我们的直接实现中,我们预先计算所有需要的Y,它们作为常数存储在计算图中。变量分离:我们还实现了一个潜在的更快的SFT的基础如[34]中所示的分离变量展开Y在(10)中,我们得到f2Σb−12Σb−1=a(b)f(θj,φk)q<$P<$(cosθj)e−imφkMj=0jm mk=0(十一)=q 2Σb−1 a(b)P(cosθj)2Σb−1 f(θj,φk)e−imφk,mjmj=0k=0其中P是相关的勒让德多项式,q归一化因子。可以使用行式快速傅里叶变换来计算内部和,剩下的是我们直接计算的相关勒让德变换。同样的想法也适用于ISFT。我们发现,当b ≥ 32时,该方法更快。有更快的算法可用[34,35],我们没有尝试。Leveragiinggsymmety:Forreal-valuediputs,f=(−1)mf (我的朋友们)从Y=(−1)mY)。因此,我们只需要计算系数(m>0)。此外,我们可以重写SFT和ISFT,以避免昂贵的复杂数字支持或乘法:.ΣΣℓf=fY+Σ2 Re(f)Re(Y)−2 Im(f)Im(Y).(十二)0≤≤b0 0 m mm m mm=18C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis∀ ∗∗×图3:我们的方法概述从左到右:3D模型(1)被映射到球面函数(2),其通过一系列球面卷积、非线性和池化,从而产生等变特征映射(3我们每层只显示几个通道。最后一个特征图的全局加权平均池化产生旋转不变的描述符(10),其可用于分类或检索。输入球面函数(2)可以具有多个通道,在该图中,我们示出了到交点的距离表示。4方法图3显示了我们的方法的概述。我们将块定义为一个球形卷积层,然后是可选的池化和非线性。在最后一层应用加权全局平均池化以获得不变描述符。本节详细介绍了体系结构设计选择。4.1光谱过滤在本节中,我们定义过滤器参数化。一种可能的方法是在其中一个杆周围定义紧凑的支撑,并学习每个离散位置的值,将其余的设置为零。这种方法的缺点是不能保证滤波器将是带限的。如果不是,则SFT将隐含地对信号进行频带限制,这导致滤波器的参数和实际实现之间的差异。为了避免这个问题,我们参数化的滤波器在频谱域。为了计算函数f和滤波器h的卷积,仅使用h的阶数m = 0的SFT系数。 在空间域中,这意味着对于任何h,总是存在带状滤波器(每个纬度的恒定值)hz,使得y,yh=yhz。因此,只有学习分区过滤器才有意义。频谱参数化也更快,因为它消除了计算滤波器SFT的需要,因为滤波器是在频谱域中定义的,频谱域是计算卷积的相同域。非局部滤波器:第一种方法是通过阶数m = 0的所有SFT系数来参数化滤波器。例如,给定3232个输入,最大值b和b=16时,则其余16个参数可被分解为(h0,. . . h(1 5). 一0 0缺点是过滤器可能不是本地的;然而,可以学习局部性。用球面CNN学习SO(3)等变表示90图4:在第一层学习的过滤器过滤器是分区的。左:16个非局部滤波器。右:16个局部滤波器。非定域滤波器由所有频谱系数(在该示例中为16)参数化。即使局部性没有被强制执行,一些过滤器也会学习局部响应局部滤波器由频谱的几个点(在示例中为4)参数化,频谱的其余部分通过插值获得。局部平滑滤波器:从P空间估计和从F分析中确定的衰减规律,我们可以表明,频谱平滑度对应于空间衰减。这用于构建基于图的神经网络[36],并且也适用于由零阶(m= 0)的球谐函数族所跨越的滤波器为了获得本地化的过滤器,我们参数化的频谱与锚点。我们固定n个均匀间隔的度i,并学习相应的系数f i。然后通过线性插值获得缺失度的系数,这增强了平滑性。第二个优点是每个滤波器的参数数量图4显示了我们的模型学习的一些过滤器;通过施加局部性来获得右侧滤波器。4.2池化CNN中使用的常规空间最大池化在球形CNN中具有两个缺点:(1)需要昂贵的ISFT来转换回空间域,以及(2)不完全保持等方差,特别是因为等角采样的不相等的细胞面积。加权平均池化(WAP)考虑小区面积以减轻后者,但仍受前者的影响。我们介绍了球面CNN的频谱池(SP)。 如果输入具有带宽b,则我们移除度大于或等于b/2的所有系数(有效地,低通盒滤波器)。已知这种操作会导致振铃伪影,这可以通过先前的平滑来减轻,尽管我们没有发现这样做的任何性能优势注意,频谱合并是之前提出的用于传统CNN [37]。我们发现,光谱池是显着更快,减少了等方差误差,但也降低了分类精度。SP和WAP之间的选择取决于应用程序。例如,我们的实验表明,SP是更适合形状对齐,而WAP是更好的分类和检索。表5显示了每种方法的性能。4.3全球集中共用在全卷积网络中,通常在最后一层应用全局平均池化以获得描述符向量,其中每个条目是平均值10C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis一张特征图。我们使用相同的想法;然而,等角球形采样导致不同区域的单元,因此我们计算加权平均值,其中单元的宽度是其位置的宽度。我们不使用全球平均池化(WGAP)。注意,WGAP对于旋转是不变的,因此描述符也是不变的。图5示出了这样的描述符。这种方法的替代方案是使用SFT的每度幅度系数;形式上,如果最后一层的带宽为b且f=[f,f,的。. .,f],Σ¨ ¨¨ ¨ ¨ ¨ Σ−−+1则d=¨fˆ0¨ ¨ˆ1¨b−1是一个不变的描述符[33]。我们将其表示为¨¨,¨ f ¨,. . . ¨ f¨MAG-L(magnitude per degree)。我们发现,使用时分类性能没有差异(见表5)。图5:我们的模型学习了对输入旋转几乎不变的描述符。从上到下:方位角旋转和对应的描述符(每行一个)、任意旋转和对应的描述符。不变性误差对于方位角旋转可忽略不计;由于我们使用等角采样,因此单元面积随纬度而变化,并且围绕z的旋转保持纬度。任意旋转会带来一个小的不变性误差,其原因在5.5节中详述。4.4架构我们的主要架构有两个分支,一个用于距离,一个用于曲面法线。这比两个输入通道的性能更好,并且比距离和法线的两个单独的投票网络稍每个分支有8个球形卷积层,每层有16、 16、 32、 32、 64、64、 128、 128个当通道数量增加时,执行一个分支到另一个分支的池化和特征级联在最后一层之后执行WGAP,然后将其投影到类的数量中。5实验我们的模型的最大优势是固有的等方差SO(3),我们专注于实验中的问题,从中受益,即,形状分类和检索在任意方向,形状对齐。用球面CNN学习SO(3)等变表示11我们选择了与3D形状相关的问题,因为大数据集的可用性和发表的结果;我们的方法也将适用于可以映射到球体的任何类型的数据(例如,全景)。5.1预赛光线-网格相交:三维形状通常用网格或体素网格表示,需要将其转换为球函数。 注意转换函数本身必须与旋转等变;如果输入由非等变函数预处理,则我们学习的表示将不是等变的。给定网格或体素网格,我们首先找到边界球及其中心。给定所需的分辨率n,我们从中心投射n×n条等角射线,并获得每条射线与网格/体素网格之间的交点 设djk是从中心到最远交点的距离,对于方向(θj,φk)的射线。在该相位上的函数由f(θj,φk)=djk,1≤j,k≤n给出.对于网格输入,我们还计算光线和表面之间的角度α,在给定的dch an n e l f(θ j,φ k)= [ d,s in α ]的情况下,在给定的dch ann e l f(θ j,φk)上,请注意,此表示适用于星形对象,定义为包含内部点的对象,从该点可以看到整个边界。此外,边界球的中心必须是这样的点之一。在实践中,我们不检查这些条件是否成立-即使表示是模糊的或不可逆的,它仍然是有用的训练:我们使用ADAM进行48个epoch的训练,初始学习率为10−3,在epoch 32和40上除以5。我们使用数据增强来训练,执行旋转,各向异性缩放和镜像网格,并在构建球面函数时向边界球中心添加抖动。请注意,即使我们学习的表示与旋转是等变的,由于插值和采样效应,使用旋转来增强输入仍然是有益的。5.23D对象分类本节显示了ModelNet40 [11]上的分类性能考虑三种模式:(1)用方位角旋转(z/z)训练和测试,(2)用任意旋转(S 0(3)/S 0(3))训练和测试,以及⑶用方位角训练和用任意旋转(z/S 0(3))测试。表1示出了结果。当存在任意旋转时,所有竞争方法的性能都会急剧下降,即使在训练期间看到它们。我们的模型更稳健,但由于采样效应,模式3的下降明显。由于我们使用等角采样,单元面积随纬度而变化。围绕z的旋转保持纬度,因此在训练期间以相同的分辨率对相同高度的区域进行采样,但在测试期间不进行采样。我们相信这可以通过使用等面积球形采样来改善。10C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis我们评估竞争的方法,使用其发布的代码的默认设置。基于体积[8]和点云[7,38]的方法无法推广到不可见的方向(z/SO(3))。多视图[9,30]方法可以被视为等方差的蛮力方法; MVCNN [9]将不可见的方向推广到某个点。然而,球形CNN的性能优于它,即使参数数量级更少,训练速度更快。有趣的是,RotationNet [30]在ModelNet40分类上保持了当前最先进的技术,尽管是基于多视图的,但未能推广到看不见的旋转。当只存在方位角旋转(z/z)时,不需要SO(3)的等变性;在这种情况下,我们的模型的全部潜力没有得到发挥。表1:每个实例的ModelNet40分类准确度。球形CNN对任意旋转具有鲁棒性,即使在训练期间看不到,同时还具有一个数量级的参数和更快的训练。方法z/zSO3/SO3 z/SO3params 输入大小PointNet [7]89.283.614.73.5M2048 x 3[第38话]89.385.028.61.7M1024 x 3VoxNet [29]83.073.0-0.9M303SubVolSup [8]88.582.736.617M303SubVolSup MO [8]89.585.045.517M20 ×303MVCNN 12x [9]89.577.670.199M12 ×2242MVCNN 80x [9]90.286.0-299M80 ×2242RotationNet 20x [30]92.480.020.258.9M20 ×2242我们88.986.978.60.5M 2 ×6425.3三维物体检索我们在Shap e NetCor e55 [3 9]上运行检索值x,遵循SHREC' 17 3D形状检索规则[ 10 ],其中包括随机SO(3)扰动。该网络在55个核心类(我们不使用子类)上进行分类训练,并有一个额外的批内三重丢失(来自[40]),以鼓励描述符接近匹配类别,远离不匹配类别。不变描述符与余弦距离一起用于检索。我们首先计算每个类的阈值,使训练集的F分数最大化。对于测试集检索,我们返回距离低于其类阈值的元素,并包括与查询分类为同一类的所有元素表2示出了结果。我们的模型与最先进的性能(来自[41])相匹配,参数明显较少,输入大小较小,并且没有预训练。280个视图不限于方位角,因此无法进行比较(accc:81.5%)。12C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis×表2:SHREC' 17已按要求提交。 我们展示了预精度、相对精度和平均精度。微观平均值按类别大小调整,宏观平均值不调整。微观和宏观mAP的总和用于排名。即使参数少得多,输入分辨率小得多,而且没有预训练,我们也能达到最先进的水平排名靠前的结果以粗体显示,排名第二的结果以斜体显示。P@N微R@N地图P@N宏观R@N地图总评分输入大小paramsFuruya [41]0.8140.6830.6560.6070.5390.4761.13126×1038.4M我们0.7170.7370.6850.4500.5500.4441.132× 6420.5MTatsuma [42]0.7050.7690.6960.4240.5630.4181.1138× 22423M科恩[5]0.7010.7110.676----6 ×12821.4M周[31]0.6600.6500.5670.4430.5080.4060.9750× 224236M5.4形状对齐我们学习的等变特征映射可以用于使用球面相关的形状对齐。给定来自同一类别的两个形状(不一定是同一实例),在任意方向下,我们通过网络运行它们并在某个层收集特征图。我们计算每对对应特征图之间的相关性,并将结果相加。相关函数的最大值(其在SO(3)上获取输入)对应于对齐两个形状的旋转[28]。来自更深层的特征更丰富,并具有语义值,但分辨率较低。我们运行一个实验来确定每层形状对齐的性能,同时还与在网络输入(未学习)处完成的球面相关性进行比较。我们从ModelNet10中选择不具有旋转对称性的类别,以便地面真实旋转是唯一的,并且角度误差是可测量的。这些类别是:床,沙发,马桶,椅子。仅使用测试集中的条目结果在表3中,而图6示出了一些实施例。结果表明,学习的特征是优越的表3:以度为单位的形状对准中值角度误差。中间学习特征最适合于此任务。床椅子沙发厕所输入91.63111.4712.1521.65conv285.6421.1014.4714.95conv412.7314.6310.0311.03conv616.7018.9215.8317.62手工制作的球形表示,并且通过使用中间层实现conv4的分辨率为3232,其对应于高达11的单元尺寸。25度,所以我们不能期望误差比这低得多。5.5等方差误差分析即使球面卷积对于带限输入是SO(3)等变的,并且谱池保留了带限,但还有其他因素可能会引入等变误差。我们在本节中量化这些影响。我们将测试集中的每个条目和一个随机旋转馈送到网络,然后将相同的旋转应用于特征图并测量平均值用球面CNN学习SO(3)等变表示13图6:两个类别的形状对齐我们通过运行其特征图的球面相关性来对齐形状学习的语义特征可以用于对齐来自同一类的形状,即使具有大的外观变化。第1行和第3行:引用形状,后面是来自同一类别的查询第二和第四行:对应的对齐形状。最后一列显示失败案例。相对误差表4示出了结果。逐点非线性不保持带宽限制,并导致等方差误差(行1,4)。网格到球体的映射仅是近似等变的,这可以通过更大的输入维度(行1、5的输入列)来减轻当输入是带限的(第1、7行)时,误差较小。频谱池化是完全等变的,而最大池化引入了更高的频率并且具有比WAP更大的误差(行1、2、3)。未经训练的模型的错误表明,等方差是通过设计而不是学习的(第6行)。注意,误差较小,因为学习的滤波器通常是高通的,这增加了逐点相对误差。带限输入的线性模型具有零等方差误差,正如预期的那样(第8行)。注意,即使是常规的平面CNN也将表现出一定程度的由最大池化和离散化引入的平移等方差误差。表4:等方差误差。对于带限输入和线性层,误差为零配置冰川遗迹 池线性训练每层输入conv1 conv2 conv3 conv4 conv5 conv61. 基线642没有WAP没有是的0.050.110.120.140.160.170.152. maxpool642没有Max没有是的0.050.110.120.140.180.190.153. 光谱池642没有SP没有是的0.050.110.120.100.100.090.084. 线性642没有WAP是的是的0.050.120.130.150.140.120.045. lowres322没有WAP没有是的0.090.150.180.210.210.210.206. 未经训练 642没有WAP没有没有0.050.090.070.070.110.070.047. Blim642是的WAP没有是的0.000.100.110.110.150.140.048. 飞艇642是的SP是的是的0.000.010.010.000.000.000.0014C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis5.6消融研究在本节中,我们评估了我们的方法的许多变化,以确定设计选择的灵敏度。首先,我们有兴趣评估我们的贡献SP,WAP,WGAP和本地化过滤器的影响其次,我们有兴趣了解网络大小如何影响性能。结果表明,使用WAP,WGAP和本地化过滤器显着提高性能,曼斯,也可以实现更大的网络,进一步的性能改善。总之,增加带宽的因素(例如最大池化)也增加了等方差误差并可能降低准确度。早期层中的全局操作(例如非局部滤波器)逃离感受野并降低精度。表5:消融研究。旋转ModelNet40上的球形CNN精度。我们比较了各种类型的池,过滤器本地化和网络大小。输入Res.池全局池局部params细节acc. [%]64× 64WAPWGAP是的0.49M最好86.964× 64WAPMAG-L是的0.54M86.964× 64SPWGAP是的0.49M85.864× 64MaxWGAP是的0.49M86.764× 64avgWGAP是的0.49M86.764× 64WAPavg是的0.49M86.464× 64WAPWGAP没有0.49M85.932× 32WAPWGAP是的0.39M85.032× 32WAPWGAP是的0.69M更深85.632× 32WAPWGAP是的1.06M更广泛85.532× 32WAPWGAP是的0.12M窄83.86结论我们提出了球面CNN,它利用球面卷积来实现对SO(3)扰动的等方差。该网络应用于3D对象分类、检索和对齐,但在球形图像(诸如全景图)或可以表示为球形函数的任何数据中具有潜在的应用我们表明,我们的模型可以自然地处理任意的输入orientations,需要相对较少的参数和小的输入大小。致 谢 : 我 们 感 谢 通 过 以 下 赠 款 提 供 的 支 持 : NSF-DGE-0966142(IGERT)、NSF-IIP-1439681(I/UCRC)、NSF-IIS-1426840、NSF-IIS-1703319、NSF MRI 1626008、ARL RCTA W911NF-10-2-0016、ONRN 00014 -17-1-2093和Honda Research Institute。用球面CNN学习SO(3)等变表示15引用1. Cohen,T.S.,Welling,M.:分组等变卷积网络。arXiv预印本arXiv:1602.07576(2016)2. Worrall,D.E.,Garbin,S.J.,Turmukhambetov,D.,Brostow,G.J.:谐波网络:深度平移和旋转等变.In:Proc.IEEE会议计算机视觉与模式识别(CVPR)。第2卷(2017年)3. Bruna,J.,Szlam,A.,LeCun,Y.:用卷积网络学习稳定的群不变表示。ArXiv预印本arXiv:1301.3537(2013)4. Bronstein,M.M.,Bruna,J.,LeCun,Y.,Szlam,A.,Vandergheynst,P.:几 何 深度学习:超越了欧几里得数据。IEEE Signal ProcessingMagazine34(4)(2017)185. Cohen,T.S.,Geiger,M.,Khler,J.,Welling,M.:球形CNN。在:学习代表国际会议。(2018年)6. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。In:Ava ncesi nNe ur alI np roces ing S y s i n gPr ocesi ngS y s i n g P r o ce s i n g Sy si n g S i n g i(2015年)20177. Qi,C.R.,Su,H.,Mo KGuibas,L.J.:Pointnet:对点集进行深度学习,用于3D分类和分割。Proc.计算机视觉和模式识别(CVPR),IEEE1(2)(2017)48. Qi,C.R.,Su,H.,Nießner,M. Dai,A.,Yan,M.,Guibas,L.J.:用于三维数据对象分类的体积和多视图cnn。在:2016年IEEE会议onComputer Vision and Pattern Recognition , CVPR 2016 , Las Vegas , NV ,USA,2016年6月2日7 - 30日。(201 6)56489. Su,H.,Maji,S.,Kalogerakis,E.,Learned-Miller,E.:用于三维形状识别 的 多 视 图 卷 积 神 经 网 络 。 In : Proceedings of the IEEE InternationalConferenceonComputerVision. (2015)94510. Savva,M.,余,F.,Su,H.,Kanezaki,A.,Furuya,T.,Ohbuchi,R.,周志,尤河Bai,S.,Bai,X.,Aono,M.,Tatsuma,A. Thermos,S.,Axenopoulos,A.,帕帕佐普洛斯,G. T.,Daras,P.,Deng,X.,Lian,Z.,李,B.,Johan,H.,吕,Y.,Mk,S. :Shrec' 17 t ra c k:L a rg e - s c a le 3 d s h a p e r e t e v a l from m s h a p e n e t core 5. 在:10中,将Urographic工作切换到3DObjectreval。(2017)111. 吴志,Song,S.,Khosla,A.余,F.,张,L.,唐,X.,Xiao,J.:3dshapenet:体积形状的深度表示。在:IEEE计算机视觉和模式识别会议,CVPR 2015,波士顿,马萨诸塞州,美国,2015年6月7日至12日(2015)19 1212. Segman,J.,Rubinstein,J.,Zeevi,Y.Y.:用于图案变形的正则坐标方法:理论和计算考虑。IEEETrans-actionsonPaternAnalysisandMachineIntelligence14(12)(1992)117113. Hel-Or , Y. , Teo , P.C. : 可 操 纵 函 数 的 典 范 分 解 。 In : ComputerVisisonandPatternRec o gnition,1996. Proce e edingCVPR14. Worrall,D.E.,Garbin,S.J., Turmukhambetov,D., Brostow,G.J.:谐波网络:深度平移和旋转等方差。arXiv预印本arXiv:1612.04642(2016)15. Dieleman,S.,Willett,K.W.,Dambre,J.:用于星系形态预测的旋转不变卷积神经网络。皇家天文学月报450(2)(2015)144116. 根斯河Domingos,P.M.:深层对称网络。In:Advances in neuralin FormalinProocessSystems.(2014)253716C. 埃斯特韦斯角Allen-Blanchette,A.Makadia和K.Daniilidis17. Zhou,Y.,(1996年),中国科学院,Ye,Q.,邱Q Jiao,J.:定向响应网络。IEEE计算机视觉与模式识别会议(CVPR)(2017年7月)18. Marcos,D.,Volpi,M.,Komodakis,N.,Tuia,D.:旋转等变向量场网络。CoRR(2016)19. Lenc,K.,Vedaldi,A.:通过测量它们的等方差和等价性来理解图像表示 。 在 : Proceedings of the IEEE conference on computer visionandpa t eternrecognition. (2015年)99120. Bruna,J.,Zaremba,W.,Szlam,A.,LeCun,Y.:图上的谱网络和局部连通网络。ArXiv预印本arXiv:1312.6203(2013)21. Defferrard,M.,Bresson,X.,Vandergheynst,P.:具有快速局部谱滤波的图上卷积神经网络在:神经信息处理系统的进展。(2016)384422. 基普夫T.N. Welling,M.:基于图卷积网络
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功