没有合适的资源?快使用搜索试试~ 我知道了~
SDE生成器——基于SDE的瞬时流建模方法
11635·--神经TMDlayer:通过SDE生成器建模要素的瞬时流孟梓航1Vikas Singh1 Sathya N.拉维21威斯康星大学麦迪逊分校2伊利诺伊大学芝加哥分校网址:zihangm@cs.wisc.edu,vsingh@biostat.wisc.edu,网址:www.example.com,sathya@uic.edu摘要我们研究了如何随机微分方程(SDD)为基础的想法可以激发新的修改现有的一组问题在计算机视觉的出租。松散地说,我们的配方是有关的显式和隐式的数据扩充和组equivariance的战略,但来自新的结果估计无穷小发电机一类随机过程的SDE文献。如果并且当在应用程序/任务的需求与我们可以有效处理的过程类型的固有属性和行为之间存在名义上的协议时,我们获得了可以被并入任何现有网络架构内的非常简单和有效的插件层,具有最小的修改和仅几个附加参数。我们在一些视觉任务上展示了有前途的实验,包括几个镜头学习,点云变换器和深度变分分割,以提高效率或性能。1. 介绍考虑具有参数我们使用下面的更新规则来训练它,W←W−ηWEzR(W,z)(1)其中z是表示数据的随机变量,R()表示损失函数。现在,考虑同一更新公式的稍微一般的形式,W← W − ηWEzR(W,T z).(二)这里唯一的变化是引入了T,可以假设T是某个数据转换矩阵。如果T=I,我们看到随机梯度下降(SGD)是(2)的特殊情况,假设我们用有限的iid样本(或小批量)近似(2)中的期望。让我们稍微打开数据转换符号,看看它提供了什么如果选择一组变换T由于Tz是预先确定的,并且在训练开始之前被应用于数据样本,因此Tz简单地表示经由数据增强导出的数据样本。另一方面,Tz可以不必如上所述被显式地实例化。例如,球形CNN[16]表明,当点云类型的数据嵌入到具有球形卷积算子的球体上时,可以学习与旋转的群作用等变的数据表示,而无需显式数据增强过程。特别地,这些方法将每个数据点配准在标准模板(如球体)上,在标准模板上可以基于微分几何构造来定义从概念上讲,关于等方差的许多结果[16,48,42]表明,通过在训练期间考虑每个样本(3D点云)的整个轨道,对于特殊类型的T,可以避免显式数据增强。我们可以从更广阔的角度来看待上述观点。在数据点z上重复应用变换T产生离散序列z(t)∞t=0其中z(0)=z,z(t)=T t−1z。通常,由T(t)表示的第t步处的变换矩阵甚至不需要从固定矩阵生成。实际上,在实践中,T(t)是从一组适当的变换(例如旋转、模糊等)中选择的,具有某种排序,其甚至可以是随机的。 在高层次上,诸如[16,12]的方法可以被视为(2)的特例。要使这一论证精确,需要添加适当数量的辅助变量,并通过对所有可能的可实现T进行平均--具体步骤并不是特别相关,因为除了帮助建立我们刚刚描述的直觉之外,特定群体行为的等方差算法并不直接告知我们的发展。为了方便起见,我们将主要关注连续时间系统,因为在相同的初始条件下,两个(连续和离散)系统的轨迹在所有整数t处重合。z(t)实际上代表什么?z(t)有两种解释:(i)它形式化为on-the-fly或instan-11636L数据增强在相同的初始条件下。我们的主要见解是,最近的结果在SDE文献表明,(非-Lm��� ���K������→当λ→ ∞时Lm支持集查询在某些技术条件下),动态z(t)可以完全由过程z(t)的无穷小生成元(的函数)来表征,该生成元可以使用有限数据来有效地估计。我们利用这一结果,通过一个简单的修改估计过程-具体地,我们利用来自[2]的结果,其中作者将生成器称为目标测量差异融合图(TMDmap)。这导致我们的TMDlayer,可以方便地下降到一个网络,并作为一个即插即用的模块,只有几个额外的参数。当在标准深度学习管道中使用CV层LmTMDlayerFF层LmTMDlayerEGNN层LmTMDlayer如果可用,我们的层允许结合更丰富的域信息,或者作为正则化器或增强方案,或者作为现有层的替代。我们发现这有利于模型的整体性能。我们的贡献。 神经ODE等模型[10]和神经SDE[34]通常将动态系统参数化为独立模型,并显示如何通过此模块有效地反向传播梯度。我们采取不同的方法:我们提出了一种随机过程启发层,其最基本的形式可以被认为是可以与深度神经网络中的现有层一起工作的增强方案。但不同的是-图1:TMDlayer在少镜头识别、点云学习和分割中的使用概述。“EGNN”是指边缘标记图神经网络[25];“FF”是指前馈层(10),“CV”是指我们提出的深度Chan Vese模型(12)。流形(顶部)描述了L和Lm的含义:L捕获了流形的结构。Lm是从样本构造的L的近似。瞬时(平滑)数据增强,这通常用于通过利用R的景观中的对称性来加速训练,以及(ii)数据相关T可以被设计用于类似不变性的要求,这对于下游应用是有用的事实上,学习数据相关的转换也已经被[14]探索过。这项工作的出发点是利用提供给我们的数据样本只是一个基本过程的快照,我们将很快讨论的观点尽管如此,关键的假设是,将这个过程指定给我们的深度神经网络模型将是有益的,并为文献中已经使用的一些策略提供了新的视角。主要思想。前面使用“过程”来描述数据样本暗示了常微分方程(ODE)的潜在使用。虽然ODE类型的模型可以用来描述简单的过程,但它不足以模拟更复杂的过程,从而更好地反映实际考虑。直接实例化SDE的“z(t)”概念的关键挑战这显然是不可行,因为存在无限可能的变换,从发生在输入图像空间中的显式数据增强(旋转,翻转)开始,我们的层可以在特征空间中使用,并且完全适应输入。但这不仅仅是另一个增强计划。我们的层允许对数据/特征的时变/随机特性进行建模,并通过具有高度参数效率的适当参数化来控制它们。我们表明,这种随机性不仅在数学上是有趣的,但可以利用的应用程序,包括点云变压器,对象分割和少拍识别。1.1. 相关工作。视觉的早期工作已经广泛使用微分方程[7,36,45,6],特别是用于分割。 在机器学习中,微分方程对于流形学习[3]和半监督学习[4,38]等非常有用。最近,许多策略将微分方程与深度神经网络(DNN)相结合,用于解决视觉问题。例如,[9]在CNN编码器之后利用条件随机场来细化语义分割结果,其更新规则可以被视为微分方程,并且[37,22]使用CNN来提取视觉特征,然后将其馈送到活动轮廓模型,该模型根据微分方程迭代地细化轮廓。另外,文献包括使用DNN求解微分方程的策略[24,39,32]。 在过去的几年里,一个TMDlayer的使用案例瓶11637LLLMD×≡∇ ∇/≡LLL∈2LLD ∈RM RL包括神经ODE[10]、神经SDE的公式的ber[34]和增强神经ODE[15]已经被提出,其动机是需要在DNN内求解微分方程模块。请注意,[34]提出用随机噪声稳定神经ODE网络,这会导致神经SDE,这与这里研究的设置完全不同。最后,我们注意到,SDE作为一种工具也被用于DNN的随机分析[8]。2. 预赛背景偏微分方程(PDE)是一种函数方程,其中解满足被解释为多变量函数的其各种偏导数之间的给定关系。考虑用于分割的常用PDE模型运算符的表达式,2在(5)中。在这种情况下,回想一下,当σ0时,Diffusion maps[13]通过使用(m)来构建作为线性算子近似的m m矩阵Lm来揭示几何结构。解释SDE。回想一下,当在输入空间上使用时,它可以对输入图像的随机变换进行建模(旋转和裁剪是特殊情况)。当在特征空间上使用时(例如,在DNN的中间层中),然后它可以对特征的随机变换进行建模,其中很难设计增强方法。此外,它使我们能够参数化和学习特征的潜在随机变化/SDE路线图。在下一节中,我们将描述深度网络训练管道中微分算子的估计。基于此估计,我们将TMDlayer定义为其中u依赖于X和t普雷特.以著名对f(X<$t)的近似:=f(X,<$t)在短时间内使用泰勒定理的间隔Δt在第4节中,我们讨论了四个Feynman-Kac公式,我们知道解u可以等价地写为关于连续时间随机过程Xt的条件期望。这意味着可以通过对随机积分问题的序列求平均来获得解(分割)u对于预测,我们需要一个代数概念,称为函数的给定时不变随机过程Xt,函数f的(无穷小)生成元L被定义为,f(X):=limE[f(Xt)]−f(X0).(三)t→0t如果过程X t是确定性的,则期望算子E变为恒等式,因此生成器简单地测量f相对于X的瞬时变化率。此外,假设X t也可以表示为(It 〇)随机微分方程(SDE),即,X t满足:dXt=b(Xt)dt+σ(Xt)dW t(4)其中Wt是具有协方差C的(多维)布朗运动,并且b、σ表示漂移和扩散函数。然后,结果证明可以以封闭形式(没有限制)写成,TMDlayer的不同应用,其中在特征流(解释为向量场)f(X,0)下的前推度量f(X,Δ t)可以是合理的选择。3. 前馈网络中L的逼近我们现在讨论一个最近提出的非参数过程来估计Lm给定有限样本x时σ0。这是一个重要的因素,因为在我们的设置中,我们没有一个有意义的小批量样本模型,特别是在高维设置中(例如,图像)。在DNN训练中构建L m。中的定义(3)虽然直观,但对于计算目的不是立即有用的。在一些技术条件下,如b,σ,f的光滑性和C的秩,[2]最近证明了对于满足(4)的过程,确实有可能构造的有限样本估计量Lm。在[2]中,该方法被称为目标测量扩散(TMD),因此我们将我们提出的层称为TMD层。为了构造微分算子,我们首先需要从数据中计算核矩阵K Rm×m对于涉及图或一组点作为输入的问题,我们可以简单地使用给定的数据点(m将是图中节点的数量,或集合中点的数量),而对于具有单个输入的问题(例如,标准图像Lf=b·f+σCσ·f,(5)分类),我们可能无法直接访问m个数据点在这种情况下,我们可以通过以下方式构造核矩阵:其中作为函数f上的线性算子,参见[29]。我们将很快解释如何估计和使用。Setup. 考虑这样的设置,其中X表示我们的输入特征(例如,RGB通道的3D阵列图像),f是具有L层的网络。 假设数据为点( m )的 形 式: xmN ,其中N >0,它们位于一个紧致的d维可微子流形N上,假设N是未知的。我们假设f在我们的情况下是使用样本xi∈ M隐式定义的,因此不可能得到封闭形式从数据集中采样一批并一起处理它们,因为我们通常可以假设整个数据集实际上是从某个底层分布中采样的。在获得数据样本集之后,我们首先使用可学习线性层将数据投影到具有合适h的潜在空间Rh中,然后使用适当的核函数对其进行评估,例如,k(x,y)= exp(−(4)−1x − y2)。(不L116386)然后我们按照[2]构造微分算子L为11639--Σ3 计算核密度估计:q(x)=cij=1Σ◦◦···W,π∈−算法一:TMDlayer中的操作步骤1输入:函数f,一批数据样本X = x1,…xm,系数λ,参数化时间间隔λt扰动,考虑低偏置扩散过程是自然的,即,我们可以用bp≤κ来规定大小,几乎在任何地方,对于某个小常数κ >02 通过(6)构造距离矩阵Kcmj=14 通过(7)参数化目标分布5 形成对角矩阵Dc,π,其中(Kc)ij(类似于扰动半径)和使用扩散的结构函数σ,C.然后可以使用使用对应过程导出的生成器L来执行推断(Dc,π)ii=π1/2(xi)qc−1(xi)6 使用Dc,π右归一化Kc:Kc,π=KcDcπ用于改进的估计的分层LL m. 而7 使用(D~c,π)ii:= Σm通过(8)构造Lm(Kc,π)ij(9)允许我们在没有修改的情况下将Lm用于任何网络阳离子,天真地使用它在实践中可能是不令人满意的8返回:f(X)+ ∆t·Lmf(X)如下:我们计算核密度估计q(xi)=例如,我们经常发现输入层的特征可能对任务没有太多的信息,并且可能会阻碍训练,特别是在早期阶段。我们建议一个简单的mj=1 (K)ij. 然后,我们形成对角矩阵D,π,其中调整:代替在(9)中对整个网络,我们逐层进行-分量(D,π)ii=π(1/2)(xi)q−1(xi)。在这里,我们都使用网络来学习π,π1/2(xi)=g(xi),(7)其中g可以是线性层或MLP,这取决于具体应用。接下来,我们使用D,π来右规范化k内核矩阵K,π=KD,π,并使用D, π来左规范化K,π,D,π是K,π的行和的对角矩阵。然后,我们可以将TMDmap操作符构建为Lm=−1(D~ −1K,π−I)。(八)中间层或几个感兴趣的层。这意味着f原则上可以是任何层(例如,图神经网络中的层或Resnet中的层),如图所示。1.一、理由。回想一下,大多数前馈神经网络可以完全由线性变换的有限序列定义,然后是激活函数(以及中间归一化层)。 一种选择是通过直接应用(9)中的泰勒级数式展开来估计L m,其中f=f lfl−1f1,其中l表示层数。然而,从(9)中我们可以看到,值Lm[fW]的这种估计的变化将我们将使用(8)来形成我们的TMDlayer,如下所述3.1. TMDlayer:一种基于Lm的观察到(4)是非常一般的,并且可以表示许多计算机视觉任务,其中密度π可以使用问题特定的能量函数来定义,并且Wt是噪声源。换句话说,我们的目标是通过使用其相应的微分算子(5)来捕获所谓的图像流形[61]的底层结构。直观地说,这意味着如果我们被提供一个具有参数W的网络fW,则通过泰勒ExfW(x,t)<$fW(x,0)+t·Lm[fW],(9)其中[fW]Rm使得第i个坐标[fW]i=f W(x i),并且Δt在我们的用例中被解释为超参数,参见算法1。使用L m的推断。在ERM框架中,通常,每个测试样本都是独立且相同地使用的,即,网络(在最佳参数下)以顺序方式用于预测目的。我们的框架允许我们进一步使用测试样本之间的关系进行预测。特别地,我们可以设计针对下游应用定制的b、σ的定制选择。例如,在需要对小型和结构化的11640W ∀ ∈§由于公知的不确定性现象的传播(跨越fi),所以它是高的。 为了避免这一点,我们可以在顺序的m中估计L_m[f_W] , 即 , 使 用 Lm[fi−1] 估 计 Lm[fi]我[l]。 我们将在4中示出,该参数化可以在各种应用中是有用的。概要。接下来,我们简要总结了我们的TMDlayer的好处:(i)我们的TMDlayer可以参数化特征的底层随机变换,提供了一种在任何层增强特征的方法。(ii)我们的TMDlayer中的随机性/随机性是用于鲁棒预测目的的稳定性诱导操作[20]。(iii)我们的TMD层是参数有效的。我们所需要的是一个投影线性层h和一个线性层g,参数化密度π和标量参数Δt。在实践中,我们可以使用小的潜在维度(例如,h= 16),因此与 大多数深度 学习应用中 的层函数f 相比,TMDlayer中的参数总数非常小但读者会看到,SDE观点在实践中的一个温和限制是,原则上,动力学最终可能会陷入Meta稳态。这意味着在这种情况下,估计L_m在前向传递中将不是非常有用的,并且因此梯度估计可能是有偏的。在这种情况下,如果需要,可以通过在轨道上采样来添加点。现在我们将描述四种不同的视觉设置,其中我们的TMDlayer可以以即插即用的方式实例化。11641§§§§P∈4. 应用在本节中,我们将在不同应用程序的上下文中评估我们的TMDlayer作为热身,在4.1中,我们演示了在一个简单的图像分类任务上使用TMDlayer我们研究了它的性质,在电感和transduc- tive设置。然后,在4.2中,我们转向使用点云数据集进行学习。在这里,我们看到数据类型自然地提供了一个合适的对象来利用TMD层的特性在这种情况下,我们在归纳设置中进行实验。接下来,在4.3中,我们探索了TMDlayer在分割任务中的使用(也是在归纳设置中)。我们提出了一种新的深度活动轮廓模型,它可以被看作是一个神经网络内的动态过程。我们demon- strate使用我们的TMDlayer上这样一个动态的过程。最后,在4.4中,我们研究了少次学习。在这里,问题设置原生地提供了计算我们的Lm所需的图,并允许转导推理。4.1. Resnet上的简单健全性检查我们从使用Resnet[23]在CIFAR10[28]上进行图像分类的简单示例开始,以证明我们的TMDlayer的适用性并评估其行为。4.1.1TMDlayer的作用:Finetuning/Robustify Resnet我们选择Resnet-18作为骨干网络,并在TMDlayer中简单地将其三个残差块Res中的每一个视为f(关于残差块的细节,参见[23]),如下所示:f(xl−1)=Res(xl−1)=⇒xl=f(xl−1)+∆t·Lmf(xl−1),其中,Xl是第l层处的特征,并且Lm是从小批量样本构造的。4.1.2实验结果在训练过程中,我们首先批量采样m个数据点,并将其用作输入,以便我们可以构建Lm。在测试期间,输入批次也包含m个样本(类似于训练时间),其中m从1增加到200。从表1中我们可以看出,m确实对测试精度有影响,其中较大的m比较小的m表现得更好。M. 一个关键原因是使用较大的m可以更好地M使用TMDlayer进行准确度(%)1没有75.151是的87.3510是的87.6550是的88.14100是的88.52150是的88.55200是的88.25表1:在将TMD层添加到Resnet-18之后CIFAR 10的测试集上的准确度。这里,m是用于在测试/推断时间期间构造L m的批量大小。 Resnet-18(在没有TMDlayer的情况下训练/测试)的准确率为88。27%,与m∈ {50,100,150}。σ0.010.020.030.050.1ResNet-18我们87.5487.7983.9084.3775.8577.9653.8756.1817.2719.18表2:当向输入添加随机噪声(均值= 0,标准差= 〇)时CIFAR10的准确度。“Ours” refers to Resnet-18 plus the4.2. 点云Transformer涉及点云数据学习的任务在3D视觉中很重要。这里的输入通常是由一组点表示的3D点云,每个点与其自己的特征描述符相关联。这些点可以自然地被认为是来自捕获对象的几何结构的底层分布的样本。该问题提供了一个理想的沙箱来研究我们的TMDlayer的效果。但在我们这样做之前,我们提供了一些上下文的TMDlayer将在哪里和如何实例化。最近,[19]提出了一种基于Transformer的点云学习模型,该模型在此任务上实现了最先进的性能尽管如此,已知Transformer模型是参数昂贵的(例如,参见[5,56,59],以获得在NLP设置中有效的更便宜的近似),并且检查我们在简单线性层上操作的TMD层在多大程度上可以与[19]中提出的Transformer层竞争是明智的。我们的目标将是检查是否可能实现显著的参数效率捕获数据的几何结构。我们还测试了我们的TMDlayer是否可以帮助提高网络的鲁棒性。我们可以通过向输入图像添加随机噪声并评估测试准确度来评估此属性(参见表2)。使用我们的TMDlayer,网络具有更强的抗噪这可以部分归因于使用我们的参数化Δt,它允许网络自适应地控制TMDlayer中的随机过程总而言之,性能特征是相似的(表1)。1)具有稳健性的小的改进(表1)。2)的情况。4.2.1问题公式化表示输入点云RN×d,具有N个点,每个点具有d维特征描述符。分类任务是预测整个点云的类别或标签。4.2.2TMDlayer的作用:更换Transformer层[19]中的点云Transformer层被构造为,Fout=FF(Fin-Fsa)+Fin,(1116420)11643→→普雷特→−其中FF指的是它们的前馈层(Linear,BatchNorm和ReLU层的组合),Fsa是自注意力模块的输出,它将F作为输入(我们请读者参考[19]以了解其网络设计的更多细节,也包括在我们的附录中)。Transformer层对于点云是有效的,因为它同时捕获所有点的特征之间的关系。由于我们的TMDlayer可以被视为一个扩散算子,它从数据中捕获底层数据流形的结构,因此我们可以检查它的能力在多大程度上是足够的 我们在一个 前馈层上使 用TMDlayer 来代替(10)中的Transformer层.F out=FF(F in)+ ∆t·L m FF(F in)。(十一)令人惊讶的是,事实证明,该简单层可以与(10)中精心设计的Transformer层相当地执行,同时提供更有利的参数效率曲线。这里,Lm是使用相同点云的点构建的(设置与基线相同)。4.2.3实验结果数据集。我们遵循[19]在ModelNet40[54]上进行点云分类实验。该数据集包含40个对象类别中的12311个CAD模型,广泛用于基准点云形状分类方法。我们使用官方分割进行培训/评估。网络架构和培训详情。我们使用与[19]相同的网络,除了我们将每个点云Transformer层替换为构建在单个前馈层上的TMDlayer。我们遵循[19],在训练期间使用相同的采样策略通过1024个mini-batch大小为32,我们使用SGD(动量0)训练250个epoch。9、初始学习率0. 01,余弦退火时间表)。整个网络的隐藏维数为256,构建Lm(在TMDlayer中)的隐藏维数为16。结果我们从表3中看到,我们的方法实现了与[19]相当的性能。在参数数量方面,以隐藏维度256(本实验中使用)为例,一个自注意层包含148 k个参数;一个线性层包含65。5k parame-ters;并且TMDlayer模块仅需要4k个参数。4.3. 对象分割在这里,我们表明,我们的TMDlayer(一个动态系统)也可以建立在另一个动态系统之上我们这样做的对象分割演示实验。回想一下,活动轮廓模型是一系列有效的分割模型,其迭代地发展轮廓,直到获得最终结果。在文献中可用的许多选项(例如,[44,49,57]),广泛使用方法输入点数准确度(%)PointNet[41]P1k89.2A-SCN[55]P1k89.8SO-Net[31]P、N2k90.9Kd-Net[26]P32k91.8[41]第四十一话P1k90.7[41]第四十一话P、N5k91.9PointGrid[30]P1k92.0PCNN[1]P1k92.3PointConv[53]P、N1k92.5[27]第二十七话P、N1k92.6DGCNN[52]P1k92.9PCT[19]P1k93.2我们P1k93.0表3:ModelNet40上的分类结果。准确度是指整体准确度。P =点,N =法线。我们的方法是用TMDlayer替换PCT中的Transformer层。Chan-Vese[7]模型基于变分泛函来演化轮廓在这里,我们建议通过参数化迭代进化步骤将Chan- Vese泛函与深度网络相结合,并在其上构建我们的TMDlayer。我们看到,这个简单的想法导致改进的结果。附录包括我们模型的更多细节。4.3.1问题公式化设R2是R2的有界开子集,其中R2是它的有界子集. 令I:Ω¯R是一个图像,对象片段信息将预测一个稠密的映射,单位为Ω¯0/1,其中1(和0)表示对象(和背景)。在我们的公式中,我们通过水平集函数φ:ΩR来参数化对象轮廓,并在DNN内对其进行演化。我们注意到,使用水平集和DNN的混合方法并不是我们工作中唯一的方法,参见[37,58]。4.3.2TMDlayer的作用:在深度活动轮廓模型中我们提出的深度活动轮廓模型在网络内以水平集函数的形式演化轮廓,并且更新方案是,φl=φl−1+φt′,(12)普雷特其中φl−1是l1层的水平集函数,φ由我们提出的深度变分泛函导出。附录包括我们的模型的更多细节,变分泛函,和更新方程的推导。将(12)中的更新函数表示为φl=f(φl−1)。然后,我们的TMD层前向传递可以写为,φ l= f(φ l−1)+ ∆t·L m f(φ l−1)。(十三)11644注1注意到(12)中的Δt ′和(13)中的Δ t对应于两个不同的动力系统。第一个11645×不V{}我我×我IJv我我我我图2:Vaihingen数据集的定性结果。我们的模型表现良好,尽管样本量小。第一个涉及深度活动轮廓模型的更新函数,第二个涉及TMDlayer。我加入使用来自相同小批次的样品构建公式(13)注2注意,我们提出的分割模型与[58]不同,[58]直接使用变分能量函数作为最终损失,而我们在网络中参数化更新步骤,以便最终输出已经满足低变分能量。4.3.3实验结果数据集。Vaihingen建筑物数据集由168个建筑物图像组成,这些图像是从ISPRS“2D语义标注竞赛”的训练集中提取的,分辨率为9cm。我们只使用100张图像来训练模型,剩下的-环68用作测试集。网络体系结构和实验设置。 我们使用具有类似于[21]和[37]的架构的编码器CNN。 输入是原始图像。该网络以10-4的学习率训练300个epoch,使用批处理使用TMDlayer实现了74.6,这在IoU方面是显著的这个实验表明,我们的TMDlayer可以建立在另一个动态系统的顶部,可以提供额外的好处。基线和我们的模型的定性结果如图所示。二、我们的方法倾向于预测更精确的形状/边界,并且还修复了相对于基线结果的一些缺陷/错误4.4. 少数学习在N-wayB-shot few-shot学习中,输入是自然形成全连通图的NB个这有助于构造微分算子Lm。为了提供我们的TMD层将在哪里以及如何实例化的上下文,我们注意到[25]提出了一种用于少量学习的GNN我们表明,通过添加我们的TMDlayer,性能增加了一个明显的利润。4.4.1问题公式化少次学习分类试图在每个类只有少量训练样本的情况每一个少数镜头分类任务包含支持集S和查询集Q(其中评估学习的分类器的未标记集),支持集S是标记的输入-标记对的集合对于支持集S中的N个类别中的每一个,给定B个标记样本,该问题是N路B次分类问题.4.4.2TMDlayer的作用:图神经网络设G是由来自任务T的样本形成的图,其中节点表示为:|.|.节点特征更新方程被设计为(关于网络的更多细节,我们请读者参考[25]或我们的附录)v1=NodeUpdate({v1-1},{e1-1};θ1),(14)其中v l是节点i在第l层的特征,e ij是节点i和节点j之间的边缘特征,并且θ是指更新函数中的参数。 我们将(14)抽象为v l=f(v l−1),并使用我们的TMD层,大小10 我们使用相同的CNN设置基线架构来预测分割掩模,而无需我们我v l=f(v l−1)+ ∆t·L m f(v l−1)。(十五)Chan-Vese更新模块。结合主动轮廓模型和深度学习的先前工作[37,33]通常仅可用于基于手动初始化或另一初始化(基于单独的算法)提供单个建筑物的分割,而我们的模型可用于在图像中分割多个建筑物而无需任何初始化。因此,无法对结果进行有意义的比较。有关设置的更多详细信息,请参阅我们的附录。结果和讨论。我们使用平均Intersection over Union(IoU)来评估Vai- hingen数据集的性能:基线收益率为68.9,而我们的模型没有TMDlayer达到73.5,我们的完整模型在(15)中,使用来自相同片段的样本构造Lm,并且f是使用所有节点特征和边缘特征更新节点特征的GNN模块。4.4.3实验结果数据集。我们遵循[25日]到进行迷你ImageNet上的实验,由[51]提出,来源于ILSVRC-12数据集[46]。 图像从100个不同的类600个样本每类(大小84 - 84像素)。我们使用与[43,25]相同的拆分:分别为64,16和20个类进行训练,验证和测试11646ק §§网络架构和培训详情。我们使用相同的图神经网络架构,并通过利用作者提供的代码遵循[25]中的训练策略。我们将如(15)中所示的TMDlayer添加到图神经网络中的每个节点更新层,其中潜在维度为16以用于构造Lm。我们遵循[25]为了进行5路5次学习的实验,在转换和非转换设置,以及监督和半监督设置。网络使用Adam优化器进行训练,初始学习率为5 10−4,权重衰减为10−6。 每15000集学习率减半为了评估,每个测试片段通过对5个类中的每个类随机采样15个查询来形成,并且性能在来自测试集的600个请注意,特征嵌入模块是一个卷积神经网络,它由四个块组成(遵循[25]),并用于大多数少拍学习模型,而没有任何跳过连接。因此,基于Resnet的模型从表中排除我们建议读者参考[25]或附录了解更多培训和评估细节。结果监督和半监督5路5次学习的性能分别在表4-5中给出我们的TMDlayer在监督和半监督设置(也用于转导/非转导设置)中导致一致和明确的改进模型译准确度(%)[51]第五十一话没有55.30爬行动物[40]没有62.74[47]第四十七话没有65.77GNN[18]没有66.41EGNN[25]没有66.85我们没有68.35MAML[17]BN63.11[40]第四十话BN65.99联系网络[50]BN67.07MAML +转导[17]是的66.19TNP[35]是的69.43TPN(高K)[35]是的69.86EGNN+转导[25]是的76.37我们的+转导是的77.78表4:迷你ImageNet上的5路5次学习的结果,平均超过600个测试集。 “BN” means that the query batch statistics are usedinstead of global batch normalization4.5. 间接费用/与增加的运行时开销。 我们的建筑确实涉及到一些训练方法标记比率(5路5次注射)20% 40% 60% 1000%GNN-semi[18]52.4558.76-66.41EGNN-semi[25]61.8862.5263.5366.85我们63.1464.3264.8368.35[25]第二十五话63.6264.3266.3776.37我们的(T)64.8466.4368.6277.78表5:半监督少镜头分类的准确性。“Ours” means EGNNplus ourtation和TMDLayer是互补的,而不是相互排斥的。在我们所有的实验中,基线使用数据增强(例如,随机旋转或裁剪)。我们的TMD-层提供的好处,以上和超越增强.5. 讨论和结论我们提出了一个基于SDE的框架,允许一个统一的视图中的几个不同的学习任务的视觉。我们的框架是有益的,数据生成(或数据本身)可以使用随机过程,或更具体地扩散算子来描述。这是特别有用的设置中,获得图像流形的确定性模型或学习密度函数是不可能的或具有挑战性的,由于高样本复杂性的要求。我们的TMDlayer不需要显式生成扩散样本,特别是在训练过程中,使其计算效率更高。所提供的数据样本是快照并且其表征由我们的TMDlayer启用的事实上,如果定义过程的参数被明确优化,我们应该能够在所得模型之间建立一个类比,作为最近结果的随机/简单版本,用于认证的边缘半径最大化[60],这通常需要访问Monte Carlo采样预言机[11]。我们认为,用于数据增强的SDE中的周期性是一个重要的缺失成分-为了这个目的,Floquet理论的工具可以让我们考虑转换版本的过程,可能与简化的发电机。我们的代码可在https://github.com/zihangm/neural-tmd-layer上获得。致谢这项工作得到了NIH基金RF1 AG059312的支持由于计算内核矩阵而导致的训练时间开销,并且根据使用情况而作为参考,4.2中的开销为10%,4.3中的开销为11%,4.4中的开销为1%。与数据扩充的关系。 数据扩增-和RF1AG062336。 SNR得到了UIC启动资金的支持。我们感谢Baba Vemuri提供了许多关于在深度网络中制定Chan-Vese模型的重要建议。11647引用[1] Matan Atzmon,Haggai Maron,and Yaron Lipman.基于扩 展 算 子 的 点 卷 积 神 经 网 络 arXiv 预 印 本 arXiv :1803.10091,2018。[2] Ralf Banisch 、 Zofia Trstanova 、 Andreas Bittracher 、Stefan Klus和P e´ terKoltai。 为任意非离散生成的离散融合图。应用和计算谐波分析,48(1):242[3] 米哈伊尔·贝尔金和帕莎·尼约吉。用于降维和数据表示的拉普拉斯特征映射。神经计算,15(6):1373[4] Mikhail Belkin Partha Niyogi和Vikas Sindhwani。Man-ifold正则化:一个几何框架,用于从标记和未标记的示例 中 学 习 。 Journal of Machine Learning Research , 7(11),2006.[5] Iz Beltagy,Matthew E Peters,and Arman Cohan.长型:长文档Transformer。arXiv预印本arXiv:2004.05150,2020。[6] Vicent Caselles Ron Kimmel和Guillermo Sapiro测地线活动等高线。国际计算机视觉,22(1):61[7] Tony F Chan和Luminita A Vese。没有边的活动轮廓IEEE Transactions on Image Processing,10(2):266[8] Pratik Chaudhari和Stefano Soatto。随机梯度下降进行变分推理,收敛于深度网络的2018年信息理论与应用研讨会(ITA),第1-10页IEEE,2018年。[9] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[10] Ricky TQ Chen,Yulia Rubanova,Jesse Bettencourt和David Duvenaud 。 神 经 元 常 微 分 方 程 arXiv 预 印 本arXiv:1806.07366,2018。[11] Jeremy Cohen,Elan Rosenfeld,and Zico Kolter.通过随机平滑验证对抗鲁棒性。国际机器学习会议,第1310-1320页PMLR,2019年。[12] TacoSCohen, MarioGeiger , JonasK?hler ,andMaxWelling. 球 形 cnns 。 arXiv 预 印 本 arXiv :1801.10130,2018。[13] 罗娜l dRCoifman和St e'phaneLafon。 Dif融合图。应用与计算谐波分析,21(1):5[14] Ekin D Cubuk, Barret Zoph ,Dandelion Mane ,VijayVasude-van,and Quoc V Le.自动扩增:从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集,第113[15] Emilien Dupont,Arnaud Doucet,and Yee Whye Teh.增强的神经节。arXiv预印本arXiv:1904.01681,2019。[16] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so(3)等变CoRR,2017年。[17] Chelsea Finn,Pieter Abbeel
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 藏经阁-应用多活技术白皮书-40.pdf
- 藏经阁-阿里云计算巢加速器:让优秀的软件生于云、长于云-90.pdf
- 藏经阁-玩转AIGC与应用部署-92.pdf
- 藏经阁-程序员面试宝典-193.pdf
- 藏经阁-Hologres 一站式实时数仓客户案例集-223.pdf
- 藏经阁-一站式结构化数据存储Tablestore实战手册-206.pdf
- 藏经阁-阿里云产品九月刊-223.pdf
- 藏经阁-2023云原生实战案例集-179.pdf
- 藏经阁-Nacos架构&原理-326.pdf
- ZTE电联中频一张网配置指导书
- 企业级数据治理之数据安全追溯
- MISRA-C 2012-中文翻译版.pdf
- 藏经阁-《多媒体行业质量成本优化及容灾方案白皮书》-37.pdf
- 藏经阁-浅谈阿里云通用产品线Serverless的小小演化史-23.pdf
- 藏经阁-冬季实战营第一期:从零到一上手玩转云服务器-44.pdf
- 藏经阁-云上自动化运维宝典-248.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功