非结构化数据学习传播

45 浏览量更新于2023-10-13 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

652面向非结构化数据的学习传播Sifei Liu1，Xueting Li1，2，Varun Jampani1 *，Shalini De Mello1，Jan Kautz11NVIDIA，2加州大学默塞德分校摘要处理包含任意结构的输入信号，例如，超像素和点云仍然是计算机视觉中的一大线性扩散是一种有效的图像处理模型，最近已与深度学习算法相结合。在本文中，我们提出了学习数据点之间的成对关系，在一个全球性的时尚，以提高语义分割与任意结构的数据，通过空间广义传播网络（SGPN）。网络通过学习的线性扩散过程在一组表示任意结构数据该模块可以灵活地嵌入并与多种类型的网络联合训练，CNN。我们使用语义分割网络进行实验，在那里我们使用我们的传播模块来联合训练不同的数据图像，超像素和点云。我们表明，与不包含此模块的网络相比，SGPN始终提高了像素和点云分割的性能。该方法为任意结构数据的全局成对关系建模提供了一种有效的方法.1. 介绍空间分布数据的各个可视元素，例如，图像中的像素/超像素或点云中的点表现出强的成对关系。捕获这些关系对于理解和处理这些数据是重要的。例如，在语义分割中，其中每个像素/点被分配语义标签，与更远的那些点相比，空间上和光度上接近或结构上彼此连接的点很可能我们可以利用这样的相似性线索来推断点之间的关系并改善信息的传播（例如，语义标签、颜色等）他们之间这种成对关系建模通常被称为“亲和”建模。来自心理学[5，42]和计算机视觉实证研究[37，17，27]的证据表明，一般目前隶属于Google Research。图1.（ a）中具有不同策略的不同对象v和u的分组：（b）对网格进行卷积;经由（c）全连接图和（d）我们的路径感知传播的显式成对建模。由于v和u具有相同的颜色，因此我们使用两点之间的空间接近度来对相似性（κ分类或回归问题可以极大地受益于成对亲和性的显式建模。随着计算机视觉任务的采用率急剧上升，CNN隐式地对成对关系进行建模，因为卷积滤波器学习捕获图像像素之间的相关性已经提出了CNN的几种扩展来处理任意结构的数据（例如点云）（例如，permutohedral晶格[1，24，43]），其超越了处理规则的网格状结构化图像。它们将数据转换为一些规则的结构，以便可以为它们学习卷积滤波器。然而，卷积只能捕获短程成对关系，并且过滤器也是内容不可知的，因为一旦它们被训练，它们的权重就被固定。因此，我们通常采用非常深的网络架构来建模所有可能的成对关系和长距离像素依赖性。作为替代方案，最近的几项工作[54，10，8，24，31，7，19，34，47，36]提出了可以显式建模成对关系的神经网络模块，从而大大提高了各种计算机视觉任务的CNN性能。然而，它们中的大多数都是基于规则结构的数据设计的，例如图像和视频。尽管存在这些方法，但对于处理任意结构的数据（例如点云）仍然存在几个重要的挑战：首先，我们希望这样的数据可以用一种更灵活的结构来表示，而不是规则网格（如体素网格或permutohedral lattice），这样输入数据的原始结构可以被忠实地保留。第二，如上所述，我们希望显式地对它们的数据el-1之间的成对关系建模。653元素。第三，我们希望在全局上对成对关系进行建模，但仍然坚持输入数据的结构。图1示出了上述挑战，其中目的是针对属于弯曲对象的点vl来决定vn和u是否属于与vl相同的对象。如图在图1（b）中，将曲线放置在网格上并在其顶部进行卷积不能有效地使元素相关另一方面，利用如图1B所示的显式成对建模。1（c），如果我们通过独立计算它们的欧几里得距离将v1与其他点全局关联起来，我们将错误地将v1和vn建模为“不相似”，而将v1和u建模为“相似”，因为它们在空间上更接近。图1（c）也属于非局部传播方法[27，47，54，7，24]，其通过全连接图显式地对成对在这项工作中，我们的目标是通过提出一个空间广义传播网络（SGPN）来解决所有上述挑战，如图所示第1段（d）分段。代替将输入点变换成规则的网格结构，我们保留数据的原始空间结构，但是建立若干有向无环图（DAG）来连接相邻点，其中图1B示出了图1A的示例。图1（d）示出了忠实地粘附到弯曲物体V的结构的从上到下的DAG。利用我们的传播算子，v1和vn之间的距离由它们之间相邻元素的累积连接决定。当中间距离的乘积很小时，我们可以正确地将v1和vn建模为属于同一对象，即使它们在空间上很远。我们表明，从理论上讲，我们的传播机制是等效的线性扩散。更重要的是，我们提出了一个可微的内核操作符，即使对于DAG，两个连接的节点之间的边缘的强度是可学习的。此外，我们的整个框架是一个灵活的深度学习构建块，其中SGPN可以嵌入其中，并与任何类型的网络联合优化，例如，任何用于语义分割的基线CNN。出于同样的原因，我们的传播模块，它对任意结构的数据进行操作，例如，点云也可以容易地与处理与点相关联的图像的2DCNN相结合，例如，所述多视图图像对应于点云。我们通过将其应用于不同类型的数据，包括图像像素，超像素和点云，用于语义分割的任务，证明了SGPN的有效性。实验结果表明，我们的SGPN优于国家的最先进的方法，对所有类型的数据的语义分割，并一致地提高了可靠的利润率的所有基线模型。2. 相关工作对不规则结构的数据建模。不规则数据域是指那些不包含规则有序元素的数据域，超像素或点云。深支持处理不规则域的学习方法远少于那些存在于规则域的学习方法，例如，图像和视频。为了对超像素进行建模，[22]的工作通过按特征重新排列它们来使用CNN内部的超像素。[24]的工作在神经网络内部使用超像素卷积模块，这导致一些性能改进[46，25]。相比之下，相当多的网络是为点云设计的[29，39，40，44，43]，其中大多数目标是将CNN模块适应于非结构化数据，而不是明确地对点之间的成对关系进行建模。另一方面，虽然一些传播模块[27，26，51，24]解决了针对不规则结构化数据的亲和性建模，但由于其传播的非局部性质，它们无法解决保留内部结构的挑战。成对亲和力建模。成对关系在广泛的低到高水平视力问题中进行建模。图像滤波技术包括边缘保持平滑和图像去噪[2，45，6，21]是将成对建模应用于现实世界应用的一些最直观的例子。另一方面，结构化预测的任务[27，28，18]试图在更一般的问题中明确地建模关系。最近，已经提出了许多用于建模亲和度的方法作为深度学习构建块[34，48，49，47，54，31，7，24，51]，其中一些方法还提出“学习”亲和度[34，47，24，51]。除了这些方法之外，扩散理论[38]提供了一个基本框架，该框架将成对关系的显式建模任务与现实世界中的物理过程联系起来，其中许多流行的亲和力构建块[47，51，34]可以通过它来描述。传播网络。我们的工作与最近的图像空间传播网络（SPN）[34，12]有关，它学习像素之间的亲和力以改进像素级分类[34]或回归[52，33，12]任务。SPN通过可微传播层对亲和度进行建模，其中传播本身由以输入图像像素为条件的可学习的空间变化权重SPN具有在图像分割[34]、深度估计[52]和时间传播[33]中忠实地保留复杂图像结构我们在下面的部分中示出，我们的工作将SPN推广到任意图，使得SPN可以被视为我们在规则网格上的工作的特例。我们的工作也与图上的递归神经网络（RNN）有关[23，15，30]。然而，与我们的工作不同，RNN不是为图上的线性扩散而设计的，而是针对更一般的问题表示为图。3. 空间广义传播网络与像素放置在常规2D网格上的图像不同，遇到654图2. 一种用于点云分割的通用SGPN结构。有关各个模块的详细信息，请参见第3视觉任务具有未定义的结构。为了用深度神经网络处理这些数据，它们必须被转换成一些结构，如高维格子[43]或全连接图[39，47]，在这些结构上可以执行卷积，池化等操作。我们在图中以点云分割为例。2、解释我们的方法。我们在原始点上构建一组DAG，如图所示。2（e），通过连接空间上相邻的点。与将非结构化点变换为刚性晶格相反，在刚性晶格中，原始点的拓扑可能改变，并且可能存在许多未使用的顶点（例如，参见图1（b），其中许多网格单元未被占用），DAG既不改变输入拓扑，也不消耗任何额外的存储器以实施规则结构。这样的DAG结构是高度灵活的，因为不同对象的输入点可以具有精确地粘附到它们自己的形状的不同DAG。在显式成对建模方面，与点密集连接的全连接图[47]相反（见图1）。1（c）），DAG的结构还能够然后，我们表明，它完全执行线性扩散的DAG。我们强调了我们的SGPN的作用-3.1. 制剂DAG上的传播。给定一组顶点V={v1，…v N}，我们将v i的连通邻居的索引集合表示为Ki。例如，如果沿着从左到右的方向构建DAG，并且V是集合点云中的点，Ki中的顶点将是与vi相邻的点，并且在空间上位于v i的左侧（见图11）。第2段（e）分段）。我们将每个顶点在传播之前和之后的特征表示为u∈RN×c，并且h∈RN×c，其中u可以是c-通道有限元，从片段的中间层获得的真实图在传播之前，h是CNN的值，并且h将是其在传播之后的值我们分别将u和h称为一元特征和传播特征。传播算子循环地更新图的各个顶点的h的值（例如，从左到右）为：沿不同方向的传播被执行，以及图（1）（d）是一个模型。我们建立不同的方向h（i）=（1−Σk∈Kigik）u（i）+Σk∈Kigikh（k），（1）用DAG，例如，沿着3D中的点云的x、y和z轴（总共6个方向，沿着每个轴具有正方向和负方向），其中我们在图1中示出了从左到右的DAG。第2段（e）分段。DAG可以建立在全局范围上，对于具有数百万个点的点云，以支持远距离传播。一旦DAG被构建，我们学习成对的DAG顶点之间的仿射关系，我们使用我们的SGPN propa- gation模块沿边缘的结构化信息传播SGPN可以附加在任何在DAG顶点提供初始（一元）特征在点云的情况下，CNN可以是现有的3D网络。为了展示SGPN的灵活性并利用2D CNN的潜力，我们使用2D CNN在相应的多视图2D图像上获得顶点特征。我们使用可微聚合模块 2（c），其将像素特征转换为DAG上的顶点特征。在下面的部分中，我们首先描述DAG上的线性传播的公式，假设DAG是给定的。其中{gik}是vi之间的一组可学习的亲和度值和vk，我们将其表示为边表示。一个平行的公式。在DAG中，由于顶点是顺序更新的，因此使用等式（1）中的线性扩散将特征从一个顶点传播到另一个顶点（1）结果不佳并行效率在这里，我们表明，DAG上的传播可以重新制定的“时间步长”的方式，它可以实现在一个高度并行的这是通过对拓扑排序算法的轻微修改来实现的（参见Alg.1）：我们将顶点重新排序成组，以确保（a）同一组中的顶点彼此不链接，并且可以同时更新，以及（b）每个组仅具有来自其先前组的传入边。以图像为例，我们可以通过将第t列中的所有像素连接到第（t+1）列中的像素来构建从左到右的DAG（参见图12）。3（a））。也就是说，col-映像中的umn等效于DAG中的组，其中由方程式(1)可以同时计算来自同一列的像素。我们表示相应的655图3. （a）图像像素和（b）（c）不规则结构点之间DAG的局部连接的比较。“propagated” features for the vertices in the 我们对每个组执行传播，作为其所有先前组的线性p−1hp=（I-dp）up+wpqhq，（2）q=1其中Q是沿着传播方向在组P之前的组设第p和第q个群分别含有mp和mq个顶点，则wpq是一个mp×mq包含所有对应权重{g}的矩阵为在hp和hq中的顶点之间。具体来说，dp∈Rmp×mp是一个对角度矩阵，在i处有一个非零项，它将所有{wpq}的信息聚合为：Σp−1Σmq图4. 从CNN学习DAG边缘表示的一元（绿色）特征和成对（橙色）特征。图上的扩散过程证明细节见补充材料。我们注意到，DAG上的线性扩散过程是一个重要的性质，表明所提出的算法与许多图像处理技术中广泛使用的真实物理过程密切相关[38，20，4]。这个骗局-连接也使我们的模型更可解释，例如，方程中的边缘表示{gik}。（1）然后明确地描述局部区域中的扩散强度3.2. 学习DAG上的表示可学习的边缘表示。一种边缘表示法，{g ik}指示顶点的值是否传递给其邻居。对于语义分割的任务，期望的{gik}应该表示语义边（即，dp（i，i）=wpq（i，j）.（三）gik=0停止跨不同类别的传播，并且q=1j =1将顶点重新排序成组导致格伊克>0允许在类别内传播）[8，9，35]。步骤”形式的等式(2)，其中同时计算同一组中的所有顶点的更新。对于一个方向，组数为T，在DAG上传播的计算复杂度为O（T）。给定等式（2），我们需要明确保持传播的稳定性，这在补充材料中有描述。图上的扩散线性扩散理论指出，信号的滤波可以等效地看作是热传导或热扩散的解决方案，其中信号随时间的变化可以被描述为信号在当前状态的空间重构[38]。该理论可以推广到许多其他处理，例如细分，其中空间微分需要用特定于任务的拉普拉斯矩阵来替换。当将扩散理论拟合到深度神经网络中时，我们希望拉普拉斯算子是可学习的，并通过可微分线性扩散模块我们首先引入符号，其中U=[u1，...，u T]∈RN× c且H=[h1，…，h T]∈RN× c是所有N个序群的特征（U和H是在当量(1))连接在一起。我们重写Eq。(2)通过全局线性变换H-U=-LU来细化特征U。我们可以从两个方程中推导出。(2)和等式(1)L满足作为拉普拉斯矩阵的要求，其每行总和为零。它导致了一个标准这意味着应该学习边缘表示并且以输入像素值为条件，而不是固定或手动定义。[34]的工作使用CNN产生的值作为边缘表示，即，对于从左到右的传播，利用3通道输出来表示将像素连接到其左上、左和左下相邻像素的边缘（图2）。3（a））。然而，这样的方法不能推广到任意结构的数据，因为：（a）所有顶点必须具有固定数量的连接的邻居，以及（b）所有像素的所有连接应当具有相同的固定拓扑或空间布局。相反，这里我们处理的是从非结构化点（例如，点云）不遵循这些假设中的任何一个，见图。3（b）（c）。为了克服这一限制，在我们的工作中，每个边缘representationgik用于线性传播方程。通过可微对称核函数κ（例如，inner-乘积），使得 gij=κ（xi ，xj），j∈Ki，其应用于特征向量xi和xj，被特别地计算以关联顶点Vi和Vi。我们将x∈RN×c表示为CNN的成对分支的特征。以这种方式编码图的边权重允许每个顶点具有不同数量和空间分布的连接邻居。也会减少学习图4中的边表示gik的任务转化为学习与各个顶点相关的公共特征表示{xi}的任务。具体来说，我们使用两种类型的本地656（ij）=F（5）相似性核：内积（-prod）。κ可以被定义为内积相似性：κ（xi，xj）=x<$i<$x<$j（4）这里x'表示归一化的特征向量r，可以通过层归一化在CNN中计算[3]。嵌入高斯（-embed）。我们通过高斯函数计算嵌入空间中的相似性。κ x，xe−xi−xj ǁ2由于允许g ik具有负值，因此我们将可学习的偏置项添加到嵌入的高斯项，并将其初始化为-0。五、学习一元和成对特征。我们的网络包含三个块 2（b）），其从对应于非结构化数据（例如，点云的多视图图像，图2（a））、聚合块（图2（a））、聚合块（图3（b））。2（c））聚合特征从像素点，和传播（图2（c））。2（d））块，其跨不同类型的非结构化数据的顶点传播信息。我们使用CNN块来联合学习一元u和成对x特征。CNN 块可以是任何图像分割网络（例如， DRN[53]），其中一元项可以是输出之前的特征图，也可以是之前的上采样层（图10）。4）.然后，通过对从对应于同一点的一个局部区域4.第一章由于我们证明了边缘表示{gik}可以通过将相似性核应用于fea-图xi和xi，可以重用一元特征（即，ui=xi），用于计算成对的亲和度[47]。然而，我们发现，语义分割，从较低的水平的功能是至关重要的计算成对的亲和力，因为它们包含丰富的对象边缘或边界信息。因此，我们用简单的卷积块集成了CNN各级的特征（例如，块的一个CONV层）以对准{x}和{u}的特征尺寸。我们进一步使用加权和来整合来自每个块的特征图，其中权重是标量的、可学习的参数，并且初始化为1（参见图1中的虚线框）。4）.4. 基于SGPNs的在本节中，我们将介绍如何构建DAG并嵌入学习到的表示，以针对不同类型的非结构化数据细化语义分割。4.1. 像素和超像素上的传播形象我们使用[34]中提出的3路连接来构建图像的DAG，即每个像素连接到3的相邻邻居，并且在所有4个方向上执行传播。不同于[34]，其中图形边缘表示由与分割网络分离的指导网络直接产生，在这项工作中，我们训练单个分割网络以联合计算一元特征和边缘表示作为成对特征之间的相似性（xi）。通过这项任务，我们证明了我们学习边缘表示的策略的有效性，与第5节中提出的[34]相比。超像素超像素是对图像的大的不规则形状的语义相似区域进行分组的有效表示（参见图5），并且因此减少用于后续处理任务的输入元素的数量然而，不容易直接利用超像素作为图像像素，因为它们不布置在规则网格上。我们的方法可以通过聚集像素级特征、执行传播、然后将来自超像素的特征投影回图像像素（我们将超像素的单个值复制到超像素覆盖的所有图像像素位置）来对作为中间块的超像素执行传播。为了执行传播，我们通过构造一组DAG来预处理每个超像素图像，其中超像素是顶点，并且到它们的邻居的连接是边缘。具体来说，我们搜索每个超像素的空间相邻邻居，并将它们沿着原始图像的4个方向分成4组（即，→，←，↑，↓）。为了确定一个超像素是否是另一个超像素沿特定方向的邻居，我们比较它们的质心的位置（见图1中（五）。对于来自Cityscapes数据集的1024×2048图像[14]，具有15000个超像素，垂直和水平方向的 T 约为 100×200 和200×400这比表演道具要对高分辨率图像的原始像素进行缩放。4.2. 点云上的传播与许多从原始点学习特征的现有方法[39，29]不同，我们的方法灵活地将图像特征映射到点，点云可以直接利用许多现成的网络架构和预训练的权重。联合2D-3D训练通过经由相机参数（不是本工作的重点）建立像素和点之间的对应关系，并根据对应关系将来自CNN的特征聚合到DAG来进行。请注意，同一点可能对应于多个图像的像素（图1）。图5（b）虚线框），其中我们简单地对它们之间的特征进行平均。DAG的构造与超像素的构造类似，不同之处在于邻域可以直接根据点之间的空间距离来沿曲面构建DAG。我们观察到，根据局部对象/场景表面构造图657图5.示出了沿着超像素和点云的聚合和传播的不同图。详见第4节。面，而不是XYZ欧几里德空间，产生更好的性能（第5节）。这与属于相同光滑和连续表面的局部区域更可能来自相同对象的直觉一致。模拟在[13，44，40]中已经进行了类似的观察详细地说，考虑在i的球面范围内的一组相邻点k∈Ki，使得P（i）−P（k）

下载后可阅读完整内容，剩余1页未读，立即下载