稀疏3D数据进行深度学习的高分辨率卷积网络OctNet

161 浏览量更新于2023-10-15 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1OctNet：以高分辨率Gernot Riegler1Ali Osman Ulusoy2Andreas Geiger2，31格拉茨科技大学计算机图形与视觉研究所2自治视觉组，智能系统MPITubingen3计算机视觉和几何组，ETHZurichriegler@icg.tugraz.at{osman.ulusoy，andreas.geiger}@tue.mpg.de摘要我们提出了OctNet，这是一种使用稀疏3D数据进行深度学习的表示。与现有模型相比，我们的代表实现了深度和高分辨率的3D卷积网络。为了实现这一目标，我们exploit的稀疏性输入数据分层parti-tion的空间使用一组不平衡的八叉树，其中每个叶节点存储池的功能表示。这允许将内存分配和计算集中到相关的密集区域，并在不影响分辨率的情况下实现更深的网络我们通过分析分辨率对几个3D任务（包括3D对象分类、方向估计和点云标记）的影响，展示了我们的OctNet表示1. 介绍在过去的几年里，卷积网络在计算机视觉的许多领域都带来了实质性的性能提升在大多数情况下，网络的输入在图像分类[18]，对象检测[35]或语义分割[13]中。然而，3D重建[33]和图形[21]的最新进展允许捕获和建模大量的3D数据。与此同时，大型3D存储库（如ModelNet [47]，ShapeNet [6]或3D Warehouse1）以及3D对象扫描数据库[7]变得越来越可用。这些因素推动了对3D数据进行操作的卷积网络的发展大多数现有的3D网络架构[8，29，34，47]通过其3D模拟来替换2D像素阵列，即，密集且规则的3D体素网格，并使用3D卷积和池化操作来处理该网格。然而，对于密集的3D数据，计算和存储器需求随着分辨率成立方地增长。因此，现有的3D网络受限于低3D分辨率，通常在30 ×3体素的量级。为了充分利用丰富和详细的1https://3dwarehouse.sketchup.com(a) 第1层：323（b）第2层：163（c）第3层：83图1：动机。出于说明的目的，我们训练了一个密集的卷积网络来对[47]中的3D给定一个体素化的床作为输入，我们在池化之前在网络的中间层（a-c）显示所有特征图的最大响应。较高的激活用较深的颜色表示。不显示具有零激活的体素。第一行显示3D响应，而第二行显示2D切片。请注意，靠近对象轮廓的体素比远离对象轮廓的体素的响应更强烈。我们通过使用空间分区数据结构（底行）分配内存和计算来利用数据然而，我们的3D世界的几何形状，需要更高在这项工作中，我们建立在3D数据在本质上通常是稀疏的观察基础上，例如，点云或网格，在应用3D卷积时导致计算浪费3577OctNet密集三维ConvNet密集三维ConvNet3578天真地。我们在图中对此进行了说明。1为3D分类示例。给定[47]的3D网格，我们以643的分辨率对输入进行体素化，并训练一个简单的3D卷积网络以最小化分类损失。我们描绘了网络不同层所有特征图的最大响应。很容易观察到高激活仅发生在物体边界附近。受此观察的启发，我们提出了OctNet，这是一种利用这种稀疏性的3D卷积网络。我们的OctNet将3D空间分层划分为一组不平衡的八叉树[31]。每个八叉树根据数据的密度分割3D空间。更具体地说，我们递归地分割在其域中包含数据点的八叉树节点3D点或网格三角形，在树的最佳分辨率处停止。因此，叶节点的大小不同，例如，对于深度为3的树，空的叶节点可以包括多达8个3= 512个体素，并且八叉树中的每个叶节点存储其所包括的体素的所有特征激活的汇集概要。卷积网络操作直接定义在这些树的结构上。因此，我们的网络动态地集中计算和内存资源，这取决于输入的3D结构这导致计算和内存需求的显着减少，从而允许以高分辨率进行深度学习。重要的是，我们还展示了如何在这种新的数据结构上有效地实现必要的网络操作（卷积，池化或我们展示了建议的OctNet的实用性，涉及三维数据的三个不同问题：三维分类、未知物体实例的三维方向估计和三维点云的语义分割。特别是，我们表明，由于其较低的内存消耗，拟议的OctNet能够显着更高的输入分辨率相比，密集的输入，同时实现相同的性能相比，在较低的分辨率相当密集的网络与此同时，我们在1283及以上的分辨率上获得了使用我们的OctNet，我们调查了高分辨率输入的影响这三个任务的准确性，并证明更高的分辨率是特别有益的方向估计和语义点云标记。我们的代码可从项目网站2.2. 相关工作虽然2D卷积网络已经证明在从图像中提取信息方面非常有效[11，13，18，35，41，42，46，48，49]，在处理三维数据方面几乎没有工作。在本节中，我们回顾了稠密和稀疏模型的现有工作。密集型：Wu等人。[47]训练了一个深度信念网络，用于离散化到30×3体素网格的形状，用于对象分类。2https://github.com/griegler/octnetFification、形状完成和下一个最佳视图预测。Maturana等人[29]提出了VoxNet，这是一种前馈卷积网络，用于从RGB-D数据中分类32× 3体素体积。在后续工作中，Sedaghat et al.[1]表明，引入辅助方向损失增加了原始VoxNet的分类性能。类似的模型也被用于语义点云标记[20]，场景上下文已被集成在[51]中。最近，生成模型[36]和自动编码器[5，39]在从低分辨率（323）3D形状集合中学习低维对象表示方面表现出令人印象深刻的性能。有趣的是，这些低维表示可以直接从一个图像[14]或一系列图像[8]。由于计算和存储器的限制，所有上述方法都只能以非常粗略的分辨率处理和生成形状，通常为30 ×3体素的数量级。此外，当需要高分辨率输出时，例如，对于标记3D点云，必须采用具有有限感受野的低效滑动窗口技术[20]。天真地增加分辨率[32，40，52]会降低网络的深度，从而降低其表达能力。相比之下，所提出的OctNets允许以更高的分辨率训练深度架构。稀疏模型：只有少数网络架构明确利用数据中的稀疏性。由于这些网络不需要穷举密集卷积，因此它们具有处理更高分辨率的潜力。Engelcke等人[10]提出通过将值推到其目标位置来计算稀疏输入位置处的卷积。这有可能减少卷积的数量，但不会减少所需的内存量因此，他们的工作只考虑了最多三层的非常浅的网络.在[15，16]中提出了一种类似的方法，其中稀疏卷积被简化为矩阵运算。不幸的是，该模型仅允许2×2卷积，并导致索引和复制开销，从而阻止处理更大分辨率的体积（[15，16]中考虑的最大分辨率为 803体素）。此外，每一层都降低了稀疏性，从而增加了操作的数量，即使在单一的分辨率。相比之下，在我们的模型中，操作的数量保持不变。Li等人。[27]提出了场探测网络，该网络在稀疏点处对3D数据进行采样，然后将其馈送到完全连接的层中。虽然这减少了内存和计算，但它不允许利用卷积网络的分布式计算能力，因为场探测层不能堆叠，卷积或池化。Jampani等人[22]介绍了双边卷积层（BCL），将稀疏输入映射到应用学习卷积滤波器的permutohedral空间。他们的工作与我们的工作有关，3579输入数据的稀疏性。然而，与BCL相比，我们的方法专门针对3D卷积网络，并且可以立即作为现有网络架构的替代品。3. 八叉树网络为了减少卷积网络对稀疏3D数据的内存占用，我们提出了一种自适应空间划分方案，该方案将计算集中在相关区域上。由于深度网络的数学运算，特别是卷积网络，在规则网格上最容易理解，因此我们将注意力限制在3D体素网格上的体素网格上最受欢迎的空间划分结构之一是八叉树[30]，由于其灵活的几何结构，八叉树已被广泛采用。应用领域包括深度融合[23]、图像渲染[26]和3D重建[44]。在本文中，我们提出了基于八叉树的3D卷积网络八叉树通过递归地将3D空间细分为八分区来划分3D空间。通过只细分图2：混合网格八叉树数据结构。这个例子说明了一个混合网格八叉树由8个浅八叉树组成，用不同的颜色表示。在每个维度上使用2个浅八叉树，最大深度为3，导致总分辨率为163体素。1包含相关信息（例如，穿过表面边界的像元或包含一个或多个3D点的像元）存储01010 0 0 0可以自适应地分配。以高精度对人口密集的区域进行建模（即，使用小单元），而空区域由八叉树中的大单元概括。(a) 浅八叉树01010000 01010000(b) 位表示不幸的是，普通八叉树实现[30]有几个缺点，阻碍了它在深层网络中的应用。虽然八叉树减少了3D表示的内存占用，但大多数版本都不允许有效访问底层数据。具体地，八叉树通常使用指针来实现，其中每个节点包含指向其子节点的指针。遍历八叉树中的任意元素（或元素的邻居）需要从根开始遍历，直到到达所需的单元因此，存储器访问的次数等于树的深度。这对深海来说成本越来越高，即，高分辨率八叉树。卷积网络的操作，如卷积或池化，需要频繁访问邻近的元素。因此，利用允许快速数据访问的八叉树设计至关重要我们通过利用我们在3.1节中描述的混合网格-八叉树数据结构来解决这些挑战。在第3.2节中，我们展示了如何在此数据结构上有效地实现3D卷积和池化操作3.1. 混合网格八叉树数据结构上面提到的vanilla八叉树数据结构的问题随着八叉树深度的增加而增加而不是表示整个高分辨率的3D输入与一个单一的不平衡八叉树，我们利用混合网格八叉树结构类似于米勒等人提出的。[31 ]第30段。关键思想是将八叉树的最大深度限制为图3：位表示。浅八叉树可以是使用比特串高效地编码。这里，比特串10 1010000 0000000 01010000 0000000 01010000 0...在（a）中定义八叉树。相应的树如（b）所示。体素的颜色对应于分割级别。少量，例如，三，并放置几个这样的浅八叉树沿一个规则的网格（图。2）的情况。虽然这种数据结构可能不像标准八叉树那样高效，但仍然可以实现显著的压缩比。例如，不包含输入数据的单个浅八叉树仅存储单个向量，而不是针对深度3处的最佳分辨率下的所有体素的83= 512个向量。浅八叉树集合的另一个好处是，它们的结构可以使用位串表示非常有效地编码，这进一步降低了访问时间，并允许高效的GPGPU实现[31]。给定一个深度为3的浅八叉树，我们用73位来表示完整的树。具有索引0的第一位指示根节点是否被分裂。此外，比特1至比特8指示子节点之一是否被细分，比特9至比特72指示孙节点的分裂，参见图11。3.第三章。树深度为3给出了内存消耗和计算效率之间的良好折衷增加八叉树深度导致存储树结构所需的位呈指数增长，并进一步增加单元遍历时间。使用这种位表示，在shal中的单个体素，3580低八叉树完全由其位索引来表征该索引确定八叉树中的体素的深度，因此也确定体素的大小。代替使用指向父节点和子节点的指针，可以使用简单的算术来检索具有位索引i的体素的对应索引：pA（i）、、、i−18、（1）ch（i）= 8·i + 1。（二）与[31]相反，我们将数据容器（用于存储(a) 标准卷积(b) 高效卷积特征向量）与每个浅树的所有叶节点。我们将浅八叉树的数据分配到一个连续的数据数组中。与该阵列中的特定体素相关联的偏移可以计算如下：pa（i）−1i−1data idx（i）= 8 bit（j）+1− bit（j）图4：卷积。该图显示了33内核（红色）与83网格八叉树单元（黑色）的卷积。仅显示了3个维度中的2个一个简单的实现在网格八叉树单元内的每个位置（i，j，k）计算内核，如（a）所示对于该示例，这导致了1014k相比之下，（b）描述了我们有效执行相同操作的情况，j=0联系我们i以上的节点数+ mod（i− 1，8）.联系我们偏移j=0联系我们#split nodes prei（三）只需要103k次乘法。由于网格八叉树单元内的所有8×3体素都是相同的值，因此单元内的卷积核只需计算一次。细胞边界的体素需要整合来自相邻细胞的信息。这可以通过求和这里，mod表示模运算符，bit返回i处的树位串值。参见附录。文件为例。这两种求和操作都可以使用位计数内在函数（popcnt）有效地实现。在训练和测试期间，所有浅八叉树的数据阵列被连接成单个连续的数据阵列，以减少I/O延迟。3.2. 网络操作给定前一节中介绍的混合网格八叉树数据结构我们将专注于卷积网络中最常见的操作[13，18，35]：卷积，池化和解池化。请注意，逐点操作（如激活函数）在实现上没有区别，因为它们独立于数据结构。让我们先介绍一下这一节将用到的符号。Ti，j，k表示位置（i，j，k）处的3D张量T的值。现在假设一个混合网格八叉树结构，其D × H × W非平衡浅八叉树的最大深度为3. 令O[i，j，k]表示该结构中包括体素（i，j，k）的最小单元的值。注意，与张量符号相反，O[i1，j1，k1]和O[i2，j2，k2]（其中i1/= i2<$j1/= j2<$k1=/k2）可以指混合网格八叉树中的相同vo x el，这取决于体素的大小。我们通过（i，j，k）获得网格中浅八叉树的索引，截断核函数看我们的supp。详细信息文档。给定这个符号，从网格八叉树O到具有兼容维度的张量T的映射由下式O [i，j，k]的时间复杂度。（四）类似地，反向映射由下式给出：ten2oc：O[i，j，k]=poolvoxels（T<$i，<$j，k<$），（5）（<$i，<$j，k<$）∈<$[i，j，k]其中池体素（·）是池化函数（例如，平均池化或最大池化），其将T中的所有体素池化在包括位置（i，j，k）的最小网格八叉树单元上，由k [i，j，k ]表示。这种池化是必要的，因为O中的单个体素可以覆盖T的多达83= 512个元素，这取决于其大小|n [i，j，k]|.注：有了上面定义的两个函数，我们可以通过以下方式包装在3D张量上定义的任何网络操作f：g（O）= ten2oc（f（oc2ten（O）.（六）然而，这将需要从存储器高效的网格八叉树到常规3D3581张量的昂贵转换。此外，在内存中存储稠密张量限制了最大分辨率。因此，我们定义我们的网络操作，直接对混合网格八叉树数据结构。卷积卷积运算是最重要的运算，8 8 8该八叉树中最佳分辨率的体素的局部索引（mod（i，8），mod（j，8），mod（k，8））。重要，但也是计算成本最高的歌剧-深度卷积网络中对于单个功能3582i，j，k在(a) 投入（b）产出图5：池化。网格八叉树结构上的23池化操作组合了8个相邻的浅八叉树。(a) 一个浅八叉树（b）。每个体素的大小减半并复制到新的浅八叉树结构。最高分辨率的Vox- els被合并。不同的浅八叉树用不同的颜色表示。映射，将3D张量T与3D卷积ker进行卷积，(a) 投入（b）产出图6：取消合并。23unpooling操作将（a）中所示的深度为d的单个浅八叉树转换为（b）中所示的深度为d-1的8个对于深度为零的每个节点，产生一个浅八叉树。所有其他体素的大小加倍。不同的浅八叉树用不同的颜色表示。在每个区域内。从形式上讲，我们有nelW∈RL×M×N可以写为L−1M−1N−1Tout=max .i，j，k l，m，n∈[0，1]在……2i+l，2j+m，2k+n、（9）出来i，j，k=Wl，m，n在阿吉、（7）其中T在∈R2D×2H×2W和T出来 ∈RD×H×W。l=0m=0n=0式中，i=i−l+L/2，j=j−m+M/2，k=k−n+2000/2000美元类似地，网格八叉树数据结构上的卷积被定义为：Oout[i，j，k]=池体素（T）（8）（<$i，<$j，k<$）∈<$[i，j，k]为了在网格八叉树数据结构上实现池化，我们减少了浅八叉树的数量对于一个输入网格-八叉树Oin和2D×2H×2W浅八叉树，输出Oout包含D×H×W浅八叉树。中O的每个体素的大小减半，并在浅八叉树中复制一个更深的级别。合并深度为3in0in的这可以形式化为Ti，j，kL−1M−1N−1=Wl，m，n·Oin[i，j，k].哦出去[i，j，k]=.O在 [2i，2j，2k]如果vxd（2i，2j，2k）3643时也比密集的同类产品运行得更快。对于分辨率≤643，由于网格八叉树表示和处理产生的开销，OctNet运行稍慢OctNetDenseNetet 3OctNet 2OctNet 1OctN精度OctNetDenseNetVoxNet精度3585浴缸0.760.100.020.08床椅子书桌梳妆台监视器0.950.010.030.010.970.030.700.020.090.190.870.050.080.030.97床椅子书桌梳妆台监视器0.990.990.010.010.810.010.020.030.120.020.960.010.01n. 立式沙发桌0.01 0.010.300.580.090.040.030.010.100.010.89n. 立式沙发桌0.010.010.170.020.010.220.770.050.010.950.78卫生间厕所0.010.020.9783323图9：ModelNet10上的混淆矩阵。8. 07 .第一次会议。57 .第一次会议。0六、5六、0五、5五、04.第一章54.第一章03 .第三章。58163323643128325635123141210861633236431283浴缸床Dresser N. 站输入分辨率(a) 平均角误差输入分辨率(b) 平均角误差图8：来自ModelNet10的体素化3D渲染。利用我们的OctNets，我们现在比较输入分辨率对分类精度的影响。图7c显示了不同OctNet架构的结果，其中我们将每个块的卷积层数量固定为1，2和3。图图7d 示出了当保持模型的容量时相对于 DenseNet 和VoxNet的准确度的比较，即，参数的数量，通过从网络的开始移除最大池化层而保持不变。我们首先注意到，尽管它是池化表示，OctNet的性能与其密集等价物相当这证实了我们最初的直觉（图）。1）稀疏数据允许自适应地分配资源而不损失性能。此外，这两种模型都优于较浅的VoxNet架构，表明网络深度的重要性。关于分类精度，我们观察到的改进，较低的分辨率，但收益递减超过32-3体素的输入分辨率。仔细看看图中的混淆矩阵。9，我们观察到较高的输入分辨率有助于某些类，例如，浴缸，而另一些则与决议无关，仍然模棱两可，例如，梳妆台与床头柜。我们通过显示来自ModelNet10数据库Fig.的3D形状的体素化表示来可视化这种缺乏区分能力的情况。8.虽然浴缸在低分辨率下看起来类似于床（或沙发、桌子），但在高分辨率下可以成功区分它们然而，梳妆台和床头柜之间的某种模糊性仍然存在。4.2. 3D方向估计在本节中，我们研究了输入分辨率对3D方向估计的重要性。大多数现有的3D姿态估计方法[3，4，38，43，45]假设对象实例的真实3D形状是已知的。评估图10：ModelNet10上的方向估计。3D卷积网络的泛化能力，我们考虑一个稍微不同的设置，其中只有对象类别是已知的。在对来自单个类别的3D形状的保留集训练模型之后，我们测试了模型预测来自同一类别的未见过的3D形状的3D方向的能力。更具体地，给定具有未知姿态的对象类别的实例，目标是估计相对于规范姿态的旋转我们利用ModelNet10数据集的椅子类中的3D形状，并围绕每个轴在±15°我们使用与分类实验中相同的网络架构和训练协议，除了网络回归方向。我们使用单位四元数来表示3D旋转，并使用欧几里得损失来训练我们的网络对于小角度，这个损失是四元数q1，q2之间旋转角度φ=arccos（2 <$q1，q2<$2−1）的一个很好的近似。图10显示了我们使用与前一节相同的命名约定的结果。我们观察到，与分类任务相比，精细的细节更重要。对于OctNet 1-3架构，我们观察到性能的稳定增长，而对于在不同分辨率下具有恒定容量的网络（图1）。10 b），性能水平超过1283体素输入分辨率。后一实验的定性结果如图所示11个国家。每行显示了两个随机选择的椅子实例在几个输入分辨率上的10个不同的预测，范围从163到1283。较暗的颜色表示较大的错误，在较低的分辨率下更频繁地发生。相比之下，在更高的网络分辨率下的预测聚集在真实姿势周围。注意，学习128× 3体素或更高分辨率的密集3D表示将是不可行的。OctNet 1OctNet 2OctNet 3OctNet32364383163浴缸平均角度误差µ（φ）[]床椅子书桌梳妆台监测n. 站沙发表厕所平均角度误差µ（φ）[]床浴缸椅子书桌梳妆台监测沙发n. 站表厕所33586TP+FNTP+ FN+FP平均整体IOURiemenschneider等人[37]第三十七届--42.3Martinovic等人[28日]--52.2Gadde等人[12个]68.578.654.4OctNet64360.073.645.6OctNet128365.376.150.4OctNet256373.681.559.2表1：RueMonge2014上的语义分割。163 323 643 1283图11：ModelNet10上的方向估计。该图显示了3个椅子实例的10个旋转估计，同时将输入分辨率从163改变到1283。较暗的颜色表示与地面实况的较大偏差。4.3. 三维语义分割在本节中，我们将评估所提出的OctNets在用语义信息标记3D点云的问题上的效果。我们使用RueMonge2014数据集[37]，该数据集提供了几个奥斯曼风格立面的彩色3D点云，总共包括1000万个3D点。标签是窗户、墙壁、阳台、门、屋顶、天空和商店。对于这个任务，我们在三个不同的输入分辨率643，1283和2563上训练一个U形网络[2，52]，其中选择体素大小，使得所有建筑物的高度适合输入体积。我们首先将点云映射对于包含多个点的所有叶子节点，我们对输入特征进行平均，并计算用于训练的地面真实标签的多数投票。作为特征，我们使用二进制体素占用，RGB颜色，法向量和离地高度由于训练样本的数量很少，我们通过应用小的旋转来增加这个任务的数据。我们的网络架构包括一个编码器和一个解码器的一部分。编码器部分由四个块组成，包括2个卷积层（3个滤波器，步幅1），每个卷积层后面是一个最大池化层。解码器由四个块组成，包括2个卷积（3个滤波器，步幅1），后面是一个引导的解池层，如前一节所述此外，在每个解池步骤之后，来自编码器的最后一层的相同分辨率的所有特征被级联以提供高分辨率细节。所有网络都使用Adam [ 24 ]的每体素交叉熵损失和0的学习率进行训练。0001表1将所提出的OctNet与遵循[12]的扩展评估协议的立面标签任务的几种最先进方法进行了比较。的3D点(a)体素化输入（b）体素估计(a) 估计点云 (d)地面实况点云图12：OctNet 2563Facade标签结果。测试集被分配相应网格八叉树体素的标签作为评估措施，我们使用所有3D点的整体像素精度TP，平均类精度TP，在所有类上，在unionTP上的这里，FP、FN和TP分别表示假阳性、假阴性和真阳性。我们的研究结果清楚地表明，增加输入分辨率是必不可少的，以获得国家的最先进的结果，更精细的细节消失在粗糙的分辨率。一个立面的定性结果如图所示。12个。进一步的结果在附录中提供。文档.5. 结论和未来工作我们提出了OctNet，这是一种新的3D表示，它使具有高分辨率输入的深度学习变得易于处理。我们分析了高分辨率输入在几个3D学习任务中的重要性，例如对象分类，姿态估计和语义分割。我们的实验表明，对于ModelNet10分类，低分辨率网络证明是足够的，而高输入（和输出）分辨率对于3D方向估计和3D点云标记很重要我们相信，随着社区从Model-Net 10等低分辨率对象数据集转向高分辨率大规模3D数据，OctNet将实现进一步的改进。未来研究的一个特别有前途的途径是学习多视图3D重建的表示，其中处理高分辨率体素化形状的能力至关重要。3587引用[1] N. S. Alvar，M.Zolfaghari和T.布洛克斯用于3d物体识别的方向增强体素网络。arXiv.org，1604.03351，2016.2[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。arXiv.org，1511.00561，2015. 五、八[3] E. Brachmann，A. Krull，F. Michel，S. Gumhold、J.Shotton和C.罗瑟使用3d对象坐标学习6d对象姿态估计。在欧洲会议上。计算机视觉（ECCV），2014年。7[4] E. Brachmann ， F.Michel ， A.Krull ， M.Y. Yang ，S.Gumhold和C.罗瑟基于单幅rgb图像的物体和场景的不确定性驱动6d姿态估计正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。7[5] A. Brock，T. Lim，J. M. Ritchie和N.韦斯顿使用卷积神经网络的生成和判别体素建模arXiv.org，1608.04236，2016. 二、六[6]A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. Shapenet：一个信息丰富的3D模型存储库。arXiv.org，1512.03012，2015. 1[7] S. Choi，Q. Zhou，S. Miller和V.科尔顿。对象扫描的大型数据集。arXiv.org，1602.02481，2016. 1[8] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在欧洲会议上。计算机视觉（ECCV），2016年。一、二[9] A.多索维茨基山口Fischer、E. Ilg，P. Haeusser，C. 哈齐尔巴斯诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流。在IEEE国际会议上。计算机视觉（ICCV），2015年。5[10] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测arXiv.org，609.06666，2016.2[11] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。 arXiv.org ，1506.06825，2015年。2[12] R. Gadde，V. Jampani，R. Marlet和P. V. Gehler有效的2d 和 3d 立面分割使用自动上下文。 arXiv.org ，1606.06437，2016. 8[13] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔在欧洲会议上。计算机视觉（ECCV），2016年。一、二、四[14] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在欧洲会议上。计算机视觉（ECCV），2016年。2[15] B.格雷姆空间稀疏卷积神经网络。arXiv.org，2014年。2[16]B.格雷姆稀疏3d卷积神经网络。在英国机器视觉会议（British Machine Vision Conf.（BMVC），2015. 2[17] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在IEEE国际会议上。计算机视觉（ICCV），2015年。6[18] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。一、二、四、五[19] V. Hegde和R.扎德Fusionnet：使用多种数据表示的3d对象分类。arXiv.org，1607.05695，2016. 6[20] J. Huang和S.你基于三维卷积神经网络的点云标注在国际会议上。模式识别（ICPR），2016年。2[21] Q. Huang，H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图 ACMTrans. on Graphics（SIGGRAPH），2015年。1[22] 诉Jampani，M.Kiefel和P.诉盖勒学习稀疏高维滤波器：图像滤波、稠密crfs与双边神经网络。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。2[23] W. Kehl，T. Holl，F. Tombari，S. Ilic和N.纳瓦布基于八叉树的有效变距离数据融合方法。 arXiv.org ，1608.07411，2016. 3[24] D. P. Kingma和J. BA. Adam：随机最佳化的方法。在proc 国际会议。关于学习表征（ICLR），2015年。六、八[25] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统进展（NIPS），2012年。6[26] S. Laine和T.卡拉斯高效的稀疏体素八叉树。IEEE Trans.on Visualization and Computer Graphics （ VCG ）， 17（8）：1048-1059，2011. 3[27] Y. Li，S.Pirk，H.苏C.

下载后可阅读完整内容，剩余1页未读，立即下载