单幅图像的分段平面三维重建

121 浏览量更新于2023-10-17 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1029基于关联嵌入的单幅图像逐段平面三维重建于泽浩1贾政1连东泽1周子涵2高盛华1 <$1上海科技大学{yuzh，zhengjia，liandz，gaoshh}@shanghaitech.edu.cn2宾夕法尼亚州立大学zzhou@ist.psu.edu摘要单幅图像分段平面三维重建的目的是同时分割平面实例和恢复三维平面参数从图像。最新的方法利用卷积神经网络（CNN），并取得了可喜的成果。然而，这些方法限于检测具有特定学习顺序的固定数量的平面。为了解决这个问题，我们提出了一种新的基于关联嵌入的两阶段方法，灵感来自其最近的成功实例分割。在第一阶段，我们训练CNN将每个像素映射到嵌入空间，其中来自同一平面实例的像素具有相似的嵌入。然后，通过有效的均值漂移聚类算法在平面区域的嵌入向量进行分组，获得平面实例。在第二阶段，我们通过同时考虑像素级和实例级两个方面来估计每个平面实例的参数。与所提出的方法，我们能够检测任意数量的飞机。在公共数据集上的大量实验验证了该方法的有效性和高效性。此外，我们的方法在测试时以30 fps运行，因此可以促进许多实时应用，如视觉SLAM和人机交互。代码可在https://github.com/svip-lab/PlanarReconstruction上获得。1. 介绍单图像3D重建是计算机视觉中的一个基本问题，在虚拟和增强现实、机器人和社交媒体等新兴领域在本文中，我们通过恢复场景的分段平面3D模型来解决这个问题，即在单个RGB图像中找到所有平面实例并估计其3D参数，如图1所示。分段平面模型提供了3D场景的紧凑表示，这可以有益于许多应用，如SLAM和人机交互。*同等贡献†通讯作者输入图像平面实例分割深度图逐段平面3D模型图1：逐段平面3D重建。在文献中，大多数现有方法以自下而上的方式解决这个问题[6，2，24，31，15，10，12]。他们首先从图像中提取几何图元，如直线段，消失点，角，路口和图像补丁。然后，这些图元根据它们的几何关系被分组为平面区域。然而，在实践中，检测组成几何图元本身是高度挑战性的，经常导致大量的错过检测（例如，由于不良纹理的表面，照明条件）和异常值（例如，由于非平面物体的存在）。因此，通常采用诸如RANSAC或马尔可夫随机场（MRF）的统计技术来产生最终的3D模型。但是当丢失和不相关检测的百分比很高时，这种技术经常会崩溃，并且只适用于限制性的场景（例如，曼哈顿世界场景）。此外，统计模型的优化是耗时的，这极大地限制了它们在实时任务中的应用。与自下而上的方法不同，自上而下的方法[13]通过以整体的方式分析图像来克服上述困难，而无需求助于1030到局部几何图元。最近，[23，30]训练CNN直接从单个图像预测平面分割和平面这些方法被证明可以在多个室内和室外数据集上实现最先进的性能尽管有其优点，目前的学习为基础的方法来与自己的局限性.特别地，由于缺乏关于图像中的平面的数量和特定顺序的先验知识，它们限于检测具有特定学习顺序的固定数量的平面，因此可能不够灵活以处理现实世界场景结构中的变化。在本文中，我们提出了一种新的CNN为基础的，自底向上的方法，采取两全其美，同时避免了现有方法的局限性。为了使这成为可能，我们的关键见解是，我们可以通过计算两个像素与同一平面实例相关的可能性来检测图像与传统的自下而上的方法（对几何图元进行分组）不同，我们的相似性度量基于深度嵌入模型，其最近在姿态估计[25]，对象检测[19]和实例分割[9，5，17]方面取得了成功。接下来，我们用另一个CNN分支生成的平面/非平面分割图来屏蔽非平面像素。最后，一个有效的均值漂移聚类算法al-xim被用来聚类的掩蔽像素嵌入到平面实例。在平面实例分割的基础上，综合考虑像素级精度和实例级精度，设计了平面参数网络我们首先预测每个像素的平面参数，然后将这些预测与平面实例相结合以生成每个平面的参数。请注意，与现有的CNN方法不同，我们限制我们的网络进行局部预测（即，逐像素嵌入向量和平面参数），并以自底向上的方式对这些预测进行分组。这使得我们的方法能够生成任意数量的平面，并避免被限制到任何特定的顺序或空间布局。概括而言，我们的贡献如下：i）我们提出了一个新的两阶段深度学习框架，用于分段平面3D重建。基于深度关联嵌入模型，我们设计了一个多分支、端到端的可训练网络，它可以同时检测任意数目的平面并估计它们的参数ii）我们提出了一种快速的均值漂移聚类算法，将像素嵌入分组到平面实例中，在测试时实现了实时性能。iii）在两个具有挑战性的数据集Scan-Net [4]和NYUv 2[27]上进行的广泛实验验证了我们方法的有效性和效率。2. 相关工作2.1. 单视图平面重建基于几何的方法。基于几何的方法[6，2，24，20]基于2D图像中的几何线索恢复3D信息。例如，Delageetal. [6]首先从图像中提取线段、消失点和超像素。然后使用MRF模型来用预定义的一组平面类（即，曼哈顿世界假设下的三个主导平面取向）。类似地，Barinovaet al. [2]假设环境由平坦的地面和垂直的墙壁组成，并使用条件随机场（CRF）模型来标记检测到的基元。Lee等[20]检测图像中的线段和消失点的集合，并在与几何图元的集合最佳匹配的假设集中搜索建筑物模型然而，所有这些方法都依赖于对场景的强假设，这限制了它们在实践中的适用性。基于外观的方法。基于外观的方法基于图像的外观来推断图像的几何属性。早期的作品[15，10，12]采取自下而上的方法。首先预测局部图像块的方向，然后将具有相似方向的块分组形成平面区域。Hoiem等人[15]定义一组离散表面布局标签，例如颜色、纹理、位置和透视）来训练模型以标记图像中的每个超像素。Haines和Calway [12]学习预测预分割区域的连续3D方向Fouhey等人[10]首先检测凸/凹边缘，遮挡边界，超像素及其方向，然后将分组问题表示为曼哈顿世界假设下的二进制二次规划。我们的方法也属于这一类。与现有方法不同的是，本文将平面检测问题转化为一个实例分割问题，通过学习一个相似性度量直接分割出图像中的平面实例，然后对每个平面实例进行平面参数估计。最近，已经提出了几种基于CNN的方法来直接预测全局3D平面结构。Liu等[23]提出了一种深度神经网络，它可以学习输入平面参数并将平面ID（分割掩码）分配给单个图像中的每个像素Yang和Zhou [30]将问题转化为深度预测问题，并提出了一种不需要地面真实3D平面的训练方案然而，这些方法仅限于预测固定数量的平面，这可能导致复杂场景中的性能下降。同时，Liuet al. [22]使用基于提议的实例分割框架来解决这个问题，即，Mask R-CNN [14].1031平面segm.解码器Ⅰ期Ⅱ期平面/非平面分割掩码编码器平面embed.解码器均值漂移输入图像平面嵌入平面实例分割分段平面3D模型平面param参数解码器像素级平面实例感知池图2：网络架构。在第一阶段，网络将单个RGB图像作为输入，并预测平面/非平面分割掩模和像素级嵌入。然后，一个有效的均值漂移聚类算法被应用到生成平面实例。在第二阶段，我们估计每个平面的参数，同时考虑像素级和实例级的几何相似性。相反，我们利用一种无提案的实例分割方法[5]来解决这个问题。2.2. 实例分割流行的实例分割方法首先生成区域建议，然后对边界框中的对象进行分类，并在每个建议中分割前景对象[14]。最近关于关联嵌入[25]及其在对象检测[19]和实例分割[9，5，17]中的扩展的工作提供了不同的解决方案。这些方法学习一个嵌入函数，该函数将像素映射到嵌入空间，其中属于同一实例的像素具有相似的嵌入。然后，他们使用一个简单的聚类技术来生成实例分割结果。Newell等人[25]在多人姿势估计的上下文中引入关联嵌入，并将其扩展到无建议的实例分割。De Brabandere等人[5]提出了一种判别损失来学习实例嵌入，然后使用均值漂移聚类算法对嵌入进行分组以形成Kong和Fowlkes [17]引入了一个递归模型来解决像素级聚类问题。我们的方法特别受到这些工作的启发，我们将图像中的每个平面视为一个实例，并利用关联嵌入的思想来检测平面3. 方法我们的目标是从单个RGB图像中推断平面实例和平面我们提出了一种新的两阶段方法与多分支网络来解决这个问题。在第一阶段，我们训练CNN以获得平面/非平面分割图和像素嵌入。然后，我们屏蔽像素嵌入的分割图和组的屏蔽像素嵌入一个有效的均值漂移聚类算法，形成平面实例。在第二阶段，我们训练一个网络分支来预测像素级平面参数。然后，我们使用一个实例感知池层和第一阶段的实例分割图来生成最终的平面参数。图2显示了我们的方法的总体流水线。3.1. 平面/非平面分割我们首先设计一个编码器-解码器架构来区分平面和非平面区域。我们使用ResNet-101-FPN [21]的扩展版本作为编码器。 1 由 [32 ， 33] 实现的 ResNet-101 在ImageNet [7]上进行了预训练，用于图像分类。解码器预测每个像素的平面/非平面分割图。由于这两类在人造环境中是不平衡的，我们使用[29，3]中采用的平衡交叉熵损失实例.但我们进一步提出了i）一个有效的均值漂移算法来聚类平面实例，ii）一个端到端的可训练网络来联合预测平面实例片段。LS=−（1−w）Σi∈Flogpi−w Σi∈Blog（1−pi），（1）站和平面参数，这在原始实例分割问题的上下文。1有关网络架构的更多详细信息，请参见补充资料。1032×IJǁ −ǁJC不图3：平面嵌入的分布。具有不同颜色的点表示来自不同平面实例的学习嵌入。其中F和B分别是前景和背景像素的集合Pi是第i个像素长到前景的概率（即，平面区域），W是前地/背景像素数比。3.2. 嵌入模型我们的平面实例分割受到最近关于关联嵌入的工作的启发[25，9，5，17]。关联嵌入的主要思想是预测每个视觉单元的嵌入向量，使得如果一些视觉单元属于相同的实例标签，则它们的嵌入向量之间的距离应该很小，以便它们可以容易地分组在一起。对于我们的任务，我们使用平面嵌入分支将像素映射到某个嵌入空间，如图3所示。这直观地说，如果像素嵌入是容易分离的（即，实例间距离大于δd，或者嵌入向量与其中心之间的距离小于δv），则惩罚为零。否则，处罚将急剧增加。因此，损失的作用类似于硬示例挖掘，因为它只惩罚嵌入中的困难情况。3.3. 有效的均值漂移聚类一旦我们有了每个像素的嵌入向量，我们就将它们分组以形成平面实例。均值漂移聚类- ING是适合于这项任务，因为平面的instances的数量是不知道的先验。然而，标准均值漂移聚类算法在每次迭代时计算所有像素嵌入向量对的成对距离每次迭代的复杂度是O（N2），其中N是图像中的像素数。实际上，即使对于小尺寸图像，N也非常大。例如，在我们的实验中，N=192 256，使得标准算法不适用。为了解决这个问题，我们提出了一个快速的变种的均值漂移聚类算法。我们只在嵌入空间中移动少量的锚点，并将每个像素分配给最近的锚点，而不是在嵌入空间中移动所有的像素。具体地说，让k，d表示每维锚点的数量和嵌入维数，re-d，我们在嵌入空间中均匀地生成kd个锚点然后，我们计算锚点aj和嵌入向量xi之间的成对势，如下所示：分支与平面分割分支为了强制相同平面实例中的像素比不同平面中的像素更接近，我们使用[5]中的判别损失。损失包括两个1pij=<$2πbexp.M2-2b2Σ、（五）这是一个“拉”的损失和“推”的损失。The “pull” losspulls each embedding to the mean embedding of thecorresponding instance (实例中心），而其中b是均值漂移聚类算法中的带宽，并且mij=ajxi2是aj和xi之间的距离。在每次迭代t中每个锚点的移位步长可以表示为：其他.LE=L拉+L推、（二）的t=1ΣNZtij·xi，（6）哪里ji=1其中Zt=<$Npt是归一化常数。为了毛皮-ji=1ij1摄氏度L拉力=C1ΣNcNmax（µc−xi−δv，0），（3）为了加快这个过程，我们过滤掉那些锚，在聚类开始时局部密度低。c=1L=1pushC（C−1）ci=1联系我们cA=1cB=1cA/=cBmax（δd− µcA− µcB，0）.（四）在算法收敛后，我们合并附近的锚点以形成聚类c，其中每个聚类c对应于一个平面实例。具体来说，我们认为两个锚是-如果它们的距离小于带宽b，则长到同一簇。该聚类的中心是属于该聚类的锚点的平均值。这里，C是地面真值中聚类C（平面）的数量，Nc是聚类c中的元素数量，xi是像素嵌入，µc是聚类最后，我们使用软分配将像素嵌入与聚类相关联：c，δv和δd是“拉”和“推”损失的裕度Sij=exp（−mij）.（七）p1033分别C~j=1 exp（−mij）1034i=1IJ不≪∈××∗我算法1有效的均值漂移聚类。在[30]之后，我们强制执行实例级参数一曰：输入：像素嵌入{xi}N和T，超参数k，d，b，与场景几何形状一致具体来说，我们比较从平面参数推断的深度图2：在嵌入空间中均匀地初始化kd个3：对于t= 1至T，使用以下损失的地面实况深度图：˜4：计算成对势项pt，其中等式（五）L=1ΣCΣNS·吴恩奎-10岁，（10）5：使用等式对每个锚点进行均值偏移（六）6：结束联系我们ijjij=1i =17：将附近的锚点合并以形成集群C8：输出：实例分割图S，其中等式（七）其中，Qi是从地面推断的像素i所提出的算法的细节在Al-出租m1中示出。注意，带宽b可以由向量嵌入的训练阶段中的期望裕度来确定。我们的算法的每次迭代的复杂度是O（kdN）。只要kdN，我们的算法就能更有效地执行.3.4. 平面参数估计给定一个图像，前一阶段为我们提供了一个平面实例分割图。然后我们需要推断每个平面实例的3D参数。为此，我们进一步设计了一个平面参数分支来预测每个像素的平面参数。然后，使用instance segmenta-tion map，我们聚合该分支的输出，以形成每个plane实例的实例级参数。具体地说，该分支输出HW3平面参数图.在[30]之后，我们将平面参数定义为nR3。对于3D点Q位于这个平面上，我们有nTQ=1。2我们使用L1损失来监督每像素平面参数的学习：1ΣN真值深度图请注意，我们的平面参数估计方法与以前的方法不同[23，30]。这些方法首先预测平面参数，然后将每个像素与特定的平面参数相关联。相比之下，我们首先将像素分组为平面实例，然后估计每个平面实例的参数。我们认为，我们的方法是更充分的，因为分割可以唯一地确定一个实例。最后，为了同时推断平面实例分割和平面参数，我们的方法的总体训练损失为：L= LS+ LE+ LPP+ LIP。（十一）4. 实验在本节中，我们在两个公共数据集上进行实验以评估所提出的方法的性能：[27 ]第27话：由于篇幅的限制，我们建议读者参考补充资料以获得广告实验结果，包括关于均值漂移聚类算法和平面参数估计的消融研究4.1. 实现细节P=Ni=1ni−ni我们使用PyTorch实现我们的模型[26]。我们使用Adam优化器[16]，学习率为10- 4，其中，ni是预测平面参数，并且ni是第i个像素的地面实况平面参数实例感知池。在实践中，我们发现像素级参数监督是不够的，因为它可能不会在整个平面实例中产生一致的输出。因此，我们建议将像素级参数进一步聚合为实例级参数：重量衰减为10−5。批量大小设置为16。网-在一台NVIDIA TITAN XP GPU 设备上训练50 个epoch 我们用边际δv= 0训练网络。5，δd=1。五、在均值漂移聚类算法中，我们设置嵌入维数d=2，每维锚点数量k=10，带宽b=δv迭代次数T在训练中设置为5，在测试中设置为10我们的模型是以端到端的方式训练的n=1jZSij·ni，（9）4.2. ScanNet数据集其中ZjΣNi=1 Sijji=1是归一化常数。它的作用我们首先在[23]生成的ScanNet数据集[4]上评估我们的方法地面实况是通过将平面拟合到ScanNet的合并网格并将其投影回就像一个全球平均池，但不同的注意力，不同的平面实例。单个帧。生成过程还结合了来自ScanNet的语义注释。生成的数据集2We表示3D平面，n=。n<$/d，其中n<$∈S2，d表示包含50，000个训练图像和760个测试图像，曲面法线和到原点的平面距离。溶液256×192。N=1035图4：ScanNet数据集上的平面和像素调用。具体数字请参见补充材料。图5：ScanNet数据集上的逐段平面3D重建结果。在平面实例分割结果中，黑色表示非平面区域。比较方法。我们比较我们方法与最近的基于CNN的方法PlaneNet [23]，以及两种自下而上的方法NYU-STO [27]和Manhat-tan World Stereo（MWS）[11]。 3[27]第二十七话使用RANSAC的流行平面检测算法提取平面假设和马尔可夫随机场（MRF）优化平面分割。 Manhattan World Stereo （ MWS ） [11] 采用Manhattan World假设进行平面提取，并在MRF的成对项中利用消失线。对于自底向上的方法，我们使用与我们相同的网络架构来预测像素级深度图。在[18]之后，我们在训练期间最小化berHu损失。或者，我们也使用地面实况深度图作为这些方法的输入。评价指标。在[23]之后，我们使用平面和像素召回作为我们的评估指标。飞机召回是每-3我们从PlaneNet [23]中获得了这些方法的实现，https://github.com/art-programmer/PlaneNet网站。正确预测的地面实况平面的百分比，并且像素召回率是正确预测的平面内的像素的百分比。如果i）预测平面之一具有大于0.5的交-并（IOU）分数，并且ii）重叠区域上的平均深度差小于阈值，则地面实况平面被认为是正确预测的，该阈值以0.05m的增量从0.05m变化到0.6m。此外，我们还使用表面法线差作为阈值在我们的实验。定量评价。图4显示了所有方法的像素和平面召回如前两个图所示此外，即使当自下而上的方法被提供有地面实况深度图时，我们也实现了有竞争力的或更好的结果，如最后两个图所示这充分证明了我们方法的有效性。此外，当采用表面法向差作为阈值时，我们得到了一致的结果（见补充资料）。分割深度图输入图像平面3D模型1036[27]第十一届中国国际航空航天博览会[23]图6：ScanNet数据集上的平面实例分割结果。表1：CPU时间比较（CPU时间）。表2：NYUv2测试集上的平面实例分割结果定性评价。图5显示了各种场景的反射结果。定性比较，对现有的方法对平面实例分割如图6所示。我们观察到以下情况：i）所有方法在简单情况下都表现良好（例如，第一行）。ii）PlaneNet [23]和我们方法在大多数情况下产生了明显更好的分割结果（例如，第二和第三行）。自底向上方法的较差性能可能是由于预测深度图中的噪声。在这种情况下，很难选择适当的阈值来区分内点（即，平面上的点）和分组阶段期间的离群值。iii）PlaneNet有时会错过小平面（例如，第四排的椅子）或不正确地合并多个平面（例如，第五排的橱柜和这可能是由于PlaneNet中飞机数量固定的假设。我们的方法并不局限于这样的假设，因此在不同尺度下的结构检测中表现得更好速度表1显示了运行时比较结果使用ScanNet数据集上的其他方法。所有时间都是在同一个计算平台上测量的，使用Xeon E5- 2630@2.2GHz（20个核心）和单个NVIDIA TITAN XP GPU。我们的方法在单个GPU上实现了32.26 fps的最快速度，使其适用于许多实时应用，如视觉SLAM。4.3. NYUv2数据集我们进一步评估了我们的方法在NYUv2数据集[27]上的性能，该数据集包含795个训练图像和654个测试图像。具体来说，我们进行实验来检查i）我们学习的嵌入在平面实例分割上的泛化能力，以及ii）我们的方法的深度预测精度。平面实例分割。在这个实验中，我们直接使用PlaneNet和我们在ScanNet数据集上训练的模型来预测NYUv2数据集上的平面实例。在[23]之后，我们生成地面真值平面实例方法NYU-CIMWS[11]第二十七话0.14磅0.05磅PlaneNet[23日]1.35我们FPS32.26方法RI↑ VI↓ SC ↑GT深度+NYU-100 [27] 0.875 1.284 0.544[23] 2.932 0.404我们的1037表3：NYUv2测试集上深度预测精度的比较方法Rel降低Rel（sqr）log10更好RMSE输入RMSE日志高1.25呃，1.252tter1.253Eigen-VGG [8]0.1580.1210.0670.6390.21577.195.098.8[第28话]0.1560.1180.0670.6430.21476.895.198.9FCRN [18]0.1520.1190.0720.5810.20775.693.998.4[23]第二十三话0.1420.1070.0600.5140.17981.295.798.9我们的（深度直接）0.1340.0990.0570.5030.17282.796.399.0我们0.1410.1070.0610.5290.18481.095.799.0在测试图像中，首先使用RANSAC在每个语义实例中拟合平面，并且如果平均距离小于10cm，则进一步合并两个平面。对于定量评估，我们采用了三种流行的分割度量[1，30]：兰德指数（RI），信息变化（VI）和分割覆盖（SC）。如表2所示，我们的方法在所有指标方面都明显优于PlaneNet。这表明我们的嵌入式方法比现有的基于CNN的方法更具有普遍性。我们的方法仍然与传统的自下而上的方法NYU-BLOG相比具有竞争力，即使后者提供了地面真实深度图。我们建议读者参考补充材料，以获得NYUv2数据集的定性结果。深度预测虽然我们的方法在分段平面3D重建中表现出卓越的性能，但评估网络的每像素深度预测能力也很有趣。对于这个实验，我们使用我们在NYUv2数据集上生成的地面实况平面实例来微调我们的网络。表3比较了从我们的网络输出导出的深度图的准确性（即，分段平面3D模型）与由标准深度预测方法生成的那些相比较。可以看出，我们的方法优于或与所有其他方法相当，这进一步验证了我们的方法恢复的3D平面的质量我们还训练了我们的网络的一个变体，表示为“我们的（深度直接）”，通过仅使用像素级监督来微调平面参数预测分支。然后，我们使用这个分支直接预测深度图。如表3所示，与该变型相比，使用我们的分段平面表示导致深度预测准确度的略微降低，因为这样的表示有时忽略场景结构中的细节和小变化。4.4. 失败案例我们在图7中展示了一些失败案例。在第一个例子中，我们的方法将白板和墙壁合并到一个平面中。这可能是因为这两个平面的外观一个可能的解决方案是通过合并语义信息来分离它们。在第二个例子中，我们的方法将一个平面分成两个平面（墙和床头板），因为它们的外观不同人能输入图像Ours Ground truth图7：失败案例。在后处理步骤中使用平面参数容易地合并这两个平面。在第三个例子中，我们的方法无法分割整个书架。一个可能的原因是通过拟合获得的平面实例注释不一致，即，在这种情况下，书架没有被标记在地面实况中。5. 结论本文提出了一种新的两阶段方法来实现单幅图像的分段平面三维重建。具体来说，我们学习了一个深度嵌入模型来直接分割图像中的平面实例，然后通过考虑像素级和实例级几何模型来估计每个平面的3D参数。所提出的方法显着地超越了最先进的方法，同时实现实时性能。虽然所提出的方法已经证明了有前途的结果，但它仍然远远不够完美。可能的未来方向包括i）结合语义信息以改善重建结果，以及ii）通过利用多视图几何理论来学习从视频重建分段平面3D模型。确认这项工作得到了NSFC #61502304的支持。ZihanZhou获得了NSF奖#1815491。1038引用[1] 巴勃罗·阿贝·拉埃兹，迈克尔·梅尔，查理·福莱克斯，还有吉坦德拉 · 马利克 . 轮廓检测和分层图像分割。TPAMI，33（5）：898-916，2011. 8[2] Olga Barinova，Vadim Konushin，Anton Yakubenko，KeeChang Lee，Hwasup Lim，and Anton Konushin.城市场景快速单视自动三维重建见ECCV，第100-113页，2008年。一、二[3] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，第221-230页，2017年。3[4] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。二、五[5] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。 CoRR ，abs/1708.02551，2017。二、三、四[6] Erick Delage，Honglak Lee和Andrew Y Ng。曼哈顿世界室内场景的自动单图像3d重建。见《国际社会研究报告》，第305-321页，2005年。一、二[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。3[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，第2650-2658页，2015中。8[9] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang 、 Hyun Oh Song 、 Sergio Guadarrama 和 Kevin PMurphy。基于深度度量学习的语义实例分割CoRR，abs/1703.10277，2017。二、三、四[10] David F Fouhey，Abhinav Gupta，and Martial Hebert.展开一个室内折纸世界。在ECCV中，第687-702页，2014年。一、二[11] Yasutaka Furukawa，Brian Curless，Steven M Seitz，andRichard Szeliski.曼哈顿世界立体声。在CVPR，第1422-1429页，2009年。六、七[12] 奥西安·海恩斯和安德鲁·卡尔威。在单个图像中识别飞机。TPAMI，37（9）：1849-1861，2015。一、二[13] 韩锋和朱松春。基于属性图文法的自底向上/自顶向下图像解析。ICCV，第1778- 1785页，2005年。1[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具 R-CNN 。在 ICCV ，第 2961-2969页，2017年。二、三[15] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中检索曲面布局. IJCV，75（1）：151-172，2007年。一、二[16] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[17] 舒空和查尔斯·福克斯。用于实例分组的递归像素在CVPR中，第9018-9028页，2018年。二、三、四[18] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。更深层预测1039完全卷积残差网络。在3DV中，第239-248页，2016年。六、八[19] 黑律和贾登。Cornernet：将对象检测为成对的关键点。参见ECCV，第734-750页，2018年。二、三[20] David C Lee，Martial Hebert和Takeo Kanade。单图像结构恢复的几何推理。在CVPR，第2136-2143页，2009年。2[21] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。3[22] Chen Liu ， Kihwan Kim ， Jinwei Gu ， YasutakaFurukawa，and Jan Kautz.Planercnn：从单幅图像进行3d平面检测和重建。CoRR，abs/1812.04072，2018。2[23] 刘晨，杨集美，杜伊古·锡兰，埃尔辛·尤默，古川雅秀.Planenet：从单个rgb图像进行逐段平面重建。在CVPR中，第2579-2588页，2018年。二五六七八[24] Brani sla vMic usk ， HorstWildenauer ，andMarkusVincze. 室内环境的单目图像中的正交平面的检测载于ICRA，第999-1004页，2008年。一、二[25] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。在NeurIPS，第2277-2287页，2017年。二、三、四[26] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分。NeurIPS研讨会，2017。5[27] Nathan Silberman 、 Derek Hoiem 、 Pushmeet Kohli 和Rob Fergus。室内分割和支持从rgbd图像推断。在ECCV，第746-760页，2012中。二五六七[28] Peng Wang ， Xiaohui Shen ， Bryan Russell ， ScottCohen，Brian Price，and Alan Yuille. Surge：从单个图像进行表面正则化几何估计在NeurIPS，第172-180页8[29] 谢赛宁、涂卓文。整体嵌套边缘检测。在ICCV，第1395-1403页，2015年。3[30] 杨凤亭和周子涵。通过卷积神经网络从单幅图像中恢复3d平面。参见ECCV，第85-100页二、五、八[31] 杨昊和张辉。从单个全景图中高效地恢复3d房间形状在CVPR中，第5422-5430页，2016年。1[32] Bolei Zhou，Hang Zhao，Xavier Puig，Sanja Fidler，Adela Barriuso，and Antonio Torralba.通过ade20k数据集进行场景解析。在CVPR中，第633-641页，2017年。3[33] Bolei Zhou ， Hang Zhao ， Xavier Puig ， Tete Xiao ，Sanja Fi-dler，Adela Barriuso，and Antonio Torralba.通过 ade20k 数据集对场景的语义理解。 IJCV ， 127（3）：302-321，2018。3

下载后可阅读完整内容，剩余1页未读，立即下载