基于蒙特卡罗树搜索的精确大比例平面图重建方法

177 浏览量更新于2023-10-13 收藏 1.16MB PDF 举报

三维重建

蒙特卡罗树搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16034MonteFloor：扩展MCTS用于重建精确的大比例尺平面图Sinisa Stekovic1、Mahdi Rad1、Friedrich Fraundorfer1、Vincent Lepetit2、11计算机图形和视觉研究所，格拉茨科技大学，格拉茨，奥地利2Uni versite´P aris-Est，E´cole des PontsP arisTech，巴黎，法国{sinisa.stekovic，rad，fraundorfer} @ icg.tugraz.at，vincent. enpc.fr项目页面：https://www.tugraz.at/index.php?联系我们摘要我们提出了一种新的方法，从嘈杂的三维点云重建平面我们的主要贡献是一个原则性的方法，依赖于蒙特卡罗树搜索（MCTS）算法，以最大限度地提高一个合适的目标函数，尽管问题的复杂性。像以前的工作一样，我们首先将输入点云投影到俯视图上，以创建密度图并从中提取房间建议。我们的方法选择和优化多边形的形状，这些房间的建议，共同适合的密度图，并输出一个准确的矢量化的楼层地图，即使是大型复杂的场景。为了做到这一点，我们适应MCTS，一个算法，最初设计来学习玩游戏，选择房间的建议，通过最大化的目标函数相结合的健身与密度图预测的深度网络和正规化条款的房间形状。我们还引入了一个细化步骤MCTS，调整房间的建议的形状。对于这一步，我们提出了一种新的微分方法来渲染这些建议的多边形形状。我们评估我们的方法在最近的和具有挑战性的Structured 3D和Floor-SP数据集，并显示出显着的改进，在国家的最先进的，没有施加任何硬约束，也没有假设的平面图配置。1. 介绍从图像中理解场景是计算机视觉中的主要热门话题之一我们在这里专注于创建一个结构化的平面图，其中室内环境的每个房间都表示为一个多边形，每个墙有一个边。已经考虑了许多类型的输入：单目透视彩色视图[18，19，22，31]，全景视图[32，38，40]，深度点云密度贴图我们的结果图1：给定密度图，即楼层的3D点云的俯视图，我们检索成功恢复各种房间形状的准确楼层图地图[36，39]。在这里，我们专注于非结构化的3D点云[2，7，23，26]，因为它们现在可以使用RGB-D相机轻松生成，并且可以覆盖整个地板。为了从给定点云估计楼层平面图，[7，23]提出首先将点云投影到虚拟顶视图中以创建如图1所示，密度图可能是有噪声的，并且将房间表示为具有最小数量的边的矢量图仍然是具有挑战性的，正如人类设计者将特别针对非曼哈顿楼层图所做的那样。为了处理这种复杂性，[7]提出了一种基于图的解决方案，其中包含声能项，但仍然假设场景中存在一些主要的墙壁在本文中，我们还旨在从密度图估计平面图我们的贡献是一种方法，我们称之为MonteFloor，它在概念上简单而强大，并能恢复高质量的平面图。图1显示了Floor-SP测试集的一个示例，该示例表明我们可以重建复杂的楼层地图，包括具有复杂房间形状的非常大的地图，而无需调整超参数。与[7]一样，我们的方法从Mask-RCNN [17]从密度图生成的房间建议开始。然而，在这方面，16035我们处理这些房间建议的方式与[7]有根本的不同。其中[7]以贪婪的方式调整房间墙壁和角落，我们在学习的评分函数的指导下，在调整它们的位置和形状的同时，共同选择正确的房间属性这可能归功于两个主要贡献。我们的第一个贡献是基于蒙特卡罗树搜索（ MCTS ）算法 [3 ， 8] 。MCTS是一个随机-tic算法，有效地探索搜索树，并已用于例如AlphaGo和AlphaZero，以在玩围棋或其他具有高组合策略的游戏时选择移动[30]。我们用它来搜索房间的建议，实际上属于正确的平面图。在我们的情况下，移动对应于房间提议的选择。与其他树搜索算法相比，MCTS仅基于叶子的评价。这意味着我们可以根据它们对密度图的解释程度来选择一组建议。在评估叶子之后，MCTS更新访问节点中的分数，该分数将用于指导下一个树探索。为了评估一组建议如何解释输入密度图，我们引入了一个目标函数，该目标函数结合了由深度网络和正则化项预测的“度量得分”。该网络将密度图和所选择的建议的图像作为输入，以预测所选择的建议与地面实况之间的交集正规化条款鼓励所选房间建议彼此接触而不重叠，并且接近90°的角度正好是90°-注意，这与强制执行Manhattan World条件不同，因为其他角度也被接受。此外，为了适应MCTS并获得准确的计划估计，我们通过在评估目标函数之前添加细化步骤来扩展它。该步骤执行目标函数的优化，并且调整所选择的房间建议的形状以更好地拟合密度图。这是可能的，我们的第二个贡献，这是一种新的微分方法来优化二维多边形的形状。请注意，最近，[16]也使用MCTS来解决场景理解问题。然而，它提出了MCTS的直接应用。相比之下，我们依赖于一个适合我们问题的学习目标函数，我们引入了一个优化步骤来获得准确的估计。虽然我们专注于平面图估计的这项工作，但我们相信我们的方法是通用的，可以应用于其他场景理解问题，因为其组件是通用的：我们从目标对象（本例中为房间）的建议开始。该步骤不必执行良好以获得良好的最终结果，因为我们的基于MCTS的算法可以处理许多误报。该算法寻找解决方案，以完善的建议是更具体的二维多边形，但可以启发其他作者开发自己的方法，以适应他们的目标对象。为了评估我们的方法并将其与地板进行比较-SP[7]，这是我们问题的最新技术，我们首先在包含各种复杂布局配置的Structured3D数据集[37]我们在Floor-SP的准确性和时间复杂度方面都有显着的改进（在Structured 3D上重新训练他们的方法之后）。由于Floor-SP的作者无法为他们的方法提供训练集（如他们的项目第1页所述），我们无法重新训练我们的网络来预测专门针对该数据集的指标，我们不得不使用在Structured 3D上训练的网络尽管这个做主要的差距，我们实现了更好的性能地板SP测试集，而不施加任何硬约束，也没有假设的平面图配置。2. 相关工作从3D数据创建平面图的早期方法依赖于基本的图像处理方法，例如直方图或平面拟合[1，4，27，29，34，35]。例如，[27]通过构建所有测量点的垂直位置的直方图，通过检测3D点云中的垂直平面来创建楼层平面图以类似的方式，[4]通过应用扫描技术提取平面结构来识别Manhattan-World方向，从而从3D点云中的定位墙壁创建楼层平面图。然而，这些技术严重依赖于启发式，并且容易在噪声数据上失败。后来通过使用图模型取得了重大进展，如[5，10，11，12，20]。[10]在体积MRF公式中使用图形切割优化。然而，所提出的方法容易受到噪声数据的影响，因为MRF中的正则化仅基于成对相互作用项。[20]将MRF与鲁棒主成分分析相结合，以获得更紧凑的3D模型。图形模型也用于[12]，其中布局和平面图从众包图像和位置数据中恢复基于图的方法定义由表示计划的元素的一元项和一次仅涉及两个元素（这里，元素主要是墙）的二元项构成的目标函数。在我们的例子中，我们使用MCTS作为优化算法。MCTS不施加限制的形式上的目标函数，我们使用的目标函数，捕捉复杂的约束。特别是，我们的目标函数的主要术语是一个同时考虑所有元素的深度网络。此外，我们通过添加细化步骤来补充MCTS，以基于相同的目标函数。通过最大化数据驱动的分数来获得最终解决方案，该分数因此可以容易地更换以适应另一个问题。我们1https://github.com/woodfrog/floor-sp16036检测到密度图一些房间建议使用MCTS进行房间选择最终结果地面实况来自多边形化+细化的房间段房间部分图2：我们的MonteFloor方法概述。给定一个3D点云，我们首先创建一个地板的密度图。然后，我们使用Mask-RCNN检测房间段，如Floor-SP [7]中所请注意左侧绿色部分底部的假阳性我们以不同的方式对每个部分进行多边形化，并从每个房间部分获得多个房间建议。我们依靠MCTS和我们的目标函数来选择正确的房间建议，以及我们的细化步骤来联合调整房间建议的形状到输入密度图。最近的工作依赖于其他优化技术[6，7，23]。然而，这些技术的挑战是成本函数的定义和优化过程。其中一种称为Floor- Net [23]的方法提出了一种深度网络，用于从场景的给定密度图中检测可能的角点位置，然后是一个可编程公式。然而，不正确的角检测和误检测会导致丢失或额外的墙壁和房间。此外，解空间被限制到曼哈顿场景，并且推广到非曼哈顿场景将导致大得多的解空间。相比之下，我们的方法是可扩展的，因为它依赖于MCTS的效率，以减少搜索空间，并可以考虑曼哈顿和非曼哈顿的场景具有相同的复杂性。它通过全局优化选择最好地解释输入的房间检测，因此对误报不敏感。我们的方法的起点受到Floor- SP [7]的启发，其提出首先分割房间实例，然后通过顺序地求解最短路径问题来重建房间的多边形表示。在这种情况下，离散密度图中的每个像素位置都是图形中的一个节点，该节点可能属于房间的多边形曲线错误的分割仍然可能导致不准确的平面图结构，而我们在早期阶段处理不正确的房间分割。此外，Floor-SP将房间的边缘方向离散化，并对多个Manhat模型建模。每个房间都有晒黑的框架，而我们的方法可以考虑任何角度。它仍然鼓励接近90°的角度正好是90°，当房间实际上遵循曼哈顿结构时，这会产生更好的形状，同时允许其他形状。正如我们将在实验中所示，我们的方法优于Floor-SP的准确性。差异化渲染。3D计算机视觉中的一些工作已经显示出对可微分渲染的兴趣[13，14，15，25，28，33]。然而，这些方法集中于3D表示（诸如点云、体素、网格和隐式3D表示）的渲染在相反，在这项工作中，我们专注于快速微分渲染的二维表示，即。多边形，并介绍了一个可微分的缠绕算法光栅化的目的。3. 方法图2给出了我们的MonteFloor方法的概述：给定场景的3D点云，我们首先创建该点云的俯视密度图，如稍后在3.6节中所解释的。我们使用经过训练的Mask R-CNN [17]来检测这种密度图中的房间，并将检测多边化以获得一组房间建议。一些建议将对应，至少粗略地，实际的房间，但其他人只是误报。我们使用MCTS来找出哪些房间方案与输入密度图最匹配。MCTS搜索由“度量网络”引导，该“由于Mask R-CNN的正确房间建议的形状仅粗略地对应于真实房间，因此我们在MCTS中执行搜索时优化了它们的形状。这是通过引入一个微分的方法来渲染多边形形状。在下文中，我们详细介绍：• 我们如何准确地获得房间方案;• 如何使用MCTS选择房间方案• 我们的目标函数，涉及我们的度量网络和正则化项;• 我们如何在MCTS中细化房间方案• 我们如何精确地计算给定3D点云的密度图。3.1. 生成房间方案我们在从Structured 3D数据集[37]的训练集创建的密度图上训练Mask R-CNN [17]，以从给定的密度图中提取各个房间片段。虽然结果片段具有高质量，但它们可以16037D{}D·|D||D||D|迄今为止的最佳得分可视化迭代最终优化1.000.750.500.250.00MCTS迭代ITER。2 iter。149 iter. 214最终g.t.(a)(b)（c）第（1）款图3：使用MCTS构建平面图树。（a）在我们的情况下，一个节点对应于房间建议的选择当第一次访问一个节点时，MCTS会运行一个“模拟”步骤。这一步随机地探索树的其余部分，直到到达一个叶子，在我们的例子中，当没有空间的建议考虑任何更多的。当到达叶子节点时，我们执行“细化步骤”，该步骤优化从根节点到叶子节点的路径中的房间建议的目标函数。目标函数的值用于更新路径中所有节点的预期分数。（b）MCTS仅构建和探索树的一部分。与其他树搜索算法相比，MCTS的修剪仅基于对叶子的评估，这意味着我们可以根据它们一起解释密度图的程度来选择一组建议。(c)经过几次迭代，我们的蒙特地板方法的重点，并在同一时间优化，解决方案有希望的预期分数。这使我们能够快速重建场景的准确平面图，对于本图中使用的场景，大约需要60仍然包含假阳性，但是，它们将被MCTS过滤图2显示了一个房间段的例子，以及我们从它们生成的房间建议。我们在下面详细介绍这个过程。有时，房间被检测为部分重叠的两个分段因此，我们将两个明显重叠（实际上超过5%）的片段合并到一个额外的房间片段中，同时保留两个原始片段。在实践中，由Mask-RCNN提供的真阳性片段的形状不对应于房间的确切形状，因为它们通常太平滑。因此，我们对房间段进行分类以生成房间建议。为此，我们将Douglas-Peucker多边形化算法[9]应用于房间分段的轮廓。该算法依赖于一个控制轮廓简化的参数化。更确切地说，该参数是原始曲线与其近似曲线之间的最大距离。由于房间形状的确切复杂性在此阶段是未知的，因此我们通过使用不同的ε值从每个分段生成多个提议。实际上，我们取ε=d L，其中d在预定义的集合中取不同的值，L是线段的周长，其中=0。04，0。02，0。01. 有时，2个不同的ε会导致相同数量的顶点，我们只保留两个多边形中的一个。即使在多边形化之后，真正房间提议的形状可能还不对应于实际房间形状。为了调整它们的形状，我们将通过目标函数对其进行优化我们将在下一小节中描述MCTS的建议选择，以及之后的目标函数。3.2. 使用MCTSMCTS是一种有效地探索大树的算法，其中可以仅针对树的叶子来评估要最大化的分数。因此，我们将其调整为基于用作分数的目标函数来选择房间建议。我们在下一小节中描述这个目标函数如图3所示，在我们的例子中，移动包括选择通过多边形化一个房间段生成的一个房间建议。对于每个房间段，还有一个额外的移动，包括不选择此段中的任何房间方案根节点最多有+1个孩子，对应于选择从第一房间段发出的房间建议之一，并且没有从该房间段选择。完整树的节点的数量至多为（+1）k，其中k是房间段的数量，并且随着k增加，遍历树中的所有路径很快变得不可行。幸运的是，MCTS将只在需要时生长树，同时探索它，并避免了详尽的评估。我们依赖于标准的选择-扩展-模拟-更新策略，为了完整性，我们在下面简要描述。有关MCTS算法的更详细描述，我们请感兴趣的读者参阅[3]中的调查。MCTS算法MCTS在节点中存储它们所属的块的预期得分，并且使用它们来引导最优选择。如下所述，使用模拟步骤初始化新节点的预期分数在每一次迭代中，从根节点开始，树被遍历。评分16038−LLΣ||Σ我使用标准置信上限（UCB）标准来选择每个节点。该标准取决于存储在节点中的预期分数，并平衡开发和探索。当到达新节点时，MCTS执行模拟步骤以初始化该节点的预期分数。这个模拟步骤随机地探索树的其余部分，直到到达叶子，在我们的情况下，当没有空间可以考虑的时候。然后，我们可以评估包含从根节点到叶节点的路径中选择的建议我们将在下一段中解释如何计算这个分数。分数用于更新存储在路径的节点中的预期分数。我们在补充材料中提供了有关MCTS实施的更多详细信息。评分和细化步骤。为了计算与到达叶子时的路径相对应的解决方案的得分，我们依赖于我们的目标函数，该目标函数将在下一小节中详细描述。为了获得更准确的结果，除了标准MCTS步骤之外，我们还引入了优化目标函数的细化步骤，然后将其值作为解决方案的得分：房间建议的位置和形状可能不完全对应于实际房间，并且如果没有该细化，目标函数的值可能相对较低并且不反映实际房间。所选提案的质量良好。该细化步骤调整房间建议的位置和形状以获得更准确的解决方案。目标函数我们的目标函数可以写成：L（P）=−λff（D，F（P））+Lreg（P），（1）其中P是用于评估的解决方案的一组房间建议 f（D，F（P））是我们的度量网络，应用于房间建议P的输入密度图和平面图，由λ f加权。reg（P）是正则化损失。我们将在接下来的两节中详细介绍这两个术语。我们使用（P）作为MCTS最大化的分数。最终解决方案推断。在500次MCTS迭代之后，我们按照图4：我们的度量网络。该网络将密度图和为可视化目的而着色的地板表示作为输入，并输出一个分数，该分数测量地板图与输入密度图的拟合程度我们训练它来预测估计的平面图和地面事实之间的交集。如图4所示，该网络具有简单的架构，采用两个输入：第一输入D是密度图。第二个输入F（P）是房间建议的图像，我们使用它们的索引作为像素值来渲染：F（P）=iR（Pi），（2）我其中R（Pi）是Pi的二进制图像，其中内部的像素Pi被设置为1，其他被设置为0。f仅输出单个值，该值应反映房间建议与密度图之间的适合度。我们使用来自Structured3D数据集[37]的训练数据，以有监督的方式训练它来预测所选房间建议与密度图的地面实况房间之间的交集（IOU）更多关于训练程序的细节可以在补充材料中找到。3.4.正则化损失正则化损失L_reg被分解为：Lreg（P）=λangLang（P）+λglobLglob（P）+λ0L0（P），（3）其中λang、λglob和λ〇对三项加权。我们对所有场景使用相同的权重，并在补充材料中提供实际值。ang（P）正则化房间建议的角度，P：具有最高期望分数的节点，并优化se-1 1Lang（P）=−Σlogp（（u^，v，w）），通过最小化目标函数选择建议。为一些罕见的多边形，顶点间隔小于5个像素|P i ∈ P|Pi|（u，v，w）∈P|(u,v,w)∈P（四）彼此之间我们将相应的顶点合并到得到最终的解决方案。3.3. 度量网络我们的度量网络f（D，F（P））评估所选房间提议的集合P与输入密度图的拟合程度其中Pi表示多边形Pi中的顶点的数量，（u，v，w）表示多边形Pi的任何三个连续顶点，并且（u，v，w）表示它们的角度αtve xv。 p（α）是我们在房间角度上假设的pr i或分布。如图5所示，我们使用高斯分布在其余弦和均匀分布上的混合。它不鼓励L16039·LL66LΣL266是向量um和vm的行列式。符号n（·）项在]π; 2π[之间，否则为0。因此，对于有效的非相交的、闭合的和逆时针定向的多边形，Σ联系我们2266(a)（b）第（1）款TV（F1（P））其中Mi是生成建议Pi的片段的二进制图像，并且MSE（）将该图像与建议的二进制图像R（Pi）进行3.5. 细化步骤与可微多边形绘制如前所述，当MCTS到达叶时，我们执行等式（1）中的目标函数的若干优化步骤。（1）在计算其值并将其用作MCTS的分数之前。在实践中，我们使用Adam优化器[21]来完成这项任务。图5：正则化损失的可视化。（a）角度的先验分布p（α）不鼓励使用平面角，而鼓励使用直角，但其他角度仍然可以接受。(b)Glob基于总变差。顶部：当P中的房间建议不接触或重叠时，它们的图像F1（P）的总变化TV（F1（P））大。底部：当房间方案组合在一起时，总变差TV（F1（P））要低得多.平面角（0°和180°），鼓励直角（90°和270°），以及π/6和5π/6之间和7π/6之间的角度和−π/6遵循均匀分布。更正式地说，我们为了优化（P），我们需要使它可微。它的不是平凡可微的唯一部分是房间提议Pi的二进制图像创建R（Pi），其中Pi被表示为多边形。微分渲染已经被开发[24]，然而，可用的实现被设计用于渲染3D三角网格。gles.我们没有调整这些实现以使它们在2D多边形上工作，而是通过使缠绕数算法不同来开发一种更简单的方法。原始缠绕数算法通过计算以下内容来检查像素位置m是否在多边形Pi内：取p（α）=1Σ^W（m，P）=sign（det（um，vm））（umv），（9）π π πi2π （u，v）∈PiG（cosα|cos6，σ1）if α∈]−6;6]，1η+G（cosα|cosπ，σ2）如果α∈]π;5π]，666其中（u，v）是Pi和det（·）的任意2个连续顶点。ZG（cos α |cos 5π，σ1），如果α ∈]5π; 7π]，并且（五）η+G(cosα|cosπ，σ）如果α∈]7π;−π]，如果角度（Umv）在[0;π ]之间，则Umv等于1，如果角度（Umv）在[0; π]之间，则Umv等于-1其中G表示高斯分布，η是常数G（cosπ|cosπ，σ1），并且Z是归一化因子。在gon，W（m，Pi）0，1，是值为1的阶跃函数，如果m在Pi内部，否则为0。在实践中，我们使用σ1= 0。1和σ2= 0。08.glob（P）鼓励会议室提案保持联系而不重叠。在图5中可以看出，总为了使其可微，我们使用以下表达式：而不是选择：变化（梯度绝对值之和1W（m，P）=c·det（um，v，m）（μum，v）。建议书的形象是一个很好的标准：Lglob=TV（F1（P）），（6）i2π （u，v）∈Pi1个以上|c·det（um，vm）|（十）其中，TV表示总变化，并且F1（P）是被计算为F1（P）=R（Pi）.（七）我图5示出了这种损失惩罚重叠并将建议推向彼此，并且通过这样做，在相邻房间的墙壁之间强制0用于防止建议偏离其优化期间的初始位置。我们采取：PF1（P）每像素160400|P|Pi∈P我我1ΣL（P）=MSE（R（P），M），（8）分数项实现符号函数的软形式，其测量具有c=1000的三角形（umv）的取向，以可微分的方式近似符号函数的阶梯形式。为了使渲染更高效，我们仅计算由Mask R-CNN针对相应房间片段检测到的边界框内的像素位置m3.6. 计算密度贴图为了获得场景的密度图D，我们遵循与[7]中提出的方法类似的方法。给定一个注册的一组RGB-D全景图像，我们生成点云16041×的场景。从顶视图的场景的点云给定像素位置处的密度值是投影到相同像素位置的点的数量。密度图的值最终被归一化到范围[0，1]。4. 实验在本节中，我们通过将其与Floor-SP [7]进行比较来评估我们的方法，Floor-SP [7 ]是当前最先进的平面图重建方法，在两个数据集上。我们还提供了一个消融研究，以显示我们的方法的细化步骤的重要性4.1. 度量为了评估恢复的平面图的质量，我们首先将恢复的房间与地面真实房间进行匹配。更确切地说，从最大的地面实况房间开始，我们找到具有最大交集-合并（IOU）值的匹配恢复房间。由于我们认为[7]中使用的指标对于真正评估比较方法的质量过于宽松，因此我们使其更严格地用于定量评估：1. 房间度量。该度量与[7]中的度量相同。如果房间多边形不与其他房间重叠并且如果它与地面实况房间匹配，则认为它被成功地恢复。我们允许房间之间有一个像素的重叠，因此我们不会惩罚与此度量接触的房间多边形。2. 角度量。如果角的对应房间多边形被成功恢复并且它是在10个像素的距离内与匹配的地面实况房间多边形中的任何角最接近的角，则角被认为是完全成功恢复的。该度量受到[7]中原始度量的启发，该度量没有考虑角是否实际上属于正确的多边形。3. 转角度量。如果房间多边形的对应角被成功恢复并且如果与对应地面实况角度小于5◦。4.2. 与Floor-SP的三维结构。我们对包含3500个场景的平面图注释的Struc-tured 3D数据集[37]进行了第一次评估：3000个训练场景，250个验证场景和250个测试场景。为了模仿标准场景重建管线，我们将注册的RGB-D房间转角PrecRecPrecRecPrecRec马PrecRec结构化3DDP（ε = 0. 01）0.930.940.740.790.490.520.720.75楼层-SP [7]0.890.880.810.730.800.720.830.78蒙特地板（我们的）0.960.940.890.770.860.750.900.82[7]测试集楼层-SP [7]0.850.830.720.580.650.520.74零点六四蒙特地板（我们的）0.880.850.780.630.680.540.78零点六七表1：Structured3D [37]和[7]测试集的定量结果。MA是三次测量的平均值。rics（房间、角落和角度）。我们将我们的方法与Mask-RCNN（DP）获得的房间段的简单Douglas-Peucker分解进行比较，并与Floor-SP[7]。我们的方法稍微优于其他方法，即使我们不能在[7]的训练集上训练我们的度量网络。全景图像以获得场景的点云我们处理重建以获得MaskR-CNN和度量网络的训练数据。为了进行公平的比较，我们重新训练了Floor-SP使用的网络，用于预测从Structured 3D数据集生成的训练集上的角点和边缘似然图，并将其 Mask R-CNN 网络替换为我们也在Structured 3D上训练的网络。地板SP测试装置。不幸的是，Floor- SP [7]的作者无法发布其Floor- SP数据集的训练场景，但我们可以在100个公开可用的测试场景上评估我们的方法，其中包括各种各样的平面图配置。我们使用Mask R-CNN网络在他们的训练集上进行预训练，因为它是由作者提供的。然而，由于我们无法在Floor-SP训练集上训练我们的度量网络，我们不得不使用仅在Structured 3D上训练的度量网络。因此，Floor-SP方法在该数据集上具有优势。表1显示了两个数据集的定量结果。为了更好地展示我们方法的好处，我们还展示了通过Mask R-CNN检测到的房间掩码的多边形化进行简单房间检测的结果，其中Douglas-Peucker（DP）方法用于初始化房间提案。DP对于房间度量获得了非常高的性能，这表明Mask R-CNN在大多数时间输出质量良好的掩码然而，角度度量清楚地表明，这些多边形通常看起来与实际的房间形状完全不同。对于Floor-SP，与Douglas-Peucker方法相比，房间度量有所下降。这与Floor-SP方法中的包容约束满足有关，该方法迫使检索到的多边形完全包含分段掩码。如果不能强制执行该约束，则重建也将失败。然而，更重要的是，角度度量清楚地表明，它们的结果仍然优于通过DP获得的结果。16042·LLL±±±房间转角马PrecRecPrecRecPrecRecPrecRecno refin.步骤0.950.930.860.760.650.570.82 0.75不含Lang0.960.940.860.750.730.680.85 0.79不含Lglob0.850.840.780.690.740.660.79 0.73不含L00.920.920.870.760.840.720.88 0.80w/of（. ）0.940.220.890.150.870.150.90 0.17完成0.960.940.890.770.860.750.90 0.82输入地板-SP我们的地面实况图6：Structured3D数据集[ 37 ]的定性结果，最好以彩色显示。红色箭头：与Floor-SP相比，我们的方法可以很好地处理假阳性检测。蓝色箭头：与Floor-SP相比，我们能够模拟更多种类的房间形状。输入地板-SP我们的地面实况图7：来自[7]的测试集的定性结果。即使我们的度量网络没有在Floor-SP训练集上训练，我们的方法在Floor-SP测试集上的表现仍然略好于Floor-SP。红色箭头：我们删除了误报房间检测。绿色箭头：地面实况中的紫色房间似乎是一个注释错误。蓝色箭头：我们的重建有时比手动注释的房间更符合输入。我们的方法比两种基线方法都要好，因为我们在所有指标上都保持了非常高的性能。即使对于Floor-SP测试集也是如此，即使我们不能在相应的训练集上重新训练我们的度量网络。我们改进了房间度量的性能，与Douglas-Peucker方法相比，因为我们的细化步骤调整了最初可能重叠的房间建议的形状，并且MCTS的选择消除了误报。与Floor-SP相比，我们的方法受益于直接对多边形形状进行优化，使我们能够避免两者表2：消融研究。消除角度对角度度量有很大影响;去除球对角点位置的影响较大;删除0可能会导致漂移。我们的度量网络f（）对于MCTS的选择步骤是至关重要的，因为其他项对于平面图生成任务不是合适的评分函数。掩模包容和角度离散化约束。此外，我们还比较了这两种方法在同一台机器上的执行时间。在Structured 3D数据集上，Floor-SP的平均计算时间为785549秒。相比之下，我们的蒙特地板方法的平均计算时间是71 - 40秒，和12 - 8秒时，跳过细化步骤。我们对Floor-SP数据集进行了类似的观察。定性结果。图6和图7示出了一些定性结果，并证明我们的方法能够去除假阳性检测并检索楼层平面图的高度准确的多边形重建。消融研究。我们进行了一项消融研究，以评估我们的细化程序的每个单独术语的有效性如表2所示，我们所有的正则化术语都有助于检索更好位置和形状的房间多边形。主要的消融表明，度量网络也有一个至关重要的作用，在我们的方法。在没有度量网络的情况下，目标函数不强制与输入场景的一致性。然后在大场景中选择单个正确的房间最大化精确度，因为确实没有假阳性，但最小化召回。5. 结论我们提出了一种从三维点云进行平面图估计的方法我们展示了如何将MCTS算法应用于这个问题，以及如何添加细化步骤以稳健的方式获得准确的计划。除了平面图估计，我们相信我们的方法是通用的。使其适应其他场景下的问题所需要的是（1）生成建议的方法和（2）评估解决方案质量的可微函数我们希望我们的工作将激励研究人员考虑对象之间复杂的相互作用问题，并获得可靠和准确的结果。谢谢。这项工作是由克里斯-田多普勒实验室语义三维计算机视觉，部分资金由高通公司。16043引用[1] 安东尼奥·阿丹和丹尼尔·胡贝尔。遮挡和杂波环境下的内墙表面三维重建。在3D成像、建模、处理国际会议上，可视化和传输，2011年。2[2] ArmenAvetisyan 、 TatianaKhanova 、 ChristopherChoy、Den ver Dash、Angela Dai和Matthias Nießner。SceneCAD：预测RGB-D扫描中的对象对齐和布局2020年欧洲计算机视觉会议1[3] 卡梅隆·布朗、爱德华·波利、丹尼尔·怀特豪斯、西蒙·卢卡斯、彼得·考林、菲利普·罗夫斯哈根、斯蒂芬·塔维纳、迭戈·佩雷斯·利巴纳、斯皮里登·萨莫斯拉基斯和西蒙·科尔顿。蒙特卡罗树搜索方法综述。IEEETransactions on Computational Intelligence and AI inGames，4：1，2012。二、四[4] Angela Budroni 和 Jan Boehm 从点云自动三维International Journal of Architectural Computing，2010. 2[5] Ricardo Cabral和Yasutaka Furukawa基于图像的分段平面紧凑平面重建。在计算机视觉和模式识别会议上，2014。2[6] Yu-Wei Chao，Wongun Choi，Caroline Pantofaru，andSil-vio Savarese.使用几何和语义线索的高度杂乱的室内场景的布局估计图像分析与处理，2013年。3[7] 陈嘉成，刘晨，吴嘉业，和安高Fu- rukawa. Floor-SP：Inverse CAD for Floorplans by Sequen- tial Room-WiseShortest Path.在计算机视觉和模式识别会议上，2019年。一二三六七八[8] 我是库隆。Monte-Carlo树搜索中的有效选择和后备算子在2006年的计算机和游戏国际会议2[9] David H. Douglas和Thomas K. Peucker.减少表示数字化直线或其漫画所需点数的算法。制图：国际地理信息与地理可视化杂志，1973年。4[10] 放大图片创作者： Brian Curless， Steven M. Seitz 和Richard Szeliski。从图像重建建筑内部2009年国际计算机视觉会议2[11] Ruipeng Gao，Mingmin Zhao，Tao Ye，Fan Ye，GuojieLuo ， Yizhou Wang ， Kaigui Bian ， Tao Wang ， andXiaoming Li.通过移动人群感知的多层室内平面重建。IEEE Transactions on Mobile Computing ， 15 （ 6 ），2016。2[12] Ruipeng Gao ， Mingmin Zhao ， Tao Ye ， Fan Ye ，Yizhou Wang，Kaigui Bian，Tao Wang，and XiaomingLi.拼图：室内平面图重建通过移动Crowdsensing。2014年国际移动计算和网络会议。2[13] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深隐函数在计算机视觉和模式识别会议上，2020年。3[14] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格R-CNN。在2019年国际计算机视觉会议上。3[15] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 一种学习3D表面生成的方法。计算机视觉与模式识别会议，2018年。3[16] Shreyas Hampali，Sinisa Stekovic，Sayan Deb Sarkar，Chetan S.库马尔，弗劳恩多夫，莱伊特. 蒙特卡罗场景搜索用于3D场景理解。在arXiv预印本，2021年。2[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在2017年的计算机视觉国际会议上。第1、3条[18] Varsha Hedau，Derek Hoiem，and David Forsyth.杂乱房间的空间布局恢复。2009年国际计算机视觉会议。1[19] H. Howard-Jenkins ， S. Li 和 V.Prisacariu. ThinkingOutside the Box的相关歌曲：无约束三维房间布局的生成。2019年亚洲计算机视觉会议。1[20] 池畑聪，杨航，古川康孝。结构化室内建模。2015年国际计算机视觉会议。2[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[22] Chen-YuLee ， VijayBadrinarayanan ， TomaszMalisiewicz，and Andrew Rabinovich.Roomnet：端到端的房间布局估计。2017年计算机视觉国际会议。1[23] Chen Liu，Jiaye Wu，and Yasutaka Furukawa. Floornet：一个统一的框架，用于从3D扫描重建平面图。2018年欧洲计算机视觉会议。第1、3条[24] Matthew M Loper和Michael J Black。OpenDR：一个近似可微分渲染器.2014年欧洲计算机视觉会议。6[25] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.NeRF：将场景表示为用于视图合成的神经辐射场。2020年欧洲计算机视觉会议。3[26] Srivathsan Murali，Pablo Speciale，Martin R Oswald，and Marc Pollefeys.室内scan2bim：房屋内部建筑信息模型。2017年智

下载后可阅读完整内容，剩余1页未读，立即下载