物理学启发的语义转移优化特征：房间布局估算新方法

82 浏览量更新于2023-10-16 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10物理学启发的语义转移优化特征：房间布局估算的另一种方法赵浩1陆明1姚安邦2郭怡文2陈玉荣2张莉11清华大学2英特尔中国实验室认知计算实验室{zhao-h13@mails，lu-m13@mails，chinazhangli@mail}. tsighua.edu.cn{安邦.姚，郭怡文，陈玉荣}@ intel.com摘要在本文中，我们提出了一种替代方法来估计，mate房间布局的杂乱的室内场景。这种方法具有两种新技术的优点。第一个是语义转移（ST），即：（1）将场景杂乱和房间布局之间的关系整合到卷积神经网络中的公式;（2）可以端到端训练的架构;（3）在训练数据分布不均衡的情况下，提出了一种实用的超深网络权值初始化策略。ST允许我们在各种情况下提取高度鲁棒的特征，并且为了解决隐藏在这些特征中的计算冗余，我们开发了一种原则性和有效的推理方案，称为物理启发优化（PIO）。PIO在公共数据集LSUN和Hedau上的评估表明，该方法比现有方法更准确。1. 介绍给定输入RGB图像，房间布局估计算法应输出所有墙-地板、墙-墙和墙-天花板边缘（如图1所示）。这是一个基本的室内场景理解任务，因为它可以提供其他任务的强先验，如从单个RGB图像的深度恢复[7][6]或室内物体姿态估计[23][9][22]。此外，房间布局本身为智能机器人和增强现实等新兴应用提供了室内场景的高级表示。这个问题引起了持续的关注，因为出版的开创性工作[11]，有两行的追随者：(1) 如图1的上部所示，常规方法遵循提议排序方案。通常这项工作是在赵昊在英特尔中国实验室实习时完成的，由负责通信的Anbang Yao监督。图1. 以上是常规方法的概述。下面是我们方法的概述。更好的电子观看。提出部分包括边缘检测、消失点投票和光线采样三个子模块。通过手工制作的功能和结构化推理技术，排名部分输出最佳布局建议，有时还输出杂乱的表示。(2) 最近的方法[17][3][27]通过全卷积网络（FCN）产生的特征实现了显着[17][27]仍然遵循着职位推荐排名方案。[3]是一个无提案的解决方案，其中消除了所有关于提案生成的步骤。而不是建议排名，在[3]中，推理是通过优化模块实现的。替代这两条线的作品，我们提出了一种方法，具有两者的优点，但超越他们。图1的下半部分说明了这一点，其动机有两个方面：常规方法。它们提供了许多关于室内场景理解的有用见解. [11]及其追随者[25][21][20][4][5][29]探索了不同的方法来建模房间布局和场景clut- ter之间的关系这种努力是合理的，因为房间布局估计的主要挑战在于此。以图1为例，超过50%的墙-地板边缘像素被床遮挡。如果床不存在，这个任务将变得容易得多。然而，这些见解没有访问最近的基于FCN的房间布局估计工作。在设计网络时，他们将FCNs视为黑盒，不考虑场景杂波信息。作为模特11用神经网络来描述有意义的概念一直是困难的，这促使我们探索在FCN中描述场景杂波的可能基于FCN的方法。与[17][27]仍然遵循提议排名方案不同，[3]然而，它的优化是穷举搜索采样解空间并且没有梯度建模的渐进式优化。因此，本文的第二个动机是为这项任务开发一个有原则的，在第一个动机的指导下，我们从三个不同的角度提出了语义转移（Semantic transfer，ST），它具有三个特点：1）作为一个判别模型，它将房间布局和场景杂乱之间的关系整合到一个FCN中。2)作为一种架构，它享有端到端培训的好处。3)作为一种训练策略，它提供了更好的网络初始化，并允许我们在不平衡的训练数据分布下训练非常深的网络。ST在各种情况下提供高度稳健的功能。因此，我们提出了一种推理技术命名为物理启发优化（PIO）。ST和PIO扮演着不同但又密切相关的角色，因为PIO的核心思想是用力学概念来表达ST特征图中观察到的一些现象2. 相关作品常规方法。房间布局估计的标准定义首先由[11]介绍。根据著名的曼哈顿假设，它将边聚类成在三个消失点处连接的线[2]。然后通过光线采样产生大量的布局方案.手工制作的功能用于学习提案排名的回归量。后来，许多作品试图改进这一框架。[19]检测合取而不是边缘，并相应地修改在对房间布局进行排名时，[25]同时估计杂乱遮罩。[21]旨在提高像[25]这样的方法的推理效率。除了估计杂波遮罩之外，[20]还在推断过程中估计对象的3D边界框和房间布局。除了学习的杂乱表示，[4]将家具形状纳入先验。在[5][29]更进一步，用场景语法对家具关系进行建模。基于FCN的方法。最近[17]训练了一个FCN用于逐像素的边缘标记，每个像素都被分配了一个来自这个4类集合S{背景（bg），墙壁-地板边缘（wf），墙壁-墙壁边缘（ww），墙壁-天花板边缘（wc）}的标签。S={bg，wf，ww，wc}（1）最后一层的激活作为特征被纳入传统的推理框架。[3]使用一个其他公式，其中每个像素可以被分配图2. 顶部：概率节点连接。下图：语义转移。在第三阶段中，预训练网络是指在第一阶段中由虚线框在第四阶段中，逐像素边缘标记网络是指在第三阶段中由虚线框概述的网络。更好地查看电子更高的分辨率。来自5类集合{地板、左墙、中间墙、右墙、天花板}的标签。这种5类公式具有模糊性问题，因为三种类型的墙的图案是本质上没有歧视。FCN是坐标不变的，因为卷积层实际上进行滑动窗口搜索，所以不适合区分左墙和右墙。因此[3]使用了额外的歧义澄清步骤。[27]使用这两种公式进行FCN训练。这些基于FCN的作品显示出显著的性能改进，但正如第二个动机所述，它们的推理方案仍然是传统的或原始的。利用强大的FCN功能，可以设计出更有原则和更有效的推理方案。更广泛的文学。实际上存在与房间布局估计基本上相同或类似的其他场景理解任务。例如，[18]试图理解具有地平线的自然场景、城市场景、走廊等的布局，其中房间布局估计只是一个特例。[18]的另一个特殊情况是室外城市布局估计，如[1][13]。它通常被认为是一个图形应用程序的名义下的照片弹出和评估与主观用户研究。[14]尝试重新覆盖比盒子更详细的房间布局，并使用墙-地板边缘误差进行评估。由于这些工作利用了[11]建立的技术，因此它们可能会从本文提出的方法中受益。类似于ST和PIO的概念。如果我们看一个更广泛的文献，有些类似的概念ST和PIO已经讨论过。在标签转移的名义下，[16][28]以非参数的方式解决语义分割。ST与它们的不同之处主要在于它是一个统一的深层架构（当然还有它的参数化性质）。[8]其追随者以说人的四肢是弹簧而闻名。PIO与它们不同，主要是受到力学概念的启发而产生的有效近似。12图3.（a）科技第一阶段的网络设计（b）数据集LSUN上语义分割的定性结果请注意，LSUN不提供语义分割基础事实。(c)语义特征空间的无监督结构可视化。(d)转移重量可视化。左上角：bg。右上角：wf。左下：ww.右下：厕所。更好地查看电子更高的分辨率。3. 语义转移在这里，我们提出了语义转移，这是由3个阶段（图2）。首先，我们来看看推理阶段：我们的FCN的最终目标是逐像素边缘标记。如图2的阶段四面板所示，从输入图像中提取四个逐像素激活图，每个对应于来自S（集合1）的标签. 例如，在wf激活图中，较高的色温指示wf存在的较高可能性。在第一阶段中，我们在数据集SNORGBD上训练了一个用于37类语义分割的FCN，以便最大限度地描述杂乱这37个类别可以涵盖大多数的东西和家具，通常出现在室内场景，如墙壁，天花板，椅子或窗户。我们在新引入的架构ResNet-101 [10]上构建了这个FCN。如图3a所示，我们对原始ResNet-101中的最后两组瓶颈进行了净手术，其中[15]中描述了孔机制（在[26]中称为扩张卷积）。这个网络的输入（RGB图像）实际上是从[0，255]取值的随机变量X。X由从语义标签中取值的隐藏随机变量Y确定[1，37]。因此，这张网-工作描述了后验分布P（Y |X）。在第二阶段，我们通过语义分割网络提供房间布局数据集LSUN，产生逐像素的37通道语义特征。由于它们都是室内场景理解数据集，因此在Sunday GBD上训练的模型图3b显示了LSUN上的一些定性结果，所有这些结果都是由softmax操作产生的，而没有条件随机场等后处理技术。然后将每个像素作为一个样本，学习一个全连接层，以弥合37通道语义特征和4类边缘层之间的贝尔斯为了说明语义特征对于该任务是区分性的，我们使用t-sne进行了标准的无监督分析[24]。如图3c所示，墙壁-天花板边缘（wc）和墙壁-地板边缘（wf）的样本在嵌入空间中形成明显的聚类。然而，墙-墙边缘（ww）和背景（bg）的一些样本彼此分散。在这个阶段，Y由从边缘标签[1，4]（集合1）取值的隐藏随机变量Z确定。所以这个fc层描述后验分布P（Z|Y）。P（Z|Y）是房间布局和场景杂乱之间的关系的参数化表示。不像皮奥-Neering工作，我们直接在神经网络中建模这种关系这是受人类如何理解房间布局的启发。如图2只有堆栈顶部的通道被完全示出，并且该通道对应于窗口。该通道可以大致告诉场景中三个窗口的位置和扩展。人类大脑如何从这样的语义特征中解析房间布局我们假设它根据以下规则做出决策：墙-楼板边缘不能穿过窗，因此它们不太可能出现在窗分数。为了验证网络行为是否符合这一假设，我们将该fc层中的传输权重可视化。这些权重被独立地学习100次，并被组织成如图3d所示的框图。不出意外，墙、地板和天花板通道的语义特征分别对ww、wf和wc的贡献最大。一般来说，分数越高，盒子越小我们以wc为例。除吊顶外，顶部四个转移重物还配有驾驶室、图片、沙发和白板。根据常识，橱柜、图片和白板往往会出现在13这是因为它们在物理空间中是垂直沙发通常较低，所以它的变化（以盒子大小表示）是图片白板是罕见的，解释了为什么它的变化也很大。在第三阶段，这个学习过的37×4fc层被重塑为1×1×37×4卷积层，并添加到第一阶段训练的网络第一阶段的重量作为特征提取器，来自第二阶段的权重作为分类器。它们形成了一个逐像素的边缘标记网络，描述了P（Z|Y）P（Y|X）=P（Z|X）。一方面，该网络可以在LSUN上进行端到端微调，以进行边缘标记，这是我们在本节的开始另一方面，它巧妙地结合了场景杂乱与房间布局的关系，这是本文的第一个动机。除了端到端训练和场景杂波建模之外，语义转移的另一个优点是对极端不平衡的训练数据进行更好的初始化。我们尝试直接使用ResNet FCN（图3a）来训练这个逐像素边缘标记网络，而不使用ST。但是批归一化（BN）层的输出容易过度-图4.第六种拓扑结构，从LSUN规范中截取其类似于图1中的输出。这种转换表示为M=C（Pi，Ei），我们稍后将省略Ei，因为它对于某个拓扑不改变此外，我们将使用M[Pi]时，引用的地图M产生的合取集Pi和M[Pij]时，某一合取Pij正在考虑中。由逐像素边缘标记网络产生的特征表示为Fl（l∈[1，4]）。注意，M和Fl都具有与输入图像相同的大小，由（w，h）表示。在它们上，我们定义一致性目标（CO）及其对应的能量格式（e）：流，使训练失败。训练问题也在[17]它说网络必须CO=1ΣWHΣw ΣhFl（m，n）×Ml（m，n）（2）对NYUd2和PASCAL电极导线进行了到坏的结果。这个问题可能是由边缘标签的极不平衡分布引起的。如图2与使用多个受限玻尔兹曼机[12]初始化自动编码器的经典方法一样，我们的逐像素边缘标记网络由前两个阶段初始化。我们不再观察ST的溢出现象。概率节点预训练的模型将被释放。补充材料中提供了有关网络、无监督分析和权重可视化的详细信息。4. 优化我们在补充材料中提供了全面的功能质量对于参数化的房间布局推断，我们提出两种技术：朴素优化（ NO ）及其有效的近似方法 -- 物理启发优化（PIO）。l=1m=1n=1e=exp（−CO）（3）其中Ml（l∈[1，4]）是由以下项生成的二进制掩码如果M（m，n）=1，则通过将像素设置为1，并且如果M（m，n）= 0，则设置为0。是的对于每个不同的拓扑，我们可以通过最小化e来找到最佳参数化表示Pi：Pi= arg mine（4）Pi在大多数情况下，从正确的拓扑开始会导致最低的能量值，而错误的拓扑会导致更高的能量值。失败的案例确实存在，我们稍后将可视化它们。下面详细描述的所有优化实现都是从Pi 集合的平均状态初始化的（例如图44.1. 朴素优化为了求解方程4，首先我们提出如下NO如补充材料所示，2D图像中有11种不同的可能房间布局拓扑我们用i索引它们。每个拓扑都由以下参数化：ePijxP.E.（Pij（x+x））−e（Pij（x−<$x））（5）边合取集Pi={Pij，j∈[1，nC]}，其中每个Pij为2D坐标，nC为合取e吉比P.E.（Pij（y+y））−e（Pij（y−y））（6414）number. 边集 Ei={Eik= （ Qka ， Qkb ， c ）， Qka∈Pi ，Qkb∈Pi，c∈S，k∈[1，nE]}，nE为边数.S为1。ePij=α×（−ijxe，−吉比）（7）图4中展示了第六拓扑作为示例。Pi和Ei可以转换为逐像素的边缘标签贴图其中，α是比例因子，x（=y）是窗口大小对于图像边界处的合取（例如，P62P15算法1朴素优化初始化：平均Pi而对于所有j，e减小根据等式5、6和7更新Pij端在更新的Pi处计算eend while在图4如果合取移动到图像角，则将CUPij视为特殊情况，以便允许合取移动到另一边界上或仅粘在角上。NO算法收敛性能好，但收敛速度慢，因此引入PIO算法作为有效的替代方案。4.2. 分析和动机首先分析了NO的效率瓶颈;当计算公式5（以及类似的公式6）时，图5. （ag）M2[Pij（x−<$x）]. (ah)M2[Pij]。(ai)M2[Pij（x+<$x）].(b)输入图像。（c/d）如果我们把边看作弹簧，特征图作为势场，施加在弹簧每个点上的力是相关的（e/f）部队组成的影响。将梯度定义在Pi而不是Ml[Pi]上，因为合取数Pi的nC是常数，所以复杂度是O（1）。这是PIO兵力合成是PIO的第二个关键概念。如图5e所示，如果我们考虑边j和k的端点而不是它们上的每个点，它们将移动ePijxΣ4−（CO（PΣij（x+x））−CO（Pij（x−<$x）））（8）一个局部极小状态。这将通过计算边缘l的移动来校正（图5 f），其中另一个特征图（墙-墙边缘）将被用作电势领域所以每个连词的移动都应该是=−l=1m，nFl×（Ml[Pij（x+x）]−Ml[Pij（x−x）]）（9）通过施加在连接到该连接点的每个边缘上的力来确定显然，将两个梯度向量在等式9中，我们省略了m，n，其含义如下所述在等式2中。计算Ml[Pij（x+x）]−Ml[Pij （x−x）]是效率瓶颈，它表示M= C（P i）的梯度，我们用图5a说明M2[Pij（x+x）]−M2[Pij（x−x）]，它减去了两个像素级掩码。作为提醒，M由转换C生成。首先，我们通过遍历每一个像素来确定它的标签来实现C。如果我们用N来表示w，h的尺度，则对于等式5或6的每次计算，该实现的复杂度（下文称为NOA）为O（N2）。它运行几十分钟的图像。 C 的一个改进的实现（后面称为NOB）计算两个合取之间的像素坐标，并直接访问相应的掩码元素。它的复杂度是O（N），对于一个图像，它运行大约30秒。进一步降低复杂度到O（1）的想法促使我们引入PIO。我们把每一个边缘都看作是一个可以平移的弹簧（例如图5e和图5f中的那些）自然地服从力合成的牛顿定律。4.3. 物理启发优化对于第一个概念，我们为边Eik=（Qka，Qkb，c）的每个端点定义新的一致性目标：CO2 =Fc（Qkax，Qkay）（10）e2 =exp（−CO2）（11）作为提醒，E和F的含义在本节开始时说明。计算势场中某点的梯度是很简单的，因为：第二章旋转并改变其长度。在NO算法中，边缘如图5c和图5d所示，我们认为，Qkaxe2（Qka（x+将特征图视为势场，并分析边缘上的点如何移动。毫不奇怪，它们的运动不是独立的，可以粗略地从边的两个端点的运动第二章乌克凯第二代（Qka（y+αy））−e2（Q第二章ka（y−y）第二章16）（13）Qkb。根据这一观察，我们建议近似Qka=α×（−KAX，−乌克凯）（14）17图6. 左图：LSUN验证集的定性结果。可视化的特征图通过逐像素的最大操作合并wf、ww和wc，但它们在PIO中独立使用右图：错误拓扑产生最低能量的典型故障情况在这种物理学启发的优化中，将EkQka视为施加在弹簧状边缘Eik的端点Qka上的力。对于第二个力合成概念，我们定义E[Pij]={（Qoa=Pij，Qob，c），o∈[1，#（E[Pij]）]}是Ei的子集。力-当考虑不同的边缘时，可以解出记作“Q”。因此，我们用以下公式来近似Pij5. 实验5.1. LSUN结果LSUN是一个房间布局估计数据集，由4000个训练样本、394个验证样本和1000个测试样本组成两个标准度量用于评估：（1）e角。角点（合取）误差是Pi的估计坐标与地面实况之间的欧几里得距离。是-Pij =#（E[Pij]）中国（15）分辨率差异的原因，e角落由图像o=1算法2物理启发优化初始化：平均Pi而对于所有j，e减小得到子集E[Pij]无论如何根据下式计算施加在Qoa=Pij上的力-公式121314端通过公式15计算ΔPij，并更新Pij端在更新的Pi处计算eend while如前所述，方程15自然服从力合成的牛顿定律在潜在混淆的情况下，我们澄清，根据等式14计算出ΔQoa和ΔQka（k是E i中的索引，o是E i的子集E [ P i j ]中的索引x）。总而言之，PIO的效率主要来自公式10的O（1）复杂度，而公式2的复杂度对角线长度（2）e像素。通过将P i转换为掩码表示-类似于图6中的地面实况，像素误差测量错误标记的像素与所有像素的比率（对于e像素的标签歧义问题，LSUN官方评测代码自动最大化重叠。）对于大规模的评估，这两个指标都是在图像上平均的。在验证集上，使用LSUN委员会提供的官方评估代码。测试集的第三方评价结果报告见表1。所提出的方法在两个度量上都优于传统方法[11]和基于FCN的方法[17][3][27]。验证集的定性结果和失败案例如图6所示。补充材料中提供了8个显示PIO如何工作的视频，每个视频分别对应图6中的一个示例。图6a示出了一个典型的简单情况，其中大多数边缘像素是可见的，并且特征图准确地捕获它们的位置。如video-a.wmv所示，可视化的边缘图在第30次迭代附近由于力的组成而暂时扭曲，PIO最终将其与真实布局对齐。图6bcd示出了一些情况，其中特征图不能准确地定位黑圈所在的边缘，导致相对较高的e角。原因是多种多样的，例如严重遮挡（b），特征图分辨率不足（c），18方法e像素（%）e角（%）Hedau等人（2009年）[11]24.2315.48Mallya等人（2015年）[17]16.7111.02Dasgupta等人2016年美国总统大选[3]10.638.20Ren等人2016年[27]7.575.23我们5.293.84表1.LSUN测试集上的定量结果方法e像素（%）Hedau等人（2009年）[11]21.20Del Pero等人（2013年）[5]12.70Mallya等人（2015年）[17]12.83Dasgupta等人（2016年）[3]9.73Ren等人（2016年）[27]8.67我们的6.60表2. Hedau测试集的定量结果。为了澄清，[11][5]不是在大规模数据集LSUN上训练的。和误导性纹理（d）。在图6e中，如果我们将橱柜视为墙壁的一部分，则房间不再是严格的盒子实际上，这些分离的墙壁-天花板边缘被特征图成功地捕获并由PIO对齐但是，注释协议将橱柜视为遮挡。图6f示出了严重闭塞的情况。语义转移允许网络推断床后面的墙-地板边缘的存在，但黑圈中的连接并没有准确定位。虽然不是100%准确，但图6a-f被视为成功案例，因为输出拓扑是正确的。图6gh是两个典型的故障情况，其中错误的拓扑产生最低的能量。图6g网络推断床后面有墙-地板边缘，但注释协议没有。video-g1.wmv显示错误拓扑的优化过程，video-g2.wmv显示正确拓扑的优化过程。即使后者导致较低的误差，但算法输出前者，因为它产生较低的能量。图6h示出了由结构模糊性引起的另一种类型的故障。同样，这个场景不再是一个严格的盒子，因为墙的某些部分向外突出。网络将它们识别为天花板，但注释协议不识别，导致PIO输出错误的拓扑。5.2. Hedau结果Hedau数据集由[11]提出，由209个训练样本和105个测试样本组成。在Hedau测试集上，我们直接评估用LSUN训练集训练的模型。如图7所示，该模型在数据集上提取了可靠的特征。与文献一致，图7. Hedau测试集上的定性结果。NobPio阿尔特普夫（s）35.411.79e像素（%）5.425.48e角（%）3.883.95表3.每帧平均运行时间（artpf）比较。使用像素误差作为定量度量。我们报告了比传统方法（如[11][5]）和基于FCN的方法（如[17][3][27]）更好的结果（表2）。Hedau测试集上的总体像素误差（ 6.60% ）高于 LSUN 测试集上的总体像素误差（5.29%），因为由Hedau数据集注释的地面真实掩模更严格（通常由图7j示出）。5.3. 超参数和效率(1) 在算法2中，e是否减小由阈值10−6决定。该阈值与 e 的数值标度有关。在实现过程中，我们使用e=−CO而不是e= exp（−CO），因为等价，e （2）缩放因子α为自适应，以确保梯度（力）长度在1和3之间。这限制了合取在一次迭代中只能移动一点点，如视频所示。(3)在LSUN验证集上评估窗口大小的影响，定量结果如图8所示。随着窗口大小从1像素增长到10像素，两个度量都显示出增加的趋势。由于PIO可以被视为一种对齐算法，这并不奇怪，因为在较大的窗口大小中计19算梯度会导致准确捕获局部结构的能力较弱。20一B（女）CDEGODS0.243 0.271 0.314 0.268 0.202 0.233OIS0.251 0.285 0.328 0.280 0.208 0.236AP0.135 0.151 0.184 0.148 0.091 0.098图8. LSUN验证集错误与窗口大小我们使用NOB和PIO在LSUN验证集上评估每帧的平均运行时间。由于难以处理，未对NOA进行评价。结果如表3所示，表明PIO相对于NOB带来了显著的加速，而不会导致明显的精度损失。我们的代码都是用MATLAB实现的，因此对于潜在的实时应用还有5.4. ST段消融研究为了评估语义转移的影响，我们使用如下三个标准边缘预测准确性度量：F-score @ optimal dataset scale（ODS），F-score @ optimal image scale（OIS），平均精度（AP）。我们考虑以下设置：（A）直接训练基于VGG16的网络用于边缘标记。(B)用语义转换训练一个基于VGG16的网络。(C)用语义迁移训练基于Resnet101的网络所有设置（包括下一小节中的D-G）都使用相同的超参数。如表4所示，设置B的精度高于A（2. 8%，而设置C则有更大的改善（4. 3%的臭氧消耗物质）。这表明语义迁移和Resnet101的引入都带来了改进，但后者占了相对较大的部分。5.5. 表征学习观为了进一步比较语义迁移与语义表征学习方案，我们考虑了这些设置（都在基于VGG16的网络上）：（D）在语义分割的SSTGBD上进行预训练，重新初始化最后一层并微调所有参数。(E)与D相同，除了我们仅在层5b之后微调参数（F）语义转移，并在第三阶段微调所有参数（与B相同）。(G)与F相同，除了我们仅在层5b之后微调参数。如表4所示，F的性能略好于D（0. 3%，有人可能会认为这可能是由额外的参数或随机因素引起的表4.LSUN确认集上ST的消融研究官网�I�ie像素11.28 6.31 5.755.48e角8.55 4.98 4.173.95表5.LSUN确认集上PIO的消融研究TIC训练），但是当我们在层5b之前冻结参数时，该余量变得更显著（3. G与E相比，1%的ODS）。这表明调整（适当初始化）37×4传输层比重新训练（高斯初始化）分类层更容易（在冻结表示设置中更明显）。5.6. PIO的烧蚀研究通过经典的流水线（边缘检测，消失点投票，光线采样），我们在LSUN验证集上平均每幅图像提取334个pro-pronums。然后使用语义转移特征（上述设置C），我们考虑这些设置：（H）选择与特征最相关的建议。（一）用最好的方案做PIO（J）用前10个最好的建议做PIO，并挑选能量最低的一个。（K）上面提到的PIO设置（不依赖于从低级边缘线索生成的那些容易出错的建议）。我看到比H更高的精度（-4。97%的像素），这并不奇怪，因为PIO细化了布局建议。然而，由于I受到提议质量（其在高度闭塞的情况下严重退化）的限制，因此K优于I（-0）。83%的像素）。用10个建议（J）进行扩充，可以看到与K相当的性能一般来说，PIO比排名提案更好（-5。80%的像素比较K和H）。6. 结论在本文中，我们提出了一种替代方法，房间布局估计。通过一个非常深的语义转移FCN，我们提取可靠的边缘特征，在各种情况下。同时，我们发展PIO作为一种新的推理方案，这是受到力学概念的启发。在公开数据集上的大量定量实验表明了该方法的有效性。还提供了图形和视频作为直观的演示。鸣谢。国家自然科学基金项目（批准号：61132007、61172125、61601021、U1533132）。21引用[1] O.巴里诺娃河谷Konushin，A. Yakubenko，K. Lee，H.Lim和A.科努申城市场景的快速自动单视图三维重建2008年ECCV。[2] J. M. Coughlan和A.L. 尤尔。曼哈顿世界：通过简单的推理从一幅图像中找到指南针方向在ICCV 1999年。[3] S. Dasgupta 、 K. Fang ， K. 在中国的分布 Chen 和 S.Savarese延迟：用于杂乱室内场景的鲁棒空间布局估计。在CVPR 2016中。[4] L. Del Pero，J. Bowdish，D.弗里德，B。Kermgard，E.Hart-ley和K.巴纳德室内场景的贝叶斯几何建模在CVPR2012中。[5] L. Del Pero，J.鲍迪什湾 Kermgard，E. 哈特利，还有K.巴纳德使用复合3d对象模型理解贝叶斯房间。在CVPR 2013中。[6] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在CVPR 2015。[7] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS 2014中。[8] P. F. Felzenszwalb和D. P. Huttenlocher。用于对象识别的图形结构。IJCV 2005年。[9] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克将3d模型与杂乱场景的rgb-d图像对齐。在CVPR 2015。[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR 2016。[11] 诉Hedau，D.Hoiem和D.福赛斯恢复杂乱房间的空间在CVPR 2009中。[12] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络减少数据的维数2006年《科学》杂志。[13] D. Hoiem，A. A. Efros，和M。赫伯特从图像中恢复曲面布局。IJCV 2007年。[14] D. C.李，M。Hebert和T.卡纳德单幅图像结构恢复的几何推理。在CVPR 2009中。[15] C. Liang-Chieh，P.乔治，K。Iasonas，M. Kevin和L. Y.艾伦基于深度卷积网和全连接crfs的语义图像分割ICLR2015。[16] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析：通过密集场景对齐进行标签传输。在CVPR 2009中。[17] A. Mallya和S.Lazebnik 用于室内场景布局预测的学习信息边缘图在ICCV 2015中。[18] V. Nedovic ， A. W. Smeulders ， A. Redert 和 J. - M.Geuse- broek.按阶段分类的深度信息。2007年ICCV。[19] S. Ramalingam，J.K. Pillai、A.Jain和Y.田口用于室内场景空间推理的Manhat- tan连接目录在CVPR 2013中。[20] A. G. Schwing，S.菲德勒M.Pollefeys和R.乌塔松盒子里的盒子：联合三维布局和对象推理从单一的图像。在ICCV 2013中。[21] A. G. Schwing，T. Hazan，M. Pollefeys和R.乌塔松室内三维场景理解的有效结构预测。在CVPR 2012中。[22] S. Song和J. Xiao. rgb-d图像中非模态3d目标检测的深度滑动形状。在CVPR 2016中。[23] S. Song和J. Xiao.用于深度图像中的3d对象检测的滑动形状。ECCV 2014。[24] L. Van der Maaten和G.辛顿使用t-sne可视化数据。机器学习研究杂志2008。[25] H. Wang，S. Gould和D.科勒用于杂乱室内场景理解的隐变量判别学习。ECCV 2010年。[26] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR 2016。[27] R.尤卓角C.陈湖，澳-地Shangwen和K. C.- C.杰一种由粗到细的室内布局估计（cfile）方法。在ACCV 2016中。[28] H. Zhang，J. Xiao，and L.权用于街道场景语义分割的监督标签转移。在ECCV 2010中。[29] Y. Zhao和S. C.竹集成功能、几何和外观模型的场景解析。在CVPR 2013中。

下载后可阅读完整内容，剩余1页未读，立即下载