没有合适的资源?快使用搜索试试~ 我知道了~
5134IM2CAD华盛顿大学齐山Zillow集团Steven M.华盛顿大学图1:IM2CAD拍摄一张真实场景的照片(左),并自动重建其3D CAD模型(右)。摘要给定一张房间的照片和一个大型数据库在家具CAD模型中,我们的目标是重建一个尽可能与照片中描绘的场景相似的场景,并由从数据库中绘制的对象组成我们提出了一个完全自动化的系统来解决这个IM2CAD问题,它可以在室内家居设计和重塑网站的具有挑战性的图像上产生高质量的结果。我们的方法迭代地优化房间中物体的放置和比例,以使用通过深度卷积神经网络训练的图像比较度量将场景渲染与输入照片进行最佳通过一次在整个场景上联合操作,我们考虑了对象间的遮挡。我们还显示了我们的方法在标准场景理解基准测试中的适用性,我们获得了显着的改善。1. 介绍在1963年的Ph.D.Lawrence Roberts [34]演示了一个从单张照片推断3D场景的系统(图2)。利用已知3D物体的数据库,他的系统分析了图像中的边缘,以推断这些物体在场景中的位置和方向。与绝大多数只捕获可见表面的现代3D重建技术不同,Robert虽然罗伯特(a)(b)(c)第(1)款图2:Lawrence Roberts在计算机视觉领域随后的一个世纪的研究仍然没有导致他的方法在现实图像和场景上可靠地工作的实际扩展一个主要的限制是需要场景中每个对象的精确的先验3D模型。虽然椅子模型,例如,要获得世界上每把椅子的精确3D模型并另一个挑战是需要可靠地匹配照片和CAD模型中的特征,特别是当模型与拍摄的对象不因此,我们介绍了罗伯特的原始问题的一个变体例如,图中的床。1与输入照片中的相似但不完全匹配,5135几何特征房间布局估计场景CAD模型图3:系统概述:通过一系列步骤处理输入图像(左)以产生场景CAD模型(右下)。因为我们在数据库中没有特定床。虽然我们的结果并不完美,但它们代表了在实现Robert对真实世界图像的愿景方面迈出的重要一步产生真实场景的CAD模型具有用于虚拟现实(VR)、增强现实(AR)、机器人、游戏和教育的应用。我们的工作建立在计算机视觉和图形研究界的一些最新进展之上。首先,我们利用ShapeNet [6],其中包含数百万个物体的3D模型,包括数千种不同的椅子,桌子和其他家居用品。这个数据集是3D场景理解研究的游戏规则改变者,也是实现我们工作的关键。其次,我们使用最先进的物体识别算法[32]来识别常见物体,如椅子,桌子,窗户等;这些方法在实践中工作得非常好。第三,我们利用卷积神经网络(CNN)[21]训练的深度特征来可靠地匹配照片和CAD渲染[3,20,36,18]。最后,我们建立在最近的研究室重建[15,22,27]。我们的主要贡献是一个全自动系统,从一张照片中生成全场景CAD模型(房间+家具)虽然我们系统的许多技术成分大量借鉴了先前的工作(如前一段所述我们的房间建模方法在标准基准上有显著的我们新颖的全场景优化方法迭代地调整对象的位置和规模,以最好地将渲染的照片与输入图像对齐,同时在全场景上联合操作,并考虑对象间的遮挡。我们的模型包括分割成对象的语义(例如我们使用[15],LSUN [1],SUN RGB-D [42]和3DGP [8]的数据集评估我们在场景理解方面的性能。我们在2D和3D房间布局估计以及仅使用单个RGB图像的3D对象定位。2. 相关工作在Hoiem等人的工作之后,在过去的十年中,人们对单图像3D建模重新产生了兴趣,[16]和Saxena等人,[2]的文件。室内场景的单图像建模最近取得了重大进展,有一系列关于房间形状估计(地板,墙壁,天花板)的论文,例如,[15,22,27,9,33]这产生越来越好的结果。我们的房间形状估计方法获得了有竞争力的结果。最近,研究人员已经超越了墙壁,并朝着近似家具在房间里使用长方体[46,49,8,14,29,38]。虽然基于长方体的方法避免了对对象数据库的需要,但是所得到的模型是原始的并且不能准确地描绘场景外观。另一个密切相关的研究方向是椅子和其他物体的3D物体和姿势识别[3,20,36,23,18、43、4、44]。这些方法可以产生单个对象与照片或深度图像的非常精确的对准。我们的工作利用类似的3D对象识别技术,结合房间形状估计,以考虑对象间遮挡的方式联合解决房间中的所有对象。我们的工作还建立在最近从单个图像中检测目标的研究进展的基础上[12,32]。研究人员已经探索了各种技术来使用非摄影手段自动计算CAD场景模型,例如,使用基于实例的方法[11],利用文本描述[7],并优化给定空间中的家具布置[47,28]。这些方法依赖于分析家具类型之间的位置和姿势收集这样的数据是一个挑战,因此这些方法可以极大地受益于我们的解决方案,该解决方案以全自动的方式生成更全面和合理的室内模型。[25]我的作品是[37]和[27]。对象对齐室内摆放物品对象检测ShapeNet~~~场景优化场景图像…FCNFRCNFRCN5136天花板地板左壁中墙右侧墙对象当一个物体,例如,当以高置信度检测到床时,我们使用为此目的训练的深度卷积距离度量,通过将其外观与来自许多不同角度的数百张床的渲染进行比较来估计其3D姿态。最后,我们通过优化渲染房间和照片之间的差异来优化重建房间中所有对象的位置我们的优化方法对所有对象联合操作,从而考虑对象间的遮挡。在本节的其余部分中,我们将详细描述这些技术组件:房间几何估计、对象检测、对象对齐和场景优化。图4:几何特征和房间布局估计。结果来自(行1)[22]和(行2)[15]。下一行:我们的结果。最佳匹配的3D场景模型到一个给定的图像。我们的系统在许多方面都是一个重大的进步。特别是,[37]需要数据库中与每个图像匹配的完整场景。因此,他们的方法可以被认为是后者允许更广泛的可重建场景。虽然[25]通过放置单独的家具来重建场景,但他们做出了一些限制性的假设(轴对齐的建筑物,没有墙壁,易于分割的对象),在一个小得多的数据库(180个模型)上操作[37]和[25]都使用手工制作的特征,而我们提出的方法使用CNN特征,该特征仅在图像数据上进行端到端学习。Guo等人。[13]使用RGBD(深度)图像渲染场景的合成模型,而我们的方法仅使用RGB信息。[13]生成的合成房间在对象细节方面具有较 低 的 保 真 度 , 而 我 们 为 每 个 对 象 检 索 详 细 的ShapeNet CAD模型。在3D预测的上下文中,几种先前的方法从单个图像估计可见表面的深度和表面法线[10,48,4]。相比之下,我们的方法不需要密集的表面法线估计,但能够通过联合估计房间和对象CAD模型来估计可见和不可见表面。3. 算法我们从图像重建CAD模型的方法(见图3)是基于识别场景中的对象,推断房间几何形状,并优化房间中的3D对象姿势和大小,以使合成渲染与输入照片最佳匹配。所提出的方法包括以下几个步骤。我们首先通过将像素分类为墙壁、地板或天花板来拟合房间几何形状,并将结果拟合为一个盒子形状。同时,我们使用最先进的对象检测技术检测场景中的所有椅子、桌子、沙发、书架、床、床头柜、箱子和窗户。3.1. 房间几何形状估计人类善于解释房间的形状(即,墙壁、天花板和地板的位置),即使在存在明显杂乱的情况下。在过去的几年里,计算机视觉算法也变得越来越擅长这项任务,遵循Hedau等人介绍的范式。[15] Lee et al.[22]其中假设一组房间形状(通常为3D盒子),并使用图像中的特征进行评估。我们改进了以前的方法,房间几何估计,通过采用替代方法排名的房间3D盒假设使用深度卷积功能。具体来说,我们训练一个网络,估计每像素的表面标签(天花板,地板,左,中,右墙)。这些特征类似于[ 17 ]的上下文几何特征(与[17]不同的是,它从手工设计的低级描述符(例如,颜色,纹理和其他透视线索),我们的方法使用端到端深度全卷积网络(FCN)[26],使用VGG [41]并将每个全连接层转换为卷积层,其中内核覆盖整个输入区域。最后,针对像素级标记任务对权重进行微调。在这项工作中,我们产生的密集得分地图的大小为41×41×5给定的输入图像为321×321。然后,我们使用上采样来生成与输入图像大小相同的概率图。我们在LSUN数据集中的注释室内场景上训练了FCN网络[1]。基于FCN的架构的一个关键优势是它在整个图像上集成了上下文信息。虽然大多数方法使用使用书架或床的存在来推断相邻墙壁的可能存在。我们注意到[27]也使用了卷积网络,但不是像我们一样直接对表面方向进行分类,而是估计场景中的信息边缘,并采用第二阶段迭代地重新标记房间表面并对房间盒子估计进行排名。天花板/地板左/右墙中间墙5137书架(0.87)窗口(0.98)窗口(1.00)(1.00)窗口(1.00)床(0.99)书架椅子(0.94)椅子(0.64)沙发(0.94)表(0.57)窗口(1.00)窗口(1.00)床(1.00)窗口(1.00)窗口(0.84)沙发(0.92)床头柜(0.81)椅子(0.91)沙发(0.99)ta蓝(0.88)(0.94)窗口图5:示例图像上的对象检测结果。每个对象类别都以不同的颜色显示。方框中的数字显示了每个检测的概率。3.2. 对象检测我们家具建模流程的第一步是检测图像中感兴趣的对象及其2D边界框的存在。虽然可以训练任意数量的物体检测器,但我们特别关注以下物体:椅子、桌子、沙发、书架、床、床头柜、箱子和窗户。目标检测是一个在过去几年中取得爆炸性进展的领域,现有的方法工作得令人印象深刻。特别是,我们使用最先进的Faster-RCNN [32]深度网络进行检测。该网络执行两个步骤来检测对象。首先,它产生对象区域建议,然后使用深层卷积层计算建议对象的每个类别的可能性区域提议层产生不同比例和宽高比的绑定框。该网络使用来自大规模对象识别任务的预训练模型进行初始化(ILSVRC 2012)[19]。然后,通过最小化边界框回归和对象误分类上的多任务损失的目标函数,针对对象建议和对象检测任务微调网络权重。然后,经过训练的网络能够为任何图像生成具有对象类别的边界框。网络输出还包括对象得分,其示出了该特定对象在绑定框中的概率贪婪非最大抑制(NMS)用于获得每个对象的单峰检测,去除与较高得分对象边界框重叠的低得分检测。我们的Faster-RCNN实现使用VGG 16 [41]架构。我们使用三个公开可用的数据集,即SUN2012检测数据集[45],ImageNet检测挑战数据集[35]和Rent3D数据集的窗口类别[24],进一步微调该网络的权重,用于我们的八个家具类别的对象检测任务。我们在图5中展示了我们的图像样本的检测结果。3.3. CAD模型对齐第3.2节中的对象检测结果识别“椅子”的存在在图像的某个区域中具有高概率。现在,我们希望确定它是什么样的椅子,它的形状和近似的3D姿态。受[3]的启发,我们通过搜索与图像中检测到的对象外观最相似的3D模型来解决此检索问题。具体来说,我们考虑ShapeNet存储库[6]中的所有3D模型与我们感兴趣的对象类别相关联,即,椅子、桌子、沙发、书架、床、床头柜、衣柜,共计9193个模型。每个3D模型被渲染到32个视点,包括16个均匀采样的方位角和两个仰角(水平以上15度和30度)。照片与CAD模型渲染的鲁棒比较并不简单;由于形状、外观、阴影和遮挡物的存在的差异,像L2这样的简单规范在实践中不能很好地工作。我们再次通过使用卷积网络获得了良好的结果(参见图6);我们为每个渲染图像和检测到的图像边界框计算深度特征,并使用余弦相似性作为我们的距离度量。更具体地说,我们在第3.2节中描述的微调Faster-RCNN网络[32]的ROI池化层中使用卷积滤波器响应。使用ROI池化层的好处是其特征向量的长度不取决于边界框的大小和纵横比,从而避免了对非均匀重新缩放的需要(通常是伪影的来源选择最佳匹配每个图像对象检测的渲染3.4. 场景中的对象放置配备了一套CAD模型及其近似方向,我们现在希望将它们放置在重建的房间中。这个位置不需要是精确的,因为我们将在后续步骤中进一步优化它,但应该是合理的初始估计。为此,我们首先使用三个正交的观察点[15]估计相对于房间空间的摄像机固有参数(K)和摄像机旋转(R),并选择其中一个可见的房间角作为世界坐标系的原点。如果没有角点可见,则选择可见墙边缘与地板的交点作为原点。ShapeNet 3D模型使用对应于单位立方体的边界框进行归一化。根据第3.3节中的对齐过程,我们可以确定与该立方体的八个角中的每个角相对应的输入照片像素位置我们可以通过使地平面与从相机中心投射的光线相交来找到对象在x和y(平行于地平面)方向上的位置和比例,所述光线穿过与对齐的CAD模型立方体的底部四个角相对应的输入图像像素5138图6:针对给定对象检测边界框检索的前五个对齐CAD模型的结果。检索到的模型具有与给定对象相似的风格和姿势。右列的最后两行显示失败案例:(第1行)椅子不同姿势之间的视觉特征混淆,以及(第2行)沙发被桌子严重遮挡,使其在视觉上类似于L形沙发。为了计算对象沿z轴的比例,我们计算投影立方体的四个垂直边的长度与这些边的长度之间的比率,为了最小化Im和原始输入图像I之间的余弦距离:1C(I)·C(I)地平面到这些线与水平线的交点,隐式消失线请注意,消失线的高度等于相机高度。min Φ(IΩ,I)=|C| Ci∈C我我1−(1)Ci(I我们把窗户当作一个特例,因为它们是贴在墙上而不是地板上的。为了放置窗口,我们找到对象检测中的窗口边界框与每面墙的交点,并将窗口分配给与其重叠最大的墙图像中窗口的检测到的边界框向后窗口的姿态和位置由包含在该四边形内的壁平面上的最大轴对齐矩形确定。3.5. 通过渲染和匹配进行场景优化第3.4节中的放置程序对几个误差源敏感,包括对象方向的量化、地平面配准不良、遮挡和其他因素,这些因素可能导致对象姿态和比例的错误估计。因此,我们引入了一种优化,其中场景中所有对象的配置都是联合对齐的。该过程的益处在于,其适当地考虑对象间遮挡,并且产生对对象位置、比例和方向的更准确的估计。在估计3D房间几何形状和场景中对象的初始位置之后,我们通过优化渲染场景与输入图像的视觉相似性来改进对象的位置。为此,我们解决了一个优化问题,其中变量是场景中的3D对象配置,目标函数是从相机视图渲染场景和输入图像获得的卷积特征之间的余弦距离最小化更正式地说,假设我们检测到对象{O1,...,Ok}在场景中。每个对象Oi的放置由其(x,y,z)位置、沿x、y和z轴的缩放以及旋转来表示。所有N个对象的变量连接成一个7N参数向量。给定一个参数向量,我们可以生成场景的渲染图像,表示为I。在我们的优化中使用的成本函数试图我们通过使用所有卷积层1的输出来对图像的特征向量进行建模。在上面的等式中,C是指网络中的conv层的集合,Ci是从第i层获得的特征向量总成本函数是所有层的平均相似度网络较高层中的卷积滤波器提供抽象的形状特征,而图像的细节(如边缘和角落)出现在从网络较低层获得的特征较高层次的特征具有更大的感受野,因此可以应对更大的位移,并在初始估计远离时帮助优化在第一次迭代中收敛类似地,较低的卷积层在稍后的迭代中发挥更大的作用,以帮助对象以更精确的方式收敛以这种方式,网络为优化提供了自然由于我们的目标函数不可微,我们使用COBYLA[30],这是一种无导数的数值优化方法,部署在Python优化包中。我们发现这一程序在实践中非常有效图7示出了示例场景的方法的收敛4. 为CAD模型我们使用输入图像中每个对象的中心点颜色进行场景优化(第3.5节)和可视化。过程如下。首先,我们将对象的最佳对齐然后,我们分别找到每个颜色通道的中值我们还使用类似的方法计算房间每面墙的中心点颜色我们通过房间几何体计算每个墙壁的遮罩,并从检测到的对象中排除这种方法在以下方面效果很好:1我们在VGG网络51390.660.650.640.630.620.610.60.5950 100 1500.630.620.610.60.590.580.57单位:03060 10050100150200iter:最终输入照片误差收敛图7:联合场景优化步骤的结果。(第1列)场景中的初始对象放置。(第2-5列)在优化期间的示例迭代中渲染场景。(第5列)优化的最后一次迭代。(Last列)的目标函数误差和优化收敛性。目标函数最小化真实图像和渲染图像之间的不相似性。红点显示上面显示的示例迭代。方法像素误差(%)Lee et al.[22]24.70Hedau等人[15] 21.20Del Pero等人[29] 16.30Gupta等人[14] 16.20Zhao等人[50] 14.50Schwing等人[39] 13.59Ramalingam等人[31] 13.34Mallya等人[27] 12.83Dasgupta等人[9] 9.73Ren等人[33] 8.67IM2CAD 10.15表1:Hedau上的房间布局像素误分类错误[15]。实践场景优化,并创建视觉上愉快的渲染,而不会落入恐怖谷[40](见图8中的结果)。5. 实验结果我们评估我们的IM2CAD系统定性和定量的场景理解基准。5.1. 定性评价我们使用从“Zillow Digs”收集的100个真实世界室内图像这些图像是客厅和卧室的镜头,因为我们的训练对象类别是椅子,桌子,沙发,书架,床,床头柜,胸部和窗户,即,典型的卧室和客厅家具。我们涵盖了从传统到现代的各种房间风格,各种家具布置,复杂性和杂乱性都代表了现实世界的场景。我们还展示了SUN RGB-D数据集上的示例结果。我们的IM2CAD方法在大多数测试图像上始终产生合理的结果。图8代表了我们的结果的前30%,其中大多数家具都被检测到,使用匹配良好的CAD模型表示,并正确放置。典型的失效结果如图9所示。我们的失败很少是灾难性的,方法像素误差(%)Hedau等.[15]24.23Mallya等人[27] 16.71Dasgupta等人[9] 10.63Ren等人[33] 9.31IM2CAD 10.04表2:LSUN上的房间布局像素误分类错误[1]。并且通常属于某些家具项目被省略或放错位置的类别。物体姿态估计有时会陷入局部最优。请注意,图9(a)中的前景椅子姿势不正确,而椅子腿几乎完美地与图像对齐图6的最后两行演示了视觉相似性无法检索适当CAD模型的情况。严重遮挡的物体会带来额外的挑战。请注意图9(a)和(b)中缺少的椅子和咖啡桌。如果房间形状不是完美的立方体(图9(c)),房间布局估计可能无法恢复真实的房间形状。窗户可能会与绘画混淆,因为它们具有非常相似的视觉特征(见图8)。窗户和绘画通常都是以玻璃和闪亮的矩形形状出现在墙上。我们使用Caffe [19]来实现和训练我们的深度网络。我们使用随机梯度下降来学习FCN网络的权重,以进行房间几何估计,初始学习率为0.001,权重衰减为5e-4。我们在45个epoch中训练我们的网络,学习率每15个epoch下降一次。对于对象检测,我们对所有对象类别使用相同的阈值,并且仅保留分数高于0.5的检测框。物体检测和几何特征提取在Titan X GPU上进行,而房间布局采样和物体姿态估计在CPU上计算 对于300×500的典型输入图像,计算时间约为0。15秒用于物体检测,0. 3秒用于几何特征提取,8秒用于房间布局采样和排序,10秒用于对象放置。场景优化是一个迭代过程,每次迭代大约需要1秒。我们设定了最大值5140图8:重建结果。在每个示例中,左图像是真实输入图像,右图像是由IM2CAD产生的渲染的最后一行显示了SUNRGB-D数据集的示例结果。方法SUN RGB-D 3DGPHedau等人[15] 49.4 47.3IM2CAD 62.6 63.2表3:在SUN RGB-D [42]和3DGP [8]数据集上使用体素IoU的3D房间估计结果(越高越好)。迭代次数为250。整个CAD模型创建过程在5分钟内完成。要生成具有全局照明的最终房间效果图-我们使用Blender循环渲染引擎[5],固定照明由来自右上角的远处阳光和天花板上的五个区域灯最终的渲染过程大约需要15分钟,使用全局照明。5.2. 2D房间布局估算为了评估房间布局估计的准确性,我们计算预测布局和地面实况布局标签之间的像素差异我们对[15]数据集的测试分割进行了评估(我们不使用他们的训练分割)。我们的FCN功能(无3D框估计)实现a 12.4%的像素误分类错误相比,28。在领先的基准数据集[15]上[17]的9%(见图4)。当与[15,22]的盒拟合步骤相结合时,我们实现了10的竞争结果。与[9]和[33]相比,误差为15%,如表1所示。更具体地说,我们将[ 27 ]的报道结果改进了2。7%,[9] 3。1%,[33] 4。百分之二。作为一项消融研究,SUN RGB-D 3DGP方法体素IoU 地图 体素IoU mAP3DGP [8] 38.7 42.1 38.4 59.7IM2CAD(不含Optim)46.174.753.586.6IM2CAD(含Optim.)49.075.653.886.6表4:SUN RGB-D [42]和3DGP [8]数据集上的3D场景自由空间预测(体素IoU)和对象定位(mAP)结果(越高越好)。考虑到不同的房间假设估计方法的影响,我们将我们的方法与[15]或[22]相结合进行了测试,我们得到了11的误差。02%和11。分别为13%我们还使用LSUN数据集[1]评估了房间布局像素误分类任务的性能。如表2所总结,IM2CAD显著优于先前方法[15,27]以及[9],并获得了与[33]的最新方法竞争的结果。5.3. 3D空间估计和场景理解我们的IM2CAD系统也适用于2D和3D场景理解以及房间布局估计。为了评估我们在场景理解任务中的表现,我们使用了SUN RGB-D数据集[42]。该数据集包含从不同视点捕获的图像,其中一些图像具有低视场,并且其中相当多的图像是从高度杂乱的场景中捕获的。请注意,尽管SUN RGB-D数据集包含深度数据5141(a)(b)(c)第(1)款图9:故障案例:不准确的椅子姿势(a);误检测椅子(a)和桌子(b);非立方房间形状(c)。对于所有的图像,我们在训练或测试时都不使用深度信息,而是仅使用单个2D图像来估计3D房间几何形状以及对象布局。我们将测试分割用于卧室和客厅场景类别,总共有484张图像。3D房间布局估计3D房间布局估计可以精确地推理自由空间与对象占用的空间在缺乏深度数据的情况下,这项任务具有挑战性,因为它需要从2D图像中推理房间几何形状。我们的3D房间布局估计是通过计算预测和地面真实自由空间之间的交集(IoU)来评估的。接下来[42],我们假设没有物体的空房间,并定义一个0的体素网格。1×0。1×0。1米有效体素是位于0. 5和5. 距离摄像机5米,并在视野内。我们检查每个体素是否在3D房间多边形内,并通过计算3D体素来计算交集和并集表3总结了我们获得的结果。我们的方法优于[15]13。百分之二。场景理解场景理解的任务集成了所有对象的识别和定位以及估计房间结构。与3D房间估计的任务相比我们计算具有相同标签的所有预测和地面真实对象对的盒子质心在地平面上的投影之间的距离我们对每个可用对的距离按升序排序,并选择距离最短的对,同时将两个框标记为不可用。我们通过改变距离阈值来计算精确度和召回率,并使用平均平均精确度作为目标定位度量。自由空间预测的评估方式与3D房间布局类似计算房间多边形内部但在任何对象边界框外部的自由空间的可见3D体素,然后计算自由空间预测和地面实况表4显示了SUN RGB-D数据集上的自由空间预测和对象定位的结果。我们将我们的场景理解方法的性能与[8]进行比较。与[8]相比,IM2CAD在两个指标方面都获得了更好的结果,即,三十三岁。平均AP增加5%,平均AP增加11. 7%的场景自由空间预测。我们比较了应用场景优化之前和之后的结果(第3.5节)。我们的场景优化方法的结果在提高准确性的场景理解的我们还报告了IM2CAD在[8]中提出的数据集上的性能,我们称之为3DGP。我们使用了372张图片,分别来自客厅、卧室和餐厅。但是,我们不会在3DGP训练集上训练模型。为了估计地面实况相机参数,我们通过使用对应于三个消失点的注释地面实况边缘来计算伪地面实况消失点,遵循[8]的实验设置以进行3D场景评估。我们评估的三个任务,三维房间布局,整个场景的自由空间预测,目标定位。这些结果总结见表3和表4。对于3D房间估计任务,IM2CAD显著优于[8]15。9%。在自由空间预测任务中,IM2CAD在体素IoU和平均AP标准方面都获得了比3DGP更好的6. 结论本文介绍了一个全自动系统,重建一个三维CAD模型的室内场景从一个单一的照片,利用大型数据库的三维家具模型。它估计房间几何形状,并检测和对齐图像中的对象与准确的3D姿态。我们介绍了新的方法,房间建模和场景优化,-灰,这是我们的系统成功的关键我们对各种家居风格的客厅和卧室照片进行评估。结果表明,我们的方法在创建三维CAD模型,忠实地模仿真实场景的有效性。随着丰富的室内照片可在网上,我们的系统是适用于产生一个大型数据库的室内场景模型。我们的方法在2D房间布局估计和3D场景理解基准上获得了显着的改进。我们的系统确实有局限性,这表明了未来工作的一些领域。我们假设图像中的房间几何形状处理复杂的房间几何形状是未来改进的一个领域不可理解的是,严重遮挡的物体带来了挑战。我们假设物体总是在地平面上(例如,椅子和床)或连接到墙壁(窗户),摆一盏灯在桌子上将需要我们的工作扩展。合并更多的对象类型将导致更通用的场景和房间类型(例如,厨房和浴室)。确认这项工作得到了国家科学基金会资助IIS-1250793,Google和UW动画研究实验室的资助。5142引用[1] Lsun 房 间 布 局 估 计 数 据 集 。 http://lsun.cs 。princeton.edu/,2015年。二三六七[2] A. Y. N.阿舒托什·萨克塞纳阿忠从单个单目图像学习深度。NIPS,2005年。2[3] M. Aubry,D. Maturana,A.埃夫罗斯湾Russell和J.西维克Seeing 3D Chairs:使用大型cad模型数据集进行基于示例部件的2D-3D对齐CVPR,2014。二、四[4] A.班萨尔湾Russell和A.古普塔。Marr再访:经由表面法线预测的2D-3D对准。在CVPR,2016年。二、三[5] 搅拌机搅拌机 周期 渲染 发动机https://www.blender.org/manual/en/render/cycles/index.html。7[6]A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. 苏肖湖,加-地Yi和F. Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012 [cs.GR],2015。二、四[7] A. X. 张,M。Savva和C.D. 曼宁学习空间知识以产生文字至3d场景。在EMNLP,2014年。2[8] W. 崔,Y.-W. 曹角,澳-地Pantofaru和S.Savarese 具有几何和语义背景的室内场景理解。IJCV,2015年。二七八[9] S. Dasgupta 、 K. Fang , K. 在 中 国 的 分 布 Chen 和 S.Savarese延迟:用于杂乱室内场景的鲁棒空间布局估计。在CVPR,2016年。二六七[10] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV,2015年。3[11] M. 费希尔,D.Ritchie,M.Savva,T.Funkhouser和P.汉-拉汉。基于实例的三维物体排列合成。TOG,31(6):135,2012. 2[12] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。CVPR,2014。2[13] R. Guo,C.Zou和D.霍伊姆预测室内场景的完整三维模型arXiv预印本arXiv:1504.02437,2015年。3[14] A.古普塔,M。Hebert,T. Kanade和D. M.布莱使用物体和表面的体积推理来估计房间的空间布局在NIPS,2010年。二、六[15] 诉Hedau,D.Hoiem和D.福赛斯恢复杂乱房间的空间ICCV,2009年。二三四六七八[16] D. Hoiem,A. A. Efros,和M。赫伯特自动照片弹出。SIGGRAPH,2005年。2[17] D. Hoiem,A. A. Efros,和M。赫伯特从图像中恢复曲面布局。IJCV,2007年。三、七[18] Q. Huang,H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图InSIGGRAPH,2015. 2[19] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快 速 特 征 嵌 入 的 卷 积 架 构 。 ACM InternationalConference on Multimedia,2014。四、六[20] N.霍尔木兹,T. Simon,A. Efros和Y.酋长使用库存3D模型在单张照片中进行3D对象操作。InSIGGRAPH,2014. 2[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS。2012. 2[22] D. C.李,M。Hebert和T.卡纳德单幅图像结构恢复的几何推理。CVPR,2009。二三六七[23] J. J. Lim,A. Khosla和A.托拉尔巴FPM:基于零件的2014年,在ECCV。2[24] C. Liu,中国粘蝇A.G. Schwing,K.昆杜河Urtasun和S.菲德勒Rent3d:用于单目布局估计的平面图先验。CVPR,2015。4[25] Z. Liu,Y. Zhang,W. Wu,K. Liu和Z.太阳模型驱动的室内场景建模从一个单一的图像。在2015年第41届图形接口会议上二、三[26] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。3[27] A. Mallya和S.Lazebnik 用于室内场景布局预测的学习信息边缘图在ICCV,2015年。二三六七[28] P. Merrell,E. Schkufza,Z. Li,M. Agrawala和V. 科尔顿。使用室内设计指南的交互式家具布局。InSIGGRAPH,2011. 2[29] L. D. Pero,J. Bowdish,D.弗里德,B。Kermgard,E.Hartley 和 K. 巴 纳 德 室 内 场 景 的 贝 叶 斯 几 何 建 模 。CVPR,2012。二、六[30] M. J. 鲍威尔一种直接搜索优化方法,用线性插值法对目标函数和约束函数进行建模。在优化和数值分析的进展。1994. 5[31] S. Ramalingam,J.Pillai、A.Jain和Y.田口用于室内场景空间推理的曼哈顿连接目录。CVPR,2013。6[32] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年,在NIPS中。二、四[33] Y.伦角,澳-地Chen,S. Li和C.- C.郭敬明 一种由粗到细的室内布局估计(cfile)方法。arXiv预印本arXiv:1607.00598,2016年。二六七[34] L. G.罗伯茨三维立体的机器感知。麻省理工学院博士论文,1963年。1[35]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV,2015年。4[36] R.萨拉斯莫雷诺河纽科姆,H。斯特拉斯达特山口凯丽和A. 戴 维 森 Slam++ : 在 对 象 级 别 同 时 定 位 和 映 射 .CVPR,2013。2[37] S. Satkin,M.Rashid,J.Lin和M.赫伯特3dnn:3d最近邻。IJCV,2015年。二、三[38] A. G. Schwing,S.菲德勒M.Pollefeys和R.乌塔松盒子里的盒子:联合三维布局和对象推理从单一的图像。InICCV,2013. 2[39] A. G. Schwing和R.乌塔松三维室内场景理解的高效精确推理。在ECCV。2012. 65143[40] J. Seyama和R. S.永山神秘谷:真实感对人造人脸印象的影响。Presence,16(4):337-351,2007. 6[41] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。三、四[42] S.宋,S. P. Lichtenberg和J.萧Sun rgb-d:一个rgb-d场景理解基准测试套件。CVPR,2015。二七八[43] S. Tulsiani和J.马利克 视点和关键点。在CVPR,2015年。2[44] J.Wu,T.作者:J. J. Lim,Y. Tian,J. B. Tenenbaum,A.Torralba和W. T.弗里曼。单幅图像三维解释器网络。在ECCV,2016年。2[45] J. Xiao,J. Hays,K. A. Ehinger,A. Oliva和A.托拉尔巴Sun数据库:从修道院到动物园的大规模场景识别。CVPR,2010。4[46] 肖杰,B. Russell和A.托拉尔巴在单视图图像中定位3D长方体。NIPS,2012年。2[47] L- F.余,S.- K. Yeung,C.- K. Tang,D. Terzopoulos,T.F. Chan和S.J. 奥舍Make it Home:自动优化家具布置。InSIGGRAPH,2011. 2[48] B. Zeisl,M. Pollefeys等人区分训练的稠密表面法线估计。2014年,在ECCV。3[49] Y. Zhang,S. Song,P. Tan,and J.萧PanoContext:用于全景场景理解的全房间三维上下文模型。2014年,在ECCV。2[50] Y. Zhao和S. C.竹集成功能、几何和外观模型的场景解析。CVPR,2013。6[51] ZillowZillowDigs。http://www.zillow.com/digs/. 6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功