语义多视角立体：对象和体素估计

84 浏览量更新于2023-10-15 收藏 13.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

24140语义多视角立体：联合估计对象和体素0Ali Osman Ulusoy 1 , 2 Michael J. Black 1 Andreas Geiger 2 , 301 感知系统部门，智能系统T¨ubingen的MPI 2自主视觉组，智能系统T¨ubingen的MPI 3 计算机视觉和几何组，ETHZ¨urich0{ osman.ulusoy,michael.black,andreas.geiger } @tue.mpg.de0摘要0由于遮挡、无纹理或反射表面以及其他挑战，从RGB图像进行密集的三维重建是一个高度不适定的问题。我们提出了对象级形状先验来解决这些模糊性。为了实现这个目标，我们制定了一个概率模型，将多视图图像证据与多个对象的三维形状信息相结合。在这个模型中进行推理可以得到场景的密集三维重建以及其中对象的存在和精确的三维姿态。我们的方法能够恢复输入形状中未捕捉到的细节，同时在图像证据较弱的遮挡区域中使用输入模型作为默认值。由于其概率性质，该方法能够处理三维模型的近似几何形状以及场景中不存在的输入形状。我们在几个具有挑战性的室内和室外数据集上进行了定量评估。01. 引言0从RGB图像进行密集的三维重建是一个高度不适定的问题。遮挡和无纹理或反射表面导致三维重建中的基本模糊[4,34]。在这项工作中，我们通过利用语义信息来解决这些模糊性。特别地，我们提出了用于三维重建的对象级形状先验。我们的方法以RGB图像和一组可行的三维形状模型作为输入，并在重建整个场景的同时解决每个对象的存在和姿态。见图1的说明。所提出的对象级形状先验有两个关键优势。首先，我们的方法的输出是整个场景的密集重建以及其中对象的结构表示。这个输出不仅提供了环境的准确映射，还提供了对象的语义理解。其次，所提出的先验允许强大的正则化，可以解决三维重建中常见的大模糊性。0(a) 图像0(b) 三维形状模型0(c) 重建0图1：给定输入图像（a）和一组对象形状模型（b），我们的方法联合重建整个场景的密集三维模型并解决每个对象模型的存在和姿态。在（c）中，我们将我们方法的输出可视化为密集重建和对象姿态的点云采样（黄色=不太可能，红色=可能）。0构建。例如，我们的形状先验可以帮助重建对象的背面，即使它被遮挡了。Object Shape Priors for 3D Reconstruction: Many exist-ing works demonstrate the usefulness of object shape priorsfor reconstruction. G¨uney et al. utilize a set of car shapesto improve stereo estimation in urban environments [15].Salas-Moreno et al. use 3D models of furniture to improvecamera tracking accuracy in indoor scenes [29].In thiswork, we consider camera poses as input and focus on howobject shape priors can beneﬁt dense 3D reconstruction.For 3D reconstruction, Pauly et al. match a database ofobject shapes against an incomplete point cloud from a 3Dscanner and then align the best ﬁtting shape to reconstructoccluded regions [26]. Bao et al. densify multi-view stereopoint clouds by ﬁtting 3D shape models [3]. Dame et al. usea low-dimensional shape space as a prior to improve recon-struction accuracy and completeness [11]. Zhou et al. detectobjects with similar shapes in the scene and use these detec-tions to jointly estimate a low-dimensional shape space ofthese objects, regularizing the reconstruction [39].The aforementioned works consider a 3D reconstruc-tion as input and regularize this reconstruction using shapepriors. Instead, our approach takes as input RGB imagesand integrates image-based 3D reconstruction with detec-tion and pose estimation of objects in the scene. This jointformulation yields two beneﬁts over previous works. First,our approach combines images and object shapes in a prin-cipled probabilistic fashion. This allows reconstructing de-24150在图像中。现有的考虑低级几何先验的工作，如空间平滑性[6,22,38]、分段平面性[16,33]或曼哈顿世界约束[12,31]，不能完成大的遮挡区域，特别是对于具有复杂几何形状的对象。然而，这些先验提供了可以与我们的对象形状先验相结合的补充正则化，以进一步提高重建精度，正如我们在实验中所证明的那样。我们的方法需要找到一组三维形状模型作为输入。这个检索任务取决于可用的语义信息。对于室内场景，最近的卷积神经网络（CNN）与大型注释的三维数据库（如ModelNet [37]和ShapeNet[7]）结合使用，可以产生对于对象类别检测和粗略姿态估计的令人信服的结果。对于室外重建，可以使用GPS信号从在线收藏（如3D Warehouse1）中收集地理定位的三维模型。将对象形状模型作为三维重建的先验是具有挑战性的。检索到的对象可能不存在于场景中。此外，现有的三维模型通常是简化的，因此只是真实对象形状的粗略近似。此外，即使对象检测器或GPS信号可以提供粗略的初始化，通常无法获得细粒度的对象姿态信息。为了解决这些挑战，我们以概率的方式将三维对象形状与图像观测相结合。我们建立在Ulusoy等人的概率三维重建框架[34]的基础上。他们的公式使用具有射线潜力的马尔可夫随机场（MRF）准确地对图像进行三维重建，但不考虑场景先验。在这项工作中，我们将对象形状先验集成到他们的框架中。我们的MRF推理产生每个对象存在和精确的三维姿态以及密集的体素占用和颜色的概率估计。在有足够的图像证据的情况下，我们的算法能够重建输入模型中不存在的几何细节。在图像信息不足的情况下，例如在严重遮挡的区域，我们的方法默认使用最可能的三维姿态下的输入模型几何形状。最后，我们的方法对输入模型的几何不准确性以及场景中不存在的对象具有鲁棒性。我们使用具有LI-DAR地面真值的三个航空数据集和一个逼真的合成室内数据集将我们的方法与最先进的三维重建方法进行比较。02. 相关工作0在本节中，我们首先回顾了现有的体积三维重建方法。然后讨论了利用对象形状模型进行重建的方法。01 https://3dwarehouse.sketchup.com/0图像的体积重建：虽然有大量关于从距离图像进行体积融合的文献[10,25]，但本文重点研究直接从RGB图像进行重建。尽管3D传感器的可用性越来越高，但世界上绝大多数相机都缺乏深度感知能力。因此，基于图像的重建更具普遍性。Kutulakos和Seitz基于光照一致性奠定了体积重建的基础[20]。他们的方法的早期概率扩展包括[1, 5,27]。不幸的是，这些方法缺乏全局概率模型，这使得解释它们的概率输出变得困难。更近期的方法[13, 22, 30, 33,34]将体积重建表述为MRF中的推理，其中沿着每个像素视线的体素通过高阶射线潜力相连。这种方法明确了优化的内容，并进一步允许以原则性的方式融入场景先验。除了Ulusoy等人的方法[34]之外，所有这些方法都包括先验，如局部（成对）平滑性[13, 22,30]或分段平面性[33]。特别地，Savinov等人利用场景语义并提出了类特定的成对先验[30]。虽然他们的方法利用了一个局部先验来处理建筑和植被等对象类的所有形状，但我们利用对象实例的3D形状作为更具表现力的非局部先验。Ir =occupied voxel along the ray and to 0 for all other voxels.Finally, ǫ ∼ N(0, σ) is a noise term.We now introduce the variables related to the objectshape models. Let S denote the set of input object shapes.We associate each shape model s ∈ S with a binary randomvariable bs ∈ {0, 1}, which denotes whether the model ispresent in the scene (bs = 1) or not (bs = 0). We representthe pose of each shape model using a continuous variableps ∈ Ω which comprises 3D translation, rotation and scal-ing on a continuous but bounded domain Ω.We abbreviate the total set of occupancy and appearancevariables in the voxel grid with o = {oi|i ∈ X} and a ={ai|i ∈ X} and summarize the set of shape model variablesusing b = {bs|s ∈ S} and p = {ps|s ∈ S}.p(o, a, b, p) = 1Z�i∈Xϕoi (oi)�r∈Rψr(or, ar)(2)ϕbs(bs) ϕps(ps)�q∈Qs(ps)κq(oq, bs, ps)ψr(or, ar) =24160通过准确建模射线潜力来模拟可见性，我们的方法不仅在形状先验可用的情况下改进了重建结果，而且在场景的其他部分也有显著改进。我们在实验部分展示了这种行为的例子。03. 概率模型0本节介绍了我们使用对象形状先验进行基于图像的三维重建的概率模型。作为输入，我们假设有一组图像和相机姿态，这些图像和相机姿态是通过结构光法获得的[35,36]。我们进一步假设有一组近似的对象形状模型，这些模型可能存在于场景中，也可能不存在。根据场景和可用的语义信息，可以以多种方式检索形状模型数据库。尽管本文不专注于检索任务，但我们的实验展示了来自航拍和室内场景的示例。请注意，我们不假设所有输入对象都存在于场景中；我们的推理算法会自动估计哪些对象模型存在。虽然我们的方法可以考虑提供的对象姿态信息，但我们不假设这是输入的一部分。概率对象姿态估计是推理的一部分。由于我们的工作扩展了Ulusoy等人的三维重建概率模型[34]，因此我们尽可能使用他们的符号。我们在第3.1节介绍了我们模型的变量，并在第3.2节中指定了模型。我们的推理算法在第4节中介绍。03.1. 变量03D空间被分解为一个体素网格。每个体素被分配一个来自索引集合 X 的唯一索引。我们将每个体素 i ∈ X与两个随机变量关联起来：一个二进制占用变量 o i ∈ { 0 ,1 } ，用于表示体素是否被占据（ o i = 1 ）或为空（ o i =0 ），以及一个描述体素强度的外观变量 a i ∈ R。我们为输入图像中的每个像素关联一个视线射线 r 。设 R表示所有相机的视线集合。对于单个射线 r ∈ R ，设 o r ={ o r 1 , . . . , o r N r } 和 a r = { a r 1 , . . . , a r N r }分别表示与射线 r相交的体素关联的占用和外观变量集合，按照与相应相机的距离排序。根据[34]，图像通过将每个像素的外观设置为沿着像素射线 r 的第一个被占据的体素的外观来形成：0i =1 或∈0对于第一个0对于第一个03.2. 马尔可夫随机场0我们将体素三维重建问题建模为马尔可夫随机场中的推断，并将关于 o 、 a 、 b 和 p 的联合分布规定为0×0其中 Z 表示分区函数，ϕ 是一元势函数，ψ 和 κ是高阶势函数。0体素占用先验：我们使用伯努利分布来建模关于占用变量状态的先验信念，即 ϕ o i ( o i ) = γ o i (1 − γ ) 1 − o i (3)0其中 γ 是体素 i 被占据的先验概率。0外观射线势函数：射线势函数惩罚与图像形成模型（如方程1所指定）不符的情况。它们鼓励沿着射线 r的第一个被占据的体素的外观与像素 r 处的图像观察值 I r一致：0i =1 或∈0j 0 是我们模型的超参数。对于体素0接近表面时，η 值较高，而远离表面的体素的 η值较小。尽管射线势函数在体素几何与表面先验匹配时取得最高值，即表面前方的所有体素为空，表面上的体素为占据状态，但它允许出现偏差，这有助于处理输入模型中的不准确性。最后，如果模型不在场景中，即 b s = 0，射线势函数不会影响体素几何，其值等于 1 。由于 η ≥ 1，该势函数偏好解释重建中的表面由合理的形状模型解释的解。0物体存在先验：我们使用先验信念来建模场景中每个形状模型的存在情况，使用0其中我们选择 λ b > 0来偏好简单的场景解释，即只有少量物体模型。注意，我们通过尺度化潜力值与射线集合的数量 |Q s |来实现对射线采样的不变性。0物体姿态先验：如果有的话，可以通过姿态先验 ϕ p s ( p s )来整合关于物体姿态的先验知识。在这项工作中，我们对物体姿态没有任何假设，因此使用均匀先验 ϕ p s ( p s ) ∝ 1 。04. 推理0在本节中，我们简要介绍基于置信传播的推理算法。附加细节和消息方程的详细推导可以在补充文档中找到。在这项工作中，我们对概率三维重建感兴趣，而不是最可能的重建。我们的推理技术估计每个体素的占据和外观的边缘分布，以及数据库中每个形状模型的存在和姿态参数。边缘分布能够分析三维重建中的不确定性，因此对于利用所得到的三维模型的后续算法非常有用。由于高阶射线和射线势函数（方程4 + 5 ），变量的混合离散（ o ， b ）和连续（ a ， p）状态空间以及大量的变量（数百万个体素）和因子（数亿个射线和射线势函数），我们的MRF中包含大量的循环，由于相交的视线射线 R 和射线集合 Q s，精确推理变得难以处理。因此，我们提出了一种近似推理算法。我们的方法基于求和-乘积粒子置信传播[18]，并解决了上述挑战。尽管在高阶射线势函数上的朴素置信传播是不可行的，但Ulusoy等人[34]证明了射线势函数的代数结构使得复杂度从指数级降低到线性时间。射线势函数µκq→ps(ps)(8)− log ω(ps) =L�ℓ=1max�0, 1 − dℓ(ps)τ�(9)24180本文提出的势函数具有类似的结构，我们利用这一点实现了高效（线性时间）的消息传递。有关详细信息，请参阅补充材料。此外，我们模型中的连续变量（a，p）使得置信传播变得复杂。特别地，消息方程中出现的积分没有闭式解。对于姿态变量p，我们采用基于粒子的策略[18]，维护一个样本分布{p(1)s，...，p(K)s}来近似p的连续状态空间。这种离散化允许对积分方程进行蒙特卡洛估计（见补充材料）。对于体素外观变量a，可以通过解析计算变量到因子的消息，并表示为常数加上加权高斯分布。然而，无法通过解析计算变量到因子的消息。我们遵循[34]的方法，使用高斯混合模型（MoG）分布来近似这些消息。05. 实现0由于我们的MRF具有高度循环的特性，推理的质量取决于消息传递的顺序。我们经验性地发现以下策略表现良好。首先，我们在射线势函数之间传递消息，忽略射线势函数，即形状先验。这对应于[34]的方法，并产生一个初始的3D重建结果。然后，我们将射线势函数纳入推理中，根据3D形状模型对重建结果进行正则化。我们交替进行射线势函数和射线势函数之间的消息传递，直到收敛。由于物体表面被正则化，射线势函数利用了精细化的自由空间和可见性约束来改善场景其他部分的重建结果。我们在第6节中展示了这种行为的示例。0粒子抽样：在接下来的内容中，我们将描述我们对姿态参数粒子进行抽样的方法。理想情况下，我们希望直接从p的置信度中抽取每个形状模型s的K个粒子{p(1)s，...，p(K)s}。0置信度（ps）= �0其中 µ κ q → p s 是从射线势函数 κ q 到姿态变量 p的消息。不幸的是，直接从这个分布中抽样是困难的。因此，我们采用Metropolis-Hastings（MH）抽样[17]，并运行一个马尔可夫链来获得所需的样本集。然而，将MCMC抽样[2]直接应用于方程（8）是非常低效的，因为每个函数评估需要处理形状模型s上每个射线势函数的所有体素，密集地查询体素网格。相反，我们寻找一个高效评估并且能够很好地近似方程（8）的提议分布ωs(p)。0我们观察到，在计算µκq→ps时，可以忽略每个射线势函数上的大部分体素。因为方程（5）中的射线势函数只评估第一个可见体素的TSDF，具有较小占用置信度的体素对方程没有显著贡献。因此，我们只考虑具有实质占用置信度的体素，以加速MCMC抽样。具体而言，我们的方法从体素中提取出稀疏的体素中心云，忽略具有低占用置信度的体素。提议分布ω(ps)为0其中L是具有实质占用置信度的体素数量，dℓ(ps)表示体素ℓ到姿态ps处模型表面的距离。我们的并行化实现需要大约1毫秒来评估单个提议ps，给定100k个3D点。对于每个表面模型s，我们从方程（9）中抽取K=64个样本。0运行时间：我们的实现使用网格八叉树数据结构[24]和GPGPU并行化进行消息传递。对于一个1百万像素的图像和大约3000万个体素的场景，传递所有射线潜力消息需要7秒钟。对于单个形状模型的MCMC采样（10K次迭代）和射线潜力消息传递，通常分别需要约5秒钟和10秒钟。06. 实验评估0我们在四个具有地面真实几何的具有挑战性的数据集上评估我们的算法。每个数据集的样本图像如图3所示。LIVINGROOM数据集包含一个合成客厅的逼真渲染图像。这些数据是由Choi等人[9]分发的“增强ICL-NUIM数据集”的一部分。我们使用“Living room2”相机轨迹2，并对每十个图像进行采样，总共234个图像。图像的尺寸为640 x480像素。Choi等人[9]在深度图像的相机跟踪和重建中使用了这个数据集。在我们的工作中，我们假设相机姿态固定，并考虑从RGB图像进行重建。为了模拟真实环境，我们不使用数据集提供的地面真实相机姿态，而是使用运动结构获取姿态和相机标定[35,36]。由于存在大量无纹理表面（如墙壁）、有限的视角和许多反射材料，这个数据集非常具有挑战性。其他三个数据集是在城市环境中从航空平台上拍摄的。图像、相机姿态和LIDAR点云由Restrepo等人[28]提供。图像的尺寸为1百万像素，每个数据集包含约200个图像。原始数据集提供了稀疏的LIDAR点云。Ulusoy等人通过三角化这些点云获得了稠密的地面真实网格。02 http://redwood-data.org/indoor/dataset.html/24190(a) LIVINGROOM0(b) CAPITOL0(d) DOWNTOWN 2 Figure 3:我们使用的数据集的样本图像。0为了获得密集的地面真实网格[34]，我们使用它们的网格进行公平比较。尽管D OWNTOWN和D OWNTOWN2数据集大致在同一位置拍摄，但照明条件却有很大的不同，如图3c + 3d所示。D OWNTOWN是在多云的一天拍摄的，而DOWNTOWN2是在接近日落时拍摄的，导致了长时间的阴影和强烈的反射。0TOWN2是在接近日落时的晴天拍摄的，导致了长时间的阴影和强烈的反射。0目标形状建议：我们的方法需要一组合理的目标形状。检索这些建议的方法是与场景相关的，特别是取决于可用的语义信息。对于LIVINGROOM数据集，我们从地面真实网格中裁剪出四个对象：椅子、沙发、桌子和橱柜。虽然这些模型允许在未知对象姿态下进行评估，但是在大多数真实场景中，可用的形状模型通常是近似的。因此，我们测试了我们的算法对近似输入对象形状的鲁棒性，使用了来自[21]的IKEA家具模型，这些模型只粗略地类似于真实的对象形状。对于航拍数据集，我们使用近似的地理位置信息从Trimble 3DWarehouse检索相关的3D模型。这三个航拍数据集是在美国罗德岛普罗维登斯市中心收集的。在Trimble 3DWarehouse上搜索关键词“Providence, RhodeIsland”返回了几个建筑模型。我们使用每个模型的粗略地理位置信息来过滤出不在场景边界内的模型。对于CAPITOL数据集，这导致了一个建筑模型，即罗德岛州议会大厦，如图7a所示。对于D OWNTOWN和D OWNTOWN2数据集，我们获得了11个建筑模型，如图1b所示。检索到的模型在几何上不准确，与真实情况不符。此外，这11个检索到的模型中有5个位于场景的边缘。0仅在少数输入图像中可见。我们的推理通常会给这些对象分配较低的存在概率。我们在补充文件中提供了检测实验。0粗略的对象定位：为了加速MCMC姿态采样过程（参见第5节），我们首先对姿态空间进行粗略离散化，并在每个点上评估姿态似然方程9。然后，我们使用该分布的模式来初始化在局部探索姿态空间的马尔可夫链。特别地，我们使用通过鲁棒平面拟合估计的地面平面的知识，将姿态限制为在地面平面上的平移和绕上向量的旋转。方程9的快速评估和受限的姿态空间允许在几秒钟内进行穷举搜索。虽然这种策略在航拍场景中效果很好，但我们观察到在LIVINGROOM数据集中存在一些失败案例。对于这些情况，可以通过语义分割或对象检测获得粗略的初始姿态估计。0模型参数：我们在航拍和室内数据集上使用相同的参数集。我们的补充文件提供了详细的参数设置和实验。0基线方法：我们将我们的结果与几种最先进的方法进行比较。首先，我们与Ulusoy等人[34]进行比较，他们的公式等效于从我们的模型中删除对象形状先验，我们在下文中称之为“无先验”。其次，我们与[33]进行比较，该方法将平面性先验集成到[34]的公式中，并在CAPI-TOL和DOWNTOWN数据集上取得了最先进的结果。我们将此基线称为“平面性先验”。最后，我们评估了平面性先验[33]与我们的对象形状先验的组合，我们将其称为“对象+平面性”。0评估协议：我们遵循[34]，将重建准确性定义为深度图预测与将地面真实网格投影到所有输入视图中生成的深度图之间的绝对误差。特别地，我们计算在误差阈值变化时，落在该阈值以下的像素的百分比，对于室内数据集，阈值从0到3米，对于航拍数据集，阈值从0到10米。请参见[34]中的图5进行说明。我们通过考虑该曲线下的归一化面积来计算介于0和1之间的单个准确性值。为了从概率3D模型中计算深度图，我们遵循Ulusoy等人[34]的方法，他们证明选择每个像素深度分布的中值值最小化了我们的误差度量。他们进一步证明，和乘积置信传播产生了每个像素深度分布。请注意，他们方法中的深度分布仅依赖于图像证据，而我们方法中的深度分布整合了来自输入图像和对象形状模型的信息。我们在所有四个数据集上评估了上述基线。0.900.910.920.930.940.95No priorPlanarity prior(True) Object shape prior(IKEA)Object shape priorPlanarity+Object(True) prior0.550.600.650.700.750.80No priorPlanarity priorObject shape priorObject+Planarity prior0.40.50.60.7No PriorPlanarity priorObject shape priorObjects+Planarity prior0.20.30.40.50.60.7No PriorPlanarity priorObject shape priorObjects+Planarity prior2420050 100 150 12 192 图像数量0重建准确性0(a) 客厅050 100 150 200 12 243 图像数量0重建准确性0(b) CAPITOL040 80 120 160 9 图像数量0重建准确性0(c) 市区050 100 150 200 13 238 图像数量0重建准确性0(d) DOWNTOWN 20图4：对于不同数量的图像，几种基线方法的重建准确性比较。数值越高越好。0数据集，并在图4中报告结果。我们还通过均匀地在空间中对输入视图进行子采样来改变每个数据集中的图像数量。该实验说明了提出的对象形状先验在从少量输入图像重建时的优势。结果表明，与没有先验[34]相比，提出的对象形状先验和平面性先验[33]都提高了重建准确性。对于LIVINGROOM，我们的形状先验在使用的图像数量无关的情况下表现更好。对于CAPITOL，由于平坦无纹理的草地区域具有平面性，平面性先验实现了更高的准确性[33]。对于DOWNTOWN和DOWNTOWN2，对象形状先验在小数量的输入图像中表现出显著更好的性能，而足够多的图像数量时，平面性先验实现了类似或更好的结果。总体而言，结合平面性和对象形状先验可以获得最佳结果。我们在下面提供了更详细的分析。0少量图像：图4显示，对于少量（�10）的图像，对象形状先验相对于没有先验的基线实现了显著的改进。相比之下，平面先验几乎没有改进，因为它需要一个适当的初始重建来从中采样平面假设。对于�10个图像，初始重建是高度模糊的，因此会损害平面先验。图5可视化了一个输入视图中的深度误差。我们的方法（图5d）相对于基线（图5b）显著提高了准确性。请注意，改进在整个场景中都是可见的，而不仅仅是在某些区域。0(a) 参考图像0(b) 无先验[34]0(c) 形状模型拟合0(d) 提出的形状先验0图5：DOWNTOWN的深度误差可视化。较冷的颜色表示较低的误差。详见正文。0我们的推理方案利用先验引入的几何知识来改进整个场景中的自由空间区域和可见性约束，从而在适用于形状先验的建筑表面上提高准确性。这种改进是由我们的概率模型实现的，该模型使用射线潜力准确地建模可见性，并以原则性的方式集成形状先验。相比之下，现有方法首先从图像中重建出一个3D模型，然后将形状模型融合到这个3D重建中[3, 11,39]。这种方法无法在没有形状先验的情况下实现改进。我们通过与使用无先验[34]重建3D模型并使用一次射线到体素消息传递融合形状模型的基线进行比较，证明了与这种方法相比的好处。如图5c所示，结果与我们的方法（图5d）相比明显更差。我们在补充材料中提供了更多示例。0对近似输入形状的鲁棒性：我们使用LIVINGROOM数据集评估了我们的方法对近似输入形状的鲁棒性。图4a中的结果0表明我们的方法即使在使用只是对真实3D形状的粗略近似的IKEA模型时，也能提高准确性。请参见图6a + 6b进行比较。如预期的那样，使用真实的3D形状进一步提高了性能。我们在图6中提供了定性结果。0结合图像和形状证据：我们的方法结合图像证据和输入形状模型来产生24210(a) LIVINGROOM 的真实形状模型0(b) 来自IKEA的近似形状模型[21]0(c) 参考图像0(d) 无先验0(e) 平面先验0(f) IKEA先验0(g) 真实先验0(h) 对象+平面性0(i) 我们的重建0图6：(d-h)LIVINGROOM的深度误差可视化。较冷的颜色对应较低的误差。顶行：反射台面导致没有先验的基线（d）[34]产生较大的误差。平面先验（e）[33]无法纠正这个错误。我们的方法即使在使用近似的IKEA模型（f）时也显著提高了准确性。使用正确的桌子先验（g）进一步改善了结果。将真实的对象形状与平面先验（h）相结合可以得到最好的结果。底行：与没有先验的基线相比，我们的方法即使在使用不准确的IKEA椅子模型时也有所改进。然而，使用IKEA橱柜（（b）中的右二）会导致重建中出现错误的孔洞（f）。左：我们密集的3D重建的点云与一部分姿态样本叠加。对象的颜色根据其置信度进行着色（黄色=不太可能，红色=可能）。0（a）输入形状模型0（b）重建结果0图7：我们的方法能够将图像证据（见图3b）和近似形状模型（a）结合起来，产生详细的重建结果（b）。0详细的重建结果。图7展示了一个例子，我们的方法成功地恢复了输入模型中不存在的细小结构，例如杯顶旁边的小塔和杯顶的尖端。注意，我们的重建结果包括了这些细节。07. 结论0在本文中，我们提出了一种概率方法，将物体级别的形状先验与基于图像的3D重建相结合。我们的实验表明，所提出的形状先验显著提高了重建的准确性，特别是在输入图像数量较少的情况下。据我们所知，我们的方法是第一个同时重建整个场景的密集3D模型和其中物体的结构表示的方法。我们的实验证明了这种联合推理的好处。此外，我们相信这种集成的3D几何和语义表示是朝着整体场景理解的一步，并将有益于增强现实和自动驾驶等应用。0未来的方向包括将参数化形状模型纳入以提高我们先验的普适性。我们还相信最近的3D姿态估计方法[14, 19,23]可以在推理过程中改进姿态提议。24220参考文献0[1] M. Agrawal and L. S. Davis.从多张图像中进行表面重建的概率框架.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2001年。20[2] C. Andrieu, N. de Freitas, A. Doucet, and M. I. Jordan.MCMC在机器学习中的介绍.机器学习，50(1-2):5–43，2003年。50[3] S. Bao, M. Chandraker, Y. Lin, and S. Savarese.基于语义先验的密集物体重建.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2013年。2，70[4] R. Bhotika, D. J. Fleet, and K. N. Kutulakos.占用和空置的概率理论.在欧洲计算机视觉会议（ECCV）论文集中，2002年。10[5] J. D. Bonet and P. Viola. Poxels: 概率体素化体积重建.在国际计算机视觉会议（ICCV）IEEE会议论文集中，1999年。20[6] F. Calakli, A. O. Ulusoy, M. I. Restrepo, G. Taubin, and J. L.Mundy. 从多视角航拍图像中进行高分辨率表面重建.在3DIMPVT中，2012年。20[7] A. X. Chang, T. A. Funkhouser, L. J. Guibas, P. Hanrahan,Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su, J. Xiao,L. Yi, and F. Yu. Shapenet: 一个信息丰富的3D模型库.arXiv.org，1512.03012，2015年。20[8] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fi-dler, and R. Urtasun. 用于准确物体类别检测的3D物体提议.在神经信息处理系统（NIPS）进展中，2015年。20[9] S. Choi, Q. Zhou, and V. Koltun. 室内场景的鲁棒重建.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2015年。50[10] B. Curless and M. Levoy.从距离图像中构建复杂模型的体积方法.在图形学ACM交易（SIGGRAPH）中，1996年。20[11] A. Dame, V. Prisacariu, C. Ren, and I. Reid.使用3D物体形状先验进行密集重建.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2013年。2，70[12] Y. Furukawa, B. Curless, S. M. Seitz, and R. Szeliski.曼哈顿世界立体视觉.在计算机视觉和模式

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

语义多视角立体：对象和体素估计

多姿态估计

cloudcompare体素化

体素网格和点云的区别是什么

体素滤波和统计滤波的区别

unity如何实现体素化寻路

resampledPixelSpacing：设置重采样时的体素大小，超声特征提取时设置多少

VoxelsSumming(torch.autograd.Function):是如何对体素投影到BEV特征的

详细说明下体素法下采样

如何使用python将体素bin文件和其语义标签label文件可视化输出？

python点云体素化字典

cesium voxel

matlab 点云体素化

cloudcompare体素滤波

已知点云三维坐标值存放在三维数组中，怎么用open3d进行体素化 python

halcon 点云去噪

体素话需要很大的内存，应该怎么解决

stl 体素化 matlab

matlab数据体素化

最新资源