视频对齐三维物体重建

119 浏览量更新于2023-10-17 收藏 3.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视频对齐三维物体重建Chen-Hsuan Lin1，2*Oliver Wang2 Bryan C.罗素2伊莱·谢赫特曼2弗拉基米尔·G.金2马修费舍尔2西蒙露西11卡内基梅隆大学机器人研究所2Adobe Researchchlin@cmu.edu{owang，brussell，elishe，vokim，matfishe}@adobe.comslucey@cs.cmu.eduhttps://chenhsuanlin.bitbucket.io/photometric-mesh-optim/摘要在本文中，我们解决的问题，三维物体网格重建RGB视频。我们的方法结合了最好的多视图几何和数据驱动的方法进行三维重建，通过优化对象网格的多视图光度一致性，同时约束网格变形与形状先验。我们提出这是一个分段图像对齐问题，每个网格面投影。我们的方法允许我们更新形状参数的光度误差没有任何深度或掩模信息。此外，我们展示了如何避免退化的零pho- tometric梯度通过光栅化从一个虚拟的观点。我们展示了3D对象网格重建结果从合成和现实世界的视频与我们的光度网格优化，这是无法实现的，无论是天真的网格生成网络或传统的管道表面重建没有繁重的手动后处理。1. 介绍3D表示的选择在2D图像的3D重建问题中起着至关重要的作用经典的多视图几何方法，最显著的是运动恢复结构（Sf M）和SLAM，将点云恢复为RGB序列的底层3D结构，通常具有非常高的准确性[10，29]。然而，点云缺乏固有的3D空间结构，这对于高效推理至关重要。在许多情况下，网格表示是更可取的自动驾驶的精确定位），计算机图形（例如，物理模拟、纹理合成）和虚拟/增强现实。经典的多视图几何方法的另一个缺点是依赖于手工设计的特征，并且可以被*CHL在Adobe Research实习期间完成的工作图1：我们的视频对齐对象网格重建执行多视图一致性，同时用形状先验约束形状变形，生成一个相对于输入视图具有改进几何形状的输出网格。当他们的假设被违背时，他们就很脆弱。这种情况尤其发生在无纹理区域或照明发生变化时。另一方面，数据驱动方法[5，15]学习先验知识以解决不适定的3D重建问题，并且最近已广泛应用于来自单个图像的3D预测任务然而，它们只能从它学习的训练示例空间中可靠地重建，导致推广到看不见的数据的能力有限。在这项工作中，我们通过将多视图几何方法和数据驱动方法的最佳属性结合在一起，解决了从图像序列中重建3D网格的问题（图1）。①的人。专注于对象实例，我们使用形状先验（特别是神经网络）来重建具有不完整观测的几何形状以及多视图几何约束，以改进对输入序列的网格预测我们的方法允许从学习的先验知识中使用对象语义进行密集重建，这在传统的多视图立体（MVS）表面网格化[21]管道中是不可能的。此外，我们的方法一般-969970通过利用多视图几何结构来加强跨视点的观察一致性，从而将图像转换为不可见的对象。在只给出RGB信息的情况下，通过光度优化实现了图像序列为了避免退化，我们引入了一种新的虚拟视点光栅化来计算三维对齐网格顶点的光度量梯度，允许网格变形到观察到的形状。我们的光度网格优化的一个主要优点是它不依赖于任何先验已知的深度或掩模信息[19，33，36] -这是能够从真实世界图像重建对象的必要条件。有了这个，我们采取了一个步骤，实际使用的先验的三维网格重建与RGB序列对齐。总之，我们提出了以下贡献：• 我们将多视图光度一致性与数据驱动的形状先验，用于使用2D光度提示优化3D• 我们提出了一种新的网格的光度优化公式，并引入了虚拟视点光栅化步骤，以避免梯度退化。最后，我们展示了合成和真实世界序列的3D对象网格重建结果，这些结果在没有繁重的手动后处理的情况下，无论是朴素的网格生成器还是传统的MVS管道都无法实现2. 相关工作我们在物体网格重建方面的工作涉及多个领域，包括多视图物体重建、网格优化、深度形状先验和图像对齐。多视角物体重建。多视点标定和重建是一个研究得很好的问题。大多数方法通过使用2D关键点匹配来估计相机坐标开始，该过程称为SLAM [10，28]或SfM[12，30]，然后是密集重建方法，例如MVS [13]和网格化[21]。最近使用深度学习的工作已经探索了各种形式的2D观测之间的多视图一致性的3D重建[23，32，33，36，39]。这些方法都利用了比3D CAD模型更容易获得的2D监督形式，3D CAD模型在数量上相对有限。我们的方法同时使用几何和基于图像的约束，这使得它能够克服常见的多视图限制，如丢失的观察和无纹理区域。网格优化。网格优化可以追溯到Active Shape Models [7]和Active Appearance Models [6，27]的经典作品在这项工作中，我们使用2D光度提示优化3D网格，这是一个更具挑战性的问题。由于任务中固有的模糊性，类似的网格细化方法也已被探索[8，9];然而，需要足够好的初始化，允许非常小的顶点扰动。正如我们在实验中所展示的，我们能够通过优化潜在的形状代码而不是网格顶点来处理更大量的噪声扰动，使其更适合于实际应用。最近的几种方法已经解决了学习3D重建与网格表示。MixasNet[15]和Pixel2Mesh [34]是从3D CAD模型学习网格对象重建的示例。同时，Neural Mesh Renderer [20]提出了一种通过近似梯度进行网格重建的方法，用于2D掩模优化，Kanazawa等人。[19]进一步提倡从纹理、遮罩和2D关键点的2D监督中学习网格重建。相比之下，我们的方法并不假设任何可用的掩码或关键点，而是纯粹通过视点间的光度提示。塑造前科。使用神经网络作为对象优先级，用于重建的ORS最近已经用点云进行了探索[40]。然而，它需要对象掩码作为优化过程中的附加约束。我们通过规范化潜在代码消除了对掩码监督的需要。形状先验也被探索用于寻找形状对应性[14]，其中网络从模板形状学习变形场以匹配3D观察。在我们的方法中，我们直接优化潜在的形状代码来匹配来自多个视点的2D线索，并且不需要对象的已知形状模板平面和原始先验已用于多视图场景重建的挑战性任务[17]。虽然不需要从对象数据集学习基元先验，但是当所选基元没有很好地表示目标几何形状时，所得到的重构可能与目标几何形状显著不同图像对齐。图像对准的最一般形式是指预测一对图像之间的固有几何使用简单扭曲函数的图像对齐可以追溯到开创性的Lucas-Kanade算法[26]及其最近的变体[1，25]。最近的工作还探索了学习一个扭曲函数来对齐神经网络中的图像，用于新视图合成[37，38]和学习不变表示[18，24]等应用。在这项工作中，我们将网格优化问题作为网格面的多个图像对齐问题，并通过优化来自深层网络的潜在代码而不是顶点本身来解决它。3. 方法我们试图从RGB序列{（If，If）}重建3D对象网格，其中每个帧If与相机矩阵If相关联。在这项工作中，我们假设摄像机矩阵{f}可以很容易地从关闭获得971x我们将我们的优化问题定义如下：给定RGB图像序列和相机{（If，If）}，我们优化由表示z上的所有帧对的光度损失L照片组成的正则化成本，公式为Σminz一Lphoto（Ia，Ib，Ia，Ib;G（z））+Lreg（z），（1）B图2：概述。我们通过三角形的分段图像对齐来执行3D网格重建，以实现跨多个视图的每三角形可感知光度一致性，其中网格顶点在由深度神经网络事先学习的形状的潜在代码上进行优化。Sf M方法[30]。图2提供了一个概览- 我们虽然我们的方法适用于任何类型的网格，但这里我们只关注三角形网格。3.1. 基于形状先验的网格优化在具有N个顶点的3D网格M上的直接优化涉及求解3N个自由度（DoF）和典型的其中Lreg是z上的正则化项。该目标允许生成的网格相对于先前的有效形状变形。接下来我们将详细描述每个术语3.2. 分段图像对齐用光度损失L照片优化网格M是基于以下假设：3D网格的各个三角形面的密集2D投影应该在多个视点上全局一致。因此，我们将3D网格对齐问题投射到输入视图，作为每个投影三角形面的分段2D图像对齐子问题2）的情况。为了在Ia和Ib之间执行分段2D图像对准，我们需要建立像素对应。我们首先将Vj（z）∈R3×3表示为网格M = G（z）中三角形j的三维顶点，定义为列向量。从三角形j，我们可以采样位于三角形j内的3D点Pj={pi（z）}的集合，其通过pi（z）= Vj（z）α i相关通过重心坐标αi。对于一个摄像头，设π：R3→R2是将世界3D点pi（z）映射到2D图像坐标的投影函数。可以在与投影的采样3D点相对应的2D图像坐标处比较两个视图a和b之间的像素我们将光度损失L照片公式化为所有三角形面上这些2D图像坐标处的像素强度之间的Lphoto （ Ia ， Ib ，a ，b;G （ z ））（2）当N较大时，cally变得欠约束因此，我们认为，减小允许的DoF对于确保网格变形在优化期间表现良好是至关重要的。我们希望Σ Σ=j i：pi∈Pj<$Ia（π（pi（z）;<$a））− Ib（π（pi（z）;<$b））<$1。将网格M=G（z）表示为可微函数G一个简化的向量表示Z。我们建议使用一个现成的生成神经网络作为G的主要部分，并用一个相关的潜在码z∈RK重新参数化网格，其中K<$3N。该网络作为一个对象形状先验，其有效性来自于外部形状数据集的预训练.点云上的形状先验已经被探索过[40];在这里，我们扩展到网格表示。我们在这里使用的是MeshasNet [15]，尽管其他网格生成器也适用。的因此，我们可以优化光度损失L照片，作为z的函数建立的像素对应。能见度由于可能的对象自遮挡，3D点pi在给定视图中可能不可见，我们通过将Pj约束为三角形j中的样本集合来处理可见性，三角形j的投影在两个视图中都可见。我们通过使用网格光栅化（计算机图形学中的标准操作）为每个优化步骤返回网格索引图来实现这一点。每个采样点然后，将该函数反向传播到顶点Vj。形状先验允许预测的3D网格在vjxi学习形状空间，避免直接顶点优化存在的许多局部最小值利用RGB信息我们通过可微图像采样获得WPI我通过对投影π求导，求出|x |i，|p|ipi从给定的光度优化序列中，我们进一步添加了一个3D相似性变换，以将生成的网格映射到由Sf M恢复的世界相机（见第二节）。第3.4段）。通过与重心坐标αi相关联，我们注意到整个过程是可微的，并且不采用近似梯度[20]。代码972KVV图3：从输入图像Ia和Ib开始的虚拟视点处的合成外观之间的光度损失L照片的可视化。光度损失图4：从ShapeNet渲染（上：汽车，下：飞机）和SUN360场景合成的示例序列。在SF M。因此，我们需要考虑应用于网格顶点的附加3D相似性变换T（·）L照片鼓励一致的外观合成，对于每个3D顶点v′，根据预测，我们定义了输入视点a和b。相似性变换为vk=T（v′;θ）=exp（s）· R（ω）v′+tk，（4）K K3.3. 虚拟视点光栅化我们可以通过使用网格光栅化从给定视图渲染M的深度来有效地对三角形j中的大量3D点Pj进行采样（第二节）。3.2）。然而，如果深度是从输入视图Rifa或Rifb光栅化的，我们将获得零光度梯度。这种退化是由于从一个视图投射光线并投射回同一视图导致的结果是λI=0。J为了详细说明，我们首先注意到三角形的深度光栅化glej等价于将规则网格坐标x<$i反向投影到三角形j。We可以将来自camera <$∈ {<$a，<$b}的每个深度点表示为pi（z）=π−1（x<$i;Vj （z），<$i），其中π−1：R2→ R3是通过求解射线三角形与Vj（z）的相交而实现的逆投影函数。结合投影方程，我们有其中θ=[s;ω;t]∈R7是参数，R是用so（3）李代数参数化的三维旋转矩阵我们一起优化z =[z′; θ]，其中z′是与生成网络相关的潜在代码。由于具有未知尺度的噪声3D数据的自动配准仍然是一个开放的问题，我们假设可以从粗略对应的最小注释计算坐标系的粗略对准（参见第2节）。详情见4.3我们优化了相似性变换，以更准确地将网格与RGB序列对齐。正规化。尽管神经网络是有效的先验，但潜在空间仅由训练数据跨越。为了避免网格达到退化解，我们对潜在代码z′施加额外的惩罚以确保它保持不变.在初始代码z 0（从x（z，n）=ππ−1（x<$;V（z），n）;n=x<$$>nx<$<$，（3）预训练图像编码器），定义为L=nz′−z<$2。我我我代码02变成了身份映射，我们还增加了一个尺度惩罚Lscale=−s，因为网格缩小到无限大，xi在Vj（z）上，这反过来又导致J =0。这种洞察力这是一个光度误差为零的平凡解的这与Ham等人最近的观察结果一致。[16 ]第10段。为了克服这种简并性，我们从一个三维虚拟视点来计算深度，即从一个三维虚拟视点来计算深度.这一步所有都是在两个视点a和b中计算正确的梯度，这对于在优化期间保持稳定性至关重要。我们可以通过使用来自于R2a和R2b的像素强度来合成在R2V下的图像外观来形成光度损失（图3）。我们注意到，可以任意选择BVV。在实践中，我们通过在旋转四元数上应用Slerp[ 31 ]并对两个摄像机中心求平均值来选择BVV作为BVV a和BVV b之间的二等分。3.4. 实现细节坐标系。来自生成网络的网格预测通常位于独立于恢复的世界摄像机的规范坐标系[15，34]中cost（1）中的正则化Lreg被写为Lreg（z）=λcode· Lcode（z′）+λscale·Lscale（θ）（5）其中λcode和λscale是惩罚权重。4. 实验我们评估我们的方法在一个单一的性能（秒。4.1）和多个（Sec. 4.2）具有合成数据以及真实世界视频的对象类别（第4.2节）。4.3）。数据准备我们创建3D CAD模型渲染数据集，用于训练网格生成网络并评估我们的优化框架。我们的渲染管扭曲以扭曲以mesh（）光度误差mesh（）973道旨在创建具有复杂背景的逼真图像，以便将其应用于真实世界的视频序列。我们使用974ShapeNet [3]的对象数据集，并规范化所有对象，以适应以原点为中心的单位球体。我们使用24个等距方位角和3个仰角的透视相机渲染每个对象的RGB图像。为了模拟逼真的背景，我们随机扭曲和裁剪来自SUN360数据库的球形图像[35]，以创建在不同相机视点拍摄的同一场景的背景图像。通过将前景和背景图像以相应的相机姿势合成在一起，我们获得了在逼真的纹理背景上合成的物体的RGB序列（图1）。4）.请注意，我们不保留任何在渲染和合成过程中可访问的遮罩信息，因为此类信息通常在真实示例中不可用。所有图像均以224×224的分辨率渲染/裁剪。形状优先。我们使用MaskasNet [15]作为网格生成的基础网络架构，我们在新数据集上重新训练。我们使用Groueix等人的80%-20%训练/测试分割。[15]并以相同的比例分割SUN360球面图像。在训练过程中，我们以随机方位角增强背景图像。初始化。我们通过使用RumasNet编码器对RGB帧进行编码来初始化代码z 0。对于ShapeNet序列，我们选择对象面向侧面45 °的帧。对于真实世界的序列，我们手动选择对象尽可能与图像中心对齐的帧，以匹配我们的渲染设置。我们将相似性变换参数初始化为θ= 0（恒等变换）。评价标准。我们通过测量来自预测网格的采样3D点与地面实况点云之间的3D距离来评估结果[15]。我们遵循Linet al.[23]通过报告3D误差，将预测点云和地面实况点云计算为η（S1，S2）=其中一个挑战是，对于真实世界的序列，由RumasNet生成的网格的坐标系独立于恢复的世界相机{Rumf}需要确定这样的坐标系映射（由3D相似性变换定义）以将预测的网格与世界相另一方面，对于合成序列，我们知道确切的映射，因为我们可以在相同的坐标系中渲染RumasNet的视图和输入视图{If}。对于我们的第一个实验，我们通过将高斯噪声ε<$N（0，σI）添加到其参数（每个序列预先生成以用于评估）来扰动地面实况3D相似性变换，从而模拟可能不正确的映射估计。我们评估的3D误差度量在这样的扰动。请注意，我们的方法除了来自给定序列的RGB信息之外，不利用其他信息我们将我们的网格重建方法与三种基本的RollasNet变体进行了比较：（a）从单个图像前馈初始化生成网格，（b）从在序列中的所有帧上平均的平均潜在代码生成，以及（c）从在所有帧上的网格生成中平均顶点的平均形状。我们在图中显示了定性结果 5（在扰动σ=0. 第12段）。我们的方法能够利用多视图几何来解决大的错位和优化更准确的形状。来自视图之间背景的高光度误差阻止网格顶点停留在此类区域中。该误差用作将网格约束在所需3D区域内的自然力，从而消除了在优化期间对深度或掩模约束的需要。我们进一步可视化我们的网格重建与纹理，估计从所有图像（图。（六）。请注意，优化后平均纹理的保真度增加，而纹理的方差减少。我们在图中定量评估7，我们绘制i：vi∈S1minvj∈S2 对于某个源和目标，映射噪声上的平均3D误差这个结果恶魔-演示了我们的方法如何处理不准确的坐标系点集S1和S2。此指标衡量当S1是预测并且S2是地面实况时，它指示预测形状准确度，而当反之亦然时，它指示预测形状覆盖率。我们报告在两个方向上的定量结果分别平均在所有的情况下。4.1. 单个对象类别我们首先评估我们的网格对齐在一个类别特定的设置.我们从ShapeNet中选择汽车、椅子和飞机类别，在我们的测试分割中分别包含703、1356和809个对于每个对象，我们通过将其渲染叠加到随机配对的SUN360场景上来创建RGB序列，其中相机对应。我们使用500epochs的默认设置在我们的新数据集上重新训练每个类别特定的MogasNet模型在优化过程中，我们使用Adam优化器[22]，其恒定学习率为0。003进行100次迭代。我们手动将惩罚因子设置为λcode=0。05，λscale= 0。02.映射，以成功地将网格与RGB序列匹配。我们还消除了优化潜在代码z，表明允许形状变形比单独的3D相似性变换（图1B中的“固定代码”）提高了重建质量。（七）. 请注意，我们的方法稍差形内覆盖误差（GT→pred.）当在地面实况测绘中评估时。这一结果归因于光度优化的局限性，当物体纹理不足时，光度优化选择退化解决方案。4.2. 多个对象类别我们通过训练单个模型来重建多个对象类别，从而扩展了重建单个对象类别的模型。我们从ShapeNet中选取了13个常用的CAD模型类别[5，11，15，23]。我们遵循与Sec中相同的设置。4.1除了由于训练集更大，我们重新训练了1000个 epoch975（单（单RGB序列MesasNet（平均代码）RollasNet（平均顶点）Our RGBsequenceRGB sequenceMesasNet（平均代码）RollasNet（平均顶点）我们图5：特定类别模型的定性结果，其中我们可视化每个测试序列的两个样本帧。我们的方法可以更好地将初始网格与RGB序列对齐，同时优化更精细的形状细节（例如，汽车扰流器和飞机机翼）越过基线。网格由绘制了遮挡边界的曲面法线进行颜色编码。类别平面板凳舱车椅子monit.灯说话火沙发表cell.水是说PakasNet（单）3.8724.9315.7084.2694.8694.6878.6847.2453.8645.0174.9644.5714.2905.152MesasNet（平均代码）3.7464.4965.6004.2864.5714.6347.3666.9763.6324.7984.9034.2863.8604.858MesinasNet（平均形状）3.6594.4125.3824.1924.4994.4247.2006.6833.5474.6064.8604.1963.7424.723我们0.7041.8212.8500.5971.4411.1158.8553.4301.2550.9831.7251.5991.7432.163(a) 3D误差：预测→地面实况（形状精度）。类别平面板凳舱车椅子monit.灯说话火沙发表cell.水是说PakasNet（单）4.4304.8955.0244.4614.8964.6408.9066.9944.4074.6135.350 4.2544.2635.164MesasNet（平均代码）4.1774.5074.9624.3844.6354.1437.2926.9904.3074.4635.0844.0363.7184.823MesinasNet（平均形状）4.4644.9155.1504.5214.9404.5608.1597.3084.5284.7075.255 4.2994.1835.153我们2.2373.2151.9270.7342.3772.11910.7644.1522.5831.7356.126 1.8512.9263.288(b) 3D错误：地面实况→预测（形状覆盖）。表1：一般对象类别的平均3D测试误差（按103比例缩放的数字）。平均值是按类别取的我们的优化方法对大多数对象类别是有效的请注意，我们的方法提高了表类别的准确性，尽管由于对象样本中的纹理不足而导致形状覆盖率恶化。我们在图中显示了视觉结果。8关于我们的方法对于多个对象类别的功效（在扰动σ = 0. 第12段）。我们的结果显示了我们如何重建一个更好地匹配我们的RGB观察的形状（例如，精炼凹陷区域，如长凳靠背和桌腿）。我们还在表1中显示了在扰动噪声σ=0下比较的分类定量结果。06.我们发现光度976优化以在除灯之外的大多数类别中有效地执行，灯由许多实例组成，其中对于薄结构的优化对于光度损失是困难的。4.3. 真实世界视频最后，我们证明了我们的方法的有效性，具有挑战性的现实世界的视频序列轨道的对象。977汽车（预测GT）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）椅子（pred. GT）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）平面（pred. GT）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）3D误差（×0.001）3D误差（×0.001）3D误差（×0.001）（（（（RGB序列RumasNet（init.）OursRGBsequenceRGB（init.）我们图6：通过对所有视点的投影求平均值计算纹理的网格可视化。我们的方法成功地减少了方差和恢复密集的纹理，可以嵌入在表面上。18181515121299663 300.00 0.03 0.06 0.09扰动噪声00.00 0.03 0.06 0.09扰动噪声18181515121299663300.00 0.03 0.06 0.09扰动噪声00.00 0.03 0.06 0.09扰动噪声18181515121299663 300.000.03 0.06 0.090.12扰动噪声00.000.03 0.06 0.09 0.12扰动噪声图8：一般对象类别的定性结果图7：在COOR环境中，特定类别对噪声的性能坐标系制图我们的方法是能够解决各种程度的网格错位的序列。我们使用RGB-D对象扫描的数据集[4]，其中我们使用椅子模型来评估椅子类别。我们选择使用传统流水线可3D重建的视频序列的子集[30]，并且其中Sf M提取至少20个可靠帧和100个显著3D点。我们保留了82个具有足够质量的序列用于评估。我们将序列重新缩放为240×320，每10帧跳过一次我们使用现成的Sf M和COLMAP [30]计算相机外部和内部矩阵。为了评估，我们另外通过注释预测网格和从Sf M提取的稀疏点之间的3个对应点来计算坐标系映射的粗略估计（图9），这允许我们拟合3D相似性变换。我们使用Adam进行优化，200次迭代的学习率为2 e-3，我们手动设置惩罚因子为λcode= 0。05，λscale= 0。01.我们的优化方法恢复了微妙的细节，如长凳的背面，船只的帆，甚至开始揭示最初被遮挡的橱柜开放空间。我们的方法在处理无纹理对象时更容易失败（例如，手机和枪）。图9：我们选择（a）网格顶点和（b）Sf M点之间的3个对应关系，以通过拟合3D相似性变换找到（c）估计的(d)配光优化后的校准结果。姓名首字母缩写是说方差是说方差汽车（GT预测）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）椅子（GT预测）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）平面（GT预测）MesasNet（单个）MesasNet（平均代码）MesasNet（平均形状）我们的我们的（固定代码）内阁灯火器表板凳船只监测扬声器沙发手机3D误差（×0.001）3D误差（×0.001）3D误差（×0.001）978RGB顺序传统的管道InitasNet（init.）我们的RGB序列传统的管道InitasNet（init.）我们图10：真实世界序列的定性结果给定初始化，我们的方法准确地将生成的网格与RGB视频对齐。即使初始网格是对真实对象的不准确预测，我们的方法仍然能够对齐语义部分（左下）。我们在右下角的最后两个示例中显示了失败的情况，其中没有足够的背景纹理作为光度提示，并且初始网格不足以捕获薄结构。我们还展示了手动清理后传统重建管道[30]的结果由于问题的难度，这些网格仍然经常有许多不希望的工件。1007550250初始化在optim之后。0 100200深度误差（mm）最后，我们注意到，表面重建是一个挑战性的后处理过程，传统的管道。图10显示了来自COLMAP [30]的Sf M [30]、PatchMatch Stereo [2]、立体融合和泊松网格重建[21]的样本结果。除了需要精确的对象分割，传统管道的密集网格化问题通常会产生嘈杂的结果，而无需费力的手动后处理。表2：平均像素再现作为帧距离的函数的来自真实世界视频的投射误差（缩放100图十一：米尺深度误差之前和之后优化（与Sf M世界相机重新缩放）。5. 结论我们已经展示了一种方法，用于从RGB视频中重建3D网格，该方法将数据驱动的深度形状先验与多视图光度一致性优化相结合。我们展示了我们的方法是如何适用于现实世界的数据集图.10个。我们的方法能够细化形状，如扶手和办公椅腿。请注意，我们的方法对真实图像的网格初始化质量很敏感，这主要是由于在形状先验的训练/测试阶段合成数据和真实数据之间的域不匹配。尽管如此，它仍然能够拉直并对齐到所需的3D位置。此外，我们在表2中报告了平均像素重投影误差，在图2中报告了度量深度误差。11来量化光度优化的效果，这显示了相对于粗略初始化的进一步改进。mization我们还表明，网格光栅化从虚拟的观点是至关重要的，以避免退化的光度梯度优化过程中。我们相信，我们的光度网格优化技术的优点，为一些实际应用。它能够为计算机图形生成更准确的真实世界对象模型它还可以使机器人导航和自动驾驶的3D定位受益，其中来自真实世界相机的准确对象位置，方向和形状对于更有效的理解至关重要。百分比（%）Dist.姓名首字母缩写最佳选择16.5044.99029.0646.979310.9848.528979引用[1] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年来：统一的框架。国际计算机视觉杂志，56（3）：221-255，2004。2[2] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。2011年英国机器视觉会议。8[3] Angel X Chang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimming Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ， etal.Shapenet：一个信息丰富的三维模型库。arXiv预印本arXiv：1512.03012，2015。5[4] Sungjoon Choi ， Qian-Yi Zhou ， Stephen Miller ， andVladlen Koltun.对象扫描的大型数据集。arXiv预印本arXiv：1602.02481，2016年。7[5] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页。施普林格，2016年。一、五[6] Timothy F Cootes，Gareth J Edwards，and Christopher JTay- lor.活动外观模型。IEEE Transactions on PatternAnalysis Machine Intelligence，2001。2[7] Timothy F Cootes和Christopher J Taylor。主动形状模型聪明的蛇。在BMVC 92，第266-275页中。Springer，1992年。2[8] Ama eülDelaun o y和MarcPollef e ys。用于密集多视图3d建模的光度束调整在IEEE计算机视觉和模式识别会议论文集，第1486-1493页2[9] 艾玛·艾尔·德朗和伊曼纽尔·普拉多斯。用于优化基于三角形网格的曲面的梯度流：应用于处理可见性的三维重建问题。国际计算机视觉杂志，95（2）：100-123，2011。2[10] Ja k obEngel ， ThomasSch o¨ps ， andDanielCremers. LSD-SLAM：大规模直接单眼SLAM。欧洲计算机视觉会议，第834-849页Springer，2014. 一、二[11] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议，2017。5[12] 豪尔赫·富恩特斯-帕切科、何塞·鲁伊斯·阿森西奥和胡安·曼努埃尔·伦德·奥恩曼查。视觉同时定位与映射研究综述。Artificial Intelligence Review，43（1）： 55-81，2015. 2[13] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：13622[14] Thibault Groueix 、 Matthew Fisher 、 Vladimir G Kim 、Bryan C Russell和Mathieu Aubry。3d编码：通过深度变形的3d对应。在欧洲计算机视觉会议（ECCV）的会议记录中，第230-246页，2018年。2[15] ThibaultGroueix ， Matthew Fisher ， Vladimir G Kim ，Bryan C Russell，andMathieuAubry. 一个学习3D表面生成的方法在IEEE会议980计算机视觉和模式识别（CVPR），2018。一、二、三、四、五[16] 克里斯托弗·汉姆西蒙·露西和苏里亚·辛格逆合成光度控制束调整的代理模板。 arXiv 预印本 arXiv ：1704.06967，2017。4[17] Jingwei Huang ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner. 3dlite：面向内容创建的商品3d扫描ACM Transactions on Graphics 2017 （ TOG ）， 2017年。2[18] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。二、三[19] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克。从图像集合学习特定类别的网格在ECCV，2018。2[20] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议，2018。二、三[21] Michael Kazhdan和Hugues Hoppe屏蔽泊松曲面重建。ACM Transactions on Graphics（ToG），32（3）：29，2013. 一、二、八[22] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[23] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.学习密集三维物体重建的高效点云生成2018年AAAI人工智能会议（AAAI）。二、五[24] 林振轩和西蒙·露西。逆合成空间Transformer网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。2[25] 林振轩，朱瑞，西蒙·露西。条件卢卡斯kanade算法。在欧洲计算机视觉会议（ECCV），第793施普林格国际出版社，2016年。2[26] 布鲁斯·D卢卡斯和金田健夫。一种迭代图像配准技术及其在立体视觉中的应用。第七届国际人工智能联合会议论文集-第2，IJCAI'81，第674-679页，1981年2[27] 伊恩·马修斯和西蒙·贝克。主动外观模型重新审视。国际计算机视觉杂志，60（2）：1352[28] Raul Mur-Artal，Jose Maria Martinez Montiel，and JuanD Tardos. Orb-SLAM：一个多功能和精确的单目SLAM系统。IEEE Transactions on Robotics，31（5）：1147-1163，2015. 2[29] Richard A Newcombe，Steven J Lovegrove，and AndrewJ Davison. Dtam：实时密集跟踪和映射。2011年国际计算机视觉会议，第2320-2327页。IEEE，2011年。1[30] JohannesLutzSchoünbe ger和Jan-MichaelFrahm。结构从运动重新审视。在计算机视觉和模式识别会议，2016年。二三七八[31] 肯·休梅克使用四元数曲线设置旋转动画。在ACMSIGGRAPH计算机图形。ACM，1985年。4981[32] 放大图片作者：A.埃弗罗斯和吉坦德拉·马利克多视图一致性作为学习形状和姿态预测的监督信号在计算机视觉和模式识别（CVPR），2018年。2[33] 放大图片作者： Shubham Tulsiani ， Tinghui Zhou ，Alexei A.埃弗罗斯和吉滕德拉·马利克。通过可微射线一致性进行单视图重建的多视图监督在计算机视觉和模式识别（CVPR），2017年。2[34] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2mesh：从单个rgb 图像生成 3d 网格模型。 arXiv 预印本 arXiv ：1804.01654，2018。二、四[35] Xiao Jianxiong ， Krista A Ehinger ， Aude Oliva

下载后可阅读完整内容，剩余1页未读，立即下载