微分立体视觉：使用微分渲染的多视图立体重建

38 浏览量更新于2023-10-25 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8635微分立体视觉：使用微分渲染加州大学伯克利分校shubham-goel@berkeley.eduGeorgiaGkioxari MetaAIgkioxari@fb.comJitendraMalik加州大学伯克利分校malik@eecs.berkeley.edu图1.从少量输入视图和有噪声的摄像机中使用可微分立体视觉（DS）进行重建我们显示了输入视图（顶部）和重建的新视图（底部）。摘要我们提出了微分立体，多视图立体的方法，重建形状和纹理从几个输入视图和嘈杂的相机。我们配对传统的立体视觉和现代微分渲染，建立一个端到端的模型，预测纹理的3D网格的对象具有不同的拓扑结构和形状。我们帧立体视觉作为一个优化问题，同时更新形状和相机通过简单的梯度下降。我们进行了广泛的定量分析，并与传统的多视图立体技术和最先进的基于学习的方法进行了比较我们展示了具有挑战性的现实世界场景的令人信服的重建，以及具有复杂形状，拓扑结构和纹理的丰富对象类型11项目网页：https://shubham-goel.github.io/ds/1. 介绍双目立体视觉[47]及其多视图表亲，运动结构[14，44]，传统上被表述为两阶段过程：1. 在视图中查找对应的2D点，这些点是同一3D场景点的2D投影。2. 通过三角测量恢复相机的相对方向和这些点的在这项工作中，我们绕过了第一阶段的寻找点对应的图像和直接估计三维形状和相机给定多个2D视图与嘈杂的相机。我们制定这作为一个优化问题，我们解决使用新开发的微分渲染工具。我们将我们的方法命名为微分立体视觉。我们的方法与多视图几何学中的旧工作有关，特别是Debevec等人探索的基于模型的立体视觉。[6]以及Irani等人在平面加视差中的相关思想。[17 ]第10段。基于模型的立体视觉中的关键观察很简单：同一场景的两个图像在投影到场景的近似3D模型上后变得相似。将纹理从一个图像投影到3D模型上产生该视图的扭曲版本，当从第二视图变换最初，3D模型和估计的相对相机取向是不准确的。但随着形状和相机预测的改进，两个图像将开始看起来更相似，甚至最终变得相同-在理想化的朗伯表面和没有成像噪声的在收敛时，期望形状是场景的准确表示。传统立体视觉中的一个重要步骤是在视图中找到2D对应。我们绕过这一点，直接恢复形状和相机使用现代优化技术。我们框架立体视觉作为一个优化问题，通过最小化一个可微的目标，相对于形状和相机。为此，我们利用可区分渲染的进步[4，21，30，32，40]将形状和纹理投影到我们与场景视图进行比较的图像平面8636←算法1：可微分立体视觉（2视图）输入：I1，2，π1，2;SSphere（）;而不收敛points←rastroke（S，π1）;texels←sample（I2，π2（points））;Ir←blend（texels）;SfM和立体方法是COLMAP [42，43]所有上述技术都假设校准和精确的相机，因此对相机噪声不是非常鲁棒。寻找点对应，立体视觉的第一阶段，是具有挑战性的，特别是在稀疏广泛的情况1r分离的观点。Debevec等人[6]解决这一问题的办法是，loss←compute loss（I1，I1）;S，π1，2<$S，π1，2−lr *梯度（损失）;端输出S，π1，2我们通过梯度下降更新形状和相机。算法1说明了我们提出的可微立体视（DS）的情况下，2视图。我们依赖于（i）对象掩码来隔离和细化对象拓扑;以及（ii）噪声相机姿态初始化，其可能仍然来自对应匹配算法。图图1示出了当噪声构成的视图作为输入时，使用DS的形状重建在我们的方法的核心是一个新的和可区分的纹理传输方法，通过3D unprojections的纹理扭曲我们的纹理传输学习基于形状估计和噪声相机从输入视图中采样纹理为了允许差异化，它以柔和的方式合成最终纹理，方法是根据每个视图的可见性和方向按比例对纹理样本进行加权。我们在具有挑战性的数据集和各种形状复杂的物体上测试我们的方法。不像以前的作品，假设几十个对象的意见，我们的实验设置遵循现实世界的实际情况下，只有少数意见是可用的。例如，Amazon、eBay或Facebook Marketplace仅包含每个列出项目的少数视图，并且任何3D recruitment必须来自10个或更少的视图。我们强调这种更难，但更现实的设置，并使用来自Amazon的真实产品图像显示经验结果[5]。在谷歌的扫描对象[ 41 ]上，我们还显示了坦克和寺庙[24]的结果，其中包含复杂场景的RGB视图，如图中右侧所示。1.一、2. 相关工作从场景的2D视图中提取3D结构是计算机视觉的长期目标。经典的多视图立体方法和运动结构技术[6，9，14，17，44]发现图像之间的对应关系如果足够密集，则可以将所得点云网格化为曲面[1，22]。一长串经典的顶峰基于模型的立体视觉，其中粗糙的场景几何形状允许视图被放置在公共参考帧中，使得对应问题更容易。我们从这项工作中汲取经验，并将其与新的学习工具配对从稀疏视图重建纹理化的3D网格。我们将立体视觉视为一个优化问题，并最小化一个可微目标，该目标允许形状和相机进行自我校正。这增加了对相机噪声的鲁棒性，与经典技术相反。最近关于多视图立体的工作[48，49]训练具有深度监督的深度正如预期的那样，这些方法在点云重建方面优于COLMAP，但由于需要地面实况，因此受到限制我们只依赖图像重投影损失，没有真正的深度信息。无监督深度预测[28，52，54，55]通过在单目视频上训练的DNN估计深度，而没有地面真实深度。它们利用多个视图的光度和深度一致性，就像经典的立体声一样。然而，它们专注于像KITTI [11]这样的前向场景，并且不重建高保真形状。在使用可微分渲染从图像恢复形状方面有大量的工作[4，13，19，21，25，27，30，32，40、45、51]。这些方法侧重于通过在大数据集上训练和在所见类别的图像上测试来提取对象先验。我们还使用可微渲染[4，21，30，32，40]将立体视觉框架作为可微优化问题。关于形状和相机的区分允许两者在优化期间自我校正。与我们的工作最相关的是通过拟合一组图像来学习形状的方法。从轮廓中提取形状的早期工作使用视觉外壳[26]。Gadelha等人[10]通过可微分投影从轮廓和噪声相机姿势重建体素，但然而，形状细节，如凹部不能被轮廓捕捉到。我们在图5中显示了我们的实验（第二节）。4）在没有纹理信息的情况下对形状的优化不能重建形状中的折痕MVS的一些变分方法[7，8，15，39]利用光度一致性通过梯度下降来细化形状，但它们需要许多图像、初始形状或精确的相机。最近，IDR[50]和DVR [37]使用隐式体积表示从多个姿态图像和掩模恢复形状。IDR显示了优于DVR的结果，并声称可以在很少的输入视图和稍微嘈杂的相机姿势下工作;设置类似于我们的设置。我们在SEC中比较IDR。4.第一章8637→≈Σ≈图2.微分立体视（DS）。形状估计使用源视图纹理化，从目标视图的相机渲染，并与目标视图进行比较。损失被反向传播以更新形状和摄影机。最近的新视图合成方法[31，34，56]在其内部表示中对体积占用信息进行编码，以用于从新视点进行图像合成的任务虽然它们NeRF [34]是一种这样的方法，它将构成的多个视图作为输入，并将3D空间中的点的占用和颜色编码为隐式函数。节中4，我们与NeRF进行了比较，并使用一个变体对其进行了扩展，该变体通过启用其参数的反向传播来优化噪声相机。3. 方法我们使用现代的dif- ferentiable渲染技术来解决立体视觉的问题我们的方法需要N个图像视图I1. N与对应的掩模A1.. N和噪声相机姿势π1. N作为输入，并将对象的形状输出为带纹理的网格。我们将立体视视为一个优化问题，如图2所示。我们迭代地从多个摄像机使用可微纹理渲染的形状估计，并更新的形状和摄像机，最大限度地减少图像重投影损失。我们首先提供了一些关于可微渲染的背景知识，然后详细描述了我们的方法。3.1. 背景我们将纹理网格M=（V，F，T）定义为顶点V、面F和纹理映射T的集合。在相机视点π下，网格M被渲染为图像Ir=RT（M，π）和掩模Ar=RS（M，π），其中RT表示纹理渲染和RS轮廓渲染。RS和RT都执行网格光栅化。栅格化计算网格的哪些部分投影到图像平面上的像素对于每个像素p，我们找到K与源自p的射线相交的最近面[40]。在轮廓渲染RS的情况下，光栅化之后是软轮廓着色器。该着色器通过混合像素到K个面中的每个面的欧几里得距离来为每个像素分配占用概率[30，40]。对于纹理渲染RT，我们使用纹理着色器来计算图像中每个像素p的RGB颜色该着色器混合每个像素的前K个面的颜色，如光栅化器所计算的对于第k个面，颜色ck=T（x）是通过在起源于p的光线与第k个面的交点x处对纹理图T进行采样来计算的颜色的集合c1.. K，也称为纹素，被合成以获得像素的最终颜色。3.2. 纹理转移我们的方法的目标是找到M=（V，F，T），表示从嘈杂的输入视图中看到的对象对于每个形状假设（V，F），我们需要找到最佳纹理T。我们介绍了一种新的纹理着色器，它依赖于纹理传输的输入I1. N.我们的着色器计算纹理映射T作为形状假设（V，F）和构成的输入视图I1. N.纹理贴图T：x（r，g，b）为网格表面上的每个点x颜色直接从一个或多个输入视图中采样。我们建立在一个关键的视线：对于一个正确的形状（V，F）和正确的相机π1. N，存在一个（或多个）视图i，其中x未被遮挡，或者换句话说，存在到x的清晰视线。对于所有这样的视图，图像中的投影πi（x）对应于相同的3D点x，并且对于朗伯曲面，所有这些点将共享相同的颜色Ii（πi（x））。指定给点x的颜色T（x）是由所有视图的颜色Ii（πi（x））合成的，所有视图都有清晰的x视线。形式上，我们定义纹理转移如下：T（x）=wi Ii（πi（x））（1）我其中权重是单位归一化的，并定义为wi=σi γi。〇编码X是否具有来自对应视图的清晰视线。形式上，我们将相机变换点πi（x）的z距离与渲染深度进行将Di映射到πi（x），如下所示σi= exp（−（πi（x）z−Di（πi（x）/τvis）（2）如果x有清晰的视线，则πi（x）zDi（πi（x））因此σ i1。0的情况。如果x被形状的其他部分遮挡，则π i（x）z> Di（π i（x））且σ i<1。0的情况。我们将温度τvis设为10−4。γ是一种启发式方法，它支持以最小透视缩短的方式正面平行地观察x的视图。如果ni（x）是第i个视图坐标中x处的外表面法线，则γi=1[n<$i（x）z0]exp（−（1+n<$i（x）z）/τcos）（3）8638−∈| ||∈ |∈∈一我我2||||||−||我i2i当法线指向相机的z轴的对面时，γi最高1.一、 γi随n<$i（x）z的增加而指数减小。我们将温度τcos设为0。1.一、此外，在σ不能捕捉到表面两侧点的可见性信息的情况下，我们对薄表面的法线（n∈i（x）z>0）进行了剔除，以正确采样纹理。纹理渲染我们描述了如何对网格表面上的点x进行纹理采样。为了在视点π下渲染纹理，对于每个像素p，我们对纹素c1.所有点的K x1.. 其中ck=T（x k），其中xk是第k个面上与源自p的射线相交的点。我们使用softmax blending [30]来合成p处的最终颜色。3.3. 优化我们已经解释了如何定义给定姿态输入视图I1的对象形状（V，F）的纹理图T。我们已经描述了如何将M =（V，F，T）渲染为图像和轮廓。我们现在描述我们的目标以及我们如何优化它。顶点V和摄像机π1..N.参数化我们将相机π =（r，t，f）参数化为通过轴角表示rR3的旋转（幅度r是角度，归一化r/r是轴），平移为tR3，焦距f为半视场。我们将几何参数化为V=V0+V，其中VR|V |×3是被优化的变形，V0是保持不变的初始网格顶点。目的给出一个形状假设M =（V，F，T），camerasπ1. N和输入视图I1.. N，我们渲染轮廓r=RS（M，πi）和图像Ir=RT（M，πi），对于每个视图i = 1，...，N. 我们将总损失定义为L总=L特克斯+L掩模+L边缘+L搭接（4）纹理重建损失Ltex被定义为L1损失和感知距离度量Lperc的总和[53]：Lt e x=0|Ir−Ii|+Lper c（Ir，Ii）（5）我我们从一个分辨率非常低的球体开始，在预热过程中将其细分两次，分别迭代100次和300次纹理采样我们在优化过程中每次形状更新后计算纹理贴图T。对于每个训练视图i，并且对于每个像素p，我们找到与源自p的射线相交的K个最接近的面以及对应的相交点x1. K. 我们计算纹理元素c k= T（x k），在第二节中描述。 3.2，并在等式中设置w i= 0。 1，使得图像I i不对渲染的第i个视图中的像素p的纹理有贡献。这确保了通过从所有图像I1. N但I i以促进光度一致性。处理可变拓扑每个梯度下降步骤都会更新网格的顶点位置和相机参数。但是，形状的拓扑保持不变。为了处理具有不同拓扑结构的对象，并偏离与球体同胚的形状，我们在优化过程中更新形状的拓扑结构在训练过程中的中间步骤，我们对网格进行体素化[35，38]，将体素投影到视图平面上，并通过与地面真实轮廓A1.N.我们移除投射到任何遮罩中未占用区域的体素。我们使用移动立方体重新网格化剩余的体素，重置所有形状优化参数并恢复优化。4. 实验我们在三个数据集上测试了我们的可微立体视觉方法，我们称之我们还在附录中对DTU MVS [18]进行了评价我们对不同拓扑结构和形状的物体进行广泛的定量分析，并提供3D地面实况。我们还展示了真实物体和具有挑战性的真实世界场景的定性结果4.1. Google扫描对象的实验i iGoogle1032件常见家居物品已进行3D扫描掩模重建损失结合了MSE损失和双定向距离变换损耗（详见附录）。L掩码=0||Ar−Ai||2+Lbi-d t（Ar，Ai）（6）我以生成高分辨率的朗伯纹理3D网格。我们从中挑选了50个具有不同形状、拓扑结构和纹理的对象实例进行定量分析，包括玩具、电子产品、仪器、电器、餐具等等。对于每个对象，我们渲染2048×2048RGBA图像，除了方程中的重投影损失56、我们雇佣网格上的平滑度调节器：L边=EL2是对偏离平均初始边长l的边长进行惩罚的MSE损失，而Llap=LcotV2是使平均曲率最小化的余切拉普拉斯损失[36]。初始化和预热我们用有噪声的输入摄像机初始化摄像机，用一个ico-sphere初始化V0，用零初始化WAVV。在500次迭代的初始预热阶段，我们冻结相机并优化形状，而不会丢失纹理。12个随机摄像机视点。摄像机旋转欧拉角和视场分别在[0°，360 °]和[20°，50 °]中均匀采样。对于摄像机，我们添加关于具有变化的σ={10°，20 °，30 °}的均匀采样轴的旋转噪声θ<$N（0，σ2）。我们报告了各种指标，以定量比较预测与地面实况网格。我们使用L2-Chamfer距离，正态一致性和不同阈值的F1评分，遵循[12]。因为预测的形状8639----≥--0.60.50.40.30.20.17060504030v4 v6 v8v120.70.60.50.40.30.29080706050v4 v6 v8v1217.515.012.510.07.55.02.50.09590858075706560旋转误差（度）DS r10DSr20DSr30nerf-optr10nerf-v4 v6 v8 v12v4 v6 v8v12v4 v6 v8v12v4 v6 v8 v12图3. DS和nerf-opt在Google扫描对象上的性能每个图报告了我们评估集中50个对象的中位数。我们报告形状重建指标（倒角，F1），正常的一致性，和相机错误。对于倒角和相机误差，越低越好。对于其他一切，越高越好。don’t lie in the same coordinate frame as the ground-truth,we align predictions to ground truth before benchmarkingvia the iterative-closest-point (ICP) algorithm [更多详情请参见附录。最后，我们报告了地面实况和DS优化输出相机之间的旋转误差（以度为单位）。与基线的比较我们广泛地比较了NeRF [34]，作为最先进的体积方法，它从准确的输入视图中学习隐式函数虽然NeRF我们比较了使用额外遮罩信息的两种NeRF变体：（a）nerf-原始NeRF方法，在渲染遮罩上具有额外的MSE损失，以及（b）nerf-opt-与（a）相同，但使用来自重投影损失的梯度优化相机姿势。nerf-opt使用与我们的方法相同的相机参数化。为了防止NeRF由于输入视图中的大面积白色背景而崩溃，所有NeRF基线在每次迭代中对掩模内的50%点进行采样。我们还定性地与IDR [50]进行了比较，IDR是一种具有隐式表示的体积方法，可以从稀疏的宽基线图像和带有噪声相机姿势的掩模中学习几何形状和外观在附录中，我们还将COLMAP [42，43]作为最先进的摄影测量方法进行了比较。最后，我们比较了我们的方法的变体：（a）DS-notex，它不使用任何纹理信息从Eq.4;和（b）DS-naive，除了形状/相机之外，它还天真地优化了UV纹理图像，而不是使用我们的纹理转移。对于纹理化，使用Blender [3]自动计算的固定UV贴图[16]将每当网格拓扑发生变化时，纹理图像将重新初始化并重新计算UV贴图图3定量比较DS和nerf-opt，执行两者的NeRF变体。我们用不同数量的视图N= 4、6、8、12（x轴）和不同的相机噪声10°、20 °、30 °进行训练。每个图报告从数据集中选择的50个实例的中位数。对于小相机噪声（10°），DS和nerf-opt（绿线）实现了相当的倒角和F1，除了N= 4视图，其中nerf-opt实现了更高的F1。毫无疑问，从4个视图预测形状对于所有方法来说都是具有挑战性的，正如绝对性能所示，并且是nerf-opt性能优于DS的唯一设置。对于较大的相机噪声（20°），DS在N6的所有指标下都优于nerf-opt（橙色线），并且在N= 4的情况下与之相当。对于更大的相机噪声（30°），DS在所有N和所有指标上都领先一个显著的余量（蓝线）。我们注意到，随着视图数量N的增加，对于10°20 °噪声，两种方法都收敛到大致相同的性能。对于30°噪声，DS也随着视图N的增加而收敛到上述最佳值。另一方面，nerf-opt无法恢复30°噪声的形状或相机，并且实现了低得多的重建质量。这些结果证明，DS可以学习更好的形状和恢复相机，即使在更大的相机噪声和更少的意见。当给出稍微更多的视图时，DS达到与几乎没有相机噪声相同的重建质量，证明其对相机误差的鲁棒性。与IDR、COLMAP和DS初治的定量比较见附录。图4定性地比较了nerf、nerf-opt、IDR和DS的8个视图和30°噪声。IDR和两个NeRF变体都产生了带有模糊伪影的形状，nerf-opt明显优于nerf。DS在相同的设置下捕捉到更好的形状，证明了它对嘈杂的相机和很少的视图的鲁棒性。我们观察到，在少数视图宽基线设置，像我们的，隐式体积的方法试图解释的几个输入视图，而不依赖于准确的形状几何形状和外观。然而，倒角-L2DS r10DSr20DSr30nerf-opt r10nerf-opt r20正态一致性DS r10DSr20DSr30nerf-opt r10nerf-opt r20DS r10DSr20DSr30nerf-opt r10nerf-opt r20F1@0.1F1@0.2DS r10DSr20DSr30nerf-opt r10nerf-opt r20F1@0.3DS r10DSr20DSr30nerf-opt r10nerf-opt r208640输入视图nerf nerf-opt IDRDSGT图4. nerf、nerf-opt、IDR和DS的结果，8个视图和30°相机噪声。nerf-opt和IDR的性能优于nerf，但它们无法捕捉到良好的形状。DS捕捉更好的几何图形，说明其对高水平相机噪声的鲁棒性。显式表示表面，提供更强的表面规则化，并预测更精确的几何形状。此外，在图4的第一行中，我们观察到DS能够将不同的动物重建为断开的组件，尽管已经被初始化为单个球体。图5比较了DS与没有纹理的DS（DS-notex）和朴素纹理图优化（DS-naive），具有8个输入视图和20°相机噪声。DS-notex无法捕获形状凹陷，这是不可能通过silhouettes捕获的。DS-naive产生具有一些凹陷的形状，但是在错误的位置，并且形状质量类似于DS-notex。利用如在DS-朴素中的朴素纹理优化，纹理收敛到来自不同图像的平均纹理，提供不可靠的梯度以改进形状/相机并导致次优几何形状。相比之下，DS通过利用纹理准确地图9显示了Google扫描对象的定性结果。对于每个对象，我们使用8个输入视图和20°相机噪声进行训练。我们展示了输入视图（左）和两个新视图的输出形状和纹理（右）。图图7显示了两个人的形状随时间的演变图5.无纹理的DS（DS-notex）、DS-naive和具有8个视图和20°相机噪声的DS。DS-notex无法捕获形状凹面，而DS-naive无法恢复准确的形状和相机。地面实况形状（GT）显示在最后一列中。来自Google的扫描对象的示例，在优化过程中，我们通过在三个中间步骤更新其拓扑来重新网格化形状。这使得最终的形状在几何和拓扑方面都接近地面实况。我们还在附录中显示了失效模式4.2. 亚马逊产品我们展示了来自ABO数据集（CC-BY-NC 4.0）的6个真实世界对象的图像的结果[5]。像素阈值化的白色背景图像给出掩模。这些图像的相机姿势是未知的，并且COLMAP未能给出合理的估计。我们通过手动注释一组40个关键点对应的对象的所有图像得到粗略的初始相机我们使用[19，20，46]中采用的正交刚体分解公式[33]估计每个图像的弱透视相机的参数我们使用计算出的弱透视相机初始化透视相机，并假设30°视场。图6示出了形状和纹理重建。尽管非常嘈杂的相机和几个视图，范围从4到9，我们的方法重建形状和纹理相当不错，即使是具有挑战性的形状拓扑结构，如割草机。我们还注意到，DS能够重建更多的镜面反射表面，如最后一行的手表。4.3. 坦克和寺庙的结果坦克和寺庙（CC-BY-NC-SA 3.0）[24]是一个3D重建基准，包括室内和室外场景的RGB视频以及相应的激光扫描地面实况3D点云。该数据集带有由COLMAP的SfM管道计算的摄像头我们评估7个场景，使用只有15个输入图像和相应的SFM重建相机作为初始化。对于Barn，Ignatius，Caterpillar和Truck，我们通过从SfM重建的相机渲染3D点云来在不依赖3D点的情况下对我们的方法进行压力图6.在Ama-zon的真实产品图像上评价DS [5]。对于每个例子，我们显示输入视图（左）和重构的形状和纹理的新视图（右）。8641图7.花园秋千（上）和布雷耶马（下）的形状随时间的演变，来自谷歌我们在关键优化步骤中可视化形状：在预热结束时（500次迭代），在第1/2/3次重新网格化之前和之后（10 k/20 k/30 k迭代）以及最终形状（50 k迭代）。图8.重建DS上的伊格内修斯，卡车，卡特彼勒，谷仓和马从坦克和寺庙与15个输入视图和SFM生成的相机构成。对于每个示例，我们显示了输入视图（左），来自两个新视图的形状和纹理重建（右）。马的轮廓由预先训练的现成的2D对象检测器生成。云来获得面具，对于马，家庭和火车，我们使用现成的对象检测器[23]在COCO上预先训练[29]。图8示出了具有15个输入视图和SfM重建的相机的来自坦克和寺庙的场景的重建。DS能够产生良好的重建，毫无疑问，由于树木的遮挡，Barn对于Family和Train，检测到的掩码很差，导致重建效果不佳。在附录中，我们比较了IDR，NeRF-opt和COLMAP。5. 讨论我们提出了微分立体视觉（ DS ）的配对基于transmartemodel立体视觉与现代微分渲染。我们展示了一组不同的对象形状与嘈杂的相机和一些输入视图的结果即使DS性能很好，但有局限性。它假设朗伯-田表面和一致的照明。DS适用于对象- 扩展到复杂场景是未来的工作。而DS对噪声掩模（例如，Mask R-CNN的预测）和输入时提供的不准确的相机，将它们从输入中消除是未来重要的工作。8642图9.DS在Google扫描对象上的定性结果，我们展示了输入视图（左）和从两个新视图（右）重建的形状和纹理。8643引用[1] 福斯托·贝尔纳迪尼，乔舒亚·米特曼，霍莉·拉什迈尔，克劳迪奥·席尔瓦，加布里埃尔·陶宾.曲面重建的球旋转算法 IEEE transactions on visualization and computergraphics，5（4）：349-359，1999. 2[2] Paul J Besl和Neil D McKay。注册方法3D形状。在SensorfusionIV ： controlparadigmsanddatastructures，第1611卷，第586-606页中。国际光学与光子学学会，1992年。5[3] Blender在线社区。Blender -3D建模和渲染软件包。Blender Institute，阿姆斯特丹，2019年。5[4] Wenzheng Chen，Huan Ling，Jun Gao，Edward Smith，Jaakko Lehtinen，Alec Jacobson，and Sanja Fidler.学习用基于插值的可微分渲染器预测3d对象NeurIPS，2019。一、二[5] Jasmine Collins，Shubham Goel，Matthieu Guillaumin，Thomas Dideriksen ， Kenan Deng ， Himanshu Arora ，Arnab Dhua，and Jitendra Malik. Amazon Berkeley Objects（ abo ）数据集。 https://amazon-berkeley-objects.s3的网站。amazonaws.com/index.html，2021年。二、四、六[6] Paul E Debevec，Camillo J Taylor，and Jitendra Malik.从照片中建模和渲染建筑：一种基于几何和图像的混合方法。1996年，CGIT。一、二[7] Ama eülDelaun o y和MarcPollef e ys。用于密集多视图3d建模的光度束调整。在CVPR，第1486-1493页，2014年。2[8] 奥利维尔·福格拉斯和雷诺·克里文。使用水平集方法完成稠密立体视觉见ECCV，第379Springer，1998年。2[9] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。TPAMI，2009年。2[10] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳在3DV，2017年。2[11] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.The InternationalJournal ofRoboticsResearch ， 32（11）：1231-1237，2013. 2[12] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在ICCV，2019年。4[13] Shubham Goel，Angjoo Kanazawa，Jitendra Malik.没有关键点的形状和视点。见《欧洲法院判例汇编》，第88Springer，2020年。2[14] Richard Hartley和Andrew Zisserman。计算机视觉中的多视图几何学。剑桥大学出版社，2003年。一、二[15] 武晃协，雷诺·克里文，帕特里克·拉巴图，让-菲利普·庞斯.向着高分辨率、大规模、多视点立体化方向发展。见CVPR，第1430-1437页。IEEE，2009年。2[16] 约翰·F·休斯和詹姆斯·D·福利。计算机图形学：原理与实践。Pearson Education，2014. 5[17] Michal Irani，P Anandan，and Meir Cohen.从多帧图像中直接恢复平面视差。TPAMI，2002年。一、二[18] Rasmus Jensen、Anders Dahl、George Vogiatzis、EngilTola和Henrik Aanæs。大比例尺多视立体视觉评价。在CVPR中，第406-413页。IEEE，2014。48644[19] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Ji- tendra Malik。从图像集合学习特定类别的网格在ECCV，2018。二、六[20] Abhishek Kar，Shubham Tulsiani，Joao Carreira ，andJitendra Malik. 从单个图像重建特定于类别的对象CVPR，2015。6[21] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在CVPR，2018年。一、二[22] Michael Kazhdan，Matthew Bolitho，and Hugues Hoppe.泊松曲面重建。在Proceedings of the fourth Eurographicssymposium on Geometry processing，第7卷，2006中。2[23] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.PointRend：图像分割作为渲染。在CVPR，2020年。7[24] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun. 坦克和寺庙：大规模场景重建的基准ACM Transactions on Graphics，2017。二、四、六[25] Nilesh Kulkarni，Abhinav Gupta，David F Fouhey，andShub-ham Tulsiani.感知关节的规范曲面映射。在CVPR，第452-461页，2020年。2[26] 奥尔多·劳伦蒂尼基于轮廓的图像理解的视觉外壳概念TPAMI，16（2）：150-162，1994. 2[27] Xueting Li ， Sifei Liu ， Kihwan Kim ， Shalini DeMello ， Varun Jampani ， Ming-Hsuan Yang ， and JanKautz.基于语义一致性的自监督单视图三维重建。见ECCV，第677-693页。Springer，2020年。2[28] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在CVPR中，第2041-2050页，2018年。2[29] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。2014年，在ECCV。7[30] Shichen Liu，Tianye Li，Weikai Chen，and Hao Li.Softraster- izer：一个用于基于图像的3D推理的可微分渲染器在ICCV，2019年。一、二、三、四[31] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volumes ： Learning dynamic renderable volumesfrom images.CVPR，2019年。3[32] Matthew M Loper和Michael J Black。Opendr：一个近似可微的渲染器.2014年，在ECCV。一、二[33] 曼努埃尔·马奎斯和乔·阿利奥·科斯泰拉。从缺失数据的退化序列估计三维形状CVIU，2009年。6[34] 放大图片作者：Ben Mildenhall，Pratul P. Srinivasan，Matthew Tancik，Jonathan T. Barron，Ravi Ramamoorthi和Ren Ng. Nerf：将场景表示为用于视图合成的神经辐射场在ECCV，2020年。三、五[35] 帕特里克·明宾沃克斯。http://www.patrickmin.com/binvox ， 2004 -2019年。4[36] Andrew Nealen ， Takeo Igarashi ， Olga Sorkine ， andMarc Alexa. Laplacian网格优化在CGIT，2006年。4[37] Michael Niemeyer、Lars Mescheder、Michael Oechsle和Andreas Geiger。差分体绘制：学习隐式3D表示没有3D监督。在CVPR，2020年6月。28645[38] 法基尔Nooruddin和Greg Turk使用体积技术简化和IEEETransactions on Visualization and Computer Graphics ，2003。4[39] Jean-Philippe Pons、Renaud Keriven和Olivier Faugeras。基于全局图像匹配分数的多视点立体重建和场景流估计。IJCV，72（2）：1792[40] Nikhila Ravi、Jeremy Reizenstein、David Novotny、Tay-lor Gordon 、 Wan-Yen Lo 、 Justin Johnson 和 GeorgiaGkioxari 。使用 pytorch3d 加速 3d 深度学习。 arXiv ：2007.08501，2020。一、二、三[41] Google Research. 扫描对象数据集。 http ： //goo.gle/scanned-objects，2020. 二、四[42] JohannesLutzSchoünbe ger和Jan-MichaelFrahm。结构从运动重新审视。在CVPR，2016年。二、五、六[43] JohannesLutzScho¨nber ger，EnliangZheng，MarcPollefe ys，and Jan-Michael Frahm.用于非结构化多视图立体的像素视图选择在ECCV，2016年。二、五[44] 理查德 · 塞利斯基。计算机视觉：算法与应用。Springer Science and Business Media，2010. 1、 2[45] Shubham Tulsiani，Nilesh Kulkarni，and Abhinav Gupta.从未标注的图像集合重建隐式网格。arXiv 预印本arXiv：2007.08504，2020。2[46] Sara Vicente ， Joao Carreira ， Lourdes Agapito ， andJorge Batista.重构pascal

下载后可阅读完整内容，剩余1页未读，立即下载