基于神经延迟着色的多视图网格重建

164 浏览量更新于2023-10-25 收藏 2.73MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6187基于神经延迟着色的多视图网格重建Markus Worchel1，2*Rodrigo Diaz1，3* WeiwenHu1 Oliver Schreer1Ingo Feldmann1PeterPennett1，41Fraunhofer HHI2 TU Berlin3伦敦玛丽皇后大学4HU Berlin摘要本文提出了一种基于综合分析的方法，用于对具有任意材质和光照的不透明物体进行快速多视角三维重建。最先进的方法使用神经表面表示和神经渲染两者虽然灵活，但神经表面表示是优化运行时的一个重要瓶颈。相反，我们将表面表示为三角形网格，并围绕三角形光栅化和神经着色构建可区分的渲染管道渲染器用于梯度下降优化，其中三角形网格和神经着色器联合优化以再现多视图图像。我们在一个公开的3Drepricing- tion数据集上评估了我们的方法，并表明它可以匹配传统基线和神经方法的重建精度，同时在优化运行时超过它们。此外，我们调查了着色器，发现它学习了一个可解释的外观表示，使appli-阳离子，如3D材料编辑。1. 介绍基于多幅图像的三维物体重建是计算机视觉领域的一个长期难题。然而，它已经通过匹配图像之间的像素来实现，通常基于照片一致性约束或学习特征[16，25]。最近，围绕渲染操作构建的分析合成技术已经重新出现，作为重建具有复杂照明、材料和几何形状的场景的有希望的方向[34，36，37，39，41，65]。在其核心，虚拟场景的参数被优化，使得来自输入相机视图的其渲染外观与相机图像匹配。如果重建集中在固体对象上，则这些参数通常包括对象表面的表示。在基于梯度下降的优化中，表面的合成分析方法根据*同等贡献图1.我们通过同时变形三角形网格和优化神经着色器，将渲染结果与输入图像进行比较，从图像中重建对象。可微分的渲染操作。对光传输进行物理建模的方法通常建立在光和材料模型等先验信息的基础上[35，36]。通常用三角形网格表示物体表面并使用可微分路径跟踪器（例如，[29，42，67]），以共同优化几何形状和参数，如光位置或材料漫反射。由于固有的先验性，这些方法不能推广到任意场景。其他方法代之以用神经网络[41，43，64]对渲染操作建模，即，材料、几何形状和光的相互作用被部分或全部编码在网络权重中，而没有任何明确的先验。表面通常用隐式函数或更具体的隐式神经表示[33，41，44]表示，其中指示函数由多层感知器（MLP）或任何其他形式的神经网络建模，并以端到端的方式使用渲染网络进行优化。虽然全神经方法在几何形状和外观方面都是通用的，但当前方法表现出过度的运行时间，使得它们对于6188处理大量对象或多视图视频（例如，人类的行为[6，15，50，53，59]）。我们提出了神经延迟阴影（NDS），一种结合三角形网格和神经渲染的快速合成分析方法。渲染流水线受到实时图形的启发，并实现了一种称为延迟着色的技术[7]：首先将三角形网格光栅化，然后通过神经着色器处理像素，该着色器对几何形状，材料和光线的交互进行由于渲染管道（包括光栅化和着色）是可区分的，因此我们可以使用梯度下降优化神经着色器和表面网格（图1）。显式几何表示实现快速收敛，而神经着色器保持模型化外观的一般性由于三角形网格是无处不在的支持，我们的方法也可以很容易地与现有的重建和图形管道集成。我们的技术贡献包括：• 基于三角形网格和神经着色的快速合成分析管道，可处理任意照明和材料• 我们的方法的运行时分解和最先进的神经方法• 神经着色器及其参数2. 相关工作2.1. 多视点网格重建有大量的工作基于图像的3D重建不同的几何表示（例如。体素网格、点云和三角形网格）。在这里，我们将只关注输出网格的方法，并参考Seitz等人。[51]关于其他方法的概述。照片一致性。在过去的几十年中，多视图方法主要利用图像之间的照片一致性这些方法中的大多数在提取（并进一步细化）网格之前遍历不同的几何表示（如深度图或点云），例如，[第二、五、十三、十四、20、54、58、60]。一些方法直接估计一个网格通过变形或雕刻一个初始网格（例如.视觉外壳），同时基于交叉图像一致性使能量最小化[10最近，学习的图像特征和神经形状先验已用于驱动网格变形过程[30，62]。我们的方法是类似于全网格为基础的方法在这个意义上，我们不使用中间的几何表示。然而，我们也没有对图像中的对象外观施加严格的假设，这使得我们能够处理非朗伯表面和变化的光照条件。综合分析。20多年前，Rock-wood和Winget [47]提出了变形网格，以便合成图像与输入图像匹配。他们早期的综合分析方法建立在一个目标函数的基础上，该目标函数与我们的目标函数（以及许多现代方法）相似：阴影、轮廓和几何规则化。后来的作品提出了类似的技术（例如，[8，63，66]），但所有这些都假定已知的材料或光参数或用先验信息限制参数空间e.G.通过假设表面上的材料不变。相反，我们优化了虚拟场景的所有参数，并且不假设特定的材料或光模型。优化复杂场景的许多参数，包括几何形状、材质和光线，直到最近才变得实用，可以说是随着微分渲染的出现。可微分路径追踪器已被用于三角形网格的顶部，以不仅恢复几何形状，而且恢复（空间变化的）反射率和光[35，36]，仅从图像。相关技术可以重建透明物体[37]。类似地，我们通过优化具有可微渲染的网格来执行合成分析。然而，我们使用光栅化，不模拟光传输。在我们的框架中，视图相关的外观是由神经着色器学习的，它既不依赖于材料或光线模型，也不对采集设置施加约束（例如，摄像机和灯光）。除了从真实世界图像进行网格重建外，最近还将具有可微渲染的合成分析用于基于图像的几何处理[32]和外观驱动的网格简化[19]。与我们类似，这些方法使三角形网格变形以再现目标图像，尽管它们的目标是完全合成的。2.2. 神经绘制和重建在这项工作中，我们将神经渲染理解为训练和使用神经网络从2D输入（例如，语义标签或UV坐标），最近命名为神经渲染已被用作具有神经场景表示的3D重建方法的组成部分。由Mildenhallet al介绍。[39]，神经辐射场是用于3D重建的体积场景表示，其被训练为在沿着从不同视图投射的射线的点处输出RGB值和体积密度。这一观点已被大量的近期作品所采纳[9]。虽然这些方法不是严格基于神经虽然体表示可以处理透明物体，但大多数方法都集中在视图合成上，因此提取的表面缺乏几何精度。Lassner等人[27]提出了一种基于半透明球体的体积表示，该球体使用神经渲染进行着色。与我们相似，他们共同优化几何-6189EF1G EFn图2.我们的优化过程概述我们对三角形网格进行光栅化，并使用神经网络对结果进行着色，以合成每个输入相机视图的图像着色器基于渲染图像和输入图像之间的差异进行更新，而网格顶点也基于轮廓和几何正则化项进行更新。我们使用梯度下降进行优化。速度和外观，但它们重建中的大多数细节并不存在于几何体中，而是神经网络中编码的隐式表面是3D反射的另一种流行几何表示，最著名的是占用网络[38，41，43，46]和神经符号距离函数[23，44，61，64]。在这里，曲面是由水平集隐式定义的。对于3D重建，这些几何网络通常使用神经渲染器进行端到端训练，以合成再现输入图像的场景。我们还使用神经渲染来建模外观，但用三角形网格显式表示几何形状，这可以有效地优化并易于集成到现有的图形工作流中。与我们相似，Thieset al. [57]提出一个延迟网格渲染器与神经着色。然而，他们的基于卷积神经网络的渲染器可以最值得注意的是，他们的方法旨在视图合成，因此仅优化渲染器权重，而网格顶点保持不变。3. 方法给定来自校准的相机的图像集合I={I1，...，In}和对应的掩模M={M，...，M}，Faithfully reproducing the images via rendering requiresan estimate of the surface material and illumination ifwe simulate light transport, e.g.一个可微的路径跟踪器[29，42]。然而，由于我们的重点主要是几何形状，我们不准确地估计这些数量，从而也避免了材料和光模型所施加的限制相反，我们提出了一个可区分的网格渲染器，实现了延迟着色管道，并处理任意材质和灯光设置。在其核心，可微分光栅化器产生每个视图的几何贴图，然后由学习的着色器处理。有关概述，请参见图23.1. 神经延迟阴影256 256 2562621283RGB图3.神经着色器的架构。位置x通过位置编码（PE）[55]进行变换，并通过3个完全连接的层。得到的特征向量是concate-我们想要估计图中所示物体的3D表面图像. 为此，我们遵循分析合成方法：我们找到一个表面，再现图像时，从相机的意见。在这项工作中，表面由三角形网格=（V，、），由顶点位置V、一组边和一组面组成。我们使用梯度下降来解决优化问题，并根据将网格渲染与输入图像进行比较的目标函数逐渐使网格变形以表面法线n和视图方向ωo为单位，并由最后两层处理，产生颜色值。我们对隐藏层使用ReLU激活，对最后一层使用sigmoid激活。我们的可微分网格渲染器遵循来自实时图形的延迟着色管道的结构：给定相机i，网格在第一遍中被光栅化，产生三角形索引和每个像素的重心坐标。这153PE6190∈nG·∈2F∈|我|∥·∥我正常正常|F¯|JI1信息被用来插入顶点位置和顶点法线，创建一个几何缓冲区（g-buffer），每个像素的位置和法线。在第二遍中，g缓冲区由学习的着色器fθ（x，n，ωo）∈[0，1]3（1），参数为θ. 着色器返回RGB颜色值对于给定的位置x∈R3，法线n∈R3，且视图di-彩色图像I_0i也是神经着色器的函数（或者更准确地说是其参数θ）。将阴影与轮廓目标分离主要有性能方面的原因：对于相机视图i，光栅化考虑图像中的所有像素，在计算掩模Mi之前是便宜的。howwev er，shadingi ng更复杂，需要在光栅化后为所有像素调用神经着色器，这是一个昂贵的操作，反应ωo=ci−x，其中cici− x∈R3是摄像机i的中心。气实际上，我们只对内部在比较时，输入和渲染遮罩的交集它封装了外观，即，几何形状、材料和光的相互作用以及相机像素响应，并且与几何形状一起被优化。我们将着色器表示为浅层多层感知器，θ作为全连接层的参数（图3）。在这种情况下，已经表明，提供法线和视图方向与位置对于从外观中分离几何形状是必要的[64]。除了彩色图像外，渲染器还生成一个遮罩，用于指示像素是否被网格覆盖。3.2. 目标函数找到形状和外观的估计形式上对应于解决我们框架中的以下最小化argminLappearancee（G，θ;I，M）+Lgeometry（G），（2）为所有像素设置轮廓。此外，我们还限制了在每个梯度下降迭代中考虑的相机视图的数量3.2.2几何正则化在每次迭代中不受约束地简单移动顶点我们使用的几何regularization-灰长期，有利于光滑的解决方案，并受到Luan等人的启发。【36】：L几何= L拉普拉斯+L正规。（六）设VRn×3是一个以顶点位置为行的矩阵，拉普拉斯项定义为Llaplacian=λlaplacian1<$$>δ<$2，（7）其中，L外观将估计表面的渲染外观与相机图像进行比较，并且L几何结构调整网格以避免不期望的顶点配置。哪里ni2i=13.2.1外观外观目标由两个项L外观=L阴影+L轮廓，（3）其中阴影项|我|δi=（LV）i∈R3（8）是顶点i的微分坐标[1]，LRn×n是网格的图拉普拉斯算子，2是欧氏范数。直觉上，通过最小化一个顶点的差分坐标的大小，我们最小化它到它的邻居的平均位置的距离。正态一致性项定义为Lshading=λshading1λshadingIi=1-我...（四）L=λ1Σ（1−n·n），（9）确保着色器I产生的彩色图像与输入图像和轮廓项|M|其中<$是共享一条边的三角形对的集合，niR3是三角形i的法线（在三角形的任意排序下）。它计算余弦相似度L轮廓=λ轮廓1μM-M（五）在相邻面法线之间，并强制附加|M|i=1确保渲染的掩码M_i与所有视图的输入掩码匹配。这V，θ我1（i，j）∈F<$我我6191里，1表示图像中所有像素的平均绝对误差。通常，掩模M_i是几何形状G和相机i的参数的函数平滑度虽然一些先前工作（例如，[32，36]）使用El Topo[4]进行稳健的网格演化，我们发现我们的几何正则化充分避免了退化顶点配置。没有El Topo，我们无法处理拓扑变化，但可以避免其对运行时性能的影响。6192参考COLMAPIDR我们的（初始）我们COLMAPIDR我们×1050图4. DTU数据集上的定性比较。左：参考几何体和重建结果。右：参考扫描和重建网格之间的点到网格距离。3.3. 优化我们的优化从一个初始网格开始，该网格是COM-表1.从DTU数据集对物体进行多视图重建的定量结果倒角分数以毫米为单位，COLMAP运行时用于trim 7配置。[28]这是一种视觉上的视觉效果。Al-或者，它可以从定制网格开始扫描[64]第64话：我的世界，我的世界trim7（trim0）与之前的工作类似，我们对几何体使用了一个由粗到细的方案：从一个粗略的三角网格，我们逐步提高其分辨率在优化过程中。由Nicoletet et al启发。[40]我们用Botsch和Kobbelt [3]的方法重新网格化表面，在固定的迭代中多次将平均边长减半。在网格上采样之后，我们还将正则化项的权重增加了4，并将顶点的梯度下降步长减少了25%，我们根据经验发现这有助于提高高度细分网格的平滑度由于几何正则化中的一些量（例如，图拉普拉斯算子）只依赖于网格的连通性，我们通过在上采样后预先计算一次并在之后的迭代中重用它们来节省时间。4. 实验结果我们在自动微分框架PyTorch [45]的顶部实现了我们的方法，并使用ADAM[24]优化器进行基于动量的梯度下降。我们的微分渲染管道使用高性能的原语Laine等人。[26]第10段。在我们的实验中，我们运行了2000次梯度下降迭代，并在500、1000和1500次迭代后重新网格化。我们每次迭代随机选择一个视图来计算外观项并对75%的遮罩像素进行着色。单个客观项的加权值为λshading=1、λsilhouette=2、λlaplacian=40和λnormal=0。1.一、所有时间测量均在配备Intel Xeon的Windows工作站上进行32个2.1 GHz CPU、128 GB RAM和一个NVIDIA TitanRTX GPU（带24 GB VRAM）。↓倒角-L1↓时间[min]↓倒角-L1↓时间[min]↓倒角-L1↓时间[min]240.45（0.81）66.811.58551.834.2412.24370.90（2.03）81.192.06566.135.257.56400.36（0.75）65.470.75550.191.3010.69550.36（1.20）64.710.43565.270.537.54630.90（1.75）75.621.06553.072.476.18650.94（1.55）62.620.79568.411.229.95690.53（1.02）86.770.68557.581.359.64831.16（3.03）77.961.38745.181.594.76971.08（1.42）50.891.17743.112.777.321050.63（1.96）51.590.88742.311.157.001060.48（0.99）108.010.63735.231.027.411100.58（1.33）85.870.99752.943.186.681140.31（0.50）88.390.37730.500.627.991180.44（0.78）105.750.50748.601.656.771220.43（1.17）80.800.52747.900.915.76是说0.64（1.35）76.830.92657.221.957.834.1. 3D重建我们证明，我们的方法可以用于多视图三维重建。从一个粗糙的视觉外壳状网格开始，它迅速收敛到对物体表面的合理估计。我们在DTU多视图数据集[22]上测试了我们的方法，其中对象选择和掩模来自先前的工作[41，64]。我们将结果与两种方法进行比较：（1）C OLMAP [48，49]，一种用作基线的传统SfM流水线，以及（2）IDR [64]，一种使用神经符号距离函数作为几何表示的最先进的合成分析方法。默认情况下，我们的COLMAP结果包括修剪（trim7），我们显式指示未修剪的结果（trim0）。图4显示了来自DTU数据集的两个对象的定性结果，表1包含所有对象的定量结果。我们使用官方DTU评估脚本来生成Chamfer-L1分数，并对所有工作流进行时间测量（包括数据加载时间）的基准测试。对于IDR和我们的方法，我们禁用了任何中间可视化。mm6193在绝对值（毫米）方面，我们的方法的重建精度接近传统的基线和最先进的神经方法。虽然COLMAP可以准确地重建许多表面，但只有IDR和我们的方法可以正确处理由视图相关效应（例如，非朗伯材料）并产生可以保持未修剪的防水表面。当使用COLMAP而不进行修剪时，反射变得更完整，但对于某些对象，它不如我们的准确我们的方法是有限的拓扑结构和属的初始网格，因此不能捕捉一些几何细节，可以恢复更灵活的表面表示。我们还观察到，我们的表面通常不像IDR那样光滑，凹陷区域也不那么突出。后者可能与我们的几何正则化引起的网格刚度有关。另一方面，我们的方法明显更快：在默认配置中，大约比C OLMAP快10倍，比IDR快80倍。由于迭代次数是IDR和我们的方法的超参数（并且也具有不同的语义），因此我们显示了两者的公平比较的相等时间结果（图5）。我们的方法快速收敛到一个详细的估计，而IDR只能在同一时间恢复即使在50分钟后，IDR仍然缺乏我们结果中的细节。表2.IDR和我们的方法的一个梯度下降迭代的平均运行时间几何渲染时间不包括阴影，对应于IDR的光线行进2048像素，在我们的情况下光栅化到190万像素。IDR NDS（我们的）时间[s] 共享时间[s]share梯度下降迭代0.3577 100% 0.1561百分百几何渲染0.2099 58.7% 0.0034 2.2%SDF评估0.1472 70.1%改变网络，从而切换到更浅的神经表示可能是减少运行时间的一种方法剩下的时间花在像根查找这样的操作上，这可以通过更优化的实现来加速。然而，梯度下降迭代中的运行时间差异不能成为我们快速收敛的唯一原因。尽管IDR中的迭代需要两倍的时间，但它需要两倍以上的总时间来显示相同的级别我们的方法（见图5）。在我们的方法中，我们注意到在网格上采样之后，更精细的细节很快出现在几何体中。因此，我们的快速收敛时间可能部分地与我们可以用更精细的镶嵌局部地增加几何自由度的事实有关，而IDR和类似的方法对几何分辨率没有明确的4.2. 网格细化1分钟10分钟50分钟图5.等时重建。我们认为10分钟后我们的结果是一致的。即使在50分钟之后，IDR也缺乏我们重建中存在的细节（例如，羽毛和眼睛）。由于IDR和我们的方法具有相似的结构，即，两者都执行合成分析，并使用梯度下降来共同优化形状和外观，我们可以更详细地比较运行时间。表2显示了一个梯度下降迭代的运行时间（请参阅补充材料以获得我们运行的完整分解）图像图6.从已建立的多视图重建管道中细化网格。显示了32个图像中的4个时间）。IDR中的迭代大约需要两倍的时间，在我们的方法中，大部分时间花在了光线行进隐式函数上。相比之下，在我们的方法中，用于光栅化三角形网格所花费的时间可以忽略不计IDR中的大部分射线行进时间可以归因于评估，许多基于照片一致性的重建工作流程非常成熟，建立并提供高质量的结果。然而，他们可能会失败的挑战材料或不同的光线条件下，跨图像，生产平滑输出作为一个妥协的错误，在照片一致的匹配。初始成品IDR我们6194.Σ× ×→→由于我们的方法可以从任意三角形网格开始，我们提出了传统管道输出的细化作为一个可能的应用。然后，我们的方法作为一个后处理步骤，改善给定的几何或它的一部分与全球多视图约束。我们在人体数据集上演示了此应用程序，该数据集包含由32个摄像机捕获的人体受试者的360°图像和来自传统3D重建管道的网格[50]。图6示出了两个人的头部的细化结果。我们使用1000次迭代并对网格进行一次上采样。由于初始网格已经是真实表面的良好估计，但神经着色器是随机初始化的，因此我们重新平衡梯度下降步长，以便着色器比几何体更快地进行。我们能够恢复在初始重建中丢失的细节。非常精细的细节，如面部毛发，仍然具有挑战性，并导致在我们的细化网格轻微的噪音。4.3. 神经着色器原始渲染渲染渲染（固定网格）(new查看）图7.输入视图和新视图的视图合成。通过对重建后的网格进行固定，并继续进行着色器优化，可以进一步提高视图合成的效果。虽然恢复几何是我们工作的主要重点，但在优化后研究神经着色器可能会深入了解重建过程和网络中编码的信息。图7显示，使用经过训练的着色器进行渲染可用于基本视图合成，为输入视图和新视图生成合理的结果。因此，着色器似乎学习了一种有意义的外观表示，与几何体分离。如果需要，视图合成质量可以通过继续优化着色器同时保持网格固定来进一步提高。神经着色器是两个函数的组合（图3）fθ（x，n，ωo）=c h（x），n，ωo，（10）其中h：R3R256将3D空间中的点变换为位置特征，并且c：（R256R3R3）[0，1]3然后提取视图相关的颜色。这两个函数分别依赖于参数θh和θc为了进一步分解着色器的行为，我们对h中的位置特征执行了主成分分析图像特征投影材质编辑图8.着色器的位置功能的主成分分析我们展示了两个最大主分量的投影在计算视图相关颜色之前替换位置潜在空间中的特征可以实现简单的材质编辑。黄色方块（裤子材质）处的特征向量确定被绿色方块（胡须材质）处的特征向量替换的区域。并将它们投射到两个主要分量（图8）。着色器自然地学习具有相似材质的区域的相似位置特征，而不管它们在空间中的距离。照明的变化似乎也被编码在位置特征中，因为阴影区域与相同材料的暴露区域具有略微不同的特征。我们通过替换位置潜在空间中的特征向量，然后用函数c提取颜色来研究视图相关部分的行为。更具体地说，我们将代表一种材料的所有特征替换为代表另一种材料的特征（图8）。结果表明，函数c合理地推广到与替换特征组合时未遇到的视图和法线方向，这在该示例中导致网格的几何特征仍然可感知，从而允许简单的材料编辑。4.4. 消融研究我们对神经着色器的位置相关部分使用不同的编码和网络大小进行在图9中，我们显示了使用位置编码（ PE ） [55] ，高斯傅立叶特征（ GFF ） [55] ， si-nusoidal激活（SIREN）[52]和具有ReLU激活的标准MLP虽然这些方法中的一些可以生成可接受的渲染，但它们不一定保证更清晰的几何。特别是，我们观察到，虽然用SIREN或GFF渲染的图像具有尖锐的特征，但网格的几何细节不够充分。一种可能的解释是，网络可能会快速过拟合，并仅在出现时补偿几何误差相反，如果没有位置编码，找到移动网格顶点的正确方向可能会更加困难。在我们的实验中，我们已经获得了准确的重建使用位置编码与46195PE4（Ours）PE10 GFF ReLU SIREN图9.消融位置特征和激活功能的不同编码请注意，猫头鹰的耳朵只出现在少数视图中，而不是参考几何体的一部分，因此在比较中不考虑对于ReLU和SIREN，我们不使用编码。[39]这是一个非常好的例子。我们还研究了不同网络尺寸对几何形状和外观的影响虽然结果之间没有显著差异，但我们观察到，少于2层或每层超过512个单元的配置导致较少的几何细节。初始几何结构和目标函数的其他消融研究也可在附录中找到。5. 总结发言我们已经提出了一个快速分析合成流水线从多个图像的三维表面重建。我们的方法联合优化三角形网格和神经着色器作为几何和外观的表示来再现输入图像，从而将三角形网格优化的速度与神经渲染的通用性相结合。我们的方法可以匹配国家的最先进的方法在重建的准确性，但显着更快的平均运行时间低于10分钟。使用三角形网格作为几何表示，使我们的方法与许多传统的重建工作流程完全兼容。因此，代替替换完整的重建架构，我们的方法可以被集成为一部分，例如，细化步骤。最后，对神经着色器的初步分析表明，它以一种自然的方式分解外观，这可以帮助我们理解神经渲染和启用简单的方法来改变场景外观（例如，用于材料编辑）。局限性和未来的工作。虽然三角形网格是一种简单快速的表示方法，但将其鲁棒地用于可微分渲染的3D重建仍然具有挑战性。我们目前避免不需要的网格配置（例如，self-intersects）与仔细加权的几何正则化器，其将优化转向平滑解决方案在平滑度和渲染项之间找到适当的平衡并不总是那么简单，可能需要针对自定义数据进行微调。在这方面，我们对整合最近的工作感到兴奋，这些工作提出了梯度预处理而不是几何正则化[40]。拓扑结构的变化是一个挑战，大多数基于网格的方法，包括我们的，计算昂贵的处理（例如。 [4]第四节：同样，自适应重构感知细分优于标准重新网格化，可能包括学习先验[31]。代替直接移动顶点，（部分预先训练的）神经网络可以驱动变形[17，18]，使其更有效，细节感知，并且更少依赖于几何正则化。虽然神经阴影是我们系统的一个强大组成部分，允许我们处理非朗伯表面和复杂的照明，但它也是可解释性的主要障碍。网络架构变化的影响只能通过仔细的实验来评估，并且黑盒着色器通常以非直观的方式表现。我们通过实验提供了初步的见解，但也认为需要进行更彻底的分析。或者，物理光传输模型可以与更专门的神经组件（例如，辐照度或材料）以隔离它们的影响。在这种情况下，包含学习到的先验知识的预训练组件似乎也是一个有希望的方向。虽然着色器在理论上可以处理任意材质和灯光，但这种说法需要更多的调查。一个可能的途径是对人工场景进行详尽的实验，从最简单的情况开始（它能处理完美的朗伯曲面吗？）。确认这项工作是INVICTUS项目的一部分，该项目根据第952147号赠款协议从欧盟的地平线2020研究和创新计划中获得资金6196引用[1] 马克·亚莉克莎局部网格变形和变形的微分坐标。TheVisual Computer，19（2）：105-114，2003. 4[2] David C. Blumenthal-Barby和Peter P.基于双目图像的高分辨率深度建模。计算机。Graph. ，39：89-100，Apr.2014. 2[3] Mario Botsch和Leif Kobbelt多分辨率建模的网格重划分方法。在 2004 年 Eu-rographics/ACM SIGGRAPHSymposium on Geometry Processing，SGP'04，第185-192页，New York，NY，USA，2004的会议录中。计算机协会。5[4] 泰森·布罗楚和罗伯特·布赖森。动态显式曲面的鲁棒拓扑 SIAM Journal on Sci-entific Computing ，31（ 4 ）：2472-2493，2009. 四、八[5] 尼尔 ·DF. Campbell ， Geor geVogiatzis ， CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视点立体的深度图。在David Forsyth、Philip Torr和AndrewZisserman，编辑，Computer Vision-ECCV施普林格柏林海德堡。2[6] Alvaro Collet 、 Ming Chuang 、 Pat Sweeney 、 DonGillett 、 Dennis Evseev 、 David Calabrese 、 HuguesHoppe、Adam Kirk和Steve Sullivan。高质量的可流式传输的自由视点视频。ACM事务处理图表，34（4），2015年7月。2[7] Michael Deering ， Stephanie Winner ， Bic Schediwy ，Chris Duffy和Neil Hunt。三角形处理器和法线向量着色器：一种高性能图形的超大规模集成电路系统。在第15届计算机图形和交互技术中，SIGGRAPH计算机协会2[8] 阿梅尔·德劳恩，伊曼纽尔·普拉多斯，帕乌·加·加·阿洛·皮拉奇，让·菲利普·庞斯和彼得·斯特姆。最小化三角形表面网格的多视立体重投影误差。作者：MarkEveringham，Chris J. Needham和Roberto Fraile，编辑，BMVC 2008 -英国机器视觉会议，第1-10页，英国利兹，9月。2008. BMVA。2[9] Frank Dellaert和Yen-Chen Lin。神经体积绘制：纳夫和超越。CoRR，abs/2101.05204，2021。2[10] C.H. Esteban和F.施密特三维物体建模中的轮廓与立体融合。2003年第四届三维数字成像与建模国际会议。3DIM 2003。诉讼，第46-53页，2003年。2[11] Pascal Fua和Yvan G Leclerc.以对象为中心的曲面重建：结合多图像立体和着色。 International Journal ofComputer Vision，16（1）：352[12] 古川康孝和让·庞塞。用于基于图像的建模的雕刻可视外壳。第81卷，第5642[13] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis andMachine Intelligence，32（8）：13622[14] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。2015年IEEE计算机视觉国际会议（ICCV），第873-881页，2015年。2[15] Kaiwen Guo ， Peter Lincoln ， Philip Davidson ， JayBusch ， Xueming Yu ， Matt Whalen ， Geoff Harvey ，SergioOrts-Escolano ， RohitPandey， JasonDourgarian，Danhang Tang，Anastasia Tkach，AdarshKowdle ， Emily Cooper ， Ming-song Dou ， SeanFanello，Graham Fyffe，Christoph Rhemann，JonathanTaylor，Paul Debevec，and Shahram Izadi.可重新点燃的：用逼真的重新照明捕捉人体的体积性能。 ACMTrans. Graph. ，38（6），Nov.2019年。2[16] X. 汉，H.Laga和M.本那蒙基于图像的3D物体重建：深度学习时代的最新技术和趋势。IEEE Transactions onPattern Analysis and Machine Intelligence，43（05）：1578-1604，2021年5月。1[17] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn：一个有边缘的网络ACM事务处理图表，38（4），2019年7月。8[18] Rana Hanocka，Gal Metzer，Raja Giryes和Daniel Cohen-Or。Point2mesh：可变形网格的自先验。ACM事务处理图表，39（4），2020年7月。8[19] Jon Hasselgren ， Jacob Munkberg ， Jaakko Lehtinen ，Miika Aittala，and Samuli Laine.外观驱动的自动三维模型简化。在Adrien Bousseau和Morgan McGuire，编辑，欧洲图形研讨会渲染-仅DL跟踪。欧洲图形协会，2021年。2[20] 武晃协，雷诺·克里文，帕特里克·拉巴图，让-菲利普·庞斯.向着高分辨率、大规模、多视点立体化方向发展。2009年IEEE计算机视觉和模式识别会议，第1430-1437页，2009年。2[21] 伊西德罗和斯克拉罗夫。随机细化的视觉外壳，以满足光度和轮廓一致性约束。在Proceedings Ninth IEEEInternational Conference on Computer Vision，第2卷，第1335-1342页，2003年。2[22] Rasmus Jensen、Anders Dahl、George Vogiatzis、EngilTola和Henrik Aanæs。大比例尺多视立体视觉评价。2014年IEEE计算机视觉和模式识别会议，第406-413页。IEEE，2014。5[23] Petr Kellnhofer ， Lars Jebe ， Andrew Jones ， RyanSpicer，Kari Pulli和Gordon Wetzstein。神经亮度图渲染。在CVPR，2021年。3[24] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪程序，2015年。5[25] 放大图片作者：Hamid Laga，Laurent Valentin Jospin，F.布赛德，和莫·哈默德·本那蒙。基于立体声的深度估计的深度学习技术综述IEEE Transactions on PatternAnalysis and Machine Intelligence，第1-1页，2020年。1[26] Samuli Laine、Janne Hellsten 、Tero Karras 、Yeongho6197Seol、Jaakko Lehtinen和Timo Aila。用于高性能微分渲染的模块化图元。ACM Transactions on Graphics，39（6），2020。5[27] Chris t ophLassner和MichaelZollh o？fe r. Pulsar：基于球体的神经渲染。arXiv：2004.07484，2020。26198[28] A.劳伦蒂尼基于轮廓的图像理解的视觉外壳概念。IEEE Transactions on Pattern Analysis and MachineIntelligence，16（2）：150-162，1994。5[29] Tzu-MaoLi ， MiikaAittala ， Fre´ doDurand ， andJaakkoLehti-nen.通过边缘采样的可微蒙特卡罗射线追踪。ACM 事务处理图表（ Proc. SIGGRAPH Asia ）， 37（6）：222：1-222：11，2018. 第1、3条[30] 放大图片作者：Chen Hsuan Lin，Oliver Wang，Brian C.放大图片创作者：George G.金马修·费舍尔和西蒙·露西视频对齐三维物体重建的光度网格优化。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[31] 作者：Hsueh-Ti Derek Liu，Vladimir G.金，悉达多·乔胡里，诺姆·艾格曼，亚历克·雅各布森.神经细分。ACM事务处理图表，39（4），2020年7月。8[32] Hsueh-Ti Derek Liu，Michael Tao，and Alec Jacobson.Pa- pa

下载后可阅读完整内容，剩余1页未读，立即下载