多视图重建的深度自动编码器视觉外壳

99 浏览量更新于2023-10-13 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

关键词：多视图重建;深度自动编码器视觉外壳从最小的摄像机视点Andrew Gilbert1，Marco Volino1，John Collomosse1， 2，Adrian Hilton11萨里大学视觉、语音和信号处理中心2Adobe Research抽象。我们提出了一个卷积自动编码器，使高保真度的体积重建的人类表现被捕获的多视图视频，包括只有一小组的相机视图。我们的方法产生类似的端到端的重建误差的概率视觉外壳计算使用显着更多（双或更多）的观点。我们使用了一个深度的先验隐式学习的自动编码器训练的数据集的视图消融多视图视频片段的广泛的主题和行动。这开辟了在时间或成本禁止高见证相机数量的现场和生产者场景中进行高端体积性能捕获的可能性。图1.一、两个高保真度的字符模型（JP，魔术师），其中3D几何完全重建，只有两个宽基线相机的意见，通过我们提出的方法。1介绍从多视图视频采集的基于图像的模型重建正在使创意产业中的内容生产的新形式成为可能。特别地，三维（3D）中的人类表现的捕获使得能够从任意视点进行渲染（自由视点视频渲染- FVVR）[1-3]并且在沉浸式VR/AR体验内进行照片般逼真的回放。商业工作室现在操作用于捕获体积（e. G.在混合现实捕获工作室（旧金山，伦敦）[4]和英特尔工作室（洛杉矶），这两个工作室都利用了超过100个摄像机视图。5m3捕获体积。虽然能够重建性能的详细3D模型，但是这样的配置不能扩展到现场部署，其中实际约束限制了可部署的见证摄像机的数量（例如：G. 由于成本或索具开销）。本文的贡献在于探讨是否2A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿可以将深度学习的先验结合到体积重建中，以最小化采集时所需的视图数量具体来说，我们第一次调查卷积自动编码器架构，通常应用于视觉内容的去噪和放大（超分辨率），可以适应于增强从几个宽基线摄像机视点导出的体积重建的保真度我们描述了一种具有3D卷积级的对称自动编码器，能够细化概率视觉外壳（PVH）[5]I. e. 从一小组视图导出的体素占用数据幻觉的PVH近似相等的保真度，从相同的性能，捕获显着更大（两倍或更多）的相机视点（图）。①的人。这将体积捕获的使用场景的空间扩展到具有低相机计数的阶段、成本类似地限制可用相机视图的数量的生产者场景、或由于相机放置和成本（诸如体育赛事）的限制而不可能进行体积捕获的设置[6]。2相关工作体积性能捕获流水线通常融合来自多个宽基线视点[1，7]的图像，这些视点在捕获体积周围均匀分布。最初，通过融合跨视图的轮廓来获得体积占用的估计，以获得体积的“体积”[8]或“体积”[9]。随后，重新匹配和体积优化融合外观数据，以细化体积估计，最终产生纹理网格模型[3，10]。在视频的情况下，应用4D对齐步骤以随时间推移符合3D网格拓扑[11]。重构误差可以通过将误差在时间上传播通过软i来减轻e. 概率视觉外壳（PVH）[5]估计。或者在可行的情况下，通过增加摄像机视图的数量，因为视图稀疏性限制了解析精细体积细节的能力，导致引入体模体积。形状细化和孔洞填充已经使用LSTM和3D卷积模型[12]进行了探索Wu [13]的3D ShapeNets学习了任意姿势的3D对象的分布，并且能够自动发现分层组成部分表示，用于对象识别和形状完成，而Sharma学习了对象的形状分布，以增强损坏的3D形状[14]我们的工作受到当代超分辨率（SR）算法的启发，该算法应用所学的先验知识来增强图像中的视觉细节。图像恢复和SR的经典方法结合了多个数据源（例如：G.在子像素未对准处获得的多个图像[15]，在正则化约束e内融合这些图像。G.总变差[16]。SR还通过景深应用于显微镜[17]中的体积数据，以及通过稀疏编码应用于多光谱传感数据[18]最近，深度学习已经以卷积神经网络（CNN）自动编码器的形式应用于图像[19，20]和视频放大[21]。对称自动编码器有效地学习干净图像和合成噪声图像之间的图像变换[22]，并且在降噪方面是有效的G.由于从最小的摄像机视点捕获体积性能3图二.概述和自动编码器架构。使用最小相机视图（a）捕获的粗PVH（b）经由3D卷积层和全连接层（c）被编码为潜在表示解码器使用潜在表示来合成具有相同大小但改善的保真度（d）的输出PVH，其随后被网格化和纹理化以产生表演捕获模型;网格/纹理（e）不是本文的贡献。编码器-解码器在训练期间使用粗略和Hi-Fi PVH体积的示例性PVH对来优化。涉及图像压缩。类似地，Dong [23]训练端到端网络来学习图像放大。虽然我们共享学习深度模型以增强细节的高级目标，但我们的我们正在处理体积（PVH）的数据，并寻求不扩大规模（增加分辨率），在SR，而是，增强一个恒定大小的体素网格内的细节，以模拟的好处，有额外的观点，在形成的PVH。这激发了对替代（3D）卷积架构和训练方法的探索。3最小摄像机体积重建我们的方法的目标是学习一个生成模型的高保真3D体积重建给定的低数量的宽基线相机视图。我们首先描述了用于使用从使用不同相机计数获得的性能的全体积重建（PVH）采样的子体积对的训练集来学习该模型的卷积自动编码器架构（Sec.第3.1节）。通过使用PVH，我们能够处理宽基线视图，这将导致基于对应的方法失败。我们的过程中，用于改善PVH回声的阶段，在传统的图像去噪。首先，预处理步骤（改编自[5]）使用有限数量的相机重建粗略的PVH这种低质量的结果将包含幻肢和块状假阳性体素（图1）。第2b段）。接下来，经由一系列卷积层对PVH的潜在特征表示（类似于传统流水线中的低保真度图像）进行深度编码然后，我们执行非线性映射，将潜在特征空间解码为高保真度PVH（类似于高保真度图像）。使用密集重叠的子体积以分段方式执行重建。这减轻了在具有大的接收（体积）场的网络上训练和推断的不稳定性和存储器约束（第二节）。3.2）。高保真4A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿2PVH然后被网格化和纹理化，具有来自摄像机视图的外观数据，产生视频逼真的角色模型（第2节）。3.3）。请注意，最后阶段不是本文的贡献，而是我们使用Casas等人的方法证明了PVH细化的好处。[3]但是任何纹理网格化管道都可以作为后处理来替代。3.1容积式自动编码器我们希望在给定输入张量VL∈RXXYXZX 1的情况下学习深度表示，其中单个通道对从使用低相机计数获得的PVH导出的体积占用概率p（X，Y，Z我们希望训练一个深度表示来解决预测问题VH=F（VL），用于类似编码的张量VH∈RXX XYXZX 1，该张量是从使用更高相机计数获得的相同维度的更高保真度PVH导出的函数F是使用CNN学习的，具体地，卷积自动编码器由连续的三维（3D）交替卷积滤波操作和利用非线性激活层的下采样图2示出了我们的架构，其具有对称结构，具有桥接沙漏编码器-解码器级的跳过连接，完整的网络参数是：[2019 - 04 - 28][2019 - 04 - 28]nd=[256，128，128，64，64]ke=[3，3，3，3，3]kd=[3，3，3，3，3]ks=[0，1，0，1，0]NumEpoch = 10其中k[i]指示内核大小，并且n[i]是分别用于编码器（e）和解码器（d）参数的层i处的滤波器的数量。两个跳过连接的位置由s指示，并且将两组卷积层链接到它们对应的镜像上卷积层。所传递的卷积特征图被逐元素地求和到上卷积特征图，并且在校正之后被传递到下一层。中央全连接层对100-D潜在表示进行编码。学习从少量相机视点生成的块状体到更干净的高保真度体的端到端映射，就好像由更多数量的相机视点制成一样，需要估计由卷积和去卷积内核表示的F中的权重Φ具体地，给定N个训练样本对xi，zi的集合，其中xi∈VL是低相机计数体积的实例，并且zi∈VH是作为地面实况提供的高相机计数输出体积，我们在N=XXYXZ体素上最小化解码器的输出处的均方误差（MSE）：1ΣNL（φ）=N i=1F（xi：φ）− zi（一）从最小的摄像机视点捕获体积性能5Vxvv为了训练F，我们使用Adadelta [24]--Adagrad的扩展，其寻求减少它的聚集度，从而增加线性度，将累积的过去梯度的宽度重新限制到某个固定大小w。考虑到由于使用补丁而导致的数据量和数据变化，该方法收敛所需的时期数量很小，大约为5到10个时期。跳过连接图像恢复任务中的更深网络可能会受到性能下降的影响。给定增加的卷积层数量，更精细的图像细节可能丢失或损坏，因为给定紧凑的潜在特征抽象，所有图像细节的恢复是欠确定的问题。这个问题是激怒了需要重建额外的维度在体积数据中。更深的网络也经常遭受梯度消失的问题，并且变得更难训练。本着高速公路[25]和深度残差网络[26]的精神，我们在两个相应的卷积和去卷积层之间添加跳过连接，如图所示二、这些连接通过前馈较高频率内容来减轻细节损失，以使上卷积级能够恢复更清晰的音量。跳过连接也有利于向较低层的反向传播，增强了训练的稳定性。我们提出的跳过连接与最近的图像恢复工作[25，26]中提出的不同，这些工作涉及更多的问题。因此，我们将每两个卷积层的值作为其镜像上卷积层的实际值，3.2体积重建和采样使用[5]的变型来重构低保真度输入PVH（VL）。我们假设由有限数量C的相机视图观察到的捕获体积c=[1，C]，其中外部参数{Rc，COPc}（相机取向和焦点）和固有参数{fc，ox，oy}（焦距，和2D光学参数C c中心）是已知的，并且对于它们，软前景遮罩可从每个中心获得。使用背景减除BG的相机图像Ic。工作室捕获体积被精细地抽取为体素Σ Σviv iXy z对于i =[1，. . . 、|V L|];每个体素的大小约为5 mm3。点（xc，yc）是Ic内的点，在给定视图中VLiifcvixx[L]=+〇和y[VLi]=fcviy+oy，其中（2）icicΣ Σz zviv i=COPc−R−1Vi.（三）Xyz c L在给定视图c中，体素是表演者的一部分的概率为：p（V Li|c）= BG（x [V Li]，y [V Li]）。（四）给定体素P（Vl，i）的总体占用可能性为：YCp（VLi）=i=11/（1 +ep（VLi|c））。（五）6A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿我我们计算所有体素的p（VLi）以创建体积 VL的PVH。在实践中，VL的范围限于捕获体积的子体积（3D补丁被密集地采样以覆盖捕获体积，每个补丁在训练和推断时间都独立地通过F类似于先前的图像超分辨率和去噪工作[23]，这使得大捕获体积的处理易于处理，而不需要CNN中过大的感受野或上卷积层计数节中4.1我们评估pΣat chover l ap在放大过程中的差分数据段的影响。为了效率，我们忽略其中p（VLi）= 0的任何贴片3.3网格和纹理给定从网络推断的VH，我们产生“4D”（即，e. 移动3D）性能捕获。为了生成给定帧的网格，使用行进立方体算法将PVH转换为基于顶点和面的网格迭代过程使用具有动态选择的阈值的行进立方体算法[27]将顶点拟合到CNN输出的PVH，从而产生高分辨率三角形网格，其用作用于将场景外观重新采样到纹理上的几何代理。不失一般性，我们纹理网格使用的方法Casas等人。[3]其中虚拟相机视图Ic*通过合成从相机视图I1，…C最接近那个虚拟视点。图3.第三章。用于评估我们的方法的多视图视频数据集的样本4实验与讨论我们评估重建精度的定量改善，以及视觉保真度的定性改善，由于所提出的方法。使用两个公开的多视角视频数据集的人的表现重建精度进行评估;TotalCapture [28]（在360 ◦排列中以60 Hz执行4个动作，重复3次的5个受试者的8个相机数据集）和Human3.6M [29]（在360 ◦排列中以50 Hz执行210个动作的10个受试者的4个相机视图数据集）。纹理模型的感知质量使用公共4D数据集Dan：JumpLong[3]、JP：Flashkick[30]、JP：Lock 2Pop[30]和Magi- cian[31]1进行评估（每个数据集的样本见图3）。1我们使用http://cvssp.org/data/cvssp3d/上公开发布的数据集从最小的摄像机视点捕获体积性能7见图4。使用标准方法（i. e.没有通过我们的方法增强）。PVH是0和1之间的一个问题，可能会导致出现并发症。该数据来自输入到我们的自动编码器，并说明了该数据集（TotalCapture）在C={2，4}与C=8地面实况（GT）时要处理的体模体积和伪影。4.1评价重建精度我们研究的准确性增益，由于我们的方法，通过消融的TotalCapture上可用的一组相机视图。使用使用数据集的所有（C=8）视图获得的高保真度PVH和使用较少视图获得的对应的低保真度PVH（我们针对C=2和C=4随机相邻视图进行训练）来训练自动编码器模型。然后在保持的镜头上测试该模型，以确定它可以从消融的一组摄像机视图重建高保真PVH的程度。该数据集由总共四名男性和一名女性受试者组成，每个受试者进行四种不同的表演，重复三次：ROM，步行，表演和自由式，每个序列持续约3000-5000帧。训练分区和测试分区由wrt形成。对受试者和序列，训练包括对受试者1、2和3的ROM 1、2、3;行走1、3;自由式1、2和动作1、2测试集是受试者1、2、3、4和5的表演Freestyle3（FS3）、Acting（A3）和Walking2（W2）。这种分离允许对看不见的和看过的主题进行单独评价，但总是对看不见的序列进行评价。PVH的取值为z∈R256× 256 ×256。该子卷（“p at c h”）大小为i。 e. 自动编码器的感受野（VL和VH∈Rn×n×n）在n= 1{16， 32， 64}后者是整个体积被缩放的退化情况并通过CNN，实际上是该体积的全局相对于基于补丁的滤波器。以不同程度的重叠对补丁进行采样;每8、16或32个体素密集重叠（表1）。C= 8处的PVH提供用于比较的地面实况，而C={ 2， 4}输入最多覆盖场景的窄90°在通过自动编码器细化之前，消融视图PVH数据显示出幻肢，缺乏细粒度细节，特别是在C= 2时（图4）。这些粗糙体积将不适合于具有纹理的重建，因为它们不反映真实的几何形状，并且当相机纹理被投影到模型上时将导致严重的视觉失准。应用8A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿我们的自动编码器方法来清理和产生与由未减弱的C= 8相机视点产生的体积等效的体积，解决了这个问题。表1量化了C={2， 4}视图PVH数据的未消融体积（C=8）和重建体积之间的误差，在经由自动编码器（输入）增强之前将这些相对于C={2， 4}PVH基线化为了测量性能，我们计算每个序列上占用概率的平均每帧MSE。还示出了增强之前的2和4相机PVH体积，并且我们的结果表明，当2个相机视图用于输入时，通过我们的方法，MSE降低了约4倍，并且对于由4个相机形成的PVH，MSE减半。我们观察到，在主体周围的180◦弧中的C=4比在90◦弧中的C=然而，对于2个摄像机部署提供的大大增加的操作灵活性，性能降低是最小的在所有情况下，MSE都减少了一半以上（最多降低34%），使用我们改进的PVH减少了视图数量。仅使用2台摄像机，就可以产生与从完整360◦C= 8设置重建的体积相当的体积图5中示出了仅使用2个和4个相机视点来构建体积的定性结果，其中尽管在输入PVH中存在幻肢和广泛的假体积，但底线包括越来越宽的基线相机的结果，由45◦，90◦和135◦分开。此外，用步骤8、16和32检查片重叠当以32体素增量采样时，i.e.如果没有任何重叠，则性能明显变差。在图1B中可视化了贴片重叠（16）和非重叠（32）之间的这种区别。7.在所有情况下，当测试可见对象与不可见对象时，性能稍好。Patch NumCams Seen受试者（S1、2、3）Unseen受试者（S4、5）平均值重叠CW2 FS3A3W2 FS3A3输入219.1 28.523.923.4 27.525.224.6输入411.4 16.512.512.0 15.214.211.6825.49 9.986.945.46 9.868.797.751625.43 10.036.705.34 10.058.717.713226.21 12.758.085.98 11.8810.309.20845.01 9.076.484.98 9.818.617.331645.49 9.566.585.12 10.018.817.603245.98 10.027.855.32 10.859.218.28表1. TotalCapture上体积重建的定量性能在我们的方法（输入）之前和之后使用2-4台相机的数据集，与未消融的数据集−使用8台摄像机的地面实况（误差为MSE ×10）.补丁大小为32体素重叠32意味着没有重叠。我们的方法将重建误差减少到基线（输入）的34%，用于2个视图。33从最小的摄像机视点捕获体积性能9图五.增强之前（左）和之后（右）的PVH的定性视觉比较，显示C={2， 4}视图的细节改善（TotalCapture）。假彩色体积占有率（PVH）和地面实况C=8PVH。底线表示通过增加量分隔的不同摄像头对的考虑到TotalCapture上的学习模型可以提高用2-4个视图获取的PVH的保真度，以近似从8个视图重建的PVH，我们探索了相同模型在第二个数据集（ Human3.6M ）上的性能，该数据集仅具有 C = 4 个视图。Human3.6M PVH型号的质量很差，因为在摄影棚的四个角落只有4个机身高度的摄像头，覆盖了相对较大的拍摄区域。这会导致出现虚影零件和重影。在Human3.6M上使用C ={2，4}视图重建的PVH的示例如图1B所示。6（红色）。这些体积的质量较差，即使对于4个摄像机重建，主要是由于摄像机更接近地面，导致更大的遮挡。然而，我们能够在TotalCapture上传输2 ›→ 8和4 ›→ 8视图的训练CNN模型，而无需任何进一步的训练，以使体积产生幻觉，就好像在采集时使用了8个摄像机一样。图6可视化了由于显著减少的体模体积而增强的保真度，否则体模体积将挫败渲染体积的努力。 C = 4的结果提供了更完整的体积，但略微增大。定量地，跨S9和S11的测试数据集，C=2的输入PVH相对于地面实况C = 4PVH的MSE是17。4× 10 −3。然而，在C = 2输入PVH上使用我们训练的CNN模型之后，该MSE降低到12。3 × 10 −3，反映了图6所示的质量改进。10A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿见图6。增强之前（左）和之后（右）的PVH的定性视觉比较，显示来自C={2， 4}视图的细节改善（Human3.6M）。假彩色体积占用率（PVH）和源画面。接受野大小使用密集采样的子体积（块）而不是PVH的全局处理对于R256×256×256的体积的计算易处理性是必要的，因为3D卷积阶段大大增加了训练期间批量的网络参数和GPU内存占用的数量。然而，一个假设可能是，补丁的使用忽略了网络可能正在学习主题的全局上下文，从而增加了错误。因此，我们使用网络在TotalCapture 数据集上进行了一项实验，其中修改的输入向量为z∈R64×64×64 ，因此使每个体素约为30mm3 ，而标准 p∈R32×32×32 ，p∈R16×16×16和p∈R8×8×8块则从相同的z∈R64×64× 64向量中采样，块采样重叠为8，16和32。相对于地面实况8相机重建体积的平均MSE的定量结果在表2中示出，并且定性结果在图7中示出。将整个体积的性能与基于块的方法进行比较，结果表明，如果使用重叠块，则在定量和定性方面几乎没有变化（因此，对于p∈R16×16×16和p∈R32×32 ×32，重叠分别为8和8或16）。因此，我们可以得出结论，不需要学习全局语义，因为单独的补丁提供了针对使用单个全局卷进行训练的计算成本的测量折衷然而，使用补丁的好处是，可以处理更大的PVH，在我们的实验（2563体素）。4.24D角色重建我们探索了我们的方法作为最先进的4D模型重建技术的预处理的有效性[3]。我们使用三个流行的4D数据集（J-从最小的摄像机视点捕获体积性能11贴片贴片数字摄像机观看受试者（S1、2、3）未观看受试者（S4、5）平均值大小重叠CW2 FS3A3W2 FS3A3输入-220.1 24.222.323.5 25.726.823.8输入-49.9十四点二13.511.8 14.113.912.964-24.34 6.455.78五点零一七点四十五6.986.001682四点四三六点四二5.654.99 7.567.236.05161625.45 7.036.036.56 8.027.986.8532824.56 6.475.485.13 7.986.906.1032162四点四二六点五二5.635.23 7.786.976.1032322五点六七七点三四6.347.02 8.878.037.20表2.量化斑块（子体积）大小和斑块重叠在治疗期间的影响−PVH的密集采样;TotalCapture数据集（误差为MSE ×10）。见图7。表1中随附定量数据的目视比较。图2比较不同贴片尺寸和重叠的功效（其中贴片尺寸为64意味着全体积处理）。P，Dan，Magician），旨在从360mm配置中的8个摄像机导出的PVH重建。我们从8个视图的集合中随机挑选2个相邻视图的子集，从这些视图计算低保真度PVH，并使用我们提出的方法在运行重建过程[3]和获得模型几何形状之前增强PVH的保真度（第2节）。3.3）。然后使用所有视图对通过[3]恢复的几何代理进行纹理化本测试旨在评估任何不正确几何结构对纹理对齐的影响数据集都包括一个单一的表演者在室内3平方米的捕获体积。摄像机是高清分辨率，以30Hz的频率运行。在所有数据集中，总共有20个持续时间为 80-3000 帧的序列。我们随机选择测试序列： Dan ：JumpLong，JP：FlashKick，JP：Lock 2 Pop和Magician;剩下的16个序列和总共5000帧用作训练。给定可用于训练的较少数目的帧，初始训练310A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿自动编码器12A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿图8. 从未使用的相机的视点渲染的2-（我们的）和8-视图（基线）PVH的重建的视觉比较差异图像（SSIM）相对于真实摄像机镜头仅示出微小差异，其中2-和8-重建接近相同。误差以Tbl量化。3和AMT用户研究（表1.4）.在TotalCapture数据集上4.1然后使用这5000帧进行微调（具有不固定的权重）我们量化的视觉保真度，我们的输出渲染它从一个虚拟的观点，符合6烧蚀的观点（随机挑选）。这使得我们的渲染和消融视图的原始相机数据之间的直接像素比较成为作为基线，我们还将我们的渲染与使用Casas [3]以相同参数使用所有8个视图构建的基线进行因此，测试数据的每一帧产生用于比较的结果的三元组; 2视图PVH、8视图PVH和来自视点的真实镜头。图8呈现了来自每一个实施例的代表性三联体的视觉比较。4测试数据。特别是，我们正在研究的几何差异，这将表明e。G. 经由纹理未对准或会导致纹理伪像的假网格刻面结果几乎无法区分，仅存在微小的纹理伪影;仅考虑2个视图的高质量结果被用于估计几何形状。表3使用两个指标量化性能; PSNR和结构相似性（SSIM）[32]，这与感知质量密切相关度量将2视图和8视图重建与被认为是地面实况的相机镜头进行比较。方法丹JPJP魔法平均值跳长闪跳lock2pop魔术师PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIMCasas [3]38.00.90331.80.89332.40.89338.190.435.10.898建议37.50.90233.60.89632.30.89336.190.30.899表3.在序列的帧之间平均的PSNR和SSIM方面量化4D重建保真度我们将运行[3]与我们提出的输出进行比较;通过自动编码器从2个视图恢复的PVH，与直接从8个视图PVH重建的基线相比。重建错误非常相似，表明我们的模型正确地学习从缺失的视图中产生幻觉结构。从最小的摄像机视点捕获体积性能13渲染帧和原始图像之间的误差的主要来源被发现在诸如面部和手部的高频区域中，其中附加顶点可以提供更多细节。然而，考虑到由于最小摄像机视图计数而导致的输入PVH的质量差，整体感知用户研究我们通过Amazon Mechanical Turk（AMT）进行了一项研究，将我们的渲染性能与8视图基线进行了比较。从四个4D测试序列采样的总共500个帧如上所述被重构，产生500个图像三元组。相机视图与2视图和8视图重建一起以随机顺序呈现给参与者参与者需要“识别3D模型是否接近真实相机”。每个结果呈现15次，总共收集了来自343个独立用户的7763个注释TBL. 4报告所表达的偏好我们期望偏好在50%左右随机，并且超过7.8K结果，但我们的方法被选为与真实相机视图最相似的50.7%的时间。非配对t检验表明相同偏好的可能性为p> 0。9984. 还考虑到几乎相同的SSIM和PSNR分数，我们可以得出结论，尽管仅使用2个摄像机视点，但我们的重建在统计上与使用全部8个摄像机视点的那些来源没有区别。序列我们的方法卡萨斯[3]丹：跳长百分之四十三点五百分之五十六点三JP：Flashkick百分之五十三点二46.7%JP：Lock2Pop57.7%42.2%魔术师48.2%百分之五十一点七是说50.749.2%标准偏差6.15%6.11%表4.感知用户研究（7.8k注释）。334名AMT参与者被要求“识别3D模型，将其闭合到实际的图像中”，并且没有感知到2-视图和8-视图重建模型之间的差异。4.3失败案例尽管我们的方法在重建视图贫困场景方面表现出色，但图1示出了一种新的方法。9强调了所提出的方法有时会遇到的失败案例使用来自2D图像的软遮片来形成PVH可能限制性能e。G.在图9（a）中，初始粗略PVH输入具有较大的内部孔洞，并且该孔洞不包括由所述预处理的预处理器形成的体积;通常，图图9（b）示出了有时由于输入PVH中的模糊性而错过臂的末端最后图9（c）表示14A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿由于从PVH体积创建的几何结构不准确导致的不完全移除幻肢而导致重建失败。见图9。说明性的失败案例。由于多个2D遮罩中的错误而导致的大孔可能导致PVH中的不可恢复的孔纹理未对齐可能发生在体模几何体的区域中。在第二节中讨论。四点三。5结论从多视图视频的体积性能捕获在创意产业中变得我们已经证明，高保真度的3D模型可以用少至几个视图来构建，同时伴随着通过我们的新型自动编码器框架预先学习的深度表示。我们证明，通过我们的方法重建的模型与通过现有的体积重建技术从相当多的相机视图重建的模型在数量上相似（表1、2）并且在感知上不可区分（AMT研究，表4）我们的方法的另一个特点是，我们能够大大降低4D字符重建的计算成本。虽然训练自动编码器需要几个小时，但计算PVH并将其传递给经过训练的网络以推断更高保真度的体积在商品GPU硬件上以25 fps轻松实现此外，自动编码器的交叉数据集性能在没有（Sec.4.1)或具有最小（Sec. 4.2）微调。未来的工作可能包括探索我们的深度先验超越人类表现捕捉领域的功效，或直接从粗糙的PVH推断网格尽管如此，我们相信这些发现是体积视频商品化的第一步，为沉浸式内容中的体积角色解锁了更广泛的用例确认这项工作得到了InnovateUK通过TotalCapture项目（赠款协议102685）的支持。这项工作得到了NVidia公司捐赠的GPU硬件的部分支持。从最小的摄像机视点捕获体积性能15引用1. Starck ， J. ， Kilner ， J. ， Hilton ， A. ：自由视点视频渲染器。 JournalofGraphics，GPU，andGammeTols14（3）（2009）572. Tsiminaki，V.，Franco，J.，Boyer，E.：来自多个视频的高分辨率3d形状纹理。In：Proc.Comp. 视觉和模式识别（CVPR）。（2014年）3. Volino，M.，Casas，D.Collomosse，J.，Hilton，A.：4D用于交互式字符外观。参见：Computer Graphics Forum（Proceedings of Eurographics 2014）。（2014年）4. Collet ， A. ， Chuang ， M. ， Sweeney ， P. Gillett ， D. ， Evseev ， D. ，Calabrese，D. Hoppe，H.，Kirk，A.，沙利文，S.：高质量的可流式传输的自由视点视频。ACM Transactions on Graphics（TOG）34（4）（2015）695. 格劳曼K. Shakhnarovich，G.达雷尔，T.：基于图像的可视外壳重构的贝叶斯方法。In：Proc. CVPR. （2003年）6. Guillemaut，J.Y.，Hilton，A.：自由视点视频应用的联合多层分割和重建。国际计算机视觉杂志93（1）（2011）737. Casas，D.黄，P.，Hilton，A.：基于曲面的角色动画。在M. Magnor，格劳岛Sorkine-Hornung，O.，Theobalt，C.编辑：真实世界的数字化表现：如何捕捉、建模和渲染视觉现实。CRC Press（April2015）2398. Laurentini，A.：基于轮廓的图像理解的视觉外壳概念IEEE传输模式分析第16集9.2 The Dog of the Dog（1994）9. Franco，J.，Boyer，E.：精确的多面体可视外壳。In：Proc. BritishMachine Vision Conf.（BMVC）。（2003年）10. Volino，M.，Casas，D.Collomosse，J.，Hilton，A.：多视点视频的最优表示在：英国机器视觉会议论文集，BMVA出版社（2014）11. C.Budd，Huang，P.，Klaudinay，M.，Hilton，A.：曲面序列的全局非刚性对齐。 Intl. Jnrl. C〇mputerVisis〇n（IJCV）102（1-3）（2013）25612. Han，X.Li，Z.，黄，H.，Kalogerakis，E.，Yu，Y.：使用深度神经网络进行全局结构和局部几何推断的高分辨率形状程序 IntL.Conf.《ICCV’17》（2017年13. 吴志，Song，S.，Khosla，A.余，F.，张，L.，唐，X.，Xiao，J.：3dshapenet：体积形状的深度表示。在：IEEE计算机视觉和图像处理会议（CNPR’15）中（2015年）14. Sharma，A.格劳岛Fritz，M.：Vconv-dae：深度体积形状学习，无需任何额外的空间。 In：EuropeanConferenceonCom up uterVison。（2016）23615. 法塔尔河：通过强加的边缘统计的图像上采样。In：Proc. ACM SIG-GRAPH. （2007年）16. Rudin，L. I.，Osher，S.，Fatemi，E.：基于非线性全变分的噪声去除算法。PhysicsD60（1-4）（1992）25917. Abrahamsson，S.，Blom，H.，Jans，D.：用于快速体积超分辨率成像的多焦点结构照明生物医学光学快报8（9）（2017）413518. Aydin，V.，Foroosh，H.：多光谱数据的体积超分辨率。In：Corr. arXiv：1705.05745v1. （2017年）19. 谢，J.，徐，L.，Chen，E.：使用深度神经网络进行图像去噪和修复In：Proc. NEURLINF. 生产系统（NIPS）。（2012）35020. 王志，Liu，D.，中国科学院，杨杰，汉，W.，Huang，T.S.：基于稀疏先验的图像超分辨率深度网络。 In ： Proc. Intl. Conf. Computer Vision（ICCV）。（2015）37016A. Gilbert，M.Volino，J.科洛莫斯&河希尔顿21. 施伟，卡瓦列罗，J.，胡萨尔，F.托茨，J.，Aitken，A.，毕晓普河，巴西-地吕克特，D.，Wang，Z.：使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在：过程组件视觉和模式识别（CVPR）。（2016年）22. Jain，V. Seung，H.：使用卷积网络进行自然图像去噪。见：Proc. NeuraInf.生产系统（NIPS）。（2008年）76923. 董，C.，Loy，C.C.，他，K.，唐X：使用深度卷积网络的图像超分辨率IEEE传输模式分析机器智能38（2）（2016）29524. Zeiler，医学博士：Adadelta：一种自适应学习率方法。ArXiv预印本arXiv：1212.5701（2012）25. Srivastava，R.K.，Greff，K.，Schmidhuber，J.：训练深度网络。在：Avancesi ne urali nfr mato n pocesi ngssstems中。（2015）237726. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议论文集。（2016）77027. Lorensen，W.，Cline，H.：移动立方体：一种高分辨率三维表面构造方法。ACMTransacti onsonGr apics（TOG）21⑷（1987）16328. Trumble，M.，Gilbert，A.，Malleson，C. Hilton，A. Collomosse，J.：总捕获量：融合视频和惯性传感器的三维人体姿态估计。In：Proceedings of28thBritishMachineVisionConfer ence. 129. 约内斯库角Papava，D.，Olaru，V.，Sminchisescu，C.：Human3.6m：大规模数据集和预测方法，用于自然环境中的3D 人体感知。 IEEETransactions on Pattern Analysis and Machine Intelligence 36 （ 7 ）（ jul2014）132530. Starck，J.，Hilton，A.：基于性能的动画的曲面捕捉。IEEE计算机图形学与应用27（3）（2007）31. Mustafa，A.，Volino，M.，Guillemaut，J.Y.，Hilton，A.：4D时间相干光场视频。3DV 2017会议记录（2017）32. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评价：从误差可见性到结构相似性。IEEE Tran.图像处理（TIP）13（4）（2004）600

下载后可阅读完整内容，剩余1页未读，立即下载