多层表示和体积估计的多视图合成方法

83 浏览量更新于2024-01-24 收藏 1.64MB PDF 举报

视图合成

虚拟现实

身份认证购VIP最低享 7 折!

30元优惠券

引文：苏兆奇，周天松，李坤，大卫·布雷迪，刘业斌。使用多层表示和体积估计从多视图RGB数据进行视图合成。虚拟现实智能硬件，2020，2（1）：43-55DOI：10.1016/j.vrih.2019.12.001虚拟现实智能硬件2020年12月第1·文章·使用多层表示和体积估计赵奇SU1，TiansongZHOU2，库恩LI2，大卫BRADY3，耶卜INLIU1*1. 清华大学自动化系，北京1000862. 天津大学，天津3000723. 昆山杜克大学，江苏昆山215316*通讯作者，liuyebin@mail.tsinghua.edu.cn投稿时间：2019年7月10日修订日期：2019年12月15日接受日期：2019年12月2日摘要背景针对复杂场景的自由视图探索，提出了一种多RGB摄像机间的视图插值方法。方法将表示三维信息的代价体思想与场景的二维语义分割相结合，实现复杂场景的视图合成。我们使用成本体积的思想来估计场景的深度和置信度图，并使用数据的多层表示和分辨率来优化主要对象的视图合成。结果/结论通过对图像的不同层次采用不同的处理方法，可以处理多人、多遮挡的复杂场景。我们还提出了视图插值→多视图重建→视图插值流水线来迭代优化结果。我们测试我们的方法对不同的数据的多视图场景，并产生体面的结果。视图插值;代价体;多层处理;多视图重建;迭代优化1引言随着AR/VR设备的快速发展，现在需要在数字环境中进行沉浸式体验，例如模仿真实世界场景的拳击游戏或虚拟旅游。这些场景的大多数AR/VR材料都是通过整个场景的3D重建和纹理来产生的。然而，由于表示这些3D模型的大量数据和模型边界上不可避免的孔，这种方法对于表示动态场景是不切实际的。另一方面，一些研究集中在从已知视图中直接插值视图[1，2]。在这些研究中提出的方法可以插入新的相机之间的视图，并直接生成某些视图的图像。然而，这些方法要么不能生成微妙的背景场景[1]，要么在具有大量遮挡和多人的复杂场景中可能表现不佳[2]。此外，随着图像分割技术的发展，如[3]和[4]，可以根据语义信息将输入图像分割成不同的层或标签主要www.vr-ih.com虚拟现实智能硬件2020年12月第1可以将画面中的对象（大多数时候是主要人物）准确地分割为前景对象。因此，我们通过这些方法进行分割，以生成数据的多层表示，并在不同的层上应用不同的处理方法，以便算法可以分别处理前景和背景区域。我们首先使用[5]中的方法对输入RGB多视图数据进行分割，并使用输入图像作为RGB信息来优化分割。接下来，我们为不同的层定义不同的分辨率体积空间，并使用成本体积的思想来估计深度和置信度图，如[2]所示，并在先验分割的帮助下。然后，使用在前一步骤中估计的置信图，使用四个附近的视图来生成新的视图图像。我们还提出了视图插值→多视图重建→视图插值流水线来迭代优化我们的视图插值结果，并生成更好的3D模型，与通过3D重建创建的模型相比，仅使用输入RGB数据。我们工作的主要贡献如下：(1) 我们结合了[2]中的成本体积和语义分割的思想来处理具有多遮挡和多对象的复杂场景的视图插值，这是以前没有做过的过程。(2) 我们提出了视图插值→多视图重建→视图插值的流水线来迭代优化场景的3D重建和视图合成结果。论文的其余部分如下：第2节介绍了三维重建和视图合成的相关工作，第3节介绍了我们使用视图插值→多视图重建→视图插值流水线进行视图合成的详细方法，第4节展示并讨论了我们的方法的实验结果。2相关工作本节介绍了视图合成和立体深度估计和重建的相关研究。以往的视图合成方法主要分为两种：一种是三维重建和绘制，另一种是直接利用输入视图生成新视图。第一种方法利用3D重建和纹理映射来生成新视图[6，7，8]。例如，Liu等人使用基于光流的方法来优化由室内多相机捕获系统捕获和计算的初始视觉外壳模型，并使用纹理对其进行渲染[8]。此方法用于生成特定对象的自由视图视点。[6]中的方法倾向于生成更一般的场景，如建筑物和景观，通过使用消费级相机拍摄的几张照片来重建场景的模型。Guo等人使用基于融合的方法来生成具有纹理和纹理信息的人体运动的3D模型[7]。利用该系统，当完全捕获人体时，可以创建人的自由视图场景。Mustafa等人使用基于段的方法来生成室内场景的4D动态模型[9]。该方法具有创建具有纹理信息的随机视图的场景的潜力，但是在研究中没有实现纹理的使用。上述这些方法可以用于生成场景的自由视图，但通常在背景区域上具有孔并且具有3D模型的失真伪影[5]，因为输入图片的某些背景区域具有相对较低的对应性，或者可以仅生成特定对象或人的自由视图[7，8]。第二种方法是直接使用输入图片渲染新视图。一些关于视图插值的研究使用传统的方法来估计新视图，而另一些则使用基于深度学习的方法。在传统方法的研究中，Chen et al.是第一篇提出基于图像的44内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion视图合成，将图像变形技术集成到交互式视图插值管道中[10]。Zitnick等人使用场景的分层表示来在八个摄像机的视角内形成连续的视图变化[11]。Ballan等人使用前景对象的平面近似和背景的3D模型来处理大型场景中人类的视图变化[1]。Penner等人使用置信体积的思想来估计深度，然后是3D场景的置信图，这种方法可以对某些类型的场景产生很好的效果[2]。Li等人提出了一种新的视图合成框架，并充分利用其他相邻的互补视图来实现视图合成场景中的孔洞填充[12]。与复杂场景（如现场拳击比赛）相比，这些方法往往对具有较少遮挡的相对简单的场景具有良好的结果[2，11]，或者生成模糊的背景[1]。该方法以[2]为基础，通过语义分割和基于三维重建的迭代优化，可以处理更复杂场景的视图插值。基于深度学习的方法主要用于静态场景的视图插值。例如，Kalantari等人使用CNN方法来估计2×2光场相机的视差图，然后将其用于将源图像变形为新视图[13]。Flaynn等人使用端到端网络来预测新视图中的像素;这种方法利用附近的视图来估计颜色塔和深度塔，然后使用这些信息来合成新视图[14]。Zhou等人使用分层表示来生成多平面图像（MPI）;该表示包含场景的RGB和alpha信息，并且该方法使用MPI层来混合新视图[15]。Hedman等人根据估计的深度使用不同的扭曲视图作为视图马赛克，并训练网络来学习相邻视图的混合权重[16]。Mildenhall等人为每个输入视图训练MPI，并使用现有视图作为训练的基础事实，然后使用附近的MPI来扭曲新视图[17]。Srinivasan等人还通过利用流信息来估计场景的MPI表示，以执行视图外推。由于基于深度学习的方法主要依赖于数据集的多样性，并且由于很少有适合复杂动态场景的多视图数据集，因此这些方法主要关注静态场景[18]。我们的方法使用语义信息和传统的三维重建方法，因此可以解决动态场景的视图合成问题。3概述由于[2]中的方法在几个场景的视图插值中表现良好，因此我们使用它们的管道作为骨干，并对我们的数据进行一些调整。然而，文献[2]中的方法存在一些缺点：它只考虑了颜色和边缘信息，虽然具有相邻视图的一致性估计，但仍然难以用于对象可能具有各种遮挡以及基线较宽且视图之间随机的复杂场景。因此，我们提出了我们的方法，该方法基于[2]，但对算法进行了修改，并使用语义分割将特定对象识别为我们指定的层，并使用视图插值→多视图重建→视图插值管道用于特殊情况，以利用全局3D信息。我们的算法基本上包括三个阶段。阶段1是数据分割和优化，在第3.1节中描述;阶段2是深度和置信体积估计，在第3.2节中描述;阶段3是颜色混合和视图插值，在第3.3节中描述;阶段4是可选的，其是用于结果优化的多视图重建→视图插值迭代，在第3.4节中描述。3.1分割多视图RGB数据是我们算法的输入在第一步中，我们分割RGB图像450,0i、i+1， ji、i、j∈Ni虚拟现实智能硬件2020年12月第1分成不同的层，从而形成场景的多层表示。执行分割的原因如下：(1) 当场景复杂且有大量遮挡时，特别是当场景中的焦点对象（如拳击比赛中的运动员）在画面中占很小的比例时，传统的视图插值方法很难处理这些数据。因此，通过分割，不同层之间的关系，例如前景和背景对象，可以更清楚。(2) 场景的分割还可以使我们能够在不同层中使用不同的体积分辨率，这将使前景对象的深度估计更加精细，并优化合成前景对象的质量。我们的分割方法基于Mask-RCNN[3]，其中每个帧中每个视图的每个图像都被馈送到预先训练的网络中，如[5]所示，从而导致层的分割。对于我们要设置为第h层Lh的每个对象或人，我们指定一帧中一个视图的对应片段，例如第0帧中第0视图的第m片段，表示为Sm，然后使用粗略的深度估计（将在3.2节中描述）来自动确定其他视图和其他帧中相同对象的对应片段。更具体地，如果在第j帧中的视图i中将第m个片段确定为S_m，并且分割的通过[5]的方法为视图i+ 1生成的部分作为Sm' ，m'∈段，我们想确定m'，对象。首先，我们如3.2节所述估计粗略深度，然后对每个点（x，y）在Sm内部，我们使用第i个相机参数将其映射到3D空间，并将其投影到视图i+ 1中：（x'，y'）=Ci+1（C-i1（x，y）），（1）其中Ci和Ci+1是两个视图的相机矩阵在Sm内部的每个点被投影到视图i+ 1中之后，我们将包含最多投影点的片段指定为层Lh的正确片段。该过程如图1所示。图1为特定层选择段的过程。在自动确定每个待选为前景的对象之后，对每帧中的每个视图进行基本分割。由于当图片中的人被另一个人遮挡时，来自Mask-RCNN [3]的片段有时无法捕获人的肢体，如图2所示，我们使用多视图信息来迭代优化所有视图的分割。对于视图i，我们选择四个附近的视图和视图i本身来估计分段置信度图Seg_confconfi：Segconfi（x，y）=Segi（x，y）+Δd）∑Segj（Cj（C-i1（x，y），（2）其中Ni表示视图i的相邻视图，Segi（x，y）表示（x，y）是否属于前景区域为1或0值，并且Δd是在投影像素处估计的深度与在视图j中计算的深度之间的绝对差，其中C-i1（x，y）。x（x）是一个高斯函数，46，∑k∈ N（、、、）=∑内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion图2说明使用多视图信息优化分割的作用。（a）（b）使用Mask-RCNN[3]进行分割;（c）优化后的分割。更大的权重和更一致的深度估计。在估计了片段置信度图Seg_confi之后，通过该图确定视图片段i：当Seg_confi（x，y）高于阈值Seg_conf i（x，y）时，该点被视为前景点;否则，它被分类为背景点。3.2体积估计体积估计基本上包括两个部分：深度估计和置信体积估计。基本思想遵循[2]，但具有场景的多层表示：估计优化了多层信息，并为复杂场景生成更鲁棒的结果。与[2]中一样，对于每帧中的每个视图，我们进行平面扫描并为每个像素生成离散射线，从而制定体积V（x，y，z），其中（x，y）表示像素，z表示深度。我们如[2]所述估计每个视图的深度估计体积：E生Ek（x，y，z）Lk（x，y，z）（x y，z）=k∈N∑Lk（x，y，z）(3)E x y z（x，y）∈Ww（x，y，x，y）Eraw（x，y，z），其中N表示当前视图的附近视图，Ek（x，y，z）表示像素与具有坐标（x，y，z）的视图k中的投影点之间的绝对色差。Lk（x，y，z）表示是否（x，y）在当前视图中，与投影点属于同一层。W是感知域，在像素（x，y）处的引导滤波器。w（x，y，x，y）是引导滤波器内核[19]，当（x，y）和（x，y）在不同的层中被标记。在计算出深度估计体积的情况下，如下决定每个视图的原始深度图像D raw（x，y）= arg mzin E（x，y，z）.（四）由于使用这种方法估计的深度可能限于像素级计算并且缺乏全局信息，因此我们使用[8]中的基于多视图光流的方法，该方法提出了多个47∫（、、、）=∑（、、、）=∑Z z<∑kk∈N虚拟现实智能硬件2020年12月第1起始尺度（MSS）框架，并利用粗到精的图像金字塔捕捉全局补丁信息。因此，该方法可以用于优化深度图像的质量：Flowd= DepthToFlow（ Draw）流i=上采样优化（流i+1），（5）D=流量到深度（流量0）其中，Flowi（i=d1，d2，d，0）表示第i层金字塔光流。在每个金字塔层中，将通过最小化基于光流的能量函数来优化流，如[8]所示：E（w）=ED（w）+αES（w）D =D（|I r（p + d（w））-I t（p）|2+ γ| Δ I（p + d（w））-Δ I（p）|2）dxdy，R不（六）、E S（w）=<$Ω<$ S（|Δw|2）dxdy其中，ED（w）和ES（w）分别表示能量函数的数据项和平滑项，w表示流，并且d（w）表示投影到目标图像的核线的流。CNOD和CNOS是[20]中使用的鲁棒函数。然后将金字塔的最后一层转移到深度图像D。在针对每个视图i计算深度图像Di之后，如从[2]调整的，数量估计如下：we|Dk（x'，y'）-z'|=，原始∑k∈Nwk（七）Con x y z（x，y）∈Ww（x，y，x，y）Conraw（x，y，z）其中N和W以与等式（3）中相同的方式定义（x'，y'，z'）表示使用相机参数从视图i变换到视图j的点（x，y，z），并且wk=（Dk（x'，y'）-z'）深度Li（x，y）=Lk（x'，y'））（8）指示在视图k中是否可以看到点（x'，y'，z'），以及这些点是否具有与视图i中的对应点相同的层标签。Con体积也使用层标记的引导滤波器来计算，如在等式（3）中。为了增加鲁棒性，迭代地操作上述过程，因为表面共有体积的结果可以用于优化深度估计，因为它增加了用于确定深度的信息。不同观点的一致性因此，我们重新计算深度估计体积如下：Eiter（x，y，z）=∑k∈NE k（x，y，z）Con（x'，y'，z'）Lk（x，y，z）原∑k∈NCon（x'，y'，z'）Lk（x，y，z）（九）E x y z（x，y）∈Ww（x，y，x，y）Eraw（x，y，z）其余步骤仍将被操作以迭代地增加深度图像的质量和表面一致体积的鲁棒性。3.3视图插值对于一个新的视图，我们想从场景中合成，我们使用附近的4个视图插值的最终视图。为了考虑可见性和置信体积，我们如下生成视图i的场景表示体积：场景i（x，y，z）= max（0，min（Con i（x，y，z），1-∑Con i（x，y，z）。（十）48Con∑（，，）=∑Nz z<内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion然后，每个附近视图的场景表示和一致体积可以分别用于生成具有层k的新视图N的颜色体积和一致体积：∑i∈NN场景i（xi'，yi'，zi'）Ii（xi'，yi'）颜色（x，y，z）=Li（xi'，yi'）=k氮钾i∈NNLi（xi'，yi'）=k场景i（xi'，yi'，zi'）、（十一）ConN，k x y zi∈NNLi（xi'，yi'）=kConi（xi'，yi'，zi'）其中NN表示视图N的附近视图。Li（xi'，yi'）=k表示第i个图像中标记有语义层k的像素（xi'，yi'）。标记为每个层Lk的新视图中的每个像素（x，y）将给出值对于颜色和置信度，其利用如第3.1节中的分割信息。其优点是，通过此过程，颜色混合将具有较少的颜色混合倾向，该方法能有效地将场景中的不同物体分割开来，有利于复杂场景的视图插值然后，我们计算标签体积和最终共识体积如下：ConN（ x， y， z）= max ConN，k（ x， y， z）LVN（x，y，z）= argmkaxConN，k（x，y，z）（十二）为了合成新的视图，我们搜索每个像素（x，y）的z以获得最佳匹配的深度。为了考虑遮挡，z的搜索范围如下所示RN（x，y）={z|<我们首先使用上面计算的搜索范围为每个像素（x，y）标记层标签：LN（x，y）=LVN（x，y，argz∈mRa（xx，y）ConN（x，y，z））（14）由于层标签中可能存在椒盐噪声，因此如果像素的大多数相邻标签是一致的，则将标签值传播到像素。之后，我们可以最终计算该像素的RGB值：RGB N（x，y）=color N，LN（x，y）（x，y，z0）（十五）z0=argz∈mRNa（xx，y）ConN，LN（x，y）（x，y，z））3.4从重构中为了提高算法的鲁棒性，我们提出了视点插值→多视点重建的方法- 视图内插流水线以迭代地优化结果，特别是当场景的主要区域静止时（即，不动）。我们首先生成场景的视图插值结果，然后获取输出图像并使用多视图重建方法MVE [6]生成3D模型，然后可以用于优化我们的管道中的深度估计。如图3所示，在从多视图重建执行优化之后，我们获得了更好的场景估计深度，具有更少的离群值，这有利于我们最终的视图合成结果。在实践中，因为这样的3D重建方法是非常耗时的，我们倾向于只生成静态背景利用我们之前做的分割。然后，我们使用生成的3D模型投影到每个摄像头，并获得背景深度图像。然后，我们使用这个深度图像来更新每帧中在3.2节的第一步中估计的深度。使用3D重建来优化结果的原因是3D重建倾向于消除3D场景的离群值，这可以为我们的管道的初始化提供更鲁棒的深度。此外，3D重建方法利用了使用全局信息而不是局部信息的优点，这是49虚拟现实智能硬件2020年12月第1图3重建优化前后的深度估计。(a)输入图像;（b）没有优化的深度估计;（c）具有优化的深度估计。与我们现有的管道形成互补。在这个管道中需要指出的另一件事是，我们不使用原始输入图像作为3D重建输入。原因是由于图像的宽基线，[6]的方法倾向于生成具有大孔的场景。为了说明这一点，我们使用[9]中的一个数据集，其中包含6个静态相机帧，以生成40个输出视图，我们分别将6个输入图像和40个输出图像作为MVE输入;输出3D模型如图4所示。从输出40个视图生成的MVE模型显然具有比仅从输入6个视图生成的MVE模型更好的质量图4使用不同MVE输入创建的模型的比较。在生成模型并将其投影到每个输入视图之后，获取深度图像，并且可以将其用于通过将其馈送到第一步骤中来迭代地优化结果。4结果在本节中，我们展示了多视图输入数据的生成新视图的一些结果。由于我们的工作主要集中在处理复杂的场景，这几乎没有用于视图插值之前，可能没有太多的信息，从以前的研究与我们的结果进行比较。以下实验在三个数据集上进行：拳击数据集，其中包含一个场景，500帧，32个视图;来自[8]的数据集，其中包含一个绿色背景“笼子”内的20视图场景，以及来自[9]的数据集，其中只有一个女孩在房间内的6个视图。图5显示了拳击游戏的多视图数据及其相应的视图生成结果。第一列和第三列是多视图数据的附近输入视图，第二列是生成的场景。场景很复杂，因为拳击场上的运动员之间，拳击场与观众和裁判之间都有遮挡。此外，有这么多的人和物体在输入的图片。图5显示了我们可以处理这种场景并生成良好的结果。我们还从[8]的输入数据中生成视图，其中包含一个人的多视图数据，该数据位于一个被绿色屏幕包围的“笼子”有了这个设置，人类可以很容易地分割，我们50内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion图5生成装箱数据的新视图。可以生成一个只有人类的视图。如图6所示，我们可以生成一个高质量的自由视图。来自[9]的数据也用于测试我们的视图插值结果。在这个数据集中，除了人，场景是静态的，这非常适合我们的视图插值→多视图重建→视图插值流水线。我们首先使用[5]中的方法来分割场景中的人，然后使用第3节中描述的方法仅使用背景部分在输入的6个视图之间生成40个视图。之后，我们使用40个输出视图作为输入，使用[6]生成3D模型。生成的模型如图4所示。然后将模型投影到每个输入视图，以生成对背景部分的更鲁棒的深度估计，我们使用该深度估计来替换第一步中估计的深度。结果如图7所示。图8中显示了使用此管道与不使用图像分割或重建来优化此数据集之间的比较。如图所示，在没有图像分割的情况下，由于前景对象的不准确的深度估计，结果在人的边界区域中显示伪影。此外，在没有重建优化的情况下，由于对象之间的复杂遮挡以及没有这种优化的细微深度估计结果，在背景区域中存在一些伪影。我们将此方法与文献[2]中的方法进行了比较。如图9所示，[2]的方法生成模糊结果，特别是在人类的边界区域，而相比之下，我们的方法生成更清晰的边界，受益于我们的语义分割策略。此外，[2]的方法不能估计准确的深度，特别是在两个人之间的区域，但我们认为-51虚拟现实智能硬件2020年12月第1图6来自[8]的数据的视图插值结果，最上面一行是附近的两个输入视图，其他四张图片是生成的新视图。请注意，与其他数据集的摄像机相比，附近的摄像机具有相对较小的基线;视频演示应该更清楚地演示此结果。插值→多视图重建→视图插值流水线和语义层表示，可以避免两个拳击手之间的地板区域的重影效应。我们还将我们的方法与[17]中的方法进行了比较。如图9所示，由于场景的复杂性，[17]中的方法无法生成清晰的视图插值结果，因为它主要关注具有少数对象的简单场景。另一方面，我们的方法可以处理这类场景的合理视图插值。总之，我们提出了一种同时利用输入图像的体信息和语义信息的视图插值方法，并使用视图插值→多视图重建→视图插值流水线来增加动态场景的视图插值的鲁棒性。我们的工作仍然有一些局限性;例如，根据我们的管道，没有明确语义层的场景可能无法用于生成合理的结果。此外，结果的质量在很大程度上依赖于分割方法的质量，并且如果某些身体部位没有被准确地分割（例如，例如，在一个实施例中，手、腿），结果可能在这些区域中显示一些模糊效果。由于我们的流水线主要集中在动态场景上，并且由于很少有相应的方法是开源的，因此很难与当前的视图合成研究进行比较。对于未来的研究，可以将更强大的深度估计集成到我们的管道中，也可以探索一些用于体积估计的3D深度学习方法。此外，还可以考虑不同帧之间的插值场景的连续性。52内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion图7从[9]中生成舞蹈数据的新视图。图8分割和视图内插→多视图重建→视图内插流水线的作用示意图。(a)没有图像分割程序的结果;（b）重建没有优化的结果;（c）优化的结果。图9我们的方法，soft3d[2]和局部光场融合[17]之间的比较。(a)由我们的方法生成的结果;（b）由[2]的方法生成的结果;（c）由[17]的方法生成的结果。53虚拟现实智能硬件2020年12月第1鸣谢：作者感谢清华大学、天津大学和昆山杜克大学对本研究的支持。引用1张文辉，张文辉，张文辉.基于非结构化视频的渲染：随意捕捉视频的交互式探索。在：ACM SIGGRAPH 2010论文。洛杉矶，加利福尼亚州，ACM，2010，1-11 DOI：10.1145/1833349.17788242作者：Jiang L.用于视图合成的软3D重建。ACM Transactions on Graphics，2017，36（6）：1-11 DOI：10.1145/3130800.31308553何K M，Gkioxari G，Dollar P，Girshick R.屏蔽R-CNN。2017年IEEE International Conference on Computer Vision（ICCV）。威尼斯，IEEE，2017DOI：10.1109/iccv.2017.3224王世华，孙金东，菲利普斯，赵国华，张延东.用卷积神经网络图形处理器实现极化合成孔径雷达图像分割。Journal of Real-Time Image Processing，2018，15（3）：631–642DOI：10.1007/s11554-017-0717-05[10]杨文，杨文.探测器https：//github.com/facebookresearch/detectron，20186吴晓刚，王晓刚，王晓刚. MVE：多视图重建环境。在：在图形和文化遗产的欧洲图形研讨会Darmstadt，Germany，Eurographics Association，2014，117郭国威，徐芳，于涛，刘晓艳，戴庆华，刘永斌.使用单个RGBD相机进行实时几何、运动和运动重建。ACMTransactions on Graphics，2017，36（4）：1DOI：10.1145/3072959.31267868刘永斌，曹翔，戴庆华，徐文龙.多视点立体的连续深度估计。2009年IEEE计算机视觉与模式识别会议。Miami，FL，IEEE，2009DOI：10.1109/cvpr.2009.52067129放大图片Mustafa A，Kim H，Guillemaut J Y，Hilton A.复杂动态场景的时间相干4D重建。2016年IEEE计算机视觉与模式识别会议（CVPR）拉斯维加斯，内华达州，美国，IEEE，2016 DOI：10.1109/cvpr.2016.50410作者：Chen S E，Williams L.用于图像合成的视图插值。在：第20届计算机图形学和交互技术年会的会议记录-SIGGRAPH '93。美国纽约，ACM出版社，1993 DOI：10.1145/166117.16615311[10]杨文辉，李文辉.使用分层表示的高质量视频视图插值。ACM图形学报，2004，23（3）：600DOI：10.1145/1015706.101576612李松，朱春，孙明涛.在DIBR视图合成中使用多个参考视图进行孔填充。IEEE Transactions on Multimedia，2018，20（8）：1948DOI：10.1109/tmm.2018.279181013杨文龙，王文忠，王文忠.基于学习的光场相机视图合成。ACM图形学报，2016，35（6）：1DOI：10.1145/2980179.298025114Flynn J，Neulander I，Philbin J，Snavely N.深度立体：学习从世界的图像预测新的观点。2016年IEEE计算机视觉与模式识别会议（CVPR）拉斯维加斯，内华达州，美国，IEEE，2016 DOI：10.1109/cvpr.2016.59515Zhou T，Tucker R，Flynn J，Fyffe G，Snavely N.立体放大：学习使用多平面图像进行视图合成。在SIGGRAPH，201816[10]杨文，杨文. 基于自由视点图像的深度混合54内容如下：ViewSysssfrmulti-viewRGB数据集使用multi-layr eresntitit ion和volume t it i mt i stion渲染。ACM Transactions on Graphics，2018，37（6）：1-15 DOI：10.1145/3272127.327508417[10]李文辉，李文辉.局部光场融合：具有规定采样指南的实用视图合成。ACM Transactions on Graphics（TOG），201918[10]李国雄，李国雄.用多平面图像推进视图外推的边界。IEEE计算机视觉与模式识别会议论文集。2019,175–18419何克，孙杰，唐X.引导图像过滤。柏林，海德堡，施普林格柏林海德堡，2010，120Brox T，Bruhn A，Papenberg N，Weickert J.基于翘曲理论的高精度光流估计。柏林，海德堡，施普林格柏林海德堡，2004年，2555

下载后可阅读完整内容，剩余1页未读，立即下载