交互式自由视点视频生成

126 浏览量更新于2024-01-24 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

由USDA 2018-67021-27416; NSFJS BK 20190292支持。引文：王艳茹，黄志豪，朱浩，李伟，曹勋，杨瑞刚。交互式自由视点视频生成。虚拟现实智能硬件，2020，2（3）：247-260DOI：10.1016/j.vrih.2020.04.004虚拟现实智能硬件2020年12月第3·文章·交互式自由视点视频生成颜如如瓦安G1，智浩胡安G1，豪志胡1*，魏立I2，荀曹1，如刚亚安G3*1. 南京大学电子科学与工程学院，南京2100232. 北京大学计算前沿研究中心，北京1008713. 计算机科学系，肯塔基大学，列克星敦，肯塔基州40506，美国*通讯作者，zhuhaoese@nju.edu.cn;杨荣（r.yang）@ uky.edu投稿时间：2020年2月25日修订日期：2020年4月2日接受日期：2020年4月7日摘要背景自由视点视频（Free-viewpoint video，FVV）是指观众可以自由选择观看位置和角度的视频内容。FVV提供了更好的视觉体验，还可以帮助合成特效和虚拟现实内容。本文提出了一个完整的FVV系统，通过计算机、平板电脑等多媒体终端对视频转播节目的视点进行交互控制。方法FVV生成系统的硬件是一组同步控制的摄像机，软件是从捕获的视频中使用视图插值生成新视点的视频。交互式界面的目的是可视化生成的视频在新的观点，并使视点可以交互式地改变。结果实验结果表明，该系统能够在中间视点合成真实感视频，视角范围可达180°。关键词自由视点视频;视点插值;交互界面1引言近年来，随着视觉计算技术以及电视和互联网视频市场的快速发展和增强，自由视点视频（FVV）已经变得流行。这些允许观众自由选择观看位置和角度[1]。与传统视频相比，FVV提供了更多的3D信息和立体观看感，显著改善了视觉体验。FVV可以帮助合成特殊效果（例如“子弹时间”），并且可以很容易地转换为虚拟现实（VR）资产。因此，一个交互式的FVV生成系统具有很大的实用价值。生成FVV需要多视点系统（由相机阵列组成）来从多个视点同时捕获视频。从捕获的多视点视频生成FVV的一个主要问题是在中间视点合成视频，这一过程被称为“视图插值”。“最初的研究从多视点图像重建了整个场景的3D模型[2，3]，然后渲染模型以产生FVV[4- 6]。在后来的作品中，基于图像的渲染（IBR）技术提出了直接从输入图像渲染新的视点[7- 15]。随着深度学习方法的快速发展，许多工作[16- 18]已经证明，与传统方法相比，神经网络可以大大提高FVV生成的速度和准确性。2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2020年12月第3在本文中，我们提出了一个完整的系统，使用户可以通过多媒体终端，如计算机和平板电脑，交互式地控制视频转播节目的观点。该系统包括一个硬件设置，一个FVV生成算法，和一个交互界面设计。该软件的核心模块是新视点生成算法，通过该算法，使用神经网络显着增加了可用视点的数量。通过所提出的FVV生成系统，用户可以控制视频节目的观看角度并在视角之间平滑切换。在实验中，我们的系统的峰值信噪比（PSNR）和结构相似性指数（SSIM）的结果优于传统的三维渲染方法。处理帧速率达到30fps，分辨率高达720P，这对于应用程序来说是足够的视觉愉悦。我们的系统在各种环境中进行了测试，如篮球场和室内场景。2相关作品生成FVV的关键过程是从一个或多个参考图像合成新视点的图像。现有的从新视点合成图像/视频的方法可以分为两类：传统的3D渲染方法和图像合成方法。传统的3D渲染方法可以进一步分为基于模型的方法、基于深度的方法和基于图像的方法[19]。在最初的研究中，研究人员明确地将场景或对象建模为3D结构[4- 6，15，20- 26]，目的是恢复几何信息以呈现新颖的视角。尽管这些方法在足够的输入图像下是成功的，但是由于3D模型的模糊性，它们无法在有限数量的图像下恢复期望的目标视点。随后，研究人员专注于基于图像的渲染。IBR技术直接从输入图像呈现新颖的视点[7]。IBR通常使用代理几何体来合成视点。使用IBR方法的初始工作考虑了全光建模[8]、光场渲染[9]、超像素分割[12]、alpha抠图[17]和基于深度的渲染[27]。最近的一项工作[28]采用了两个以上的参考视角，以获得更多的颜色/深度信息，并为宽基线相机阵列插入新视图。最近的几项工作[9，10，13，29]使用IBR方法来获得合理的高质量合成结果，采用强大的深度学习技术来预测深度图[10，14，29]，混合权重[11]或多平面图像[15]。图像合成方法通常采用端到端框架。例如，GAN网络[30，31]直接从窄基线视频[32- 35]中合成新视点中的图像。Zhou等人提出通过预测多视图合成和视图插值的输入和输出之间的外观流来从输入图像中采样[36]。Park等人进一步引入了一种基于外观流预测网络的图像生成网络，以构建不可见区域[37]。许多研究试图通过使用多个网络来解决视点综合的分解问题。例如，Kalantari等人将视点合成过程分割为视差和颜色估计组件，这些组件由两个顺序卷积神经网络解决[38]。Ji等人提出在第一个卷积网络中通过估计的单应性校正两个视点图像，然后使用第二个卷积网络合成中间视点的图像[39]。另一种策略[14，40]将图像合成到一系列不同的平面上（在不同的深度水平），然后选择一个平面或混合实际上不同深度的每个像素的所有平面。3捕获系统我们建立了一个完整的系统来生成交互式FVV。它包括一个硬件系统来捕捉多视点视频和一个软件来合成视频从新的观点。我们将在本节中详细介绍捕获系统，然后在下一节中解释算法和用户界面。248YanruWANGetall：Iteractivefreee-viewpoitvegeneratin3.1相机阵列我们使用工作站从摄像机阵列（硬件系统的主要组件）接收视频流（图1）。考虑到带宽和数据传输速率的限制，采用了两种设置来平衡帧速率和图像分辨率。为了确保所捕获帧的像素利用率，相机被放置在类似的水平面中。图1 高帧率、六摄像机同步采集系统（帧率高达120fps），摄像机单元是一款FILR工业相机，系统通过软件或硬件触发模式进行同步。第一种设置侧重于高帧率捕捉;它由六台分辨率为1280×720、帧率为60 fps的FILR工业相机组成。此设置支持软件和硬件触发模式下的同步数据采集。硬件触发方式设置为从同步触发盒向摄像机发送触发信号。我们将触发频率设置为60ps，占空比设置为50%。虽然该系统也与软件触发器兼容，但我们更喜欢使用硬件触发器，因为它具有更高的同步精度。第二个设置专注于高分辨率拍摄;它包括16个使用Sony IMX 274 CMOS传感器的摄像头，8个Nvidia Jetson TX 1模块和一个开关（图2）。分辨率设置为3864×2174，帧速率设置为30fps。该系统通过软件触发器（使用Aqueti开发的Mantis软件）同步。同步精度满足要求，同步误差为10~ 20ms。图2高分辨率16摄像机同步采集系统，分辨率为4K（3864×2174），通过软件触发同步。249虚拟现实智能硬件2020年12月第33.2同步大量采集视频的帧同步对于后续的视图插值过程至关重要。在6-FILR工业相机阵列中，所有相机通过视频数据触发线使用信号发生器同步，触发信号频率设置为60 Hz。关于第二种设置（使用16台工业相机），每个TX1连接2台相机，同步信号由本地服务器控制，如图3所示。图3用于获取同步视频流的工业相机阵列。4自由视点视频生成以采集的多视点视频为输入，通过数据预处理、视点插值和交互界面设计三个模块生成新视点视频。我们将在以下小节中详细介绍每个模块。4.1数据预处理预处理阶段的目标是使输入的多视点视频适合于基于学习的视图插值框架。第一步是后校正，确保（a）大多数特征点水平对齐，（b）视点旋转轴垂直对齐。优越的对齐可以减少最终视图插值结果中的重影效应。所有16个同步帧都是从我们的多相机系统捕获的16个视频中提取的。首先从第一组16帧同步图像中选取一帧作为参考图像，然后为该帧选取一个视点旋转轴，通常取中间垂直线，以减少不必要的图像切割。仿射变换矩阵被定义为：αβM=0α-βαβαtx+（1-α）αtyα，（1）0 0 1 当x ，ym时，α=k∈cos（θ），β=k∈sin（θ），k和θ分别为尺度参数和旋转参数。其他视图中的图像被扭曲以与参考帧对齐;这是通过交互式250pi∈H2pj∈V2YanruWANGetall：Iteractivefreee-viewpoitvegeneratin调整仿射变换的参数tx、ty、k和θ，如等式（1）中所定义。在调整过程中，关键的任务是通过平移对齐垂直视点旋转轴，然后确保大多数特征点在同一水平线上水平对齐。如图4所示，大多数特征点水平对齐，通过调整图像旋转、缩放和平移参数，视点旋转轴保持稳定。蓝线表示水平校准线，绿线表示视点旋转轴，通常是图像中间的垂直线。这是可能的，因为所有相机都布置在平面上。总之，我们通过优化由两项组成的目标函数来估计仿射矩阵，其中第一项表示水平对齐，第二项表示垂直对齐。目标函数被公式化为。图4纠正后的示例Etotal=∑i i（y）-pi_rence（y） +αΣjpjx—pj第二章，其中H和V分别是水平校准线和垂直校准线上的特征点集合;并且p（x）和p是图像的特征点的x和y坐标。后在获得每个视图的仿射矩阵之后，使用上述仿射扭曲关系来处理所有剩余帧。第二步是色彩校准。虽然我们为所有相机实现了相机白平衡校准和颜色补偿，但仍然需要对白平衡进行后处理，以确保当用户在视点之间切换时，最终的FVV保持严格的颜色一致性。灰色世界算法[41]用于校准我们系统中的颜色。4.2视图插值4.2.1基于学习的方法为了设计我们的网络，我们参考了Niklaus等人的工作，他考虑了时域中的帧内插。他们的CNN网络的核心思想是使用2D卷积核进行估计，同时考虑运动估计和重新采样。如图5所示，我们将相邻视图的两个图像馈送到编码器-解码器网络中，以插入中间视点图像。为了检测两个输入图像之间的大运动，我们将卷积核大小增加到50，这导致模型过大。为了减小模型大小，我们在编码器网络中引入了池化层，并将解码器网络中的2D内核替换为两对1D内核。网络中的所有块都包含三个卷积/去卷积层和一个池化/上采样层。解码器的尾部被设计成包含四个用于预测251参考2虚拟现实智能硬件2020年12月第3图5我们网络的主要结构。4个1D内核，而不是直接预测整个1D内核组。这是因为使用前一种结构的训练可以导致更快的收敛。为了合成除了中间视点之外的新视点的图像，我们交互地运行网络并对目标视点进行插值。对于相同大小的输入图像，这对1D核可以分别用于深度卷积和点卷积;这种可分离卷积可以显着减小模型大小。为了获得虚拟的插值视点图像，将两个原始输入帧与1D内核对卷积并求和，如下所示：V虚x，y=K1x，yP 1x +K2x，y = P1x，yP 2x，y=P 1，y= P 2x，y其中，Px，y= x表示原始输入图像中以 x，yx为中心的补丁，K =x，y= x是子网的输出，*是卷积运算。损失函数中有两项第一项是像素级损失，定义为L2范数，预测图像和地面实况之间的像素值;第二项是感知损失，这是一种测量特征相似性的特征级损失[42]。因此，在本发明中，L像素 R-RGT 22 ，L感知S（R）-S（RGT）（3）第二章（3）其中S是特征提取函数的一种形式，它是VGG-19网络中relu4_4的输出。总损失定义为L total=Lpixel+αlL perceptal（4）4.2.2基于三维重建的方法我们使用三维重建和渲染方法来生成视图插值结果，并评估性能。首先，捕获的多视点帧进行校准，以获得的内部和外部矩阵。根据校准的相机位置构建一个弧（图6）;然后，我们根据相对相机参数合成新的视点。接下来，使用传统的多视点重建管道重建3D场景，该管道从校准的多视点图像生成纹理三角形网格[43]。然后使用泊松混合[44]来填充孔和裂缝。最后，利用虚拟相机参数绘制新的虚拟视点图像。4.3交互界面为了生成可视化和交互式的结果，我们将来自所有视角的同步视频帧（按照物理位置的顺序）拼接成矩阵形状的“时刻帧”，然后将所有时刻的拼接帧重新组合成FVV。252YanruWANGetall：Iteractivefreee-viewpoitvegeneratin图6中间3D重建结果的示例。如图7所示，交互软件是围绕QT设计的，交互视频的最大分辨率高达720P（1280×720）。在用户界面上，呈现动态视频，其中用户可以选择视图范围内的任何视点。通过拖动底部的滑块（或通过切换右侧的转盘），可以在不同的视点之间切换，图7围绕QT设计的交互式软件。253虚拟现实智能硬件2020年12月第3令人愉悦的平滑。用户可以随时停止视频，改变视点，实现“子弹时间”效果。5实验5.1实验装置我们在两个设置上测试了我们的系统，如第3.1节所述;输入视频是在实验室场景和篮球场中捕获的。目视结果见图8和图9，定量评价见表1。在图8中，两个摄像机（捕获测试1，测试2，测试4和测试5的输入视点）的基线相对较窄，视点方向交叉角在1°到4°的范围内;在这个范围内，我们的网络可以稳定地生成高-图8使用不同场景和基线的插值视点系统的结果。254YanruWANGetall：Iteractivefreee-viewpoitvegeneratin我们的系统的性能。对于测试3和测试6，相机基线宽得多，视点方向交叉角超过15°。测试3的结果由于简单的背景仍然表现良好;然而，测试6的结果由于复杂的背景而遭受重影效应。我们的方法可用于合成VR材料，如图10所示。图9不同方法生成的虚拟视点图像和误差图的比较A和B包含使用我们的系统捕获的图像，C包含来自Zitnick等人的图像。[14]第10段。为了将生成的结果与地面实况进行比较，我们选择了第一个和第三个相机视点（来自我们阵列中的三个连续相机）作为输入视点。中间一个捕获的图像被定义为地面实况。我们使用我们的系统捕获的图像进行评估（图9A和图9B），并使用第三方数据集[14]进行比较（图9C）。视点方向255虚拟现实智能硬件2020年12月第3表1三个样本我们3DRRPSNR /SSIMMVA的Dain一27.9264 /0.916726.5868 /0.915623.7966 /0.779424.3421 /0.841928.2023 /0.9189B29.9093 /0.938222.4726 /0.822222.1897 /0.749222.0877 /0.703529.9818 /0.9392C25.7507 /0.904925.2853 /0.901121.7692 /0.803124.0143 /0.875427.3504 /0.9187图10合成VR素材。交叉角度略微超出了我们系统的最佳角度范围。如图9所示，重影或裂缝出现在像素强度急剧变化的某些区域中;例如，在场景中对象的边界处。图像误差图中的值由逐像素L1距离定义。5.2与重建和渲染的我们比较了一个基于学习的方法（我们的）和重建和渲染方法在图中可视化9，在表1中定量。定量评价表明，基于学习的方法优于三维重建和渲染方法，如测量参数SSIM和PSNR所示，当背景简单时，优势更大通过SSIM和PSNR指标测量的高性能表明，在视点之间切换时，观看体验更加愉快。通过视觉比较，可以看出，尽管重建和渲染方法的结果在视觉上与地面实况的相似性较差，但它们在具有复杂结构或纹理的部分区域中表现更好，如图9中的红框所示。这表明多视点输入在重建和渲染方法下生成更准确的重建结构;然而，基于学习的方法不能仅从两个视点预测准确的结构5.3与以往方法的我们比较了我们的方法与以前的方法使用的PSNR，SSIM和运行时间的指标。MVA[45]和OF[46]是分别通过多平面图像和光流合成目标图像的基于非学习的方法。DAIN[47]是一种基于学习的方法，它利用了深度感知光流。如表1和表2所示，我们的方法在所有三个样本的PSNR/SSIM/运行时间方面优于MVA和OF。虽然我们的方法在PSNR和SSIM方面的得分略低于DAIN，但我们的方法在速度方面具有明显的优势，因为它的运行时间是DAIN的七分之一如图11所示，MVA和OF的合成图像在人体边缘处包含明显的缺陷，而DAIN产生的视觉上合理的结果与我们的方法相当。256YanruWANGetall：Iteractivefreee-viewpoitvegeneratin表2不同方法我们的方法3DRRMVA的Dain运行时间（s）3.34738.67245.1069.19123.208注：我们计算了上述A、B、C样本的平均运行时间。图11为我们的测试样本合成其他方法的图像。5.4传统方法vs学习方法基于学习的方法和重建与绘制方法（传统方法）各有优缺点。基于学习的方法只需要两个输入图像作为输入，并且处理速度快。定量评估表明，基于学习的方法性能更好，特别是当背景简单。然而，还必须注意的是，基于学习的方法可能在某些区域失败，例如细长杆。相比之下，重建和绘制方法需要更多的图像作为输入，以确保多视点重建的质量。3D重建过程是具有许多步骤的长流水线，包括从运动恢复结构、密集立体匹配、视差优化和网格化。这个长管道往往是脆弱的，因为它需要所有步骤正确运行;此外，它有很长的处理时间。当重叠视图之间存在足够的纹理时，该重建和渲染方法可以在复杂结构中生成准确的结果。实验结果表明，基于学习的视图插值方法在背景相对简单的宽基线输入图像中也能保持较好的保真度，并且具有较高的速度和实用性。六、结论在本文中，我们提出了一个完整的FVV生成系统。硬件系统采用了两套设备，分别侧重于高分辨率和高帧率。软件257虚拟现实智能硬件2020年12月第3包括FVV生成算法和交互界面。该软件的核心模块是新视点生成模块，其中使用神经网络增加可用视点的数量。利用所提出的FVV生成系统，用户能够控制视频节目的观看角度，并且还可以在视角之间平滑地切换。在篮球场和室内场景上进行了测试，PSNR和SSIM结果表明，该方法优于传统的3D渲染方法。两种设置下的原始数据处理帧率和分辨率分别高达30 fps、4K（3864×2174）和60fps、720 P（1280×720），交互式软件最终FVV为30-60 fps、720 P，视觉效果良好。有些问题有待于今后解决。例如，CNN生成的图像通常具有宽基线输入图像对的模糊边界。虽然重建和渲染方法产生清晰的边界，但它们太耗时，并且遭受模型裂缝和洞。引用1李文忠，李文忠，李文忠自由视角电视IEEE Signal Processing Magazine，2011，28（1）：672[10]杨文，李文.多视点立体重建算法的比较与评价。2006年IEEE计算机协会计算机视觉和模式识别会议美国纽约州纽约市，IEEE，2006，519DOI：10.1109/cvpr.2006.193朱宏，聂玉明，岳涛，曹晓.先验在基于图像的3D建模中的作用：综述。计算机科学前沿，2017，11（2）：175DOI：10.1007/s11704-016-5520-84Seitz S M.基于体素着色的真实感场景重建。IEEE计算机视觉与模式识别会议，1997年5陈J，渡边R，野中K，Konno T，桑科H，内藤S.一种快速的运动场景自由视点视频合成算法。2019 IEEE/RSJ智能机器人与系统国际会议（IROS）中国澳门，IEEE，2019DOI：10.1109/iros40897.2019.89675846Miller G，Hilton A，Starck J.交互式自由视点视频。2005年IEEE欧洲视觉媒体制作会议7Shum H，Kang S B.基于图像的渲染技术综述。视觉通信和图像处理，2000年8作者：McMillan L.全光建模。在：第22届计算机图形学和交互技术年会论文集。美国纽约，ACM出版社，1995年DOI：10.1145/218380.2183989Levoy M，Hanrahan P.光场渲染。ACM图形学报，1996年10Hedman P，Kopf J. Instant 3D Photography. ACM Transactions on Graphics，2018，37（4）：1-12 DOI：10.1145/3197517.320138411[10]杨文，杨文.自由视点图像渲染的深度混合。ACM图形学报，2019，37（6）：1DOI：10.1145/3272127.327508412杨文，李文.深度合成和局部扭曲的合理图像为基础的导航。ACM图形学报，2013，32（3）：1DOI：10.1145/2487228.248723813杨志华，李志华，李志华.可扩展的由内而外的基于图像的渲染。ACM图形学报，2016，35（6）：1DOI：10.1145/2980179.2982420258YanruWANGetall：Iteractivefreee-viewpoitvegeneratin14[10]杨文辉，李文辉.使用分层表示的高质量视频视图插值。ACM图形学报，2004，23（3）：600DOI：10.1145/1015706.101576615朱红，左晓霞，王松，曹晓，杨瑞刚.基于分层网格变形的单幅图像人体形状估计。2019年IEEE/CVF计算机视觉和模式识别会议。美国加州长滩，IEEE，2019DOI：10.1109/cvpr.2019.0046216Flynn J，Neulander I，Philbin J，Snavely N.深度立体：学习从世界的图像预测新的观点。2016年IEEE计算机视觉和模式识别会议。拉斯维加斯，内华达州，美国，IEEE，2016 DOI：10.1109/cvpr.2016.59517Zhou T H，Tucker R，Flynn J，Fyffe G，Snavely N.立体放大：使用多平面图像学习视图合成。201818作者：Jiang L.用于视图合成的软3D重建。ACM图形学报，2017，36（6）：1DOI：10.1145/3130800.313085519斯莫利克河3D视频和自由视点视频：从捕获到显示。模式识别，2011，44（9）：1958-1968 DOI：10.1016/j.patcog.2010.09.00520朱红，苏红，王萍，曹旭，杨瑞刚.从单个图像查看人体外推。2018年IEEE/CVF计算机视觉和模式识别会议。盐湖城，UT，IEEE，2018DOI：10.1109/cvpr.2018.00468212005年10月27日，李文辉，李文辉.高质量的可流式传输的自由视点视频。ACM图形学报，2015，34（4）：1DOI：10.1145/276694522Debevec P E，Taylor C J，Malik J.从照片中建模和渲染建筑。在：第23届计算机图形学和交互技术年会论文集。美国纽约，ACM出版社，1996 DOI：10.1145/237170.23719123Montemerlo M，Thrun S，Koller D，Wegbreit B.同时定位和地图绘制问题的分解解决方案。2002年人工智能会议24Sturm P，Triggs B. A factorization based algorithm for multi-image projective structure and motion//Lecture Notes inComputer Science.柏林，海德堡，Springer Berlin Heidelberg，1996，709DOI：10.1007/3-540-61123-1_18325谭锋，朱宏，崔志.从单目视频中进行自我监督的人体深度估计。2020年IEEE计算机视觉与模式识别会议26杨红，朱红，王永，黄明，沈勤，杨荣，曹晓。FaceScape：大规模高质量3D人脸数据集和详细的可操控3D人脸预测。2020年IEEE计算机视觉与模式识别会议27[10]张文，张文，张文.一种新的三维合成视图质量评价方法。IEEE Journal of Selected Topics in SignalProcessing，2011，5（7）：1332-1343 DOI：10.1109/jstsp.2011.216624528[10]张文辉，张文辉，张文辉.宽基线相机阵列的鲁棒多视图合成。IEEE Transactions on Multimedia，2018，20（9）：2235DOI：10.1109/tmm.2018.280264629杨俊明，刘芳，杨俊明. 3D Ken Burns效果来自单个图像。ACM图形学报，2019，38（6）：1-15DOI：10.1145/3355089.335652830Regmi K，Borji A.使用条件GANs的跨视图图像合成。2018年IEEE/CVF计算机视觉和模式识别会议。盐湖城，UT，美国，IEEE，2018，3501DOI：10.1109/cvpr.2018.0036931陆永林，孙天芳，蒋晓华，徐凯，朱波。基于全局和局部判别器的新型GAN的正视图合成。2019年第12届图像和信号处理，生物医学工程和信息学国际大会。苏州，中国，IEEE，2019，1259虚拟现实智能硬件2020年12月第3DOI：10.1109/cisp-bmei48845.2019.896582932王永良，刘芳，王志林，侯国强，孙振宁，谭天宁。使用伪4DCNN//Computer Vision-ECCV 2018进行光场成像的端到端视图合成。Cham：Springer International Publishing，2018，340-355 DOI：10.1007/978-3-030-01216-8_2133杨文，李文，刘文.基于自适应可分离卷积的视频帧内插。2017年IEEE International Conference on ComputerVision（ICCV）。威尼斯，IEEE，2017，261DOI：10.1109/iccv.2017.3734刘志文，叶荣安，唐晓欧，刘延明，阿加瓦拉。使用深体素流的视频帧合成。2017年IEEE计算机视觉国际会议。威尼斯，IEEE，2017，4463DOI：10.1109/iccv.2017.47835作者：Jiang F.用于视频帧内插的上下文感知合成。2018年IEEE/CVF计算机视觉和模式识别会议。盐湖城，UT，IEEE，2018，1701DOI：10.1109/cvpr.2018.0018336Zhou T H，Tulsiani S，Sun W L，Malik J，Efros A A. View synthesis by appearance flow//Computer Vision-ECCV2016. Cham：Springer International Publishing，2016，286DOI：10.1007/978-3-319-46493-0_1837[10]杨J M，杨J M，杨俊.基于变换的图像生成网络用于新颖的3D视图合成。2017年IEEE计算机视觉和模式识别会议。Honolulu，HI，IEEE，2017 DOI：10.1109/cvpr.2017.8238杨文龙，王文忠，王文忠.基于学习的光场相机视图合成。ACM Transactions图形学，2016，35（6）：1DOI：10.1145/2980179.298025139Ji D H，Kwon J，McFarland M，Savarese S.深度视图变形。2017年IEEE计算机视觉和模式识别会议。檀香山，HI，IEEE，2017DOI：10.1109/cvpr.2017.75040Zhou T H，Tucker R，Flynn J，Fyffe G，Snavely N.立体放大：使用多平面图像学习视图合成。201841林义结合灰色世界与retinex理论于数位摄影之自动白平衡。第九届消费电子国际研讨会论文集。澳门特别行政区，IEEE，2005 DOI：10.1109/isce.2005.150235642李福福，李福福.实时风格转换和超分辨率的感知损失2016. Cham：Springer International Publishing，2016，694-711DOI：10.1007/978-3-319-46475-6_4343Furukawa Y，Ponce J.准确，密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysis and MachineIntelligence，2010，32（8）：1362DOI：10.1109/tpami.2009.16144Pérez P，Gangnet M，Blake A.泊松图像编辑。ACM图形学报，2003，22（3）：313 DOI：10.1145/882262.88226945张文辉，张文辉.一种立体的方法，通过图像变形处理抠图问题。2009年IEEE计算机视觉与模式识别会议。Miami，FL，IEEE，2009 DOI：10.1109/cvpr.2009.520665646孙德强，罗思S，布莱克M J。光流估计的秘密及其原理。2010年IEEE计算机协会计算机视觉和模式识别会议。San Francisco，CA，USA，IEEE，2010，2432-2439 DOI：10.1109/cvpr.2010.553993947包文波，赖文生，马春，张晓英，高志英，杨明华。深度感知视频帧插值。2019年IEEE/CVF计算机视觉和模式识别会议。Long Beach，CA，USA，IEEE，2019，3703-3712 DOI：10.1109/cvpr.2019.00382260

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

交互式自由视点视频生成

VideoScript:创建交互式脚本视频

虚拟视点合成视频

虚拟视点视频小论文

交互式人工智能和生成式人工智能有什么联系

交互式人工智能与生成式人工智能的关系

交互式人工智能和生成式工智能有什么联系

生成一段交互式可视化代码

pyecharts生成的交互式图片保存什么格式可以插入word

python交互式运用

交互式数据大屏python案例有吗

Python交互式环境

什么是交互式shell

Python绘制交互式数据可视化展示

python 交互式图表

spark交互式开发

linux什么是交互式命令行，交互式命令，

如何在word中使用交互式图片

halcon 交互式绘图

vscode交互式窗口

Python 交互式词云图

最新资源