视差重映射与两阶段变形：高质量方法及其应用

4 浏览量更新于2023-10-14 收藏 20.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

22690高质量的视差重映射与两阶段变形0Bing Li 1，Chia-Wen Lin 2，Cheng Zheng 1，Shan Liu 3，Junsong Yuan 4，Bernard Ghanem 1，C.-C. Jay Kuo 501沙特阿拉伯科技大学（KAUST） 2国立清华大学电机工程系，新竹，台湾3腾讯媒体实验室，美国帕洛阿尔托 4纽约布法罗大学，美国纽约5南加州大学，洛杉矶，加利福尼亚，美国0摘要0提出了一种高质量的视差重映射方法，该方法保留了立体图像对的2D形状和3D结构，并调整了重要物体的视差。它被制定为一个约束优化问题，其解决方案具有挑战性，因为我们需要同时满足多个视差重映射的要求。单阶段优化过程要么降低了重要物体的质量，要么在背景区域引入严重的失真。为了解决这个挑战，我们提出了一个两阶段的变形过程来解决它。在第一阶段，我们开发了一个变形模型，为重要物体找到最佳的变形网格，以满足多个视差重映射的要求。在第二阶段，我们推导出另一个变形模型，通过消除形状、视差和3D结构中的严重失真来改进不重要区域的变形结果。实验结果证明了所提方法的卓越性能。01. 引言0立体3D视觉内容现在非常流行。随着硬件的发展，立体视觉内容可以在不同的环境中以不同的观看条件下观看（例如剧院、计算机和虚拟现实设备）。立体图像的视差（或深度）维度经常会导致不令人满意的观看体验[9,29]。例如，一对视差范围很大的立体图像可能在大屏幕上产生强烈的深度效果，这可能超出人类视觉系统的舒适区域。相反，视差范围较小的立体图像往往会显示出较小的深度效果，导致3D观看体验不佳。因此，开发能够调整视差以满足各种观看条件并根据观众偏好调整视差的视差重映射工具非常重要。0图1：我们方法的优势示例。人和猴子的视差减小以增强它们的深度效果。最先进的方法[11]无法保留猴子的3D结构。我们的方法能够很好地调整视差同时保留3D结构。原始帧来自《西游记之孙悟空三打白骨精》。0与2D图像不同，立体图像通过固有的视差信息为观众提供虚拟的3D场景。在一个3D场景中，一个物体不仅在x-y平面上投影出一个空间形状，还有一个沿深度方向的几何结构（即3D结构）。这个结构信息对人类的视觉体验至关重要。例如，给定一个物体（见图1），3D结构决定了物体是与显示屏平行还是在3D场景中倾斜。为了增强3D观看体验，我们的目标是设计一种视差重映射方法，调整视差，同时保留重要物体的3D结构。0Lang等人[11]采用内容感知的变形进行视差重映射。图像区域被非均匀地变形以保留重要物体的形状，并通过将少数对应点的视差值约束为目标值来调整视差。与经典的视差重映射方法不同，基于变形的方法[11][38]不需要依靠图像补全来填充合成内容的空洞。另一方面，它们经常会扭曲物体的3D结构，因为22700它们没有适当的机制来直接保留这种结构。稀疏对应集和/或空间形状信息不能很好地表征3D对象的结构信息。如图1所示，对于一个表面与显示屏平行的3D对象，当应用[11]中的方法时，其平坦表面会弯曲。在本文中，我们提出了一种新的基于变形的视差重映射方法，它在保留重要对象的2D形状和3D结构的同时调整视差。我们通过明确考虑3D结构信息来推导出3D结构保持约束。通过这些约束，我们将视差重映射形式化为一个受约束的优化问题。也就是说，我们在立体图像对中最小化重要对象的2D形状、3D结构和视差的总失真。除了3D结构保持约束，我们提出了一个两阶段的视差重映射变形，不同于现有方法在一个阶段找到整个立体图像对的最优解。特别地，由于我们必须同时满足视差重映射的多个要求，解决这个受约束问题本身就是具有挑战性的。只使用一阶段变形得到的结果要么降低了重要对象的性能，要么在背景区域引入了严重的失真。为了应对这一挑战，我们构建了两个变形模型，并在两个阶段寻找最优解。在第一阶段，我们开发了一个变形模型，为重要对象找到最优的变形网格，以满足视差重映射的多个要求。在第二阶段，我们推导出另一个变形模型，用于通过消除形状、视差和3D结构中的严重失真来改进较不重要区域的变形结果。与一阶段变形相比，我们的两阶段变形在找到满足多个要求的最优网格方面更加有效，并生成更好的变形结果。贡献：本文有四个主要贡献。(1)我们提出了一个新的能量函数来明确保留对象的3D结构。(2)通过将视差重映射分解为两阶段优化问题，我们的方法可以同时满足视差重映射的多个要求，显著优于使用一阶段优化的现有方法，并且通常会降低对重要对象的视差调整性能。(3)据我们所知，这是第一个使用基于顶点的变形来改进局部轴对齐变形的视差重映射结果的工作。通过轴对齐变形作为初始化，我们加速了算法的收敛并减轻了失真。(4)在我们的方法中，很容易结合其他要求（例如对象大小调整和时间一致性），这可以促进未来的立体视觉编辑任务，为创建高度逼真的3D结构和特效提供应用。02. 相关工作0立体图像重定向已广泛用于将立体图像调整为不同的尺寸和长宽比。已经提出了几种重定向方法来保留立体图像的深度信息[3，12][15，39，1，14]。[3，12，15，39]中的方法将基于变形的2D图像重定向方法[5，19，40]扩展到立体图像，并添加了深度保持约束以保留深度。与保持深度的重定向相比，视差重映射调整立体图像的深度信息以满足显示设备和/或观看者的偏好。额外的要求使优化问题更加困难，导致3D对象和场景结构中的更严重失真。换句话说，视差重映射是一个比视差保持重定向更具挑战性的问题。视差重映射方法[37，20，11，3，10，33，0[18]中的方法大致可以分为三类：视图插值方法、基于位移的方法和基于变形的方法。视图插值方法[22，43，42]将视差重映射视为视图插值问题。它们依赖于准确的相机参数来计算相对于虚拟相机的深度图，然后为虚拟相机插值出一个新视图。通常，新视图需要进行后处理，如图像补全来填补不可见区域（即空洞），这需要大量的计算资源。对于大多数立体图像来说，准确估计相机参数也不容易。最近，一些方法[42，4]提出使用神经网络来外推高质量视图，然而这需要一个带有相机参数的大型标记训练数据集。基于位移的方法[26，31，13]首先使用交互式分割工具选择对象。然后，将选定的对象水平位移，使其视差与目标值相同。对象位移会在编辑的立体图像对中产生不可见区域，需要进行图像补全来填补空洞。此外，分割错误会影响视差重映射结果的质量。基于变形的方法通过非均匀变形图像区域来修改视差。与只能将视差调整到虚拟相机的视图插值方法不同，基于变形的方法可以灵活地将视差调整为各种值。Lang等人[11]首次采用图像变形进行视差重映射，并为变形设计了视差约束。这些约束通过要求少数对应点的视差值与目标值相同来调整视差。Chang等人[3]改进了这种技术，通过改进线性视差重映射的形状保持约束。[11]中的视差约束被后续工作用于其他要求，例如立体视频重映射[38]、减少视觉不适[30]和尺寸和深度调整[13]。由于变形产生连续的变化，因此视差约束方法[11，3，38]不能产生空洞。然而，这些视差约束没有明确考虑立体图像的3D结构信息，这经常导致编辑后的立体图像中出现严重的3D结构失真。此外，基于顶点的变形通常难以满足[11，13，38]中的多个视差重映射要求。不同的是，我们采用轴对齐变形，并以一种新颖的方式将其与基于顶点的变形相结合，以生成高质量的重映射图像。EG(gLk , gRk′) =�(i,j)∈ek∥−−−→˜vLi ˜vLj −−−−→˜vRi ˜vRj ∥2,(2)EG =kEG(gLk , gRk′) · λk,(3)ES =zgzguES(gzk) · δzk(4)22710由于这些方法[11，3，38]不能产生空洞，因此它们无法处理视觉内容的连续变化。然而，这些视差约束没有明确考虑立体图像的3D结构信息，这经常导致编辑后的立体图像中出现严重的3D结构失真。此外，基于顶点的变形通常难以满足[11，13，38]中的多个视差重映射要求。不同的是，我们采用轴对齐变形，并以一种新颖的方式将其与基于顶点的变形相结合，以生成高质量的重映射图像。03. 方法0问题定义。给定立体图像对{IL，IR}，视差重映射是生成高质量的立体图像对{˜IL，˜IR}的过程，其中它们当前的视差被调整为目标值，同时最大化观察者的3D体验。我们首先将输入的立体图像对分割成网格。然后，通过找到满足视差重映射要求的最佳变形网格，可以得到重映射的图像。因此，我们将视差重映射问题形式化为以下能量函数的最小化问题：0E = EG + αES +βED，(1)其中EG是左图像IL和右图像IR的3D结构保持能量，ES是空间形状失真能量，ED是重映射立体图像的视差与目标值之间的差异能量，α和β是两个权重因子。将Eq.（1）中的总能量函数E最小化有两个挑战。首先，如何保持对象的3D结构以进行视差重映射？据我们所知，这尚未被探索。其次，Eq.（1）的一个可能解是应用基于顶点的变形，就像现有方法一样。然而，由于Eq.（1）旨在同时满足多个要求（形状保持、视差调整和3D结构保持），仅通过基于顶点的变形很难找到一个高质量的变形网格。为了解决这些挑战，我们在第3节中提出了一种用于3D结构保持的新能量函数。我们还在第3.3节中提出了一种新颖的两阶段优化算法。03.1. 保持三维结构的约束0本节推导了3D结构失真能量 EG，这是本文的一个贡献。为了保持物体的三维结构，我们首先构建了变形图像的三维场景，然后研究了什么样的变形约束可以保持物体的三维结构。以下约束被发现是最有效的：C：结果左右图像之间的对应像素/区域一致变形。0原始0不一致变形0一致变形0图2：不一致变形对三维结构的影响示意图。0我们在补充材料中展示了这个约束条件足以保持三维结构。图2给出了一个说明性例子。绿色区域的结构是原始三维场景中的一个平面表面。左右图像中对应的绿色区域的不一致变形会扭曲平面表面并使其倾斜。相反，一致的变形保持了其平面结构。基于约束C，可以定义一个保持三维结构的代价函数 EG。我们首先定义了一种衡量一对对应网格变形不一致性的方法。具体来说，给定左图像 I L 中的网格 g L k，g R k ′是其在右图像 I R 中对应的网格。g L k 和 g R k ′之间的变形不一致性函数 E G ( g L k , g R k ′ )可以通过向量差来衡量：0其中 ˜ v z ( z ∈ { L, R } ) 是 g z 的变形版本的顶点，−−→˜ v z i ˜ v z j 是变形网格中从 ˜ v z i 到 ˜ v z j 的边向量，e k是 g z k的网格边的集合，方向为逆时针。然后，对应网格的变形不一致性值的和可以定义为立体图像对的三维结构保持能量 EG：0其中 λ k 是用于控制 g L k 和 g R k ′之间变形不一致性的权重。我们将 λ k 设置为 g L k 和 g Rk ′ 的平均网格重要性，其中网格重要性在第3.3节中定义。03.2. 形状保持和视差调整0形状保持。为了保持形状，我们不能使用公式（6）中轴向对齐变形的 ES，因为基于顶点的变形允许变形网格成为任意四边形。我们将 E S 定义为背景区域网格变形能量的总和：0其中 g u 是包含立体图像背景区域网格的集合，E S ( g z k) 是 g z k 的形状失真。ED =�cED(˜xc, ˜dc) =�c∥˜xLc − ˜xRc − ˜dc∥2 · δzc(5)22720图3：所提出的两阶段变形的示意图。第一阶段为重要对象找到最佳变形网格，第二阶段在不重要的区域上局部调整网格，不重要区域的网格用红色标记。0视差调整。为了满足视差要求，我们使用一些对应点对调整水平视差。视差调整能量要求变形立体图像中每个对应点对的视差尽可能接近目标值。特别是，重要区域中对应点对的视差应该更加准确地映射。这与现有方法[3,11]处理所有对应点对的方式不同。设 ˜ f c = { ˜ f L c , ˜ f Rc } 表示变形左右图像中的第 c 对对应点，其中 f z c 是 I z中的一个点，z ∈ { L, R }。我们将 E D 表示为：0其中 ˜ d c 是 f c 的目标视差值，E D (˜ x c , ˜ d c ) 是 ˜ f c的视差调整能量，˜ x z c 是 ˜ f z c 在扭曲图像 ˜ I z 中的 x坐标，x c = { ˜ x L c , ˜ x R c } 。值 ˜ x z c可以用网格宽度 ˜ w z k表示。非零的垂直视差常常给观众带来3D疲劳或眼睛疲劳[21,23]。为了消除垂直视差，我们约束同一行的扭曲网格在左右图像之间具有相同的高度。03.3. 两阶段扭曲算法0现有方法[11][38][13]采用基于顶点的扭曲来寻找最佳的扭曲网格。然而，直接使用基于顶点的扭曲有两个缺点。首先，其优化问题是非凸的。其次，由于基于顶点的扭曲允许扭曲网格的形状是任意四边形，其高自由度可能会引入不满意的折叠（即网格的自相交）或结构化对象的形状失真[25]（见图4）。为了解决这个问题，可以使用复杂甚至非凸的约束[5, 7, 36,28]。然而，优化所有扭曲顶点，同时满足所有能量约束是困难的，从而降低了视差重映的性能。0原始网格0基于顶点的扭曲0轴对齐的扭曲0图4：基于顶点的扭曲和轴对齐的扭曲产生的扭曲网格。基于顶点的扭曲引入了折叠（用红色虚线椭圆标记），而轴对齐的扭曲则牺牲了局部变换的灵活性。原始帧来自电影《编年史》，c � CFGC。0我们的洞察是，我们可以将基于顶点的扭曲与轴对齐的扭曲相结合，以弥补现有方法尚未探索的视差重映的不足之处。轴对齐的扭曲将所有扭曲网格限制为矩形，这在内容感知重定向[25,17]方面已被证明具有鲁棒性和有效性。首先，轴对齐的扭曲减少了变换的自由度，消除了折叠，并且不会施加额外的复杂约束。其次，其优化问题是凸优化问题，计算复杂度较低。然而，其缺点在于，变换的简化往往会牺牲局部变换的灵活性，导致对于视差重映中不重要的区域的3D结构和视差产生严重的失真。我们认为，轴对齐的扭曲可以更容易地满足对重要对象的扭曲所施加的所有约束条件，这要归功于其无折叠的变换和凸优化。另一方面，由于变换的简化，轴对齐的扭曲往往会在不重要的区域引入失真。我们可以利用基于顶点的扭曲的灵活性来改善这些区域的扭曲网格以减轻失真。主要挑战在于我们不能简单地将基于顶点的扭曲和轴对齐的扭曲组合成一步优化，因为它们会相互冲突。特别是，轴对齐的扭曲严格限制了同一行/列的所有扭曲网格具有相同的高度。22730相同的高度/宽度（见图4）。这样的硬约束不允许基于顶点的扭曲局部旋转/缩放每个网格边缘。为了解决这个挑战，我们提出了一种两阶段优化算法，它在两个阶段中找到最佳的网格（见图3）。在第一阶段，它采用轴对齐的扭曲来优化网格的所有部分，以确保它们满足由重要性图像识别的重要对象的视差重映的所有要求[11]。在第二阶段，它使用基于顶点的扭曲来局部优化不重要区域的扭曲网格，以减轻这些区域的失真。0第一阶段：轴对齐变形这个阶段的目标是通过计算上效率的轴对齐变形来获得变形网格。给定网格gzi，让wzk和hzk分别是其原始网格的宽度和高度，˜wzk和˜hzk是变形版本。为了找到最小化方程（1）中的E的变形网格，我们根据˜wzk和˜hzk来制定能量函数ES，ED和EG的方程。为了保持重要对象的形状，形状保持能量ES被定义为所有网格扭曲的加权和[16，25]。给定网格gzk，其扭曲能量是其变形版本的纵横比与原始版本的纵横比之间的差异，因为变形网格的形状是矩形的。因此，ES可以表示为0ES=�0z∈{L，R}0gzk∥wzk∙˜hzk−˜wzk∙hzk∥2∙δzk，（6）0其中δzk是gzk的网格重要性。我们通过计算gzk中的像素重要性之和来计算δzk，其中像素重要性由重要性图定义。重要性图是根据图像显著性图[41]和视差显著性图[8]的加权和定义的，参考[11]。为了保持3D结构，我们根据˜wzk和˜hzk来表示方程（3）中的EG。特别地，由于变形网格的形状是矩形的，我们有−−→˜vzi˜vzj=[˜wzk，0]在方程0（2），如果−−→˜vzi˜vzj是网格gzk的底部/顶部边。否则0我们得到−−→˜vzi˜vzj=[0，˜hzk]。对于每个gzk，我们根据视差图确定其在IR中的对应网格。为了找到第一阶段的变形网格，我们最小化方程（1）中包含方程（3），（6）和（5）的E，同时满足[25]中提出的边界约束。这是一个凸二次规划问题，我们可以使用例如主动集算法[24]找到E的全局最优解。0第二阶段：顶点变形在这个阶段，我们采用基于顶点的变形来优化第一阶段得到的变形网格。由于第一阶段已经对重要对象上的网格进行了优化，我们保留这些变形网格的顶点坐标，因此只优化不包含重要对象的区域中的网格。我们称这些区域为0作为背景区域，并且˜Vu={˜vi}表示这些区域上变形网格的顶点的集合。在这里，基于顶点的变形是为˜Vu中的顶点寻找最佳位置。首先，我们需要根据方程（1）中的形状保持、视差调整和3D结构保持来定义˜Vu的ES，ED和EG。给定gzk，ES(gzk)通过其变形与相似变换之间的偏差来衡量。具体来说，ES(gzk)被定义为每个变形边与其相似变换版本之间的差异，参考[36，12]：0ES(gzk)=�0（i，j）∈ek∥(˜vzi−˜vzj)−szk(vzi−vzj)∥2，（7）0其中ek是包含gzk的四条边的集合，szk=�0（i，0（i，j）∈ek∥vzi−0对于ED，我们最小化方程（5）中给出的背景区域中的对应点的视差调整能量。相应地，fk的坐标也通过重心坐标表示为˜Vu。类似地，对于EG，我们使用方程（2）中的3D结构保持能量，并仅最小化属于背景区域的网格的能量。参考[34，38]，我们还使用线弯曲能量，以避免严重的网格变形（例如折叠，结构物体畸变）。我们最小化方程（1）以获得˜Vu的最佳位置。这个优化问题是一个非凸问题。它被解决为一个迭代的最小二乘问题。注意，我们使用第一阶段得到的优化网格作为初始猜测，这加快了收敛速度。此外，与优化所有网格的顶点[11，38]相比，我们基于顶点的变形中的参数数量显著较少，因为只优化背景区域中的网格顶点。因此，我们的优化速度更快，比[11，38]更高效。04. 扩展到立体视频0我们可以将我们的方法扩展到具有时间约束的立体视频。通过分别将时间约束添加到第一阶段和第二阶段，我们可以确保重新映射的立体视频具有时间连贯性。特别地，我们首先通过运动估计算法（例如[2，32]）对立体视频的左/右视频进行对齐，以在帧之间对应的网格。然后，我们建立时间约束，以在第一阶段和第二阶段约束对齐的网格在帧之间保持一致的变形。具体而言，第一阶段的时间约束是针对轴对齐变形而建立的，它鼓励对齐的网格具有相同的宽度/高度。类似地，第二阶段的时间约束是基于顶点变形建立的，它鼓励对齐的网格的变形边缘经历一致的变换。c⃝ Filmko Films Productionfunction in [11], to challenge our method. Fig. 5 shows thedisparity remapping results on a stereo image which con-tains a man and a monkey. We decrease the disparity of theman and monkey by 280% and 220% respectively, to in-crease their depth strength. Compared with the ground-truthdisparity map in Figure 5, both VWR[11] and DWR[38] failto adjust the disparity of the man or the monkey to targetvalue. Furthermore, DWR distorts the disparity of other re-gions (e.g. background). Compared with VWR and DWR,our method achieves best performance in disparity adjust-ment, due to our two-stage warping. As to 3D structurepreservation, both VWR and DVW distort the structure ofthe monkey’s body in the 3D scene. The structure of theman’s shoulder is also distorted by DWR. In contrast, eventhough the 3D structure of the man and monkey is complex,our method well preserves the 3D structure of the wholeimage, thanks to our 3D-structure preserving energy (seesupplemental materials for more results on various stereoimages).22740原始0VWR [ 11 ]0DWR [ 38 ]0我们的0目标0图5：《西游记之孙悟空三打白骨精》中的立体图像比较结果。从上到下：立体图像的红青立体图像，视差图和从立体图像重建的3D场景。05. 实验0数据集。我们在从Flicker[1]和Middlebury数据集[27]收集的具有各种3D场景结构的图像上测试我们的方法，这两个数据集被广泛用于评估立体图像编辑方法。我们还从3D电影中收集立体图像。这些图像包含具有不规则形状和不同视差的物体，对视差重新映射提出了很大的挑战。我们首先将我们的方法与VWR [11]和DWR[38]进行比较，这两种方法是基于变形的方法中最先进的方法。然后，我们将我们的方法与大小和视差重新映射方法（SDR）[13]进行比较，该方法通过基于顶点的变形同时调整物体的大小和视差。这旨在展示将我们的方法扩展到附加要求（即大小调整）的好处。有关更多结果，请参阅补充材料。立体图像上的视差重新映射。良好的视差重新映射结果忠实地保留了重要物体的2D形状和3D结构，同时减小了其视差值与目标值之间的偏差。为了评估视差调整的性能，我们通过手动修改原始视差图中的视差值为其期望的目标值来构建地面实际视差图1。视差图是通过[8]中的算法计算得出的，其中最深红色和最深蓝色分别表示最小视差和最大视差。我们以类似的方式重建地面实际3D场景，以评估3D结构保持的性能。正如[11][13]所指出的，局部调整一个或多个物体的视差比全局调整整个图像的视差要复杂得多。因此，我们使用[11]中的局部视差调整函数来设置目标视差值，以挑战我们的方法。图5显示了包含一个男人和一只猴子的立体图像上的视差重新映射结果。我们将男人和猴子的视差分别减小了280％和220％，以增加它们的深度强度。与图5中的地面实际视差图相比，VWR [11]和DWR[38]都无法将男人或猴子的视差调整到目标值。此外，DWR扭曲了其他区域（例如背景）的视差。与VWR和DWR相比，我们的方法在视差调整方面表现最佳，这要归功于我们的两阶段变形。至于3D结构保持，VWR和DVW都扭曲了3D场景中猴子的身体结构。DWR也扭曲了男人的肩膀结构。相反，尽管男人和猴子的3D结构很复杂，但我们的方法很好地保持了整个图像的3D结构，这要归功于我们的3D结构保持能量（有关各种立体图像的更多结果，请参阅补充材料）。01地面实际视差图仅用于指示物体的视差值。在重新映射的立体图像的视差图中，物体的位置可能与实际视差图中的位置不同。0立体视频的视差重新映射。我们将我们的方法扩展到立体视频，并在一个包含男孩近距离面部的立体视频上测试了我们的方法。我们将男孩的面部视差减小了210%。所有方法都能很好地保持空间形状和时间连贯性（见补充材料中的图VI）。然而，VWR和DWR无法将面部的视差调整到目标值。对于3D结构保持性，VWR和DWR扭曲了面部的3D结构，与地面真实3D场景中的结构不同。相反，我们的方法不仅很好地保持了面部的3D结构，而且还忠实地将其视差调整到目标值。0尺寸和视差重新映射。图6显示了在立体图像上的尺寸和视差调整结果。为了与[13]进行比较，我们将尺寸调整约束纳入到我们的方法中。按照[13]的方法，男人的尺寸增加了8%，而他的视差相应增加了300%。由于尺寸调整的额外要求，视差重新映射的任务更加复杂。因此，SDR在左右图像之间不一致地变形了男人的头部，导致男人的3D结构变形。相反，我们的方法通过我们的3D结构保持约束忠实地保持了男人的3D结构。此外，我们的方法比SDR更准确地调整了男人的尺寸和视差。结果验证了我们的3D结构保持约束和两阶段优化对于具有尺寸调整等附加要求的视差重新映射是有益的。c⃝Blender Foundationc⃝BDI Films Inc.22750原始的0SDR[13]0我们的0目标0图6：在电影《大象梦》的一张立体图像上比较了尺寸和视差重新映射的结果。从上到下：左图像、右图像、视差图和从左右图像重建的3D场景。0原始的0我们的（无 E G ）0我们的（第一阶段）0我们的0目标0图7：对电影《妖怪猎人》中的一帧进行了EG和两阶段变形性能的消融研究。从上到下：立体对的红青色眼镜图像、视差图和从左右图像重建的3D场景。0男人的尺寸增加了8%，而他的视差相应增加了300%。由于尺寸调整的额外要求，视差重新映射的任务更加复杂。因此，SDR在左右图像之间不一致地变形了男人的头部，导致男人的3D结构变形。相反，我们的方法通过我们的3D结构保持约束忠实地保持了男人的3D结构。此外，我们的方法比SDR更准确地调整了男人的尺寸和视差。结果验证了我们的3D结构保持约束和两阶段优化对于具有尺寸调整等附加要求的视差重新映射是有益的。0定量评估。我们通过IR-SSIM[6]来衡量形状保持性能，这是一种衡量非均匀调整图像与原始图像之间结构相似性的度量。较高的IR-SSIM值表示形状保持得更好。从表1中可以看出，VWR、DWR和我们的方法的平均IR-SSIM值都很高，表明所有方法都能很好地保持形状。0结构相似性。我们通过IR-SSIM[6]来衡量形状保持性能，这是一种衡量非均匀调整图像与原始图像之间结构相似性的度量。较高的IR-SSIM值表示形状保持得更好。从表1中可以看出，VWR、DWR和我们的方法的平均IR-SSIM值都很高，表明所有方法都能很好地保持形状。0由于3D结构是非刚性的，因此很难测量3D结构的保持性能。相反，我们检查了属于同一前景/背景对象的网格的视差值是否被一致调整。这是通过Kendall相关系数来衡量重新映射和目标视差值之间的关系。系数越高，3D结构保持性越好。对于四个立体图像（见补充材料中的图IV、V、VI和VII），表1显示我们的方法明显优于其他方法Computational complexity. Given a 20×30 grid division,the run-time cost of our optimization is 0.3s, while that of[11] is 1.47s averagely on a laptop with a 2.26 GHz DuoCPU.22760表1：形状保持、3D结构保持和视差失真的定量评估结果（↑：值越高越好；↓：值越低越好）。0VWR DWR 我们的0形状保持 ↑ 0.975 0.980 0.983 3D结构保持 ↑ 0.6540.672 0.876 视差失真 ↓ 3.42 3.61 0.950原始的0SMA [42]0我们的0图8：我们的方法与一种最先进的视角插值方法[42]在具有相机参数的立体图像上的比较。该立体图像最初用于[42]。从上到下：立体对的左图像、视差图。0VWR和DWR在3D结构保持方面的比较。我们通过测量平均视差失真来评估视差调整的有效性。平均视差失真计算重新映射的立体图像视差值与真实值之间的平均差异。对于四个测试立体图像（见补充材料），表1显示我们的方法的视差失真显著低于VWR和DWR的视差失真。消融研究。我们首先评估了我们提出的3D结构保持能量E G的影响。如图7的第一列和第二列所示，如果去除E G，人物的3D结构会明显变形。此外，我们的方法的平均视差失真为0.63，但是去除E G后增加到2.21。我们还评估了提出的两阶段变形模型的有效性。图7显示了分别在两个阶段获得的视差重新映射结果。我们可以观察到第一阶段（轴对齐变形）很好地保持了Ant-Man的2D形状和3D结构，这是由于轴对齐变形提供的平滑性和鲁棒性。然而，第一阶段在背景中引入了严重的畸变。通过第二阶段的优化，背景中的畸变得到了有效缓解，这是由于顶点变形的灵活性。用户研究。我们在一台ASUS 3D24英寸显示器上使用NVIDIA主动快门眼镜进行了主观用户研究。我们邀请了31名具有正常立体视觉的被试参与视差重新映射结果的主观评估。他们对这些视差重新映射方法没有先验知识。我们将真实的立体图像放在中间，随机将两个待比较的视差重新映射对放在左右两侧。然后，我们要求每个被试回答以下问题：根据真实的立体图像，哪个编辑后的立体图像在视觉质量上更好？总共有73.5%的被试更喜欢我们的方法而不是VWR，71.6%的被试更喜欢我们的方法而不是DWR，从而验证了我们的方法在视差重新映射方面提供了更好的3D观看体验。0计算复杂度。在一个20×30的网格划分下，我们的优化运行时间为0.3秒，而[11]的平均运行时间为1.47秒，运行在一台2.26 GHz双核CPU的笔记本电脑上。0与视图插值方法的比较。我们将我们的方法与立体放大方法（SMA）[42]进行比较，该方法是视图插值的最新技术。与SMA不同，我们的方法不需要相机参数和训练数据。然而，如图8所示，SMA在图像的左边界引入了空洞，这会导致不满意的观看体验。此外，SMA还在红色鱼周围的区域产生模糊伪影（见图8中黄色块标记的区域）。SMA的平均形状保持得分（0.88）低于我们的方法（0.94），表明我们的结果质量更好。06. 结论0我们提出了一种新颖的视差重新映射方法，除了所需的视差调整外，还明确考虑了3D结构和2D形状的保持。为此，我们提出了3D结构保持约束，并将这些约束集成到能量成本函数中，形成了一个约束优化问题。我们还提出了一个由轴对齐变形和基于顶点变形的优化算法组成的两阶段变形算法，用于解决优化问题。实验结果表明，我们的方法能够同时很好地保持重要对象的2D形状和3D结构，同时准确调整视差图像到目标图像，而不引入明显的畸变。0致谢。这项工作得到了沙特阿拉伯国王阿卜杜拉国王科技大学（KAUST）赞助研究办公室通过视觉计算中心（VCC）的资助。22770参考文献0[1] T. D. Basha, Y. Moses, and S. Avidan.立体缝合雕刻的几何一致方法。IEEE模式分析与机器智能交易，35：2513–2525，2013年。 2 , 60[2] T. Brox and J. Malik.大位移光流：变分运动估计中的描述符匹配。IEEE模式分析与机器智能交易，33(3)：500–513，2011年。 50[3] C.-H. Chang, C.-K. Liang, and Y.-Y. Chuang.内容感知显示适应和交互式编辑用于立体图像。IEEE多媒体交易，13：589–601，2011年。 2 , 3 , 40[4] Inchang Choi, Orazio Gallo, Alejandro Troccoli, Min HKim, and Jan Kautz.极端视角合成。在IEEE国际计算机视觉会议论文集中，页码：7781–7790，2019年。 20[5] Y.-Y. Chuang and C.-H. Chang.保持线结构的图像调整方法。在IEEE国际计算机视觉与模式识别会议中，页码：1075–1082，2012年。 2 , 40[6] Y. Fang, K. Zeng, Z. Wang, W. Lin, Z. Fang, and C.-W. Lin.基于结构相似性的图像重定向客观质量评估。IEEE紧急选择主题电路系统交易，页码：95–105，2014年。 70[7] K. He, H. Chang, and J. Sun.内容感知旋转。在IEEE国际计算机视觉会议中，页码：553–560，2013年。 40[8] H. Hirschm¨uller.半全局匹配和互信息的立体处理。IEEE模式分析与机器智能交易，页码：328–341，2008年。 5 , 60[9] D. M Hoffman, A. R. Girshick, K. Akeley, and M. S. Banks.聚焦-调节冲突阻碍视觉性能并导致视觉疲劳。视觉杂志，8：33，2008年。10[10] M. B. Islam, L.-K. Wong, K.-L. Low, and C.-O. Wong.基于美学的立体3D图像重组与深度适应。IEEE多媒体交易，2018年。 20[11] M. Lang, A. Hornung, O. Wang, S. Poulakos, A. Smolic,and M. Gross.用于立体3D的非线性视差映射。ACM图形交易，29(4)：75:1–75:10，2010年。 1 , 2 , 3 , 4 , 5 , 6 , 80[12] K.-Y. Lee, C.-D. Chung, and Y.-Y. Chuang.场景变形：基于层的立体图像调整。在IEEE国际计算机视觉与模式识别会议中，2012年。 2 , 50[13] J. Lei, B. Peng, C. Zhang, X. Mei, X. Cao, X. Fan, and X. Li.用于立体图像的形状保持对象深度控制。IEEE电路与系统视频技术交易，28：3333–3344，2018年。 2 , 3 , 4 , 6 , 70[14] J. Lei, M. Wu, C. Zhang, F. Wu, N. Ling, and C. Hou.基于像素融合的保持深度的立体图像重定向。IEEE多媒体交易，19：1442–1453，2017年。 20[15] B. Li, L.-Y. Duan, C.-W. Lin, T. Huang, and W. Gao.用于立体图像重定向的保持深度的变形。IEEE图像处理交易，24(9)：2811–2826，2015年。 20[16] B. Li, L.-Y. Duan, J. Wang, R. Ji, C.-W. Lin, and W. Gao.用于视频重定向的时空网格流。IEEE图像处理交易，23(4)：1615–1628，2014年。 50[17] B. Li, C.-W. Lin, B. Shi, T. Huang, W. Gao, and C.-C. J. Kuo.基于深度的立体视频重定向。在IEEE计算机视觉与模式识别会议中，页码：6517–6525，2018年。 40[18] B. Li, C.-W. Lin, C. Zheng, S. Liu, and C.-C. J. Kuo.轴对齐变形的立体深度映射。在IEEE图像处理国际会议中，页码：4305–4309，2019年。 20[19] S.-S. Lin, I.-C. Yeh, C.-H. Lin, and T.-Y. Lee.基于补丁的图像变形用于内容感知的重定向。IEEE多媒体交易，15(2)：359–368，2013年。 20[20] Belen Masia, Gordon W

下载后可阅读完整内容，剩余1页未读，立即下载