基于网格的光度对齐方法：特征匹配和低纹理图像内容的影响

35 浏览量更新于2023-10-15 收藏 13.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

124050通过网格变形进行直接光度对齐0Kaimo Lin 1, 2 Nianjuan Jiang 2, 4 Shuaicheng Liu 3 Loong-Fah Cheong 1 Minh Do 2 Jiangbo Lu 2, 401 新加坡国立大学 2 新加坡高级数字科学中心 3 中国电子科技大学 4中国深圳云梦科技0摘要0在图像/视频拼接和视频稳定等应用中，选择合适的运动模型至关重要。传统方法从简单的全局参数模型到复杂的逐像素光流探索了不同的方法。基于网格的变形方法在计算复杂性和模型灵活性之间取得了良好的平衡。然而，它们通常需要高质量的特征对应，并且容易受到不匹配和低纹理图像内容的影响。在本文中，我们提出了一种基于网格的光度对齐方法，该方法通过最小化已知特征对应的像素强度差异而不是欧氏距离来实现。所提出的方法将密集光度对齐的优越性能与基于网格的图像变形的效率相结合。在纹理图像中，它实现了比基于特征的对应物更好的全局对齐质量，更重要的是，它还对低纹理图像内容具有鲁棒性。丰富的实验证明我们的方法可以处理各种图像和视频，并且在图像拼接和视频稳定任务中优于代表性的最新方法。01. 引言0在图像拼接[6, 30, 31, 4, 13, 14]、视频拼接[10, 23, 15,11]和视频稳定[17,19]等应用中，已经使用了各种运动模型。全局参数模型由于其简单性，可以稳健高效地估计，因此在早期的工作中很受欢迎（例如[2,21]）。然而，当场景是平面或相机运动是旋转时，它们只能很好地工作。对于具有视差的图像，通常使用全局参数模型来估计其他更复杂方法的初始对齐[17, 30,14]。除了全局参数模型，根据模型复杂性（图1），我们可以将大多数现有的运动模型分为三类，即基于网格的图像变形[17, 12, 15]、空间变化的参数运动场0[16, 30]和光流[23,20]。基于网格的图像变形允许空间变化的运动模型，并且只施加局部刚性。这种方法需要高质量的特征匹配，并旨在最小化匹配特征的几何对齐误差。局部刚性通过约束网格单元进行相似变换[17, 31,12]或仿射变换[32]来实施。这些方法已被证明足够灵活，可以处理大多数图像拼接任务中的复杂场景几何和相机运动（例如[17, 19,12]）。然而，它们的性能高度依赖于特征对应的质量和分布，并且很容易受到低纹理内容的影响。像APAP[30]和“空间变化仿射”[16]这样的空间变化的参数运动场模型可以通过插值每个图像像素的2D变换来产生良好的拼接结果，即使特征匹配不理想。然而，这些方法仍然需要一些高质量的特征匹配作为起点，更不用说它们的计算成本更高了。相反，光流直接估计最小刚性假设下的2D像素运动。它通常在视频应用中使用，因为它在低纹理和丰富纹理场景上提供了良好的对齐质量和密度。然而，光流估计通常计算成本较高，并且对于“合成质量”驱动的应用来说，不需要在每个像素上估计物理准确的运动。在本文中，我们提出了一种基于网格变形的光度对齐（MPA）方法，它源于光流的概念，但以网格变形的形式进行。我们用当前对齐中采样点的光度误差替换已知对应的几何误差，并最小化这个误差以实现近似像素级对齐。每个采样点的位移由四个最近的网格顶点参数化，因此优化问题的大小与采样点的数量无关。因此，所提出的方法不仅利用了变分优化的密度和可靠性，而且还具有较低的计算复杂度。24060特征驱动对齐直接对齐0方法0稀疏匹配像素0参数化运动场0稀疏匹配0网格变形0采样位置0我们的MPA0像素0光流0变量每像素3×3矩阵T网格顶点Vi网格顶点Vi像素运动(u，v)0度量外观，几何[30，16]几何光度光度0正则化全局平滑网格刚性[17]网格刚性分段平滑0测量稀疏稀疏半密集密集0速度慢快快慢0图1：与图像拼接和视频稳定的典型运动估计方法进行比较。0光流算法不仅可以利用光度对齐进行光度对齐，还可以利用基于网格的图像变形进行在线处理。此外，它还可以轻松地融入更复杂的正则化先验，例如用于空间平滑性的一般内容保持项[17]或用于最小化不自然场景畸变的曲线结构保持项[14]。这些约束对于一般的光流算法来说是非平凡的。在实验中，我们的方法在各种图像和视频内容上始终产生出色的对齐质量，并在图像拼接和视频稳定任务中优于代表性的最新方法。02. 相关工作0全局参数模型Homography是许多应用中最常用的全局参数模型。早期的方法通过稀疏特征匹配估计单个单应性模型，用于图像拼接[25，8，2]和视频稳定[21]。然而，单应性模型只适用于纯相机旋转或平面场景的假设。任何违反这些假设的情况都会引入伪影和抖动等伪迹。0基于网格的图像变形对于具有视差的图像或视频，基于网格的图像变形是一种常用方法。Gao等人[6]使用双单应性模型进行拼接，假设场景包含两个主要平面。Lin等人[13]提出了一种混合变形模型，将两个拼接场合融合在一起，生成自然的全景图。对于低纹理图像，Li等人[12]提出了一种双特征（关键点和线段）变形模型，以引导低纹理区域的对齐。为了在变形过程中保留显著结构（例如线条和曲线），Zhang等人[32]和Li等人[12]将不同的线条保持约束纳入网格变形过程中。Lin等人[14]提出了一种保留曲线的0在他们的缝合引导本地对齐方法中，保留曲线结构。Liu等人[17]开发了保持内容的变形（CPW），根据稀疏3D重建获得的平滑相机路径对原始视频帧进行变形，用于视频稳定。为了实现实时效率，Liu等人[18]引入了MeshFlow，一种非参数变形方法用于视频稳定。最近，作品[10，15，11]提出了专门考虑空间和时间平滑性的变形方法，用于视频拼接。0空间变化的参数化运动场Lin等人[16]提出了一种平滑变化的仿射场用于图像拼接。像素级参数模型与特征对应一起估计。它允许对从不同视点和光照条件拍摄的图像进行全局对齐，但计算复杂度较高。Zaragoza等人[30]引入了一种更一般和更高效的空间变化投影运动模型，用于局部对齐对应关系，同时保持全局投影变换。0光流光流在一些视频应用中也得到了探索。就全局对齐质量而言，光流通常比基于网格变形的方法产生更好的结果。然而，作为一种通用的运动估计技术，所得到的光流场通常需要进行后处理以适应特定应用（例如，异常值过滤、遮挡检测）。Perazzi 等人 [23]使用光流从非结构化相机阵列生成全景视频。Liu 等人 [20]提出了从光流中提取像素轮廓的概念，用于分析动态运动并稳定视频帧。然而，光流方法的计算复杂度限制了它在处理一般视觉内容中的实际应用。另一方面，我们基于网格的光度对齐方法几乎可以达到与基于光流的方法相媲美的视觉对齐质量，并具有较低的算法复杂度。qVq3Vq1vuV1V2V3Vq2Vq4qVq1^Vq2^Vq4^Vq3^τ(q)q^(a)(b)(c)Ec(τ(q)) = ∥Itar(q) + ▽Itar(q)τ(q) − Iref(q)∥2, (2)τ(q) = ˆq − q,ˆq =4E( ˆV ) = Ep( ˆV ) + λ1Es( ˆV ) + λ2El( ˆV ),(4)Ep( ˆV ) =�qEc(τ(q)).(5)V1 = V2+u(V3−V2)+vR90(V3−V2), R90 =01−10.24070图2：通过网格变形进行光度对齐。03. 基于网格的光度对齐0给定两个图像（一个参考图像 I ref 和一个目标图像 I tar）捕捉同一场景，我们的目标是估计它们之间的运动，通过网格变形进行参数化。我们假设这两个图像大致对齐（例如，视频的连续帧或其中一幅图像通过全局单应性变换）。所提出的方案通过将 I tar 变形到 I ref，以在重叠区域内最小化光度差异来实现对齐。03.1. 光度误差0我们假设两个图像中的对应点遵循亮度恒定约束。给定两个图像的初始对齐，我们在重叠区域内均匀采样位置（水平和垂直方向都是三个像素）。对于 I tar 中的每个采样点位置q ，我们寻找一个 2D 偏移量 τ ( q )，使得以下光度误差最小化：0∥ I tar ( q + τ ( q )) − I ref ( q ) ∥ 2 , (1)0其中，I ref ( q ) 是 I ref 在 q 处的强度，I tar ( q + τ ( q ))是 I tar 在 q + τ ( q )处的强度。由于两个图像大致对齐，我们可以假设 τ ( q )很小，并将 τ ( q ) = (0 , 0) 作为其初始值。利用 I tar ( q +τ ( q )) 的一阶泰勒展开，光度误差可以表示为：0其中，▽ I tar ( q ) 是在 q处的强度梯度的近似值。显然，如果我们仅最小化 E c ( τ (q )) ，那么它将与计算没有空间正则化的光流相同。03.2. 网格变形对齐0为了隐式地强制空间平滑性，我们将光度误差最小化问题转化为网格变形过程。具体来说，我们使用四个周围网格顶点的坐标重新参数化每个采样点上的偏移量。类似的策略已经被提出来重新参数化图像块内的残差流，使用参数模型[3]。对于图像拼接或视频稳定等应用，通常不需要每个像素的准确运动模型。0像素准确性的运动模型。因此，我们使用一个简化的模型，将每个采样点 q 上的偏移量 τ ( q )表示为四个包围它的网格顶点 ˆ V k q 的二次线性插值（图2(a) 和 (b)），即0k = 1 c k ˆ V k q , (3)0其中，c k 是通过将 q 表示为初始网格顶点 V k q的二次线性插值来计算的固定系数，ˆ V k q是要优化的未知新顶点位置。我们使用网格网格来表示 I tar，并定义目标函数如下：0其中 ˆ V是未知网格顶点的坐标。我们在目标函数中引入了三个项，其中 E p ( ˆ V ) 是光度项，E s ( ˆ V ) 是相似变换项，E l( ˆ V ) 是线段保持项。最后两个项的权重分别为 λ 1 和 λ 2（在我们的实现中，λ 1 = 0.2 � 0.5，λ 2 = 1.0）。0光度项的计算是通过对所有采样点的 E c ( τ ( q ))进行求和得到的，除了具有非常小的梯度值（小于0.02）的点，即：0我们排除那些具有太小梯度值的采样点，因为它们对对齐过程没有太多有用的信息。即便如此，剩下的采样点数量仍然显著大于可以检测到的稀疏特征匹配的数量，这为对齐提供了更多的指导。0相似变换项为了约束具有不足或没有采样点的图像区域，并保持变形的空间平滑性，我们采用了CPW中的相似变换约束。相似变换项测量每个变形的网格单元与其初始形状的相似变换之间的偏差。如图2(c)所示，每个网格单元可以分为两个三角形。在每个三角形中，我们计算由另外两个顶点 V 2 和 V 3定义的局部坐标系中的顶点 V 1的局部坐标（u，v）。然后，我们有：0(6)为了在变形后使每个网格单元经历相似变换，我们只需要确保 ˆ V 1 可以Es( ˆV ) =∥ ˆV i1 −( ˆV i2 +u( ˆV i3 − ˆV i2 )+vR90( ˆV i3 − ˆV i2 ))∥2,El( ˆV ) =∥Li,jkey − (Lib + u(Lic − Lib))∥2,(8)24080仍然可以使用相同的局部坐标（u，v）用 ˆ V 2 和 ˆ V 3表示。因此，相似变换项定义为：0N t是0(7) 其中 N t 是网格中三角形的总数。0线段保持项单独的相似变换项不足以约束大于网格单元的结构。Lin等人[14]引入了一个曲线保持项来保持变形过程中显著结构的形状。这里我们只使用从直线派生的约束。具体来说，我们使用[27]中的检测器在 I tar中检测线段。对于每个线段，我们沿着它均匀采样关键点。对于线段上的每个关键点，我们可以在由线段的两个端点定义的局部坐标系中计算一个一维坐标u。为了保持线段的直线性，我们要求关键点在变形后仍由相同的局部坐标 u 表示。线段保持项定义为：0Nk是0其中 N l 是线段的总数，N k 是每个线段 i上的关键点数。关键点 L i,j key 和端点 L i b 和 L i c还使用双线性插值由网格顶点参数化。更多细节请参考[14]。0优化所有的代价函数都是二次的，可以通过任何稀疏线性求解器轻松最小化。每次求解线性方程后，网格只会局部地向最终位置变形。因此，我们多次进行优化，直到网格稳定。首先，将 I tar 划分为一个 m × n的规则网格（在我们的实现中，m = 16，n =16）。然后，我们在 I tar中均匀采样点，并将其存储以供后续优化使用。随着每次迭代中网格的更新，我们只使用当前重叠区域内存储的采样点进行进一步优化。如果顶点坐标在迭代之间的平均变化小于预定义的阈值（在我们的实现中为一个像素），则认为优化已收敛。03.3. 粗到细策略0为了处理输入图像之间的大位移，我们在迭代过程中采用了粗到细的策略。具体来说，我们为Itar（L=3）建立了一个L层高斯金字塔，并从顶层开始进行优化。0（a）初始对齐0（b）顶层0（c）底层0图3：光度对齐的三层粗到细策略。（a）优化之前的初始对齐。（b）顶层的优化结果。（c）底层的优化结果。0层（原始图像分辨率的6.25%）到底层（完整图像分辨率）。对于每一层，我们使用固定的网格分辨率进行光度对齐。得到的网格顶点乘以2，作为下一层的初始对齐。图3展示了粗到细策略的一个示例。04. 定量评估0为了证明我们的MPA方法的有效性，我们进行了几个实验，对真实图像进行了定量评估。我们使用的数据包括离散图像对和视频的连续帧。对于具有大运动或明显光照变化的离散图像对，我们在应用我们的MPA之前进行预处理操作。04.1. 预处理0对于离散图像的初始对齐，我们首先使用SIFT[29]提取稀疏特征匹配，然后使用[32]中的异常值过滤方法。然后，我们应用全局单应性估计使用内点对Itar进行预变形到Iref。为了最小化输入图像之间的光照变化的影响，我们首先根据[9]中的方案对原始彩色图像进行归一化处理，该方案提供了在仿射光照变化下的不变性。在这一步之后，我们将这些归一化图像应用于我们的对齐方法。04.2. 图像对上的评估0对于用于图像拼接的离散图像对，我们将我们的MPA与两种最先进的图像拼接方法进行比较，即APAP[30]和曲线保持变形[14]。测试图像对包括最近文献中常用的图像对和我们收集的图像对（图4，前三行）。由于这些图像没有可用的真实对齐结果，我们通过计算重叠区域中的局部相似性来评估对齐质量。具体来说，我们使用[12]中的相同准确度度量来评估两个对齐图像的对齐质量。我们计算重叠区域中像素的5×5窗口的归一化互相关（NCC）的1减去结果的RMSE，即RMSE(Itar, Iref) =�1Nπ(1.0 − NCC(pref, ptar)),016.395.464.651019.917.816.80214.814.311.81117.816.112.00311.911.510.41238.338.932.5046.265.115.251319.818.014.5055.785.215.191410.510.27.70612.210.79.73156.688.884.940713.813.3813.61616.114.013.0082.32.741.69179.068.86.06095.375.152.801812.910.72.8724090图4：我们用于定量评估的图像对和视频数据集。前三行：图像对（01-06来自[30]，07-09来自[12]，10-12来自[31]，13-15来自[14]，16-18是我们自己的）。后两行：视频（01-02是我们自己的，03-12来自[19]和[20]）。0�0（9）其中N是重叠区域π中的像素数，p ref和p tar分别是Iref和I tar中的像素。0对于曲线保持变形和APAP，我们根据作者建议的指导方针调整这些方法的参数，以达到我们能够获得的最佳结果。由于我们在这个实验中的目标是全局对齐，我们在曲线保持变形方法[14]中给予了相等的权重。不同方法的RMSE结果如表1所示。从结果中我们可以看出，在大多数情况下，我们的MPA比曲线保持变形方法产生更好的对齐效果，并且在他们选择的数据集（01-06）以及来自[12]的图像对07-09上，我们的MPA方法始终优于APAP[30]，即使APAP方法在这些图像对上优于双特征方法[12]。APAP从稀疏分布的特征中插值像素运动，对齐质量受到正确匹配特征点分布的限制。相反，我们的MPA利用密集采样点和图像梯度进行对齐引导，因此通常在全局上表现更好，而不管我们的MPA使用的小网格分辨率如何。最后，图5使用图像对09来展示我们的MPA方法带来的这些改进通常是可察觉的。0编号 APAP 曲线 MPA 编号 APAP 曲线 MPA0表1：图像拼接的图像对的均方根误差结果。曲线：使用保持曲线的变形[14]的对齐误差。0图5：在图像对09上与APAP[30]和保持曲线变形[14]进行比较。04.3. 视频帧评估0视频稳定的运动估计需要始终保持良好的结果才能获得令人满意的效果。我们将我们的方法与两种最先进的视频稳定运动估计方法进行定量比较，即Liu等人的尽可能相似的变形（ASAP）[19]和MeshFlow中的非参数运动估计方法[18]。前者以其处理视差的能力而闻名，而后者是最新的工作，实现了实时性能。测试视频如图4所示（底部两行），按照相机运动和场景内容进行分类。对于具有动态前景对象的视频，我们采用迭代的前景运动抑制方案，以最小化前景运动对相机运动估计的不利影响（见第6.1节）。对于每个视频，我们根据公式（9）计算相邻帧之间的对齐误差，并在图6中绘制它们。为了更好地可视化，我们只显示视频中均匀采样帧的误差。对于大多数情况，我们的MPA比ASAP和MeshFlow产生更好的对齐质量。更重要的是，MPA在整个时间轴上表现出稳定的算法行为，无论相机运动和场景内容的类型如何。总的来说，我们的方法可以在具有2.4GHzCPU的PC上每秒处理2�5帧（640×360分辨率）。因此，考虑到它在效率和高质量结果之间取得的良好平衡，MPA与另外两种方法具有竞争力。 0123450123456780246810121402468101201234500.511.522.533.544.50123456012345678024681012141791124681012241000 2 4 6 8 10 12 14 16 18 ASAP MeshFlow 我们的0图6：视频上的定量对齐质量比较。x轴：时间轴上的帧索引。y轴：对齐误差。05. 应用一：拼接困难图像0在第4.1节中展示了MPA在用于拼接任务的典型图像上的有效性和优势，现在我们将注意力转向那些预计对大多数最先进技术构成挑战的图像。05.1. 具有大视差的图像0对于具有大视差的图像，通常在局部区域搜索视觉上合理的拼接接缝的局部对齐方法[7, 31,14]通常优于全局对齐方法[17,30]。MPA可以帮助在最终拼接接缝周围的具有少量匹配特征的区域进行局部对齐。图7显示了在最先进的局部对齐方法SEAGULL[14]的结果上改进的局部对齐示例。我们使用[14]中的代码生成此示例的局部对齐网格。然后，我们仅在最终拼接接缝区域应用MPA以进一步改善接缝质量。正如我们所看到的，基于特征的局部对齐方法有时无法保证在具有少量特征匹配的局部区域中获得良好的对齐。在这种情况下，MPA可以用作后处理工具，以有效地消除小的对齐误差，从而获得更好的拼接质量。05.2. 低纹理图像0大多数拼接方法[2, 6, 16, 30, 31, 4, 13,15]使用稀疏的关键点匹配来估计运动模型。对于低纹理图像，由于低纹理区域匹配点的稀缺性，这些方法可能会失败。Li等人[12]提出使用双特征进行图像对齐，他们的方法优于最先进的基于关键点的方法。然而，这种方法在没有稳健线对应的低纹理区域仍然存在问题。为了评估MPA在低纹理图像上的有效性，我们将我们的方法与他们的方法[12]在他们选择的低纹理图像上进行比较，因为他们的方法的源代码不可用。图8显示了比较结果。正如我们所看到的，两种方法在这些图像上都表现良好，而我们的方法在图像对上产生更好的对齐质量。0图7：局部接缝区域的MPA。右上：来自SEAGULL[14]的最终拼接接缝周围的对齐。右下：局部接缝区域的改进对齐。0门和架子，提取线段在小结构和弱梯度上往往很困难。我们的方法直接利用梯度信息进行对齐优化，从而避免了由于线段检测和匹配失败而引起的潜在问题。06. 应用二：视频稳定0在视频稳定中，任何动态前景物体的存在通常会干扰相机运动的估计，因此在运动恢复过程中应该排除它们。解决这个问题的综合性方案超出了本文的范围。然而，假设每个视频帧中的背景运动是主导的，我们已经将以下简单的迭代变形方案纳入到处理具有动态前景物体的视频中。06.1. 动态前景运动抑制0传统的基于稀疏特征的稳定方法使用RANSAC来检测动态物体上的特征。然而，这只提供了关于动态区域完整范围的稀疏部分信息。Liu等人的方法[20]分析了在已知每像素运动的局部时间域中像素轮廓的行为，而这在我们这里是不可得的。一些无监督和有监督的物体分割方法[22, 28, 26, 33, 1, 5]24110双特征结果0我们的结果0桌子柜子门架子0图8：与双特征方法[12]的比较。上排：双特征方法的结果。下排：我们的光度对齐结果。这里我们使用与[12]中相同的混合方法进行公平比较。0也可以用于动态物体分割。然而，这些方法通常要么耗时，要么需要手动标注。在这里，我们使用一种在线迭代动态运动抑制方案，可以轻松地集成到我们的MPA中，计算开销很小。这个迭代方案基于以下观察结果：网格变形后，动态前景物体通常会导致较大的对齐误差，这是由于正则化项引起的。我们可以利用这些信息粗略估计那些动态物体的局部区域，并在新的运行中避免使用这些区域中的采样点。具体而言，我们在MPA中为Itar采用一个采样掩码，并通过三个步骤迭代优化对齐。首先，我们使用“未掩码”的采样点进行光度对齐。采样掩码初始化为空白。然后，我们通过计算重叠区域的强度差异来计算每个像素的对齐误差。最后，对于误差大于预定义阈值的像素，我们计算它们在变形之前的原始位置，并将这些位置标记为“掩码”。然后，我们丢弃先前的变形结果，并使用新更新的采样掩码重新启动我们的MPA方法。当掩码的变化很小时，我们停止更新掩码。图9显示了一些动态运动去除的示例。可以看到，动态运动已经被有效地滤除。06.2. 低纹理视频的比较0对于富有纹理的视频，基于稀疏特征的方法[17, 19,18]或基于光流的方法[20]通常可以为视频稳定任务生成令人满意的对齐结果。然而，对于低纹理的视频，往往无法保证足够的关键点或稳健的光流。视频帧可能始终只有很少的特征点。0图9：前景运动去除。左：输入图像。中：传统光流。右：我们从变形网格中得到的光流。0除了低纹理视频外，许多视频可能会有偶尔包含大量低纹理场景的帧。这些情况对相机运动估计构成了重要挑战。在随后的相机路径优化过程中，过滤掉由此产生的错误运动也是非常困难的[19,20]。为了证明我们的对齐方法在这种情况下的有效性，我们应用了两种最先进的相机路径优化方法，即捆绑路径优化[19]和SteadyFlow与其像素轮廓优化[20]，并将我们的对齐结果与原始方法的最终稳定结果进行比较。由于我们的MPA和ASAP[19]都将相机运动表示为变形网格，我们可以直接将捆绑路径优化方法应用于我们的网格以获得稳定的视频。为了应用SteadyFlow，我们首先从我们的网格中计算流，然后应用像素轮廓优化方法[20]。图10显示了从视频中得出的典型比较结果。从中我们可以看出，Liu等人的方法[19]在低纹理区域产生明显的失真，而SteadyFlow由于在均匀区域中估计的不可靠光流而导致内容失真和破碎。另一方面，我们的对齐方法在这些低纹理视频上产生了显著更好的稳定质量。我们还实现了一种基线方法，该方法直接使用从光流中获得的稀疏匹配进行低纹理视频的网格变形。具体而言，我们首先使用[24]生成点轨迹，并从中提取相邻帧之间的半密集匹配。然后，我们使用这些匹配应用保持内容的变形[17]来对齐连续帧。最后，我们在变形后的网格上应用捆绑路径优化来生成稳定的结果。由于直接从光流中估计的匹配在低纹理区域中可能非常不可靠，导致网格对齐不准确，因此稳定的结果仍然存在不愉快的失真。另一方面，我们的MPA同时进行匹配和对齐，并采用更先进的网格正则化方法来避免这些困难区域中的粗略对齐错误，并为视频稳定任务实现了合理的对齐质量。完整的视频稳定结果请参见补充视频。24120ASAP + Bundled MPA + Bundled Optical �ow + Pixel pro�le MPA + Pixel pro�le0图10：与Liu等人[19]和SteadyFlow[20]在低纹理视频上的比较。ASAP +Bundled：ASAP对齐和捆绑路径优化的结果。MPA + Bundled：MPA对齐和捆绑路径优化的结果。光流 +像素轮廓：光流对齐和像素轮廓优化的结果。MPA + 像素轮廓：MPA对齐和像素轮廓优化的结果。0Liu等人的方法[19]在低纹理区域产生明显的失真，而SteadyFlow由于在均匀区域中估计的不可靠光流而导致内容失真和破碎。另一方面，我们的对齐方法在这些低纹理视频上产生了显著更好的稳定质量。我们还实现了一种基线方法，该方法直接使用从光流中获得的稀疏匹配进行低纹理视频的网格变形。具体而言，我们首先使用[24]生成点轨迹，并从中提取相邻帧之间的半密集匹配。然后，我们使用这些匹配应用保持内容的变形[17]来对齐连续帧。最后，我们在变形后的网格上应用捆绑路径优化来生成稳定的结果。由于直接从光流中估计的匹配在低纹理区域中可能非常不可靠，导致网格对齐不准确，因此稳定的结果仍然存在不愉快的失真。另一方面，我们的MPA同时进行匹配和对齐，并采用更先进的网格正则化方法来避免这些困难区域中的粗略对齐错误，并为视频稳定任务实现了合理的对齐质量。完整的视频稳定结果请参见补充视频。07. 结论与未来工作0在本文中，我们提出了一种基于网格的光度对齐方法，用于生成像图像拼接和视频稳定等应用的高质量图像变形。0我们的方法利用直接光度对齐在低纹理和高纹理输入中的可靠性能，并将半密集对齐优化形式化为高效的网格变形过程。实验结果表明，我们的方法可以处理各种图像和视频，并在图像拼接和视频稳定任务中优于许多最先进的运动估计方法，特别是对于低纹理的图像和视频。我们还观察到当前工作的一些局限性。首先，如果图像中包含大量均匀区域而没有任何显著结构用于对齐引导，MPA可能无法正确估计相机运动，尽管通常这些伪影在视觉上是不可察觉的。其次，我们没有明确处理物体边界上的点或遮挡区域中的点，这可能导致这些局部区域的错位。一个可能的解决方案是在求解网格顶点时使用L1优化而不是L2优化。这些都是未来工作中值得探索的有趣方向。08. 致谢0这项工作得到了中国国家自然科学基金（61502079）和新加坡科学、技术和研究局（A*STAR）ADSC的HCCS研究资助的部分支持. 101 这项工作主要是在Kaimo,Nianjuan和Jiangbo实习和在ADSC工作期间完成的.24130参考文献0[1] S. Avinash Ramakanth and R. Venkatesh Babu. Seamseg:使用补丁接缝进行视频对象分割. 在CVPR会议上, 2014. 60[2] M. Brown and D. G. Lowe.使用不变特征进行自动全景图像拼接. 计算机视觉国际期刊,74(1):59–73, 2007. 1 , 2 , 60[3] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert.基于变形理论的高精度光流估计. 在欧洲计算机视觉会议上,页码25–36. Springer, 2004. 30[4] 张春华, 佐藤洋介, 莊育誠.用于图像拼接的保持形状的半投影变形. 在CVPR会议上, 2014. 1 , 60[5] Q. Fan, F. Zhong, D. Lischinski, D. Cohen-Or, and B. Chen.Jumpcut: 非连续的掩模传递和插值用于视频剪辑. ACM Trans.Graph. , 34(6):195:1–195:10, Oct. 2015. 60[6] 高嘉, S. J. Kim, and M. S. Brown.使用双单应性变形构建图像全景. 在CVPR会议上, 2011. 1 , 2 , 60[7] J. Gao, Y. Li, T.-J. Chin, and M. S. Brown. Seam-driven图像拼接.在Eurographics会议上, 页码45–48, 2013. 60[8] R. Hartley and A. Zisserman.多视图几何在计算机视觉中的应用 . Cambridge UniversityPress, New York, NY, USA, 2 edition, 2003. 20[9] S. He, Q. Yang, R. W. Lau, J. Wang, and M.-H. Yang.通过局部敏感直方图进行视觉跟踪. 在CVPR会议上,页码2427–2434, 2013. 40[10] 姜伟, 顾杰. 带有时空内容保持变形的视频拼接. 在CVPRWorkshops上, 2015. 1 , 20[11] J. Lee, B. Kim, K. Kim, Y. Kim, and J. Noh. Rich360:从结构化全景相机阵列中优化的球面表示. ACM Trans. Graph. ,35(4):63:1–63:11, July 2016. 1 , 20[12] 李松, 袁亮, 孙剑, 全力. 基于双特征变形的运动模型估计.在ICCV会议上, 页码4283–4291, 2015. 1 , 2 , 4 , 5 , 6 , 70[13] C.-C. Lin, S. U. Pankanti, K. N. Ramamurthy, and A. Y. Ar-avkin. 自适应尽可能自然的图像拼接. 在CVPR会议上, 2015. 1 , 2, 60[14] 林凯, 江楠, 张立峰, Do, M., 陆军. Seagull:面向视差容忍的图像拼接的缝隙导向局部对齐.在欧洲计算机视觉会议上, 2016. 1 , 2 , 4 , 5 , 60[15] 林凯, 刘胜, 张立峰, 曾波. 使用手持相机输入的无缝视频拼接.计算机图形学论文集（Eurographics 2016会议论文集）,35(2):479–487, May 2016. 1 , 2 , 60[16] 林伟宇, 刘胜, 松下裕树, 吴天天, 张立峰. 平滑变化仿射拼接.在CVPR会议上, 2011. 1 , 2 , 60[17] F. Liu, M. Gleicher, H. Jin, and A. Agarwala.用于3D视频稳定的保持内容的变形. ACM Trans. Graph. ,28(3):44:1–44:9, July 2009. 1 , 2 , 3 , 6 , 7 , 80[18] 刘胜, 谭鹏, 袁亮, 孙剑, 曾波. Mesh�ow:最小延迟的在线视频稳定. 在欧洲计算机视觉会议上, 页码800–815.Springer, 2016. 2 , 5 , 70[19] 刘胜, 袁亮, 谭鹏, 孙剑. 捆绑相机路径用于视频稳定. ACMTrans. Graph. , 32(4):78:1–78:10, July 2013. 1 , 5 , 7 , 80[20] 刘胜, 袁亮, 谭鹏, 孙剑. Steady�ow: 空间平滑的视频稳定光流.在CVPR会议上, 页码4209–4216. IEEE, 2014. 1 , 2 , 5 , 6 , 7 ,80[21] Y. Matsushita, E. Ofek, W. Ge, X. Tang, and H.-Y. Shum.带有运动修复的全帧视频稳定. IEEE模式分析与机器智能期刊,28(7):1150–1163, 2006年7月. 1 , 20[22] A. Papazoglou and V. Ferrari. 非约束视频中的快速目标分割.在ICCV会议上, 2013年12月. 60[23] F. Perazzi, S.-H. Alexander, H. Zimmer, P. Kaufmann, O.Wang, S. Watson, and M. Gross. 无结构相机阵列的全景视频.计算机图形学论坛（Eurographics 2015会议论文集）, 32(2),2015年. 1 , 20[24] N. Sundaram, T. Brox, and K. Keutzer.通过GPU加速的大位移光流产生的密集点轨迹. 在ECCV会议上,2010年, 页码438–451. 80[25] R. Szeliski and H.-Y. Shum. 创建全景图像镶嵌和环境地图.在SIGGRAPH '97会议上, 1997年, 页码251–258. 20[26] B. Taylor, V. Karasev, and S. Soatto.持久遮挡引起的因果视频目标分割. 在CVPR会议上, 2015年6月. 60[27] R. G. von Gioi, J. Jakubowicz, J.-M. Morel, and G. Randall.LSD: 一种具有误检测控制的快速线段检测器.IEEE模式分析与机器智能期刊, 32(4):722–732, 2010年. 40[28] W. Wang, J. Shen, and F. Porikli.显著性感知的测地线视频目标分割. 在CVPR会议上, 2015年6月. 60[29] C. Wu. SiftGPU: 尺度不变特征变换（SIFT）的GPU实现.http://cs.unc.edu/ ˜ ccwu/siftgpu , 2007年. 40[30] J. Zaragoza, T.-J. Chin, M. S. Brown, and D. Suter.尽可能接近透视的图像拼接与移动DLT. 在CVPR会议上, 2013. 1 ,2 , 4 , 5 , 60[31] F. Zhang and F. Liu. 具有视差容忍的图像拼接.在CVPR会议上, 2014年. 1 , 5 , 60[32] G. Zhang, Y. He, W. Chen, J. Jia, and H. Bao.多视角全景图构建与宽基线图像. IEEE图像处理期刊,25:3099–3111, 2016. 1 , 2 , 40[33] F. Zhong, X. Qin, Q. Peng, and X. Meng.具有不连续性感知的视频目标剪切. ACM图形学交易, 31(6):175:1–175:10, 2012年11月. 6

下载后可阅读完整内容，剩余1页未读，立即下载