以目标为中心的图像拼接方法

115 浏览量更新于2023-10-13 收藏 2.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

以目标为中心的图像拼接Charles Herrmann1，Chen Wang1，2，Richard StrongBowen1，Emil Keyder2，and Ramin Zabih1，21Cornell Tech，New York，NY 10044，USA2Google Research，New York，NY 10011，USA{cih，chenwang，rsb，rdz}@ cs.cornell.edu，{wangch，emilkeyder，raminz}@ google.com抽象。图像拼接通常分解为三个阶段：配准，其将源图像与公共目标图像对准;接缝查找，其为每个目标像素确定其应该来自的源图像;以及平滑接缝过渡的混合。如[1]中所述，接缝寻找阶段尝试在源图像之间的转换不明显的像素之间放置接缝。在这里，我们观察到这种方法最有问题的失败发生在对象被裁剪，省略或复制时。因此，我们采取以对象为中心的方法来解决这个问题，利用对象检测的最新进展[2，3，4]。我们惩罚候选人的解决方案，这类错误修改的能量函数中使用的接缝查找阶段。这会在具有挑战性的图像上产生更加逼真的拼接结果。此外，这些方法可用于确定何时在输入数据中存在不可恢复的遮挡，并且还建议可用于评估拼接算法的输出的简单1图像拼接与目标检测图像拼接是从同一场景的一组图像创建单个合成图像。这是一个被充分研究的问题[5]，在工业和消费者应用中有许多用途，包括Google街景，卫星地图以及现代相机和智能手机中的全景创建软件。尽管其普遍的应用，图像拼接不能被认为是解决。算法经常产生在视差（图1（c））或物体运动（图2（c））的存在下看起来明显不真实的图像，或者在情况并非如此时指示图像太不相干而不能拼接。其中一个最视觉上不和谐的故障模式是可识别对象的撕裂、裁剪、删除或复制。事实上，它已经成为一个流行的互联网消遣张贴和批评这类拼接失败发生在谷歌街景或用户自己的相机（最著名的，谷歌照片失败，如在本文中，我们利用目标检测的进步[2，3，4]来改进图像拼接算法并避免产生这些伪影。图像拼接流水线通常由三个阶段组成：配准，其中待拼接的图像彼此对齐;接缝查找，其中为最终图像中的每个像素选择源图像;以及混合，其中平滑图像之间的过渡[5]。为了避免引入与对象相关的错误，2C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫(a)输入图像(a) 输入图像(b) 我们的结果（c）Google Photos结果图1：显示对象裁剪的示例谷歌照片（如图所示）裁剪了这名男子APAP [8]和Adobe Photoshop都只包括男人(b)我们的结果（c）Photoshop结果图2：显示对象复制的示例。Photoshop（如图所示）和APAP提供视觉上类似的输出，而NIS产生严重的重影。当我们在人行道上复制阴影时，我们以对象为中心的方法保留了场景中最重要的元素。我们提出了对通常依赖于马尔可夫随机场（MRF）推断的接缝寻找步骤的修改[5，6]。我们证明了MRF推理可以自然扩展，以防止重复和保持检测对象的完整性为了评估这种方法的有效性，我们用几个对象检测器对不同的图像集进行了实验，并表明当在输入中发现对象时，它可以大大提高拼接输出的感知质量。3我们还表明，对象检测算法可用于形式化缝合结果的评估，改进了以前需要接缝位置知识的评估技术[7在本节的其余部分中，我们给出了缝合问题的正式描述，并总结了我们的方法如何适应这个框架。第2节简要回顾了相关工作。在第3节中，我们提出了我们的以对象为中心的方法，以提高接缝查找。在第4节中，我们提出了一种以对象为中心的图像拼接算法评价指标。第5节对我们的技术进行了实验评估，第6节讨论了它们的局限性和可能的扩展。3在没有检测到对象的非典型情况下，我们的技术恢复到标准拼接。随着物体探测器不断提高其准确性和覆盖范围，这种情况可能会变得非常罕见。以目标为中心的图像拼接31.1公式化拼接问题我们使用[ 10 ]中的符号，并将透视拼接问题形式化如下：给定两个图像4 I1、I2，它们具有重叠，计算I2相对于I1的配准ω（I2），以及每个像素p的标签x p，该标签x p确定它是从I1还是从ω（I2）获得其值。在[6]之后，标签选择问题通常用使用以下的MRF来解决：一个能量函数，它更喜欢在I1和ω（I2）。要最小化的能量是E（x）= argminx∈LΣEd（xp）λd[Mi（p）= 0]+pΣp，q∈NVp，q·[xpx q]。底层数据项Ed与因子λd[Mi（p）=0]组合，其中[]是艾弗森括号，并且Mi是每个输入i的掩码，如果图像Ii在该位置处具有值，则该掩码具有值1，否则为0这保证了输出中的像素优先从输入图像的有效区域中提取对于一对相邻像素p，q∈ N，当两个图像具有不同的强度时，先验项Vp，q施加了用于为它们分配不同标签典型的选择是Vp，q=|I1（p）−ω（I2）（p）|+的|I1（q）−ω（I2）（q）|.对多个重叠图像的概括是直接的：其中参考图像I1和k−1个扭曲图像{ω2（I2），ω3（I3），. . .，ω k（I k）}，标签集的大小是k而不是2，并且最坏情况的计算复杂度从多项式变为NP困难[11]。尽管有这种理论上的复杂性，现代MRF推理图切割等方法在解决这些问题时非常有效[12]。我们的方法。我们主要集中在修改的接缝寻找阶段。我们引入了三个新的术语，传统的能量函数，解决对象的裁剪，复制和遮挡。我们还表明，对象检测可以用来检测任意拼接算法的输出裁剪和重复2相关工作图像拼接中的一个长期存在的问题是由于诸如视差或移动之类的效应而存在可见的接缝。传统上，有两种方法来移植这些伪影：通过增加可用的自由度来改善配准[9，13，14]，或者通过选择更好的接缝来隐藏未对准。我们注意到，由场景内的移动引起的伪影不能通过更好的配准来隐藏，并且改进的接缝是这些情况下的唯一补救措施。我们的工作可以被看作是继续第二条研究路线。这里的初始方法纯粹基于参考图像和变形候选图像之间的强度差异来确定成对能量项[6]。这后来通过考虑全局结构（如颜色梯度和边缘的存在）进行了改进[15]。许多论文利用语义信息来惩罚那些穿过人类观察者特别可能注意到的实体的接缝，例如4我们解决的泛化到额外的重叠图像不久4C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫[16]第16话一种更一般的方法基于根据输出图像中的位置和颜色的人类感知特性定义的显著性度量来修改能量函数[7]。我们的方法与这些不同之处在于，我们提出了对能量函数的一般修改，该能量函数还可以干净地处理遮挡和复制。[17]使用graphcuts从谷歌街景图像中删除行人;他们的技术与我们的复制术语有很大的相似之处，但针对的是不同的任务。图像拼接方法的评价是非常困难的，并且在过去一直是一个主要的障碍。大多数基于MRF的拼接方法将最终能量报告为质量测量[6，12]，因此不能用于比较具有不同能量函数的方法或基于非MRF的方法。[7]提出了一种基于接缝质量评估缝合技术的替代方法;他们的工作是基于感知的，但类似于基于MRF能量的方法。相比之下，我们的方法，需要优势的对象检测提供更多的全球信息。3以对象为中心的焊缝查找我们使用一个经典的三阶段图像拼接管道，由注册，接缝查找和混合阶段。我们修改了[10]中介绍的技术，以找到候选图像的单个最佳配准。然后，我们解决了MRF的能量函数结合了我们的新的撕裂，重复，和闭塞条款，找到图像之间的接缝最后，我们应用泊松混合[18]来平滑拼接边界上的过渡，以获得最终结果。3.1登记我们的配准方法主要遵循[10]，除了我们在接缝查找阶段仅使用单个配准为了生成配准，我们首先识别与图像的大部分匹配的单应性，然后运行内容保留扭曲（CPW）以修复小的未对准[19]。下面提供了注册过程的高级概述。为了创建候选单应性，我们在两个输入图像之间的稀疏对应上运行RANSAC为了限制候选者的集合，在每次迭代时过滤掉与相似性变换太不同或与先前考虑的变换太相似的单应性然后，通过求解针对每个单应性的二次规划（QP）经由CPW来细化所得到的单应性，其中，局部项从在参考图像和初始候选配准上运行的光流算法的结果来填充该步骤对变换进行微小的非线性调整，并产生更紧密地匹配图像的部分的配准，否则这些部分将略微未对准。我们还探索了在每对参考图像和候选配准上产生多个配准和运行接缝查找，并且通过考虑获得的最低最终能量和最佳评估分数（下面定义）来选择结果该方法类似于[14，20]中使用的过程，其中基于来自接缝寻找阶段的最终能量来选择单应性我们发现，这种方法只比选择一个单一的注册稍好的结果。以目标为中心的图像拼接5ℓ3.2接缝查找配准阶段的输出是单个提出的扭曲ω（12）。为了简单起见，让IS=ω（I1）、IS=ω（I2）是接缝寻找阶段的输入图像。我们表示1 2输出马赛克中的像素集合。与传统的找缝装置相反这里，我们假设由在输入图像上运行的对象检测器的结果组成的附加输入我们将IS中的已识别对象的集合写为O并表示为由M（O1，O2）O1×O2表示O1和O2之间的对应对象的集合。M（O1，O2）的计算在3.5节讨论.除了IS和IS之外，我们还使用了一个额外的标签，表示没有值可用1 2对于该像素，由于遮挡。MRF的标签集则为L={0，1，2}，其中xp=1或xp=2表示该像素是从IS或IS复制的，而xp=的标签1 2指示像素被所有输入图像中的对象遮挡，因此不能准确地复制。5给定该MRF，我们使用目标函数来求解标记x，该目标函数除了传统的数据和平滑项Ed和Es之外，还包含我们在这里引入的三个新项：裁剪项Ec、复制项Er和αc。在对传统术语进行简要回顾之后，在第3.3节中给出了结论术语Eo。使用4连通邻接系统N和折衷系数λd、λs、λc、λr、λo、δ，最终能量然后由下式给出Σ Σ Σ ΣE（x）=λd Ed（xp）+λs Es（xp，xq）+λcp∈P p，q ∈N∈Lo∈OEc（x;o，）+ΣΣλr Er（x;o1，o2）+λoEo（x;o1，o2）（o1， o2）∈M（ O1， O2）（o1，o2）∈M（O1，O2）（一）数据项Ed（xp）该项由下式给出：0,xp/=⊥∧Mxp(p)= 1,Ed（xp）=1，xp∧Mxp（p）= 0，1+δ，xp=如果像素不在掩模中（Mi（p）=0），则该项惩罚从输入图像i的输出中选择像素δ参数确定我们多强烈地倾向于将像素留空而不是将其标记为被遮挡，并且在下面的遮挡项Eo的定义中进一步讨论。两个源图像之间没有优先级。平滑项Es（xp，xq）为了定义这项，我们需要以下符号：C（p，q，r）={k|min（k-p1，k-q1）≤r}是像素p或q的L1距离r内的像素集合，描述了相邻像素p和q周围的局部块，[5]这里我们只介绍两个图像的情况。对多图像情况的推广直接遵循并且不改变任何项;它只会增加标签空间。6C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫ℓ虽然我Σ= maxI S（k）−I S（k）写独家-或作为，我们的Max平滑度项是p，qk∈C（p，q，r）1 20,xp=xq,E s（x p，x q）= I max，x p = x q =，Σk∈C（p，q，r）×p×q请注意，我们对情况xp=xq=的术语不鼓励MRF转变为闭塞标签。通常，Es会惩罚像素p和q，当xp/=xq时。在r=0的特殊情况下，C（p，q，r）={p，q}，并且这里接缝的成本是λs（IS（p）−IS（p）+IS（q）−IS（q）），与大多数接缝一样xpx qx px q寻找算法r >0的值将导致较大的局部块。3.3我们的新MRF条款裁剪项Ec我们引入了一个项，用于惩罚穿过对象的接缝o∈O，成本与接缝长度成正比。6Ec（x;o，）=p∈oq∈o[xp=，xq/=]当对象o完全从IS中绘制，或者根本不存在于最终拼接结果中时（分别为xp=l，l，p∈o或xp/=l，l，p∈o），该项的值正好为0如定义的，这导致|O|2个成对项，这可能导致优化在实践中难以处理。因此，我们使用近似值实验中的术语，在3.4中讨论。对象参考图像不良缝合接缝没有对象候选图像(a)（b）（c）（d）图图3：图3a描绘了我们的作物术语。我们使用成对项来惩罚任何穿过对象的接缝图3b描述了Photoshop创建的裁剪错误。图3c描述了我们的重复项。我们使用成对项来惩罚任何导致同一对象出现在最终马赛克上的两个不同位置的接缝。图3d描述了NIS创建的重复错误。注意，由于该项是惩罚而不是硬约束，因此平滑度项Es和该项Ec之间的折衷仍将允许我们穿过对象，如果它充分有益于光度一致性的话。6更准确地说，接缝在这里特别是意味着从标签重叠到非重叠的过渡，而不是两个任意标签之间的不良缝合接缝对象o对象o参考候选图像Image以目标为中心的图像拼接712重复项Er 我们的术语不鼓励当o1在IS和o2在IS时的1 2都是已知的引用到Σ相同的对象，并且被定义为Er（x;o1，o2）=（p，q）∈m（o1，o2）[xp=1∧xq= 2].这里m（o1，o2）∈o1×o2是对象o1和o 2之间的像素级对应关系。氧气。（p，q）∈m（o1，o2）表示真实世界中的同一点，因此最终拼接结果不应包括来自o1的像素p和来自o2的像素q。请注意，此术语包括计算密集像素对应的潜在复杂函数m;因此，我们在3.4节讨论的实验中使用了该项的近似值。该项通过惩罚在检测到重复对象的图像区域中使用掩模外标签来Σ ΣEo（x;o1，o2）=2δ[M（p）=0∧xp=]（2）∈{1，2}p∈o其中δ是用于惩罚Ed中的标签的选择的相同参数。对于这个术语背后的直觉，考虑一下o1和o2是对应对象的情况在IS和IS中，且对p∈o1，M2（p）=0.然后我们必须选择标签1，1 2pixels ino1 or declare the pixels occurred.数据项Ed确保遮挡标记通常给出比在掩模之外标记更高的能量。然而，在存在复制对象的情况下，遮挡项Eo增加了掩模外项的能量，因为2δ > δ，导致替代地选择遮挡标签。注意，我们通常设置λ〇=λd。泛化到3个或更多图像。在多个输入的情况下，一个图像充当参考，而其他图像成为候选。然后，我们以与之前相同的方式计算配准，然后将参考图像和候选配准传递到接缝查找阶段：I1和ω2（I2），. . .，ω n（In）。我们计算所有图像对的对应关系。当建立对象之间的对应关系时，我们确保对应关系充当等价关系。两个和三个输入图像的情况之间的主要区别是传递性。如果三个对象违反传递性，我们增加对应阈值，直到属性成立。虽然可以想象其他方案来确保一致性，但实验上，我们还没有看到这一点被违反。3.4优化上面的裁剪项Ec在每个像素p∈IS和q∈IS之间具有密集连接，这可能导致计算困难。在这里，我们引入局部能量项E1c，其具有较少的连接并且因此计算起来更简单，而实验性地保持上面介绍的项的性质：Elc（x;o，）= ΣΣp∈oq∈Np[xp=，xq/=]8C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫其中Np是p的邻居的集合。类似地，上面报告的重复项具有基于对检测到的对象的匹配函数的复杂结构我们定义了局部重复项Elr与m（o1，o2）相反，mb（o1，o2）返回对象o1和o2周围的两个边界框的对应点，其中使用边界框的角将每个p∈o1双线性内插到其在o2为了解决这个MRF，我们使用α展开[11]和QPBO [21]来解决诱导的二元子问题。据报道，QPBO在实践中对各种计算机视觉任务表现良好，即使当诱导的二元子问题是超模块化的[21]。3.5建立对象之间的对应关系我们的策略是考虑分别在图像I1，ω（I2）中检测到的对象对o1，o2，并计算一个度量，该度量表示我们对它们对应于同一对象的置信度。我们计算所有图像上的所有对象对的此度量，并且如果其超过指定的阈值，则声明最佳得分的潜在对应关系是匹配的除了在这里报告的实验中使用的对应密度度量之外在所有情况下，由对象检测器返回的类别被用于将潜在匹配的集合过滤为仅相同类别中的那些。特征点匹配我们尝试直接在识别的对象上运行SIFT [22]和DeepMatch [23]。这些方法在没有空间相干性的情况下给出了大量的对应关系;例如，比较汽车和自行车将导致合理数量的匹配，但是图像I1中的点将匹配到I2中非常远的点。我们试图通过比较来自I1的特征点p和q与来自I2的对应点p′和q′之间的向量差来产生一个度量。对应密度我们在两个输入图像上运行DeepMatch [23]，并对属于被视为匹配的两个对象的匹配进行然后将该数字除以第一图像的面积由于DeepMatch特征点大致均匀地分布在第一输入图像中，因此第一输入的区域中的点的密度这是在下面的实验部分中使用的技术。4以对象为中心的拼接算法评估我们现在讨论使用对象检测器的缝合算法的形式化评估。一般来说，我们假设可以访问输入图像和最终输出。可用的对象检测器在两者上运行，并且它们的输出用于识别由拼接算法引入的裁剪、该评估技术的目标不是量化像素级不连续性，例如：在配准或接缝查找中的微小误差，而是确定是否保留了由对象的存在和一般完整性所指示的场景的高级特征。以目标为中心的图像拼接9F在下文中，F表示最终输出全景，I表示输入图像的集合，并且NX表示在图像X中检测到的对象的数量。例如，NF将表示由检测器在缝合结果中发现的对象的数量。请注意，我们提出的技术也可以并行应用于特定类别的对象：代替一般的O和N F，我们可以考虑对象c的特定类别的O c和N c，例如人或猫。以这种方式分离对象的考虑因素使得对象分析更细粒度，并且更有可能识别场景的问题。4.1惩罚遗漏和重复我们首先尝试通过在输入图像和最终输出中检测到的对象的数量N来评估缝合的质量。我们推广了M（O1，. . .，〇 n）应用于任意数量的输入图像，表示跨图像集合I1，. . .、I n.上面讨论的用于建立对象之间的对应关系的技术可以容易地推广到多个图像并使用以公式化表示最终缝合结果中对象的期望数量。特别地，假设的理想输出图像F*的预期对象计数由在所考虑的对应函数的输入图像中找到的对象的“等价类”的数量给出：期望所有检测到的对象被表示至少一次，并且期望对应的对象用单个实例来表示。对于良好的拼接输出F，我们期望NF=NF*。请注意，NF> NF或NF NF分别表示省略或重复在图4中，一个人类探测器只在一张图像中找到物体，并且M（O1 ，O2 ）=;因此，对于人类这一类别，我们有NF*=2但是，当在Photoshop或APAP的输出上运行只找到一个人，给出NF NF′，表示遗漏。存在用于检测遗漏或重复的其他方法，其不需要计算潜在复杂的M函数。例如，如果一个对象包含的对象比任何输入都少，则可以推断该对象在输出中被省略：01 <-02|O我|）的情况。类似地，如果在输出中识别的对象多于在所有输入中检测到的对象的总数，图像：NF>Ii∈INIi。虽然这似乎是一种弱形式的推断，但它在图4中证明是足够的：输入图像中的人的最大数量是2，但在Photoshop和APAP结果中只找到一个，这表明有遗漏。不幸的是，虽然重复几乎总是表明产出F中有错误，但遗漏的情况并不那么明确。对于场景来说不是中心的对象或者由于任何原因不被人类认为重要的对象通常可以被省略，而不会对最终的马赛克产生任何负面影响。4.2裁剪对象检测器可以用于以两种方式检测农作物：主要农作物，其使得检测器无法识别对象，被我们的系统解释为遗漏，并且如上所述检测。然而，即使是在最终输出中可识别的对象，也可能被穿过它们的接缝部分地移除或经历不自然的扭曲。因此，需要一种不同的方法来检测和惩罚这些行为。10C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫(a) 输入图像（b）谷歌照片（0.1140）（c）Photoshop（无对象）(d)APAP（0.1203）（e）我们的结果（左0.4882，右0.93380）图4：在给定源中检测到的人类的对象边界框的可视化。最后的马赛克已经改变了空间的原因，但没有边界框被重新移动. MS-SSIM列在方法名称后面的括号NF−NF*如下（b）-1，（c）-2，（d）-1，（e）0。(a) 输入图像（b）APAP（c）NIS（d）我们的结果图5：在给定源中检测到的自行车的对象边界框的可视化由于空间原因，最终的马赛克已被更改，但没有删除边界框。其他技术未能产生缝合。MS SSIM如下：APAP 左（ 0.1608），APAP 右（ 0.1523），NIS 左（ 0.3971）， NIS右（0.1771），我们的（0.8965）。NF−NF*如下（b）1，（c）1，（d）0以目标为中心的图像拼接11（a）输入图像（b）自动缝合（0.4575）（c）NIS（0.5201）(d)Photoshop（0.5099）（e）APAP（0.4773）（f）我们的结果（0.6769）图6：在给定源中检测到的猫的对象边界框。MS SSIM包含在括号中。“自动缝合”会应用一个扭曲，以改变猫的面部形状。NIS包含重影。照相馆复制了猫的部分APAP应用扭曲来改变猫例在这里，我们考虑两个选项，它们在是否考虑对象检测器对输入图像的结果方面有所不同：第一种方法直接比较从输入和输出检测到的对象，而第二种方法对对象检测器的选择不太敏感，而是使用更通用的模板匹配方法。对于这两种方法，我们注意到，为了获得良好的对齐，通常需要对输入图像进行一些扭曲，因此应用于原始输入图像和输出图像的图像比较技术然而，给定输入图像Ii和输出F，可以回顾性地计算一组合理的扭曲ω（Ii）并将图像比较算子应用于这些扭曲。因此，我们的方法不需要访问用于构造缝线的实际经纱，但是如果可用的话，它当然可以用于增加我们的方法的准确性使用直接对象比较的裁剪检测。这种方法隐含地信任对象检测器在输入图像和输出图像两者上给出精确的结果对象检测器针对F和针对已经针对各种Ii确定的所有似然配准候选而运行。然后，我们对检测到的对象之间的所有对应关系（如第3.5节所述确定）运行多尺度结构相似性（MS-SSIM）[24]，并使用这些度量的平均值和最大值作为我们的最终结果。在该方法中可以使用任何合理的图像相似性度量，包括例如深度学习技术基于模板匹配的裁剪检测。该度量对对象检测器的选择不太敏感。而不是将其应用于所有扭曲的输入图像，我们仅将其应用于结果图像。然后，检测到对象的输出的区域是12C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫将对象视为模板，并且使用传统的模板匹配方法来将对象与参考图像11和任何合理的配准进行比较。我们已经对这些度量进行了实验，以确认这些值与我们关于缝合结果中对象处理的直觉相匹配。我们在上图的标题中提供了一些示例及其评估值（具有直接对象比较的最大MS-SSIM5拼接的实验结果我们的目标是缝合困难的图像集，产生明显的错误与现有的方法。不幸的是，没有具有挑战性的拼接问题的标准数据集，也没有任何普遍接受的度量使用以外的主观视觉评价。因此，我们遵循[20]的实验设置，他们都引入了能够缝合困难类别的图像的缝合对于竞争对手，我们考虑Photoshop 2018在[20]的方法之后，我们使用接缝查找器扩展APAP实验设置。我们尝试了几种特征提取和匹配的方法，发现DeepMatch [23]给出了最好的结果。在这里显示的所有示例中都使用了它相关的DeepFlow求解器用于生成光流的流。基于warping使用Ceres求解器[26]解决用于获得网格参数和确定候选翘曲ωi对于对象检测，我们使用Mask R-CNN [4]和SSD [3]系统进行了实验。发现两者对于不同类型的对象都具有良好的性能。消融研究。我们在找缝阶段对成对项进行了消融研究，发现所有项都是必要的，并且按预期执行。这些结果可与下文所示的其余数据一起获得。在本节的其余部分中，我们回顾了测试集中的几张图像，并强调了我们的技术以及文献中所示的所有结果均使用相同的参数集。由于篇幅有限，此处省略的数据、图像和其他材料可在网上查阅。7(a) 输入(b) Photoshop结果（c）我们的结果图7：Photoshop复制了瓶颈和耳机。我们的结果是可信的。7见https://sites.google.com/view/oois-eccv18。以目标为中心的图像拼接13(a) 输入(b) Photoshop结果（c）我们的结果图8：“行走”数据集。(a) 输入(b) Photoshop结果（c）我们的结果图9：Photoshop忽略了左臂。我们的结果是可信的。6结论、局限性和今后的工作我们已经证明，对象检测器可以用来避免一个大类的视觉不和谐的图像拼接错误。我们的技术导致更逼真和视觉上令人愉悦的输出，即使在困难的问题与角度的变化和对象运动的差异，并避免文物，如对象复制，裁剪和遗漏，出现与其他方法。另外，对象检测器产生评估拼接算法的输出的方式，而不依赖于所使用的方法。我们的方法的一个潜在缺点是，它仅适用于包含可检测对象的输入，并且在例如以下情况中不提供益处：当前的对象检测技术不能为诸如山或河之类的元素生成准确的边界框的自然场景。然而，我们期望，我们的技术将变得越来越有用的对象检测和场景匹配的改善。在光谱的另一端，我们可能无法在具有大量检测到的对象的输入中找到接缝。我们注意到，我们的裁剪、重复和省略术语都是软约束。此外，可以基于显著性度量或类别（即，显著性度量或类别）来对对象进行优先级排序。人类对其他），作物处罚更高的对象被认为是重要的。这可能适用的一个现有用例是行人在人行道上移动的城市图像，例如Google街景的内容传统的接缝查找技术发现这种设置特别困难，并且撕裂或复制的人是容易识别的错误。来自对象对应的误报是另一个问题。在这种情况下，可以调整匹配阈值以获得特定用例的期望行为。有大量相同物体的场景，如交通锥或类似的汽车14C. 赫尔曼角，澳-地Wang，R.S.Bowen，E.Keyder和R.扎比赫(a) 候选图像和参考图像(b) Photoshop结果（c）检测(d)混合结果（e）裁剪结果图10：三幅图像拼接。在10c中，我们选择在最右边的输入中不使用人类然而，支腿阻挡了关于人行道的任何信息，使得该位置被遮挡。我们的算法正确地将其标记为被遮挡，并将其染成洋红色。图IOd和IOe呈现了固定该闭塞的方法。当对应技术不能通过利用输入图像的空间特性来使对象彼此匹配时，存在挑战我们的技术无法解释的一个问题是具有不同运动的相同对象：病理学的例子可以是穿着相同衣服的同姿势双胞胎的照片。我们认为这些误报是在更常见的用例中提高性能的合理权衡。鸣谢。这项研究得到了NSF资助IIS-1161860和IIS-1447473以及Google FacultyResearch Award的支持。我们也感谢Connie Choi帮助收集图像。以目标为中心的图像拼接15引用1. Szeliski，R.：图像对齐和拼接：教程。计算机图形与视觉的基础与趋势2（1）（2007）12. 古德费洛岛Bengio，Y.，Courville，A.：深度学习麻省理工学院出版社（2016）13. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：SSD：单次触发多盒探测器。In：ECCV，Springer（2016）214. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：实现实时对象检测区域提案网络。TPAMI39（6）（2017）11375. Szeliski，R.：计算机视觉：算法与应用。03TheDog（2010）6. K w atra，V.， Schoüdl，A.，埃萨岛 Turk，G. Bobick，A.：Graphcuttextures：使用图切割的图像和视频SIGGRAPH22（3）（2003）2777. Li，N.，Liao，T.，Wang，C.：用于图像拼接的基于感知的接缝切割信号、图像和视频处理（2018）2，48. Zaragoza，J.，阿成TJ Brown，M.S.，Suter，D.：移动dlt的尽可能投影图像拼接。在：CVPR中。（2013）23399. Chen，Y.S.，Chuang Y.Y.：基于全局相似性先验的自然图像拼接In：ECCV.（2016）18610. Herrmann，C.，Wang，C.，中国地质大学，Bowen，R.S.，Keyder，E.，Krainin，M.，刘，C.，Zabih，R.：使用多个配准的鲁棒图像拼接。In：ECCV.（2018）3，411. Boykov，Y.，Veksler，O.，Zabih，R.：通过图切割的快速近似能量最小化。TPAMI23（11）（2001）122212. 塞利斯基河扎比河Scharstein，D.，Veksler，O.，Kolmogorov，V. Agarwala，A.，塔彭M.，Rother，C.：马尔可夫随机场能量最小化方法的比较研究。TPAMI30（6）（2008）106813. Lin，C.C.，Pankanti，S. U.，Natesan Ramamurthy，K.，Aravkin，A.Y.：适应性自然可能的图像拼接。在：CVPR中。（2015）115514. Lin，K.，Jiang，N.，Cheong，L.F.，做，M.，Lu，J.：Seagull：用于视差容忍图像拼接的接缝引导局部对齐。In：ECCV.（2016）37015. Agarwala，A.，Dontcheva，M.，Agrawala，M.，Drucker，S.，Colburn，A.，Curless，B.，销售D、Cohen，M.：交互式数字照片蒙太奇。SIGGRAPH23（3）（2004）29416. Ozawa，T.，Kitani，K.M.，Koike，H.：以人为中心的全景图像拼接。年：8月-人类国际会议。（2012）20：117. Flores，A. Belongie，S.：从谷歌街景图像中移除行人。在：IEEE移动视觉国际研讨会。（2010年）5318. Perez，P.，Gangnet，M.，布莱克，A.：泊松图像编辑。（2003年）31319. 刘芳，Gleicher，M.，Jin，H.，Agarwala，A.：用于3D视频稳定化的内容保留扭曲。第13集9.1 The Fighting（2009）20. 张福，Liu，F.：视差容忍图像拼接。在：CVPR中。（2014）326221. Kolmogorov，V.Rother，C.：用图割最小化非次模函数TPAMI29（7）（2007）127422. Lowe，D.：基于局部尺度不变特征的目标识别。 In：ICCV.（1999）11501157823. Weinzaepfel，P.，Revaud，J.，Harchaoui，Z.Schmid，C.：Deepflow：深度匹配的大排量光学In：ICCV.（2013）138524. 王志，Simoncelli，E.，Bovik，A.：图像质量的多尺度结构相似性会议Asilomar Conference on Signals，Systems and Computers（信号、系统和计算机会议）（2004年）139825. 布朗，M.Lowe，D.G.：使用不变特征的自动全景图像拼接IJCV74（1）（2007）5926. Agarwal，S.，Mierle，K.，其他：谷神星解算器。http://ceres-solver.org网站。2018-07-25.12

下载后可阅读完整内容，剩余1页未读，立即下载