QATM：深度学习中的质量感知模板匹配方法

187 浏览量更新于2023-10-18 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11553QATM：用于深度学习的Jiaxin Cheng Yue Wu Wael Abd-Almageed Premkumar Natarajan USCInformation Sciences Institute，Marina del Rey，CA，USAchengjia@{usc/isi}.edu{yue wu，wamageed，pnataraj}@ isi.edu摘要在搜索图像中寻找模板是计算机视觉的核心问题之一，如语义图像搜索、图像到GPS的验证等。我们提出了一种新的质量感知模板匹配方法QATM，它不仅用作独立的模板匹配算法，而且是一个可训练的层，可以很容易地嵌入到任何深度神经网络中。在这里，我们的质量可以解释为匹配对的独特性具体来说，我们使用所有匹配对之间的软排名来评估匹配对的质量，因此不同的匹配空间（例如1对1、1对多和多对多）将全部反映为不同的值。我们对经典模板匹配基准和深度学习任务的广泛评估证明了QATM的有效性它不仅在单独使用时优于最先进的模板匹配方法，而且还大大改进了现有的深度网络解决方案。1. 引言与回顾模板匹配是计算机视觉应用中最常用的技术之一，例如视频跟踪[35，36，1，9]，图像拼接[25，6]，对象去噪[25，6保护[12，10，34]，字符识别[29，2，21，5]，以及3D重建[22，23，16]。经典的模板匹配方法通常使用平方差和（SSD）或归一化互相关（NCC）来计算模板和底层图像之间的相似性得分。当模板和目标搜索图像之间的转换是简单的时，这些方法工作得很好。然而，当变换是复杂的或非刚性的时，这些方法开始失效，这在现实生活中是常见的此外，其他因素，如遮挡和颜色变化，使这些方法更加脆弱。已经提出了许多方法来克服这些现实生活中的困难，应用标准模板匹配。Dekel等人[11]最好的选择。由背景像素引起的匹配。在[26]中引入了可变形多样性相似性（DDIS），其示例性地考虑了可能的模板变形，并使用模板与搜索图像中的潜在匹配区域之间的NN特征匹配的多样性。在[14]中引入了基于同现的模板匹配（CoTM），以量化模板与搜索图像中潜在匹配区域之间的差异。这些方法确实提高了模板匹配的性能然而，由于两个限制，这些方法不能用于深度神经网络（DNN）-（1）使用不可微操作，如阈值，计数等。以及（2）使用DNN效率不高的操作，例如循环和其他非批处理操作。现有的基于DNN的方法使用简单的方法来模拟模板匹配的功能[15，30，28，27，4]，例如计算大小为B×H×W×L和B × H × W × L的两个批量张量之间的张量点积[18]1。B×H′×W′×L沿特征尺寸（即，L这里），并产生大小为B×H ×W ×H′×W′的批量张量包含所有成对特征点积结果。的当然，也可以应用诸如最大池化的附加操作[30，31，18，7]。在本文中，我们提出了质量感知模板匹配（QATM）方法，该方法可以用作独立的模板匹配算法，或者在深度神经网络中作为具有可学习参数的可训练层。它考虑到对的唯一性，而不是简单地评估匹配得分。QATM由可区分和批量友好的操作组成，因此在DNN训练期间是有效的更重要的是，QATM的灵感来自于评估源模板和目标模板的匹配质量，因此能够处理不同的匹配场景，包括1对1，1对多，多对多和无匹配。在不同的匹配情况下，只有1对1匹配被认为是高质量的，因为它论文的其余部分组织如下。第2节讨论动机并介绍QATM。第三节研究了QATM在经典模板Buddies-Similarity（BBS），关注最近邻（NN）匹配以排除潜在的和坏的1参见numpy.tensordot和tensorflow.tensordot。11554匹配设置。在第4节中，QATM在语义图像对齐和图像到GPS验证问题上进行了评估。我们在第5节中总结了本文并讨论了未来的工作。2. 质量感知模板匹配2.1. 动机在计算机视觉中，无论应用如何，许多方法都隐含地试图解决以下问题的一些变体-给定示例图像（或图像块），在目标图像中找到最相似的感兴趣区域。经典模板匹配[11，26，14]，约束相符的事例已不匹配1比1 1比NM比1 M到N质量高中等中等低非常低QATM（s，t）1 1/N 1/M1/MN1/1000吨/小时表1：模板匹配病例和理想评分。因此，不难对表1中的每种情况进行定性评估。因此，S中的最佳匹配区域可以被发现为使整体匹配质量最大化的地方。因此，我们可以得出匹配的定量评估，如等式10所示。（一）模板匹配[31]、图像到GPS匹配[7]和语义对齐[18，19，8，13]方法都包括一些ΣR=arg max{Max.Σ质量（r，t）|t∈T}（1）类似于模板匹配，尽管每个算法的细节不失一般性，我们将集中讨论基本的模板匹配问题，并在后面的章节中说明对不同问题的适用性大多数现有模板匹配方法中的一个已知问题是，通常，在测量它们的相似性时，考虑模板内的所有像素（或特征）和目标图像中的候选窗口[11]。这在许多情况下是不期望的，例如当感兴趣对象后面的背景在模板和目标图像之间改变时。为了克服这个问题，BBS [11]方法依赖于模板和目标之间的最近邻（NN）匹配，因此它可以排除大部分背景像素进行匹配。在BBS之上，DDIS [26]方法使用NN字段中的附加变形信息，以进一步提高匹配性能。与以前的工作不同，我们考虑了五种不同的模板匹配情况，如表1所示，其中t和Rr∈R使得最大化总体匹配质量的S中的区域R将是最优匹配区域。R是一个固定大小的候选窗口，我们在实验中使用对象的大小作为窗口大小。2.2. 方法为了使Eq.（1）适用于模板匹配，我们需要定义Quality（s，t），即如何评价（s，t）之间的匹配质量。在本节的其余部分中，我们推导出质量感知模板匹配（QATM）度量，它是理想质量评估Quality（s，t）的代理函数。设fs和ft是斑块s和t的特征表示，ρ（·）是两个斑块之间的预定义相似性度量，例如，余弦相似度给定搜索补丁s，我们定义模板补丁t为匹配，如Eq. 二、exp{α·ρ（ft，fs）}s是模板T中的补丁，并搜索S个图像，re-bits。具体来说，L（t|s）= 0t′∈Texp{α·ρ（ft′，fs）}（二）匹配，即两个匹配的对象，“1-to- N“和“M -to-1”表示s或t是引起多个匹配的均匀或图案化的片，例如，天空或地毯斑块，而值得注意的是，这一提法完全不同于先前的基于NN的公式，因为即使t和s是最近的邻居，它们的实际关系仍然可以是所考虑的五种情况中的任何一种在四种匹配情况中，只有1对1匹配被认为是高质量的。这是由于在其他三种匹配情况下，即使配对可能高度相似，但由于多个匹配的候选者，匹配的区别较小结果降低了那对的可靠性。显然，它其中α是正数，稍后将讨论。该似然函数可以被解释为在匹配质量方面与模板图像中的所有其他块相比的当前块t它也可以被认为是一个加热的softmax嵌入[38]，这是一个具有可学习温度参数的softmax激活层，即。α在我们的背景下。通过这种方式，我们可以将QATM度量定义为简单的s在T中匹配和t在S中匹配的似然性的乘积，如等式（1）所示。（三）、QATM（s，t）=L（t|s）·L（s|（3）一个合理的相似性度量ρ（·），当ft和fs相似时，ρ（·）给出一个高值，否则可以使用一个低值。当t和s真正匹配时，ρ（ft，fs）应该11555配套案例L（s）|t）L（t|个）QATM（s，t）1比11111比N11/N1/NM比11/M11/MM到N1/M1/N1/MN不匹配1/1/100%≈ 0表2：理想QATM评分比那些不匹配的情形ρ（ft，fs′）大。等价地，这意味着ρ（ft，fs）是最佳匹配，因此是最大得分。当选择适当的α参数时，通过α提升并通过softmax函数激活后，该评分理想情况下为1类似地，当t匹配s个补丁中的N个补丁时，我们应该有N个同样高的匹配分数，表示L（s|在理想情况下，t）= 1/N。表2总结了所有5例病例的理想评分及其价值。用户匹配表1中所示的个体病例的主观质量评估。一旦我们得到S和T之间的成对QATM结果，就可以找到ROIs（四）算法1计算两幅图像1.给定模板图像IT和搜索图像IS、特征提取模型F、温度参数α。Func（·|I）表示沿I轴进行操作。第二章： T←F（IT）第三章： S ←F（IS）第四章： ρst←Patch-wiseSimilarity（T，S）这可以很容易地通过现成的函数，如tensorflow.einsum或tensorflow.tensordot5：ρst←ρst×α6：L（s|t）←Softmax（ρst|T）第七章： L（t|s）←Softmax（ρst|S）8：QAT M←L（s|t）×L（t|个）第九章： Smap← Max（QAT M|T）匹配质量评分十： T图←最大值（QAT M|S）2.4.关于α的在本节中，我们将讨论如何在q（ s）=max.ΣQATM（s，t）|t ∈ T（四）直接模板匹配场景，不涉及训练DNN。我们后来证明，QTAM可以很容易地嵌入DNN中的可训练层，以执行TEM。其中q（·）指示匹配质量函数。最后，我们可以找到最佳匹配区域R，其最大化了整体匹配质量，如等式（1）所示。（五）、根据任务的不同，无需手动调整结构即可进行板匹配。当应用Eq.（2），α有两个目的：（1）R=arg maxR.Σr∈RΣq（ r）（五）匹配的补丁将具有接近1的排名分数以及（2）不匹配的补丁将具有尽可能接近0的排名分数。可以看出，随着α的增加，L（t|s）+，匹配病例的可能性，也会增加，并将在2.3. QATM作为动态DNN层提出的QATM以连续的方式评估匹配质量因此，其梯度可以通过单个函数的链式规则轻松计算（所有这些都可以通过标准DNN层实现e.G. softmax激活，或大多数DNN框架中提供的基本数学运算符）。在Alg. 1中，我们演示了如何计算T和S的匹配质量图。人们可以使用深度学习库（如Tensorflow和Pytorch）在大约30行Python代码中轻松地将其实现到DNN中。具体来说，我们使用余弦相似性作为一个例子来评估原始的分块相似性，tf.einsum（第4行）以批处理的方式计算所有分块相似性得分。一旦计算出QATM（t，s），我们就可以分别计算模板图像T和目标搜索图像S的模板匹配图，如第9 - 10行所示可以看出，当α参数不可训练时，即一个固定的值，那么所提出的QATM层退化到一个经典的模板匹配算法。一些α。然而，这并不意味着我们可以轻易地选择足够大的α，因为非常大的α也会推动L（t|s）−，不匹配情况的可能性，偏离0. 因此，一个好的α选择可以被选为这提供了最大的质量可扩展性，如等式2所示。（六）α=argmax. L（t|s）+−L（t|s）−1。（六）α>0在实践中，在不知道关于匹配和不匹配对的相似性得分分布的细节的情况下，很难手动地适当地设置α。然而，如果两种分布都已知，我们可以模拟两种 L（t|s）+L（t）|s）−。不失一般性，假设有N个T. L（t|s），无论（t，s）是否是匹配对，都可以通过模拟一个ft特征和N的fs特征，或者等价地，通过根据其定义公式Eq.（二）、匹配和不匹配情况之间的主要区别在于，我们需要来自匹配对的得分分布的一个得分和来自匹配对的分布的N-1个得分。11556图1：不同α的质量稳定性。L（t）的不匹配对|s）+，而来自L（t）的不匹配对的分布的所有N个得分|s）−。图1示出了E[L（t）|s）+]和max{L（t|s）−}，当真分数和冒名顶替分数服从正态分布N（μ+，0.01）和N（0，0. 05），N=2200。可以看出，差异图是单峰的，最佳α随着平均µ+下降。当使用的特征来自DNN并且使用的原始相似性度量是余弦相似性时，该图更有意义。Zhang等人[37]提供了不匹配对的理论余弦相似性得分分布，其均值为0，方差为1/d，其中d是特征维度。我们的实证研究表明，许多DNN特征达到μ+以上0.3，例如。VGG19特性。因此，DNN特征的合理α大致在[12]中。五，三十三。[7]当使用余弦相似性时。3. QATM在模板匹配中的性能我们开始评估建议QATM perfor-曼斯对经典的模板匹配问题。我们的代码发布在开放仓库 https ：//github中。com/cplusx/QATM。3.1. 实验装置为了找到搜索图像S中的匹配区域，我们通过所提出的NeuralNetQATM层（不学习α）计算S上的匹配质量图（参见Alg. 1），其将搜索图像IS和模板图像IT作为输入。因此，可以使用等式（1）找到S中的最佳匹配区域R（五）、我们遵循[24]中给出的评估过程，并使用标准OTB模板匹配数据集[32]，其中包含来自35个彩色视频的105个模板图像对。我们使用来自预训练的ImageNet-VGG 19网络的320-d卷积特征。标准的交集超过并集（IoU）和曲线下面积（AUC）方法被用作评估指标。 QTAM与三种最先进的方法，BBS [11]，DDIS [26]和CoTM[24]，加上使用SSD和NCC的经典模板匹配。3.2. 标准OTB数据集上的性能在本实验中，我们遵循[14]中的所有实验设置，并在标准OTB数据集上评估所提出的QATMα值被设置为28. 4，这是VGG曲线的峰值（见图2）。①的人。QATM性能以及所有基线方法性能如图所示。2-（a）.可以看出，所提出的QATM优于最先进的方法，并在AUC得分方面领先第二好的（CoTM）约2%，与BBS及其后续DDIS之间的1%性能差距相比，这显然是一个明显的改进。由于所提出的QATM方法具有参数α，我们评估了不同α值下的QATM性能，如图所示。2-（b）. 很明显，当α在最优解附近时，整体QATM如图中的水平虚线所示。2-（b），α的范围（而不是单个值）导致比最先进的性能更好的性能方法.更多的定性结果可以在图中找到。3 .第三章。3.3. 在修改的OTB数据集上的性能标准OTB数据集中的一个问题是它不包含任何负样本，但我们不知道在实际应用中搜索图像中是否存在感兴趣的模板因此，我们创建一个修改的 OTB（MOTB）数据集。具体来说，对于OTB中的每一对搜索图像S和模板T，我们（1）在MOTB中重新使用这对（S，T）作为正样本，以及（2）在替换时保持S用新的模板T′来处理T，其中T′来自不同的OTB视频，并将此（S，T′）用作负样本。负模板T'被选择为与T相同的大小，并且从视频帧中随机裁剪本研究的总体目标是公平地评估存在负样本的模板匹配性能。对于MOTB中的每个样本，一对（模板，搜索图像），我们将其馈送到模板匹配算法，并记录搜索图像中找到的对于所提出的QATM方法，我们再次使用α=28。4.第一章然后使用这些响应以及每对的真实标记绘制图1所示的AUC曲线。2-（c）.直观地说，一个好的模板匹配方法应该给出一个阴性样品比阳性样品低得多的匹配分数，从而获得更高的AUC分数。所提出的QATM方法明显优于三种最先进的方法，在AUC得分方面约为9%。更重要的是，所提出的QATM方法在低假阳性率的情况下明显地获得高得多的真阳性率。这个结果并不奇怪，因为所提出的QATM是质量感知的。11557(a)（b）（c）图2：模板匹配性能比较。(a)QATM与OTB数据集上的SOTA方法。(b)OTB数据集上不同α下的QATM性能。(c)QATM与MOTB数据集上的SOTA方法。例如，当负模板是均匀的时，所有方法将在搜索图像中找到均匀区域，因为它是最相似的区域。不同之处在于，我们的方法是质量感知的，因此这种类型的匹配分数将远低于阳性模板的匹配分数，而其他方法则没有此功能。3.4. 讨论图3提供了来自所提出的QATM方法和其他现有技术方法的更多定性结果。这些结果证实了QATM的使用，它给1对1，1对多和多对多匹配情况不同的权重，不仅找到更准确的匹配区域在搜索图像中，但也减少了在不匹配的情况下的响应。例如，在最后一行中，当给出几乎同质的负模板时，所提出的QATM方法是唯一倾向于给出低分数的方法，而其他方法仍然返回高响应。最后，匹配速度也很重要。因此，我们使用整个OTB数据集估计每种方法的处理速度（秒/样本）。所有评估均分别基于英特尔（R）至强（R）E5-4627v2CPU和GeForce GTX 1080 TiGPU。表3比较了不同方法的估计时间复杂度。虽然QATM包含相对昂贵的softmax操作，但其DNN兼容性使GPU处理可行，这显然是最快的方法。方法SSD NCC BBS DDISCoTMQATM后端CPUCPU GPU平均值（秒）1.11.515.32.647.727.40.3标准差（秒） 0.47 0.53 13.10 2.2918.5017.800.12表3：时间复杂度比较。(Time不包括特征提取）模板搜索QATMBBSDDISCoTM图3：定性模板匹配性能。从左到右的列是：模板框、覆盖有预测边界框的目标搜索框（不同颜色表示不同方法）以及QATM、BBS、DDIS、CoTM的响应图。从上到下的行：前四个是来自OTB的阳性样本，而后四个是来自MOTB的阴性样本。最好在彩色和放大模式下观看。4. 可学习的QATM性能在本节中，我们重点介绍如何在不同的模板匹配应用中使用所提出的QATM作为具有可学习参数的可微层。115584.1. 用于图像到GPS验证的QATM图像到GPS验证（IGV）任务尝试通过视觉验证来验证给定图像是否被作为声称的GPS位置。IGV首先使用声明的位置在第三方数据库中找到参考全景图像，Google StreetView，然后将给定的图像和参考作为网络输入，通过模板匹配来验证视觉内容并产生验证决策。与经典模板匹配问题相比，IGV任务的主要挑战是(1)在参考图像中，仅可以验证查询图像中的小的未知部分视觉内容，以及（2）参考图像是全景图，其中潜在的匹配ROI可能失真。4.1.1基线和QATM设置为了了解IGV任务中的QATM性能，我们使用基线方法[7]，并重复其网络训练，数据增强，评估等，除了我们将其自下而上的模式匹配模块替换为建议的NeuralNetQATM层（图中的蓝框）。4）.图4：[7]中的基线网络架构和QATM版本。虚线箭头指示替换关系。自下而上的模式匹配模块首先计算两个图像特征之间的余弦相似度，然后仅汇集最大响应。更确切地说，给定模板T的补丁s的匹配分数依赖于等式（1）。（7）、R（s|T）=max{ρ（ft，fs）|t∈T}（7）而QATM版本依赖于Eq.（四）、4.1.2性能比较为了评估QATM性能，我们重用了[7]使用的两个数据集，即Shibuya和Wikimedia Common数据集，这两个数据集都包含平衡的正样本和负样本。比较结果列于表 4 中。在更困难的 Shibuya 数据集上，所提出的QATM解决方案优于基线BUMP方法，Wikimedia Common涩谷NetVLAD [3]0.819 /0.8470.634 /0.638DELF [17]0.800 /0.8020.607 /0.621[39]第三十九话0.656 /0.6540.592 /0.592[7]第七届全国政协委员0.864/0.8860.764 /0.781QATM0.857 /0.8860.777/0.801表4：图像到GPS验证性能比较。性能评分报告在（ROC-AUC/ Avg.精度）格式。（“”表示基准网络。）维基媒体公共数据集上的情况更糟。这可能是由于基线方法中的验证（见图4）是为了优化BUMP性能而不是QATM性能，因此使用QATM的优势尚未完全转移到验证任务中。因此，我们对匹配的区域进行注释，维基媒体公共数据集的多边形边界框，以更好地评估匹配性能。这些注释将被发布。借助这些地面真值掩模，我们能够仅在定位任务（即预测全景图像中的匹配区域）上公平地这些结果在表5中示出，并且QATM分别针对F1QATM定位的优越性可以在图1所示的定性结果中得到进一步证实5，其中QATM改进版本产生比基线BUMP方法更清晰的响应图。Wikimedia CommonF1 IoUBUPM0.33 0.24QATM0.40 0.29表5：本地化性能比较。性能评分是整个数据集的平均值。4.2. 用于语义图像对齐的QATM语义图像对齐（SIA）任务的总体目标是包装给定图像，使得在包装之后，其在类别级对应方面与参考图像用于语义图像对齐任务的典型DNN解决方案采用两个输入图像，一个用于包装，另一个用于参考，并且通常输出一组用于图像包装的参数。关于这个问题的更详细的描述可以在[18，19，13]中找到。2342https://www.di.ens.fr/willow/research/cnngeometric/3https://www.di.ens.fr/willow/research/weakalign/4https://www.di.ens.fr/willow/research/scnet/11559查询搜索窗格。GTQATMBUPM图5：定性图像到GPS结果。从左到右的列是：查询图像、具有覆盖的预测边界框的参考全景图像（GT、提议的QATM和基线BUPM）、以及分别为地面实况掩模、QATM改进的和基线的响应图。4.2.1基线和QATM设置为了了解SIA任务中的QATM性能，我们选择基线方法GeoCNN [18]，并模拟所有网络相关设置，包括网络架构，训练数据集，损失函数，学习率等，除了我们用NeuralNetQATM层（图6中的黄色框）替换了方法（六）。与模板匹配不同，SIA任务依赖于所有模板和搜索图像块之间的原始匹配分数（使得几何信息被隐式地保留）来回归包裹参数。文[18]中的匹配模被简单地计算为两个贴片之间的余弦相似度，即.ρ（S，T）（见第一行中的ρst4、Alg 1）并使用此张量作为回归的输入。因此，我们也做了相应的改变，让拟议的NeuralNetQATM产生原始的QATM匹配分数，而不是匹配质量图，即。QATM（S，T）（见Alg.①的人。图6：[18]中的基线网络架构和QATM版本。虚线箭头指示替换关系。4.2.2性能比较为了公平地比较SIA性能，我们遵循[13]中提出的评估协议，该协议将标准PF-PASCAL基准分为训练、验证和测试子集，分别具有700、300和300个样本。系统性能以正确关键点（PCK）的百分比来报告[33，13]，其计算在转换后与地面真实值的距离低于阈值的关键点的百分比。阈值设置为τ=0。1的图像大小。表6比较了该数据集上的不同方法。所提出的QATM方法明显优于所有基线方法，并且对于20个子类中的7个子类也是排名最高的方法。此外，SCNet [13]使用比我们的基线GeoCNN方法更先进的功能和匹配机制。[19]使用PF-PASCAL的训练子集以非常小的学习率对GeoCNN进行微调。然而，我们的结果证实，简单地将原始匹配分数与那些质量感知分数替换可以比使用更复杂的网络而不对PF-PASCAL子集进行微调获得更大的增益。并行工作[20]采用了类似的想法，通过softmax函数重新排序匹配分数作为QATM。它们通过寻找软互最近邻来重新分配匹配分数，并且在PF-PASCAL子集上训练时优于QATM。更多的定性结果可以在图中找到。711560类 UCN[八]《中国日报》SCNet[13个国家]GeoCNN[18个国家]WSUP[19个]NC-Net[20个]QATM平面 64.885.582.483.7-83.5自行车 58.784.480.988.0-86.2鸟 42.866.385.983.4-80.7船 59.670.847.258.3-72.2瓶 47.057.457.868.8-78.1总线 42.282.783.190.3-87.4车 61.082.392.892.3-91.8猫 45.671.686.983.7-86.9椅子 49.954.343.847.4-48.8牛 52.095.891.791.7-87.5d.table 48.555.228.128.1-26.6狗 49.559.576.476.3-78.7马 53.268.670.277.0-77.9m.bike 72.775.076.676.0-79.9人 53.056.368.971.4-69.5植物 41.460.465.776.2-73.3羊 83.360.080.080.0-80.0沙发 49.073.750.159.5-51.6火车 73.066.546.362.3-59.3电视 66.076.760.663.9-64.4平均 55.672.271.975.878.975.9表6：PF-PASCAL上的语义图像对齐性能比较。（“”表示基准网络。）5. 结论提出了一种新的质量感知模板匹配方法QTAM。QTAM的灵感来自于不同匹配案例之间的自然质量差异。它的匹配得分能够准确反映当前匹配对相对于其他匹配对的匹配独特性。更重要的是，QTAM具有可学习参数的可微性，并且可以很容易地用现有的通用深度学习层实现QTAM可以直接嵌入到DNN模型中，以实现模板匹配目标。我们广泛的实验表明，当单独使用时，它的性能优于最先进的模板匹配方法，并在GPU的帮助下产生更准确的匹配性能，更少的误报，以及至少10倍的加速。当插入到现有的DNN解决方案中用于模板匹配相关任务时，我们证明了它可以显著提高图像语义对齐任务和图像到GPS验证任务的得分。致谢这项工作是基于美国国防部高级研究计划局赞助的研究，协议编号为FA 8750 -16-2-0204。美国政府授权为政府目的复制和分发重印本，尽管其上有任何版权标记。本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表国防高级研究计划局或美国政府的官方政策或认可，无论是明示还是暗示。政府的图7：PF-PASCAL数据集的定性结果。从左到右的列表示源图像、目标图像、QATM、GoeCNN的变换结果[18]和[19]。圆圈和十字表示源图像和目标图像上的11561关键点。11562引用[1] 阿米特·亚当、埃胡德·里夫林和伊兰·希姆肖尼。使用积分直方图的基于片段的鲁棒跟踪。在IEEE计算机视觉和模式识别会议论文集，第1卷，第798-805页。IEEE，2006年。[2] 阿里雷扎·阿莱和马蒂厄·德拉兰德一个完整的标志检测/识别系统的文件图像。在文献分析系统国际研讨会的序言中），第324-328页。IEEE，2014。[3] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集，第5297-5307页[4] Min Bai ， Wenjie Luo ， Kaustav Kundu ， and RaquelUrtasun.挖掘语义信息和深度匹配优化流。欧洲计算机视觉会议，第154-170页施普林格，2016年。[5] 拉卢卡·博亚，科尼利乌·弗洛里亚，劳拉·弗洛里亚，还有拉杜·多格·阿鲁.基于单应类图的自然图像标识定位与识别。机器视觉与应用，27（2）：287[6] 马修·布朗和大卫·G·洛。使用不变特征的自动全景图像拼接。国际计算机视觉杂志，74（1）：59[7] Jiaxing Cheng ， Yue Wu ， Wael AbdAlmageed ， andPrem Natarajan.通过自下而上模式匹配网络进行图像到gps的验证。亚洲计算机视觉会议。Springer，2018.[8] Christopher B Choy，JunYoung Gwak，Silvio Savarese，and Manmohan Chandraker.通用通信网。神经信息处理系统的进展，第2414-2422页，2016年[9] Dorin Comaniciu，Visvanathan Ramesh和Peter Meer。基于内核的对象跟踪。 IEEE Transactions on PatternAnalysis and Machine Intelligence，25（5）：564[10] James Coughlan ， Alan Yuille ， Camper English 和 DanSnow。高效的可变形模板检测和定位，无需用户初始化。计算机视觉与图像理解，78（3）：303[11] Tali Dekel ， Shaul Oron ， Michael Rubinstein ， ShaiAvidan，and William T Freeman.最佳伙伴相似性，用于稳健的模板匹配。在IEEE计算机视觉和模式识别会议论文集，第2021- 2029页[12] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[13] 作者：Rafael S.放大图片作者：Bumsub Ham，Kwan-Yee K. Wong，Minsu Cho，Cordelia Schmid，and JeanPonce.学习语义对应。在IEEE计算机视觉国际会议论文集，2017年10月。[14] Rotal Kat，Roy Jevnisek，and Shai Avidan.使用共现统计匹配像素。在Proceedings of the IEEE计算机视觉和模式识别会议，第1751 - 1759页，2018年。[15] Wenjie Luo，Alexander G Schwing，and Raquel Urtasun.用于立体匹配的高效深度学习。在IEEE计算机视觉和模式识别会议论文集，第5695-5703页[16] Abed Malti，Richard Hartley，Adrien Bartoli，and Jae-Hak Kim.基于单目模板的局部线弹性可伸展表面三维重建。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中，第1522-1529页[17] Hyeonwoo Noh 、 Andre Araujo 、 Jack Sim 、 TobiasWeyand和Bohyung Han。具有深层局部特征的大规模图像检索在IEEE计算机视觉国际会议论文集，第3456-3465页[18] Ignacio Rocco、Relja Arandjelovic和Josef Sivic。用于几何匹配的卷积神经网络结构在IEEE计算机视觉和模式识别会议论文集，第2卷，2017年。[19] Ignacio Rocco、Relja Arandjelovic和Josef Sivic。端到端弱监督语义对齐。在IEEE计算机视觉和模式识别会议论文集，第6917-6925页，2018年[20] Ignaci oRocco ， MirceaCimpoi ， ReljaArandjelo vic´ ，Akihik oTorii，Tomas Pajdla，and Josef Sivic.社区协商网络。神经信息处理系统进展，第1658-1669页，2018年[21] 迈克尔·瑞安和诺维塔·哈纳菲亚用模板匹配法进行身份证字符识别的研究Procedia Computer Science，59：520[22] Daniel Scharstein和Richard Szeliski。密集两帧立体对应算法的分类和评价。International Journal of ComputerVision，47（1- 3）：7[23] Steven M Seitz，Brian Curless，James Diebel，DanielScharstein，and Richard Szeliski.多视点立体重建算法的比较与评价。在IEEE计算机视觉和模式识别，第1卷，第519IEEE，2006年。[24] Denis Simakov ， Yaron Caspi ， Eli Shechtman ， andMichal Irani.使用双向相似性对可视数据进行汇总。IEEE计算机视觉与模式识别会议论文集，第1-8页。IEEE，2008年。[25] Richard Szeliski等人图像对齐和拼接：一个教程。计算机图形与视觉的基础与趋势，2（1）：1[26] Itamar Talmi Roey Mechrez和Lihi Zelnik-Manor基于变形多样性相似性的模板匹配。在IEEE计算机视觉和模式识别会议上，第1311-1319页，2017年[27] Siyu Tang，Bjoern Andres，Mykhaylo Andriluka，andBernt Schiele.通过多切割和深度匹配的多人跟踪。欧洲计算机视觉会议，第100-111页。施普林格，2016年。[28] James Thewlis ， Shuai Zheng ， Philip HS Torr ， andAndrea Vedaldi.完全可训练的深度匹配。2016年英国机器视觉会议11563[29] Oivind Due Trier，Anil K Jain，Torfinn Taxt，等.字符识别中的特征提取方法综述。Pattern Recognition，29（4）：641[30] Yue Wu，Wael Abd-Almageed，and Prem Natarajan.深度匹配和验证网络：一个端到端的解决方案，以约束图像拼接定位和检测。ACM多媒体会议论文集，第1480-1502页。ACM，2017。[31] YueWu，WaelAbd-Almageed，andPremNatarajan.Buster- net：利用源/目标定位检测复制-移动图像伪造。欧洲计算机视觉会议，2018年9月。[32] 吴毅、林钟宇和杨明轩在线对象跟踪：基准。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第2411-2418页[33] Yi Yang和Deva Ramanan具有部件的灵活混合的铰接式人体检测。 IEEE transactions on Pattern Analysis andMachine Intelligence，35（12）：2878-2890，2013。[34] Alan L Yuille，Peter W Hallinan和David S Cohen。基于可变形模板的人脸特征提取。国际计算机视觉杂志，8（2）：99[35] 张天柱、奎嘉、徐长生、马毅、纳仁德拉·阿胡加.通过鲁棒部分匹配进行视觉跟踪的部分遮挡处理。在IEEE计算机视觉和模式识别会议论文集，第1258- 1265页[36] Tianzhu Zhang，Si Liu，Narendra Ahuja，Ming-HsuanYang，and Bernard Ghanem.通过一致的低秩稀疏学习实现鲁棒的视觉跟踪。International Journal of ComputerVision，111（2）：171[37] Xu Zhang ， X Yu Felix ， Sanjiv Kumar ， and Shih-FuChang.学习扩展的局部特征描述符。在IEEE计算机视觉国际会议论文集，第4605-4613页，2017年[38] Xu Zhang ， Felix Xinnan Yu ， Svebor Karaman ， WeiZh

下载后可阅读完整内容，剩余1页未读，立即下载