没有合适的资源?快使用搜索试试~ 我知道了~
Yurun Tian1,2Bin Fan1Fuchao Wu1{yurun.tian,bfan,fcwu}@nlpr.ia.ac.cn1https://github.com/yuruntian/L2-Netappear [12, 24, 20, 16, 21, 7]. Different from handcraft-ed descriptors which are mostly driven by intuition or re-searcher’s expertise, learning based methods are driven bydata. Deep learning has revolutionized many research areas[6, 14], and the public available of large scale dataset withground truth correspondences [16, 18] makes deep learningpossible for local patch matching. The application of Con-volutional Neural Network (CNN) for local patch match-ing can be divided into two categories by whether there aremetric learning layers. CNNs with metric learning layers[10, 25, 9] typically treat the matching of local patch pairsas binary classification, so there does not exist the conceptof descriptor. An obvious drawback of these models is thatthey can not perform nearest neighbor search (NNS). On theother hand, CNNs without metric learning layers [2, 5, 9](i.e., the output descriptors can be matched by L2 distance)can be used as a direct replacement to previous handcrafteddescriptors in many applications, such as the fast approx-imate nearest neighbor matching (e.g., KD-tree) for largescale structure from motion and the bag of visual words re-lated applications. On the widely used Brown dataset [16],however, models with metric learning generally performbetter, and the gap is non-ignorable. Moreover, the general-ization of the CNN based descriptors to other datasets(e.g.,Oxford dataset [18]) does not show overwhelming superior-ity to handcrafted descriptors.16610L2-Net:在欧几里得空间中学习具有区分性的补丁描述符的深度学习01 中国科学院自动化研究所,模式识别国家重点实验室,北京,中国2 中国科学院大学,北京,中国0摘要0设计局部补丁描述符的研究重点逐渐从手工制作的描述符(例如SIFT)转向学习的描述符。在本文中,我们提出通过卷积神经网络(CNN)在欧几里得空间中学习高性能描述符。我们的方法在四个方面具有独特之处:(i)我们提出了一种渐进采样策略,使网络能够在几个时期内访问数十亿个训练样本。(ii)从局部补丁匹配问题的基本概念中派生出来,我们强调描述符之间的相对距离。(iii)对中间特征图施加额外的监督。(iv)考虑到描述符的紧凑性。所提出的网络被命名为L2-Net,因为输出描述符可以通过L2距离在欧几里得空间中进行匹配。L2-Net在Brown数据集[16]、Oxford数据集[18]和新提出的Hpatches数据集[11]上实现了最先进的性能。实验证明L2-Net具有良好的泛化能力,可以直接替代现有的手工制作描述符。预训练的L2-Net可公开获取[1]。01. 引言0在各种计算机视觉问题的基础上,比较图像之间的局部补丁,例如宽基线匹配[17]、图像检索[19]和对象识别[8]。自从著名的SIFT[15]描述符问世以来,将局部图像补丁编码为代表性向量,即描述符,一直是主导方法。理想的描述符应该对匹配补丁具有不变性(例如对视角变化、光照变化或其他光度和几何变化的鲁棒性)并对非匹配补丁具有区分性。随着过去十年中手工制作描述符的蓬勃发展,越来越多的基于学习的描述符出现[12,24,20,16,21,7]。与主要由直觉或研究者专业知识驱动的手工制作描述符不同,基于学习的方法是由数据驱动的。深度学习已经在许多研究领域[6,14]中产生了革命性的影响,而具有地面真实对应关系的大规模数据集的公开可用性[16,18]使得深度学习在局部补丁匹配中成为可能。卷积神经网络(CNN)在局部补丁匹配中的应用可以根据是否存在度量学习层分为两类。具有度量学习层的CNN[10,25,9]通常将局部补丁对的匹配视为二元分类,因此不存在描述符的概念。这些模型的一个明显缺点是它们无法执行最近邻搜索(NNS)。另一方面,没有度量学习层的CNN[2,5,9](即输出描述符可以通过L2距离进行匹配)可以直接替代以前的手工制作描述符在许多应用中使用,例如大规模运动结构的快速近似最近邻匹配(例如KD树)和视觉词袋相关应用。然而,在广泛使用的Brown数据集[16]上,具有度量学习的模型通常表现更好,差距是不可忽视的。此外,基于CNN的描述符在其他数据集(例如Oxford数据集[18])上的泛化性并没有显示出压倒性的优势。0由于大多数匹配任务需要NNS,我们的目标是学习高性能描述符,可以通过L2距离进行匹配。所提出的L2-Net是一个基于CNN的模型,没有度量学习层,它输出128维的描述符,可以直接通过L2距离进行匹配。在本文中,我们从匹配的基本概念中获得灵感:对于某个局部补丁,找到其匹配对应物就是在描述符空间中进行NNS。因此,我们需要做的就是确保匹配对的描述符是彼此的最近邻(在本文中是L2距离等特定度量下),而距离的大小并不重要。这个灵感背后的本质是相对距离。尽管距离的大小并不重要,但是确保匹配对的描述符是彼此的最近邻是关键。6620相对距离的概念并不新鲜,它在描述符匹配和其他相关应用中的潜力还远未被充分探索。根据这个思想,我们通过优化批次中描述符之间的相对距离来训练L2-Net。具体而言,L2-Net将一批补丁转换为一批描述符,对于每个描述符,我们的训练策略旨在使其在批次中的最近邻成为其正确匹配的描述符。这实际上是一个一对多的操作,考虑了许多补丁对之间的距离,超越了广泛使用的成对或三元组操作[10, 25,2,5]。L2-Net的训练建立在渐进采样策略(第3.3节)和损失函数(第3.4节)上,包括三个误差项。所提出的渐进采样策略可以通过一次矩阵乘法来实现,这使得在几十个训练周期内可以快速访问数十亿个补丁对。据我们所知,唯一可能与我们的方法有一些共同概念的方法是[9]和[27]。然而,[9]处理匹配和非匹配对的分布,而我们强调特定的对,这更加敏感。[27]的采样策略导致了一个无法直接优化的非凸损失函数。相比之下,我们的采样策略快速、高效且易于实现。此外,我们在损失函数中集成了三个误差项:一个项用于描述符之间的相对距离,一个项控制描述符的紧凑性和过拟合,一个项是对中间特征图的额外监督,称为判别性中间特征图(DIF)。所提出的网络非常强大,尽管不是非常深,但在几个标准基准数据集上实现了最先进的性能,相对于以前的描述符甚至超过了那些具有度量学习层的CNN模型。L2-Net描述符可以直接替代现有的手工设计描述符,因为它也使用L2距离。02. 相关工作0设计局部描述符的研究逐渐从手工设计转向基于学习的方法。由于本文的目的是描述符学习,下面我们简要回顾了文献中的描述符学习方法,从传统方法到最近提出的基于CNN的方法。关于手工设计的描述符,请参考[18]以了解经典方法和[13]以了解最新进展。传统的描述符学习。早期的描述符学习工作不限于任何特定的机器学习方法,因此产生了许多独特的作品。PCA-SIFT[12]将主成分分析(PCA)应用于归一化梯度补丁,而不是直接使用SIFT的平滑加权直方图。ASD [24]0假设在各种仿射变换下,局部补丁位于一个子空间中,并使用PCA提取子空间的基作为描述符。[20,16]强调了汇聚区域和降维的学习,取得了显著的性能。除了浮点描述符外,还有学习的二进制描述符。BOLD[3]提出了一种自适应在线选择二进制强度测试的方法,以确保每个位对于类内具有低方差,对于类间具有高方差。在Binboost[21]中,描述符的每个位由增强的二进制哈希函数计算。RFD[7]提出了在基于标记的训练数据上进行二进制测试的最具区分性的感受野。RMGD[26]引入了一种基于空间环区的二进制强度测试的汇聚方法,以及一个扩展的Adaboost位选择。[29]提出了一种基于稀疏量化的补丁描述的公式。上述所有描述符都从梯度或纯二进制强度测试等低级特征开始学习,因此不可避免地会有信息损失。借助CNN的帮助,我们可以直接从原始图像补丁中学习描述符。0基于CNN的描述符学习。最近,Siamese网络和三元组网络是CNN描述符学习中的主流架构。为了提高性能,许多研究人员青睐作为度量网络的全连接层。MatchNet[10]是一个典型的Siamese网络,由用于提取特征表示的特征网络、用于降低特征维度的瓶颈层和用于测量特征对相似性的度量网络组成。它显著改进了以前的结果,展示了CNN在描述符学习中的巨大潜力。基于Siamese网络,[25]进一步探索了不同类型的网络架构,并提出使用一种中心-环绕结构来提高性能。[9]使用三元组网络,并提出了一种全局损失函数来分离匹配和非匹配对的分布。与度量学习层和中心环绕结构一起,[9]在Brown[16]数据集上实现了目前最佳性能。尽管度量学习提高了匹配能力,但也限制了网络的通用性。为了解决这个问题,已经提出了不使用度量学习层训练的网络。DeepDesc[5]通过采用挖掘策略选择难样本来使用L2距离训练网络。然而,它本质上需要大量的训练数据来确保性能。PN-Net[2]使用三元组CNN和一个优化补丁三元组之间距离的softPN损失。我们的工作也旨在摆脱度量网络,学习高性能的描述符,可以通过L2距离进行匹配。D =√2(1 − YT1 Y2)(1)6630图1. 网络架构。3×3 Conv = 卷积 + 批归一化 + Relu。8×8 Conv= 卷积 + 批归一化。03. L2-Net0在本节中,我们详细描述了提出的L2-Net的架构、训练数据、采样策略、损失函数和训练过程。03.1. 网络架构0L2-Net的架构如图1-(a)所示。它采用全卷积结构,并通过步幅为2的卷积实现下采样。在每个卷积层之后使用批归一化(B-N)[28],但进行了一些小的修改,即我们不更新BN层的权重和偏置参数,将它们固定为1和0。由于归一化是设计描述符的重要步骤,我们使用局部响应归一化层(LRN)作为输出层生成单位描述符。L2-Net将32×32的输入补丁转换为128维描述符。与[25,9]一样,我们还实现了一个中心-环绕(CS)L2-Net。它是两个独立的L2-Net的串联,如图1-(b)所示。左侧塔的输入与单个L2-Net相同,而右侧塔的输入是通过裁剪和调整原始补丁的中心部分生成的。03.2. 训练数据和预处理0对于网络训练,我们使用了Brown数据集[16]和新提出的HPatches数据集[11]。这两个数据集由从不同场景中提取的局部补丁组成。尽管属性多样,但它们以相同的方式组织补丁:(i)数据集中的每个补丁都有一个唯一的3D点索引,具有相同3D点索引的补丁是匹配的补丁。(ii)对于每个3D点,有至少2个匹配的补丁。Brown数据集由三个子集组成,分别是Yosemite、Notredame和Liberty。通常,其中一个子集被选为训练集,其他两个子集用于测试。HPatches数据集的训练数据由四个子集组成,分别是train-hard(easy)-viewpoint和train-hard(easy)-illum,表示补丁在视角和光照变化方面具有不同程度的变化。由于我们在完成本文时,其测试数据的标签尚未发布,因此我们只使用HPatches作为训练集。Brown数据集和HPatches数据集中分别有大约500K(1.5M)和190K(1.2M)个3D点(补丁)。所有补丁都被下采样到32×32的大小进行训练。根据我们的实验,我们没有注意到由于缩小补丁大小而导致的性能下降。对于每个补丁,我们去除了所有训练补丁的像素均值,然后应用对比度归一化,即减去均值并除以标准差。0至少有2个匹配的补丁。Brown数据集由三个子集组成,分别是Yosemite、Notredame和Liberty。通常,其中一个子集被选为训练集,其他两个子集用于测试。HPatches数据集的训练数据由四个子集组成,分别是train-hard(easy)-viewpoint和train-hard(easy)-illum,表示补丁在视角和光照变化方面具有不同程度的变化。由于我们在完成本文时,其测试数据的标签尚未发布,因此我们只使用HPatches作为训练集。Brown数据集和HPatches数据集中分别有大约500K(1.5M)和190K(1.2M)个3D点(补丁)。所有补丁都被下采样到32×32的大小进行训练。根据我们的实验,我们没有注意到由于缩小补丁大小而导致的性能下降。对于每个补丁,我们去除了所有训练补丁的像素均值,然后应用对比度归一化,即减去均值并除以标准差。03.3. 训练数据的渐进采样0在局部块匹配问题中,非匹配(负)块的数量比匹配(正)块的数量大几个数量级。由于负对的数量如此之大,不可能遍历所有负对,因此良好的采样策略非常关键。现有的方法通常在训练中采样相等数量的正对和负对,而所提出的渐进采样策略是通过采样更多的负对来打破平衡。假设训练集中有 P 个3D点。在每次迭代中,我们按顺序从整个集合中取p 1 个点来遍历所有 P 个点,然后我们从剩下的 P − p 1个点中随机取额外的 p 2 个点。额外的 p 2个点带来的随机性使得网络有机会回顾已经学到的知识,并为即将学习的知识做好准备。为了形成一个训练批次,我们随机选择每个 p 个点的一对匹配块(因此一个批次中有 2 p个块)。令 X = { x 1 1 , x 2 1 , ∙ ∙ ∙ , x 1 i , x 2 i , ∙ ∙ ∙ ,x 1 p , x 2 p }032 × 32 × 2 p是批处理中的2D块,其中下标是3D点索引,上标是2D块索引(例如, x 1 i 和 x 2 i 表示来自3D点 i的匹配对)。给定输入 X 给L2-Net,输出描述符表示为 Y= [ y 1 1 , y 2 1 , ∙ ∙ ∙ , y 1 i , y 2 i , ∙ ∙ ∙ , y 1 p , y 2 p ]0q × 2 p ,其中 q是描述符的维度(本文中为128)。注意,Y是一个批次的单位向量,因为L2-Net的输出层是LRN。因此,我们定义距离矩阵 D = [ d ij ] p × p ,其中 d ij = �� y 2 i− y 1 j �� 2 ( ∥∥ 2 是 L 2 范数),并且 D可以通过简单的矩阵乘法计算得到min(i,j)∈[1,p] {dik, dkj} = dkk(2)E1 = −12(∑ilog scii +∑ilog srii)(5)rsij =(bsi − ¯bsi)T (bsj − ¯bsj)√(bsi − ¯bsi)T (bsi − ¯bsi)√(bsj − ¯bsj)T (bj − ¯bsj)(6)E2 = 12∑i̸=j(r1ij)2 +∑i̸=j(r2ij)2(7)Rs = YsYTs /q(8)6640q × p ,( s = 1 , 2) 。因此,D 包含了 p 2对的距离,即对角线元素为 p 个正对,非对角线元素为 p 2− p 个负对。对于一个典型的训练集,有160K个3D点,将p设置为128,这意味着每个训练周期由2500个批次组成。在每个周期中,超过40M( 128 2 × 2500)对被输入到网络中。在我们的实验中,L2-Net通常需要大约40个训练周期。这表明大约使用了16亿对(尽管由于随机性的结果,不可避免地会有重复,但仍然是一个巨大的数量)进行训练,其中绝大多数是负对,而正对仅占据了12.8M( 128 × 2500 × 40)。一个可能的问题是为什么我们使用 Y T 1 Y 2 而不是 YT Y 来计算 D 。这是因为如果使用 Y T Y ,D的对角线元素将全部为零(相同块之间的距离),而所有正对和负对将分布在非对角线元素上,使得梯度的计算变得麻烦。实际上,我们的早期工作使用了 Y T Y,然而,它在性能上并没有表现出优越性。03.4. 损失函数0基于渐进采样策略,我们的损失函数集成了三个目标。首先,我们使用相对距离来区分匹配对和非匹配对。其次,我们强调输出描述符的紧凑性,这意味着描述符的所有维度应该较少相关。最后,我们不仅关注最终输出,还对中间特征图施加约束以获得更好的性能。根据这些目标,我们在损失函数中设计了三个误差项。1)描述符相似性的误差项。该误差项基于相对距离,即批次中每个描述符的最近邻应该是其匹配对应物。在 D中,如果能够实现这一点,那就是理想的情况。0方程(2)意味着对角元素 d kk 应该是第 k 行和第 k列中最小的。它等价于 � �0为了方便实现,我们分别对列和行进行操作。定义列相似性矩阵 S c = [ s c ij ] p × p 和行相似性矩阵 S r = [ s r ij ] p× p ,其中 s c ij = exp(2 − d ij ) / ∑0其中 2 是两个单位向量之间的最大 L2距离。在方程(4)中,s c ij 可以解释为 y 2 i 匹配到 y 1 j的概率,s r ij 是 y 1 i 匹配到 y 2 j 的概率。通过对 D的每一列和每一行应用 softmax 函数,我们可以分别得到 Sc 和 S r 。描述符相似性的误差项定义为0E 1鼓励描述符在欧几里得空间中更接近其匹配对应物,而忽略距离的具体大小,这是NNS的本质。2)描述符紧凑性的误差项。由于渐进采样策略使得L2-Net可以访问大量的训练样本,我们的初始实验中不可避免地出现了过拟合问题。有趣的发现是过拟合程度与描述符维度之间的相关程度直接相关。因此,我们引入了一个考虑描述符紧凑性的误差项。紧凑性意味着不同维度之间应该有较少的冗余,并且每个维度应该携带尽可能多的信息,以便用更少的维度达到相同的性能。事实上,紧凑性通常在二进制描述符的学习中使用(例如BOLD [7],RFD[3]),通常通过选择具有高变化的位进行贪婪选择来实现。为了使其可微分,我们采用了相关矩阵。同样,我们使用 Ys 而不是 Y来保证计算相关矩阵的描述符来自不同的3D点。我们将 Y Ts 表示为 [ b s 1 , ∙ ∙ ∙ , b s i , ∙ ∙ ∙ , b s q ] ,其中 b s i是行向量。相关矩阵 R s = [ r s ij ] q × q 定义为0其中 ¯ b s i 是 Y s 的第 i 行的均值。R s的非对角元素期望为0,因此我们只需最小化非对角元素的平方和。0我们发现将 E 2放在LRN层之前更有效,即在最后一个BN层之后。这是因为BN会通过减去均值和除以标准差来对每个通道进行归一化(注意权重和偏置被固定为1和0)。因此,相关矩阵的计算可以简化为G = (F1)TF2(9)vcij = exp(gij)/ ∑mexp(gmj)vrij = exp(gij)/nexp(gjn)(11)E3 = −12(∑ilog vcii +∑ilog vrii)(12)66503)中间特征图的误差项。现有的基于CNN的方法只关注最终输出的描述符,忽略了中间特征图的重要性。在本文中,我们发现通过中间特征图提供的额外监督信息,可以进一步提高L2-Net的性能。这个误差项的设计受到与 E 1相同的动机驱动,即一个补丁的中间特征图对于匹配对应物应该是相似的,而对于非匹配对应物应该是不同的。将第 k层的特征图批次表示为 F = [ f 1 1 , f 2 1 , ∙ ∙ ∙ , f 1 i , f 2i , ∙ ∙ ∙ , f 1 p , f 2 p ]0( wh ) × 2 p ,其中 f s i 是宽度为 w 和高度为 h的向量化特征图,为了简洁起见,省略了索引k。中间特征图的内积矩阵 G = [ g ij ] p × p 的计算如下0( wh ) × p ( s = 1 , 2 )。与方程( 3)中一样,如果满足以下条件,则理想情况是� �0同样,相对距离(在这里由内积测量)用于构建 G上的误差项。与 E 1 的定义相同,我们定义了列相似度矩阵V c = [ v c ij ] p × p 以及行相似度矩阵 V r = [ v r ij ] p ×p ,其中0因此,中间特征图的误差项被定义为0我们将这种方法命名为判别性中间特征图(DIF)。实验表明,在归一化特征图上使用DIF效果更好,因此我们将DIF放置在BN层之后的特征图上,具体来说,仅放置在第一个和最后一个BN层之后。这是因为在第一个和最后一个卷积层之前没有其他卷积层,所以特征图的顺序是固定的,即第一个卷积直接应用于输入数据(输入数据的每个通道具有固定的数学或物理意义),最后一个卷积层的输出对应于最终描述符。除了这两个之外,我们不限制所有其他特征图的灵活性。总之,E 1 是在最终输出上计算的,E 2是在最后一个BN层之后计算的,E 3是在第一个和最后一个BN层之后计算的。总损失是 E 1 +E 2 + E 3 。03.5. 训练0我们使用SGD从头开始训练网络,初始学习率为0.01,动量为0.9,权重衰减为0.0001。学习率每20个epoch除以10,训练不超过50个epoch。对于CSL2-Net的训练,我们使用经过良好训练的L2-Net初始化两个塔。图1-(b)中的左塔的参数是固定的,我们对右塔进行微调直到收敛。我们设定p1 = p2 = q/2 =64,通过随机旋转(90度、180度、270度)和翻转来在线实现数据增强(可选)。04. 实验0在本节中,我们将提供所提出模型与现有技术的比较。同时,我们进行了一系列实验来分析所提出的模型。04.1. Brown数据集0我们按照[16]的评估协议使用作者提供的100K对,并报告在95%召回率下的误报率。将L2-Net与其他基于CNN的模型与以SIFT(由[10]提供的结果)为基准进行比较。除了浮点L2-Net描述符外,我们还通过简单地取浮点描述符的符号(±1)来获得二进制描述符。得到的二进制描述符被称为二进制L2-Net和二进制CSL2-Net。为了验证L2-Net的泛化能力,我们还在HPatches数据集[11]上对其进行训练。结果列在表1和表2中。从表1中可以清楚地看到,L2-Net在所有训练/测试分割中表现最好,有显著的改进。除了CSL2-Net,L2-Net已经超过了所有模型。对于其他方法,CSSNet-GLoss明显优于其他方法。然而,将CS结构应用于具有度量学习的模型将引入额外的参数到全连接层,从而增加特征提取和匹配的时间。相反,对于CSL2-Net,我们使用简单的连接而不引入任何额外的参数,两个塔可以独立使用。同时,二进制L2-Net描述符明显优于那些专门设计的二进制描述符,甚至超过了所有浮点描述符。需要注意的是,所提出的二进制描述符的性能可以通过更好的阈值而不是0或更好的哈希方法进一步提高。尽管在完全不同的数据集上进行训练(表2),L2-Net仍然实现了最先进的性能,显示出其很强的泛化能力。04.2. 牛津数据集0为了进一步验证所提出网络的泛化能力,我们在另一个完全不同的数据集上进行了测试and TNet-TGLoss [9] ) with a scaling factor of 3. We fol-low strictly the evaluation protocol of [18]. The results ofother methods such as [10, 25] on the same dataset can befound in [2], where no improvement over PN-Net is ob-served. One should note that CNN models with specificlearned metric are not suitable for evaluation on the Oxforddataset, as the nearest neighbor search can not be well per-formed using similarity score. For a fair comparison andwithout lose of generality, all models are trained on Liberty(DeepDesc [5] is trained on Liberty and Notredame). Be-sides learned descriptors, we use LIOP [23] as the baselineof handcrafted descriptors, since it was reported to surpassmost of the handcrafted descriptors on this dataset. Mean-while, Binary L2-Net and Binary CS L2-Net are comparedto other state-of-the-art binary descriptors. Moreover, wereport results with different training data. Experimental re-sults are shown in Fig 2 with mean average precision (mAP)as performance indicator.As can be clearly seen from Fig 2, L2-Net outperformsall the other descriptors on average and even the binary L2-Net descriptor surpasses all other float descriptors. More-over, there are some other interesting observations: i) The6660训练特征Notredame Yosemite Liberty Yosemite Liberty Notredame0测试维度Liberty Notredame Yosemite 平均0度量学习0SIFT [15] 128 29.84 22.53 27.29 26.55 MatchNet [10] 4096 6.9 10.77 3.87 5.67 10.88 8.39 7.74DeepCompare 2ch-2stream [25] + 256 4.85 7.20 1.90 2.11 5.00 4.10 4.19 DeepCompare 2ch-deep [25] +256 4.55 7.40 2.01 2.52 4.75 4.38 4.26 SNet-GLoss [9] + 256 6.39 8.43 1.84 2.83 6.61 5.57 5.27 CSSNet-GLoss [9] + 384 3.69 4.91 0.77 1.14 3.09 2.67 2.710浮点描述符0TNet-TGLoss [9] + 256 9.91 13.45 3.91 5.43 10.65 9.47 8.8 TNet-TLoss [9] + 256 10.77 13.90 4.475.58 11.82 10.96 9.58 PN-Net [2] 256 8.13 9.65 3.71 4.23 8.99 7.21 6.98 DeepDesc [5] 128 10.9 4.405.69 6.99 L2-Net 128 3.64 5.29 1.15 1.62 4.43 3.30 3.23 L2-Net + 128 2.36 4.7 0.72 1.29 2.57 1.712.22 CS L2-Net 256 2.55 4.24 0.87 1.39 3.81 2.84 2.61 CS L2-Net + 256 1.71 3.87 0.56 1.09 2.07 1.31.760二进制描述符0RFD R [7] 293-598 19.35 19.40 13.23 11.68 16.99 14.50 15.85 RFD G [7] 406-563 17.77 19.03 12.4911.37 17.62 14.14 15.4 BinBoost [21] 64 20.49 21.67 16.90 14.54 22.88 18.97 19.24 RMGD [26]1376-1600 15.09 17.42 10.15 10.86 14.46 13.82 13.63 Boixet al [29] 1360 15.6 15.52 - 8.52 - 8.8712.12 二进制L2-Net 128 10.3 11.71 6.37 6.76 13.5 11.57 10.03 二进制L2-Net + 128 7.44 10.29 3.814.31 8.81 7.45 7.01 二进制CS L2-Net 256 5.25 7.83 3.07 3.52 8.49 6.92 5.84 二进制CS L2-Net + 2564.01 6.65 1.9 2.51 5.61 4.04 4.120表1. Brown数据集上的性能。数字是在95%召回率下的误报率。+表示数据增强。0测试Liberty Notredame Yosemite 平均0L2-Net 4.16 1.54 4.41 3.37 L2-Net+ 3.2 1.3 3.6 2.7 CSL2-Net 2.43 0.92 2.58 1.97 CS L2-Net+ 1.9 0.73 1.851.49 二进制L2-Net 12.4 6.4 13.16 10.65二进制L2-Net+ 10.74 5.44 11.07 9.08 二进制CSL2-Net 6.43 2.88 6.91 5.4 二进制CS L2-Net+ 5.4 2.445.88 4.570表2. 在HPatches数据集上训练时,网络在Brown数据集上的性能。0数据集,即牛津数据集[18]。我们在六个图像序列上评估L2-Net,分别是graf(视角),bikes(模糊),ubc(JPEG压缩),leuven(光照),boat(缩放和旋转)和wall(视角)。在每个图像序列中,有六个图像按照与第一个图像相对失真程度递增的顺序排序。使用Harris-Af�ne检测器检测关键点,并将局部补丁归一化为32×32的大小(DeepDesc[5]为64×64)grafbikesubcleuvenwallboataverage00.10.20.30.40.50.60.70.80.9mAPLIBNDYOSHPL2-NetCS L2-NetTNet-TGLoss PN-NetDeepDescLIOPBinary CS L2-Net Binary L2-Net BinBoostRFDGRFDR2http://www.iis.ee.ic.ac.uk/ComputerVision/DescrWorkshop/index.htmlpatch pair and triplet can be written astriplet∥yi−y+i ∥2+t(13)6670图2. 在牛津数据集上的mAP性能比较。右侧显示了不同训练集的性能(六个图像序列的平均mAP)。0CS结构不能保证在所有数据集和所有类型的描述符(浮点和二进制)上都能提高性能。由于CS结构需要裁剪补丁的中心部分,如何选择补丁的尺度成为一个问题。Brown数据集和Hpatches数据集的补丁尺度相似,因此CS结构效果良好。然而,对于不同的检测器和尺度,任意裁剪补丁的中心50%(可能是纹理较少的部分)可能不是一个好的选择。ii)与[4]一致,我们还发现基于CNN的方法对图像模糊非常敏感。iii)Hpatches数据集显示出更好的泛化能力。04.3. Hpatches数据集0原型L2-Net(casia-yt)在Hpatches数据集的测试数据上的结果可以在EC-CV2016研讨会“局部特征:现状、开放问题和性能评估”2的网页上找到,我们的方法在所有三个任务中排名第一。04.4. 讨论与分析0在本节中,我们讨论了每个提出的误差项如何对最终性能做出贡献,并对二进制描述符进行了一些定性分析。0紧凑性的重要性。我们尝试在没有E2的情况下训练L2-Net,但是网络无法收敛。由于网络输入了大量的训练样本,网络更容易记忆训练数据而不是学习泛化。没有E2,会出现严重的过拟合现象,输出描述符的维度高度相关。因此,紧凑性对于渐进采样策略非常重要。通过限制紧凑性,网络实际上倾向于提取包含更多信息的不相关特征。0相对距离的优势。E1与广泛使用的hingeloss非常不同。通常,补丁对和三元组的hinge loss可以写成0E pair = δ ij max ( 0 ,|| y i − y j || 2− t p )0+ (1 − δ ij ) max ( 0 , t n − || y i − y j || 20其中,如果y i和y j匹配,则δ ij等于1,否则δ ij等于0。t,tp,tn是阈值,其最优值很难甚至不可能找到,因此它们大多由经验决定。hingeloss的一个主要缺点是由阈值引起的不稳定梯度。随着训练的进行,不确定有多少样本对整体梯度有贡献,不稳定的梯度可能导致不良的局部最小值。为了解决这个问题,许多研究人员采用了硬样本挖掘,然而,挖掘的本质仍然是阈值(更严格)。通过利用相对距离,距离的绝对值变得无用,因此不需要使用阈值。DIF的有效性。首先,我们从误差函数中简单地去除E3,以证明DIF的有效性,然后我们在每个BN层之后施加DIF来测试其性能。将图3-(b)中的曲线A与曲线B和D进行比较,可以发现由于DIF可以在训练中提供更多的监督,带有DIF的L2-Net的性能始终优于没有DIF的L2-Net。然而,不能过度使用DIF,因为它会限制网络
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功