GEOBIT:一种用于非刚性变形的二进制RGB-D图像描述符

177 浏览量更新于2023-10-16 收藏 15.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

010 ... 0GeodesicIsocurvesIntensityTestsvariant under such conditions, play a key role in the devel-opment of image recognition, tracking, and multiple viewreconstruction. A common approach, to overcome the in-ﬂuence of these conditions, is to represent objects as a sam-pling of interest points, which are encoded with feature vec-tors called descriptors that contain distinguished features tocharacterize each object ubiquitously.In this paper, we introduce a new binary descriptorthat combines appearance and geometric information fromRGB-D images to handle isometric non-rigid deformations.Our method is invariant to image scale and uses geodesicisocurves on smooth textured manifolds. We used our de-scriptor to track multiple textured depth maps and demon-strate that it is robust and provides reliable results even inthe presence of strong non-rigid deformations and depthnoise. Figure 1 illustrates our descriptor.Over the past few decades, numerous methodologies toextract features have been proposed (e.g., [20, 6, 14, 13, 30,22, 2, 21, 28]). These approaches can be roughly grouped1100040GEOBIT:一种对RGB-D图像的非刚性变形具有测地线二进制描述符0Erickson R. Nascimento 1 , Guilherme Potje 1 , Renato Martins 1 , 2 , Felipe Cadar 1 , Mario F. M. Campos 1 , andRuzena Bajcsy 301 Universidade Federal de Minas Gerais (UFMG) 2 INRIA 3 University of California Berkeley0{ erickson,guipotje,renato.martins,cadar,mario } @dcc.ufmg.br , bajcsy@eecs.berkeley.edu0摘要0在大多数三维对齐和跟踪任务中，关键点对应的关键问题是点对应。在这个背景下，设计能够高效且唯一地识别关键点的描述符以进行匹配是非常重要的。已经开发了许多用于处理仿射/透视变形的描述符，但很少有描述符能够处理非刚性变形。在本文中，我们介绍了一种新颖的对等距变形具有不变性的二进制RGB-D描述符。我们的方法使用光滑纹理流形上的测地线等值线。它结合了RGB-D图像的外观和几何信息，以应对非刚性变换。我们使用我们的描述符来跟踪多个纹理深度图，并证明它在强非刚性变形和深度噪声存在的情况下产生可靠的特征描述符。实验结果显示，我们的描述符在精确度-召回率和识别率等指标上优于不同的最先进描述符。我们还向社区提供了一个新的数据集，其中包含不同对象（衬衫、布料、绘画、包等）的RGB-D图像，经受了强非刚性变形的影响，以评估点对应算法。01. 引言0从图像中理解现实世界对象的能力，考虑到其纹理、形状和变形等特征的所有可能变化，对于适当解释我们周围的场景和对象至关重要。这些对象在图像上的出现受到大量条件和变换的影响。例如，在视觉上识别或跟踪对象时，我们需要处理部分视图遮挡、旋转和光照变化，但也要处理非刚性表面变形的挑战性条件。因此，找到能够表征对象并在这些条件下保持不变性的属性，在图像识别、跟踪和多视图重建的发展中起着关键作用。克服这些条件的影响的一种常见方法是将对象表示为感兴趣点的采样，这些感兴趣点用称为描述符的特征向量进行编码，其中包含用于普遍表征每个对象的显著特征。在本文中，我们介绍了一种新的二进制描述符，它结合了RGB-D图像的外观和几何信息，以处理等距非刚性变形。我们的方法对图像尺度不变，并使用光滑纹理流形上的测地线等值线。我们使用我们的描述符来跟踪多个纹理深度图，并证明它在强非刚性变形和深度噪声存在的情况下是稳健的并提供可靠的结果。图1说明了我们的描述符。在过去的几十年中，已经提出了许多提取特征的方法（例如[20, 6, 14, 13, 30, 22, 2, 21,28]）。这些方法可以粗略地分为几组0输入图像0二进制描述符0图1.我们方法的概述。我们利用纹理2D流形上的测地线等值线，该流形经受等距变形。100050根据输入信息的类型，例如强度或深度图像。尽管基于图像的方法往往能够明智地利用图像中蕴含的丰富信息，但这些技术受限于2D数据。因此，纹理描述符的性能往往会随着场景中纹理和光照的可用性减少而迅速降低。另一方面，深度图像越来越多地被用于定义特征描述符。它们的信息对于场景表面上的纹理或光照变化不敏感。一些探索表面几何的描述符的例子是Spin-Image [6]和SHOT[26]。尽管这些几何描述符提供了很高的区分能力，但仍然存在一些问题，比如计算特征向量的固有算法复杂性以及为了避免歧义而需要大量数据的要求。最近，许多最新的工作成功地采用了同时利用外观（强度图像）和形状（来自深度信息）线索的方法来提高对象检测识别率[7, 30]和匹配[19,17, 30,27]，得益于低成本的RGB-D设备的出现。然而，正如前面提到的，大多数这些方法只能在有限的一些变换（如旋转、缩放和平移）存在的情况下检测和提取特征。例如，一个物体可以被变形，即相同的物体可能呈现不同的形式，这意味着其他类型的变换也值得考虑。因此，与大多数方法不同，我们的描述符在使用视觉和几何特征提取内在属性以表征现实世界对象方面迈出了一步。在实验中，我们的描述符呈现了最高的点匹配分数，这反过来又有助于计算机视觉中的许多任务，例如SfM、对象检测、图像识别、跟踪（在论文中展示），等等。本文的主要贡献可以总结如下：i）一种轻量级的二进制关键点描述符，利用外观和几何信息提取变形不变的特征；ii）一个新的RGB-D数据集，带有注释的匹配，由合成和真实世界对象组成，经受了各种非刚性变形的影响。02. 相关工作0从图像中提取描述符通常可以提供丰富的对象特征信息，而由3D传感器产生的几何信息对光照条件不太敏感。图像上的一种代表性方法是SIFT[14]描述符。它首先使用局部梯度提取特征，然后估计关键点邻域的特征方向以提供旋转不变性。最近流行起来的一种方法是使用二进制字符串来组装特征向量。0（例如，[2, 21,12]），这受到了Ojala等人提出的局部二值模式（LBP）的启发。使用二进制字符串来表示特征向量的主要优点是计算成本低和存储要求小。形状分析中一个持久的重大挑战是提取保持形状内在几何的属性。对于等距变换，测地距离是众所周知的内在属性。Kokkinos等人基于测地距离的属性构建了内在形状上下文（ISC）描述符。Shamai等人提出并评估了测地距离表示的新基础，以及如何高效地近似距离。尽管这些工作取得了进展，但它们的技术只适用于3D形状。在同样的方向上，Guan等人提出了BRISKS，这是一种针对球形图像的测地感知BRISK描述符。然而，BRISKS仅设计用于处理2-球面流形，不同于我们的描述符考虑了更一般的图像变形。一些研究已经解决了在可变形表面上匹配关键点的问题。Moreno-Noguer等人面对这个问题提出了一个新的框架，使用基于扩散几何的核函数在2D局部块上，称为DaLI描述符。DaLI设计用于处理非刚性图像变形和光照变化。尽管在提取对非刚性图像变形不变的特征方面取得了显著进展，但我们的实验证明，我们的方法在识别率、精确率-召回率和计算效率方面优于DaLI。在过去几年中，使用多种线索（如纹理和几何特征）来提高匹配质量和增加特征向量的区分能力已经变得流行起来。为了提高识别率，Kanezaki等人提出了全局描述符VOSCH，它结合了深度和纹理。另一个同时使用深度和纹理的描述符是Mesh-HOG。作者使用从3D模型中提取的纹理来创建定义在2D流形上的标量函数。类似地，Tombari等人提出了他们的仅形状描述符SHOT的扩展，该扩展包含纹理。这个扩展称为CSHOT，它的签名由两个连接的直方图组成：一个包含几何特征，另一个编码纹理信息。同样，Lai等人提出了使用两种类型数据的两个著名描述符：图像的SIFT和几何的Spin-Image，然后将两者连接起来组成特征向量。Nascimento等人还提出了能够结合几何和纹理信息的轻量级描述符。作者提出了EDVD描述符，它构建了一个旋转不变的表示。f100060根据法线的方向，使用扩展高斯图像和傅里叶变换来进行表面特征提取。BRAND[17]描述符将几何和纹理特征编码为二进制字符串，并具有旋转和尺度不变性。在这项工作中，我们采用类似的方法，通过使用深度数据来估计内在表面特性，从而改进关键点匹配的质量。我们的技术构建了一个描述符，同时考虑纹理和形状的两种信息源，创建一个区域的唯一表示。我们使用该描述符来跟踪物体，并且我们的实验证明，所提出的描述符显著提高了跟踪的准确性、精度和对不同尺度和旋转的强等距变形的鲁棒性。03. 方法0我们的描述符利用视觉和几何信息将不变形特征编码为二进制向量。一方面，使用纹理信息可以得到高度可辨别的描述符。另一方面，深度信息使我们能够定义对非刚性变形和尺度不变的二进制测试。我们的描述符接收一个RGB-D图像 F= {I, D} 作为输入，其中包括图像 I ∈ [0, 1] m × n作为像素强度和深度信息 D ∈ R m × n +，以及一系列检测到的关键点 K ∈ R l × 2 。对于每个像素p ∈ P 2 ，I(p) 提供像素强度，D(p)提供相应的深度。我们将方法分为两个主要步骤：在提取内在表面属性（即测地距离）之后，我们选择一组像素对来创建梯度场以提取视觉模式。由于我们的描述符是基于测地距离构建的，因此它在图像空间中具有尺度和等距表面变形的不变性。03.1. 使用热流进行测地近似0在本节中，我们描述了如何使用扩散策略（称为热流）计算2D流形中任意两点的测地距离，该策略由Crane等人提出[3]。尽管可以使用其他策略（例如，快速行进算法[25]），但热流近似带来了几个优势，例如预因子化以提高效率，并且可以应用于点云和多边形网格。令 u ∈ R |V|为2D流形上的分段线性函数，即由三角形和顶点组成的简单复合网格 M，其中每条边至多由两个三角形共享。对于具有单位法线 N和面积 A f 的三角形上的每个矢量，e 1 i 和 e 2 i 是与顶点i 相交的两个边矢量，u i 是对应顶点上的值。我们将函数 φ: V × V → R + 定义为测地距离0关键点 k0等值曲线 00等值曲线 10等值曲线2 ...0图2. 在使用热流近似测地距离之后，我们将 φ 离散为大小为 4 cm的等值曲线。每个测试对通过等值曲线 id和相对于补丁方向的角度进行定位。0近似任意一对顶点之间的测地距离。为了使用热流近似 φ的测地距离，我们解决泊松方程：0L C φ = � ∙ X ，（1）0其中 L C ∈ R | V |×| V | 是余切拉普拉斯矩阵，� ∙ X包含在归一化矢量场 X中计算的积分散度。在作为三角网格采样的 2D流形中，以下发散算子近似成立：0� ∙ X = 10� cot θ 1 ( e 1 i ∙ X j ) + cot θ 2 ( e 2 i ∙ X j )，（2）0其中，对于每个顶点 i ，我们对顶点 i 的所有相邻三角形 j进行求和。角度 θ 1 和 θ 2 是顶点 i 的对应角度，向量 X j是从 X = -� u / ∥� u ∥ 2 中收集的，其中离散梯度 � u可以计算为：0� u = 10i u i ( N × e 1 i ) ，（3）0最后，使用热流的 u 函数，对于固定的时间 t，通过求解系统（ A - t L C ）u = δ i ，其中 A是编码顶点面积的对角矩阵，δ i 是一个在第 i 个分量上为 1，其他分量上为 0 的向量。然后我们定义由离散化的 φ函数组成的等值曲线集合 Φ （见图 2）。由于测地距离是变形不变的属性，就等距变换而言，属于特定等值曲线的所有像素在表面变形后仍然属于同一等值曲线。03.2. 二进制特征提取0在近似关键点邻域的测地线距离之后，我们可以根据关键点周围的二进制梯度场计算视觉特征。这一步的思想与LBP[20]、BRIEF [2]以及最近的ORB [21]使用的思想类似。100070二进制测试0旋转0等值线0补丁方向0图 3.两个二进制测试的示例。对于模式中的每个二进制测试，我们存储等值线 c 和相对于补丁方向的旋转 α 的两个点。0在这个邻域中计算梯度方向使用的是图像强度差异测试，这对于匹配来说具有较小的内存需求和处理时间。假设 k是图像关键点，P 是以 k为中心的图像补丁。我们使用给定分布的固定模式在关键点k 周围采样像素对（图 5显示了两个测试分布模式）。对于模式中的每个点，我们存储等值线 c 和相对于补丁方向的旋转 α，如图 3所示，其中有两个测试点对分别位于两个不同的等值线上。然后，我们可以构建集合 S = {(x i , y i ), i = 1, ...,n}，作为从 P 中采样的固定的一组像素对，其中 x i 和 y i编码了第 i 个像素的等值线和角度，例如，x i = (α i , c i )T。在构建视觉特征描述符之前，将补丁 P平移到原点，然后通过变换 T θ 进行旋转，得到集合0P = {(T θ (x i ), T θ (y i )) | (x i , y i ) ∈ S}. (4)0因此，与DaLI类似，对于每个关键点，我们通过旋转模式点集 S中的模式点的坐标来计算一组候选描述符（在我们的实验中为12个），使用从 [0, 2π] 均匀采样的离散旋转，即添加 θ= nπ/6，n ∈ {0, ..., 11} 到第一个坐标 T θ (x i ) = (α i + θ,c i)。然后，在匹配步骤中，我们选择结果描述符之间距离最小的方向的描述符。与使用基于梯度的方法为每个关键点计算方向相比，这种策略表现出更好的性能，主要是因为关键点周围的非刚性变形引入了方向估计中的额外噪声。从与关键点 k 关联的补丁 P 中提取的描述符表示为二进制字符串：0b(k) =0n01 2 i − 1 [p(x i ) < p(y i )], (5)0其中 [ t ] 是Iverson括号，如果谓词 t 为真，则返回1，否则返回 0，p(x i ) 返回相应的像素。0对应像素的 x i坐标。括号中的比较捕捉到关键点邻域中的梯度变化。03.3. 对深度误差和计算效率的敏感性分析0测地线等值线计算，详见第03.1，对于高分辨率网格来说，计算密集度较高。我们认为可以利用低分辨率深度图像来估计测地线距离而不会降低结果的质量。使用低分辨率网格的优势有两个。首先，它极大地提高了算法的效率，因为解决的扩散方程组更小，操作次数更少。其次，扩散算子对降采样平滑网格中的深度噪声更加鲁棒。因此，我们在三个阶段实现了多分辨率策略。首先，我们使用深度的高斯金字塔进行子采样，实验中使用最低分辨率的深度图像。我们使用了一个二维高斯核的等距双变量高斯核，维度为5，标准差为1。然后，我们在低分辨率网格上近似测地线等值线；最后，我们使用双线性插值将等值线上采样到原始分辨率。这种多分辨率策略将顶点总数减少了16倍，并且算法运行时间至少减少了35倍，实验证明，平滑可以显著提高对噪声的鲁棒性，同时保持相关的几何特征。04. 实验0我们使用模拟和真实数据评估所提出的方法，并比较不同描述符的结果。我们采用识别率[2]和精确度-召回曲线的倒数作为比较指标。我们使用蛮力匹配将两个图像的所有关键点对进行匹配。每当Hamming距离（BRAND、ORB和我们的描述符）或欧氏距离（DaLI和MeshHoG）低于阈值时，将该对视为有效匹配。我们将具有两个关键点对应于相同物理位置（根据地面真实对应关系）的有效匹配标记为正例，否则标记为负例。对于识别率指标，我们将另一组中每个描述符的最近邻视为预测的对应关系，用于计算准确率。04.1. RGB-D非刚性数据集0真实世界数据。为了评估我们的描述符在真实世界图像上的匹配能力，我们构建了一个由6个可变形物体和总计74个图像组成的新数据集1。01 https://www.verlab.dcc.ufmg.br/descriptors/ iccv2019100080衬衫1 衬衫2 衬衫30毯子包袋罐头0Lascaux Van Gogh Kanagawa0图4.我们数据集中真实世界和合成数据的示例。前两行显示了真实数据的示例，第三行显示了合成序列的图像。0使用KinectTM拍摄的RGB-D图像对。所有图像均以640×480像素的分辨率获取。对每个物体应用了不同程度的等距变形。当操作这些物体的表面时，自然会出现非线性照明变化。由于我们无法获得描述任意非刚性变形的参数模型，因此我们手动注释了约50个关键点和所有数据集的地面真实对应关系。图4的前两行显示了我们数据集中真实世界数据的一些示例。0合成数据。我们使用布料的物理模拟创建具有地面真实对应关系的任意非刚性等距变形。简而言之，考虑到具有质量和3D位置的粒子网格，牛顿第二定律与Verlet积分结合应用于作用于粒子位置的力，即当施加风力和重力等力时。对所有粒子进行约束满足优化步骤，以强制相邻粒子之间的距离保持恒定，从而保持变形等距。纹理应用于由网格生成的网格，并以漫反射照明渲染，当布料移动时（导致非线性照明变化）。在模拟运行时，我们从图像中均匀采样像素，并使用Harris角分数保留大约95个类似角的特征。合成数据由18对图像组成，包括具有任意变形和旋转的三种不同纹理。图4的第三行显示了我们数据集中合成数据的一些示例。0图5.使用均匀分布（左侧）和正态分布（右侧）的二进制测试模式。我们测试了这两种分布，并发现正态分布的识别率略高。04.2. 基准和指标0我们将我们的结果与二维图像ORB[21]的二进制描述符进行了比较；结合纹理和形状的两个描述符：MeshHOG [30]和BRAND[17]；以及变形不变描述符DaLI[16]。与Tombari等人[2]类似，我们使用识别率评估匹配性能。由于我们已经为所有图像对的所有对应关键点进行了注释，因此我们可以可靠地计算出两个图像之间的对应关键点的数量。我们还使用精确度-召回曲线[8,15]评估我们的描述符的性能。使用蛮力算法，我们匹配了来自两个不同图像的所有关键点对。如果描述符之间计算的距离低于阈值t，则将该对视为有效匹配。有效匹配是指两个关键点对应于相同的物理位置（由注释确定），因此定义了真正的正例数量。如果有效匹配中的关键点来自不同的物理位置，则增加假正例的数量。根据这些值，我们计算召回率和1-精确度。我们报告召回率与1-精确度曲线下的面积（AUC）。04.3. 参数设置0我们经验性地找到了用作角度等值曲线大小和描述符大小的最佳值。在这项工作中，我们将等值曲线大小设置为4cm。我们还测试了不同大小的特征向量，并选择了1024位作为默认大小。0二进制测试分布。我们的描述符在关键点周围进行二进制测试。这个分析是基于由分布函数S选择的一组像素。我们测试了两种不同的分布。每个分布的模式如图5所示。假设补丁坐标系的原点位于关键点处，我们使用以下分布选择了1024对像素：i）各向同性高斯分布1|21|31|41|51|6Datasets0.00.20.40.60.81.0Recognition RateMESHHOGOURSBRANDDaLIORB1234561|21|31|41|51|6Datasets0.00.10.20.30.40.50.60.70.8Recognition RateMESHHOGOURSBRANDDaLIORB123456050100150200Hamming distance0.0000.0050.0100.0150.020Relative frequencyBRAND Nonmatching pointsMatching points0100200300400500Hamming distance0.0000.0020.0040.0060.008Relative frequencyOURS Nonmatching pointsMatching pointsσ = 0. 06σ = 0. 12σ = 0. 240.00.20.40.60.81.01.2Relative Recognition Rate100090表1. 我们的描述符与标准方法的比较。我们的描述符能够提供更高的识别率和AUC值。0数据集（#对）识别率 AUC0BRAND DaLI MeshHOG ORB 我们的 BRAND DaLI MeshHOG ORB 我们的0Shirt1（14）0.48 0.65 0.27 0.52 0.73 0.45 0.42 0.23 0.54 0.75 Shirt2（18）0.53 0.66 0.25 0.51 0.74 0.36 0.49 0.180.50 0.54 Shirt3（17）0.56 0.67 0.32 0.65 0.72 0.44 0.54 0.23 0.61 0.63 Can（6）0.21 0.22 0.15 0.17 0.23 0.16 0.070.11 0.19 0.20 Blanket（15）0.45 0.72 0.26 0.42 0.79 0.41 0.50 0.16 0.39 0.77 Bag（4）0.54 0.65 0.31 0.53 0.76 0.420.38 0.23 0.49 0.64 Kanagawa（18）0.22 0.36 0.03 0.40 0.58 0.05 0.15 0.01 0.38 0.41 Van Gogh（18）0.29 0.670.04 0.46 0.70 0.08 0.50 0.01 0.45 0.46 Lascaux（18）0.38 0.65 0.03 0.59 0.82 0.15 0.36 0.00 0.57 0.760图6.参考图像与变形图像之间的识别率：（a）真实世界毯子物体序列；（b）合成的Kanagawa序列。参考图像的id为1（在每个条形图的右侧）。0图7. 对应和非对应关键点之间的汉明距离的直方图。0100 ) ;和ii）均匀分布，我们随机选择了1024个不同的角度和等值曲线。04.4. 结果0表1显示了我们实验中所有描述符的AUC和识别率值。这些实验表明，我们的描述符是一个明显的优胜者，在识别率和AUC方面表现最佳。图6展示了对真实物体和合成序列的详细性能评估。0标准平滑0图8.使用提出的平滑步骤与直接估计热流的标准方法相比，相对识别率的改善。可以看到，随着噪声标准差的增加，识别率有所提高。0需要注意的是，在所有方法中，我们的描述符在识别率和AUC方面都具有最高的平均值。我们还单独对真实数据集运行了TFEAT[29]，这是一种用于局部补丁描述的最先进的基于ConvNet的方法。0.00.20.40.60.81.01.2MESHHOGOURSBRANDDaLIORB0.00.20.40.60.81.01.2MESHHOGOURSBRANDDaLIORBtional effort is far more expensive in terms of ﬂoating-pointoperations, and our method can achieve an accuracy im-provement of 4.5% p.p., on average.We can also draw the following observations. First, thepoor efﬁciency of MeshHoG can be explained by the factthat it considers a uniformly sampled mesh to compute itsdescriptor, while RGB-D sensors provide noisy and non-uniformly sampled points, especially when strong deforma-tions happen on the surfaces. Pre-processing steps can bedone to mitigate this problem, however, regular area meshdecimation is generally an expensive step. BRAND perfor-mance is also reduced by deformations since its computa-tion is based on the normals of a support region, which is notan intrinsic property of a surface, hence not being invariantto non-rigid isometric deformations. Second, the photomet-ric information is also impaired by the deformations, whichpenalizes RGB-D descriptors like BRAND and MeshHOGtwice.Distance Distributions.Figure 7 shows the histogramsof Hamming distances between corresponding and non-Table 2. Timing in seconds of each step of the descriptor for 94keypoints – Intel (R) Core (TM) i7-7700 CPU @ 3.60GHz.MethodNon-rigidIsocurveExtractionMatchingTotalORB✗−0.010.0010.011BRAND✗−0.310.0010.311MeshHoG✗−28.520.03028.550DaLI✓−61.196.33067.520Ours✓4.0910.810.02314.923corresponding keypoints, in green and red respectively. Forboth descriptors, it is expected that the distribution of non-matching keypoints to be roughly represented by a Gaus-sian centered around the middle of the X axis. An ideal de-scriptor would be able to separate corresponding and non-corresponding keypoints using a threshold in the Hammingdistance. In the case of overlapping between the distribu-tions, any threshold value will lead to false positives or neg-atives. One can clearly see in Figure 7 that the histogram ofour descriptor presents a smaller overlapping area betweenthe distributions.Robustness to noise.Figure 8 shows the relative recogni-tion rate achieved when using the pyramid smoothing step.We tested three different levels of noise applied to the Kana-gawa sequence, which contains 18 image pairs with up to100 matching keypoints.Although we might lose ﬁne-grained details when applying our multi-resolution strat-egy, the evidence of increasingly gains in recognition rates,shown in this experiment, demonstrates that the geometryof the manifold is sufﬁciently preserved to provide reliablegeodesic distances while removing high-frequency noise,typically present in RGB-D data.Rotation and Scale Invariance.We also pit our descrip-tor against other methods in terms of robustness to rotationand scale transformations. For these tests, we used the Las-caux dataset, where the camera suffers in-plane rotationsranging from 0◦ to 180◦ degrees, using a step size of 10◦degrees for rotation and we applied downscale of 1/2, 1/4and 1/8. The recognition rate curve for rotation and scaletransforms are shown in Figures 9 and 10, respectively. Theresults are given by the percentage of true matches as a func-tion of the rotation angle and scale. It is worth noting thatour descriptor outperforms all methods in all frames in bothrotation and scale evaluations.Processing Time.Table 2 shows the computation time ofeach step for the compared descriptors. Our method was inaverage 4.5 times faster than DaLI, which shows the state-of-the-art performance in matching regarding the descrip-tion of deformable objects.10010010 30 50 70 90 110 130 150 170 旋转角度（度）0识别率0图9.Lascaux序列中每帧相对于参考帧的旋转的识别率曲线。该实验评估了描述符对变形和旋转的鲁棒性。01/2 1/4 1/8 缩放因子0识别率0图10.我们描述符更好的尺度不变性的演示。该图显示了Lascaux序列的图像尺度变化函数的识别率。即使是RGB-D描述符在如0.25这样的极端尺度变化下也无法表现良好，而没有先验尺度估计步骤。Templateframe #1frame #2frame #3frame #4frame #5#1#2#3#4#5DaLIOursDaLIOursDaLIOursDaLIOursDaLIOurs#1#2#3#4#5100110模板帧 #1 帧 #2 帧 #3 帧 #4 帧 #50DaLI 我们的 DaLI 我们的 DaLI 我们的 DaLI 我们的 DaLI 我们的0图11. 使用DaLI和我们的描述符跟踪Lascaux（合成序列）和Blanket（真实世界序列）的结果。跟踪区域由绿色网格突出显示。04.5. 可变形表面跟踪应用0在本节中，我们评估了我们的描述符在跟踪不同纹理网格的感兴趣区域时，在大旋转、尺度变化和强非刚性变形的情况下的性能。关键点集K的选择是手动进行的，或者使用Harris角检测器[5]进行的。对于每个描述符，我们计算了在此感兴趣区域内的所有可见关键点的汉明距离矩阵，并使用SIFT匹配策略[14]进行对应，即如果两个最佳匹配候选之间的比率小于阈值（在我们的应用中选择了0.7），则关键点是有效匹配。然后，在跟踪期间，模板图像和当前图像之间的配准使用了可变形仿射薄板样条变形[1]，如图11所示，用于Lascaux和Blanket序列，使用了DaLI和我们的描述符。0我们可以观察到我们的跟踪具有更好的外观质量和一致性。我们还注意到，我们的二进制描述符对变形引起的照明变化（表面不符合兰伯特假设）和小的镜面反射是鲁棒的。请参阅我们的补充材料pdf文档和演示视频，了解更多细节并检查不同对象（绘画、衬衫和包）的完整序列跟踪。05. 结论0在本文中，我们提出了GEOBIT，一种对等距变形、旋转、尺度不变的新型描述符，与其他描述符相比，具有竞争性的内存消耗和匹配时间。我们的方法结合了RGB-D图像的光度和几何信息，即使在非刚性变换的情况下，也能提供有区分性的特征。我们对四种标准描述符进行了比较分析，实验结果表明，利用流形的等距不变性属性可以用于创建具有更好匹配对应性能的描述符。通过结合不同的线索策略，我们的描述符在匹配实验中表现出有利的性能，以及在旋转和尺度不变性测试中的表现。我们的结果扩展了[17, 11,27]的结论，即在提高关键点匹配质量方面，强度和形状信息的结合使用是有优势的。此外，我们在跟踪可变形物体和识别率上取得了令人鼓舞的结果，这表明我们的描述符提取的特征对于提高可变形物体的分类和识别任务的准确性是有用的。0致谢。作者要感谢CAPES（#88881.120236/2016-01）、CNPq、FAPEMIG和Petrobras对本工作的不同部分提供的资助。100120参考文献0[1] Adrien Bartol

下载后可阅读完整内容，剩余1页未读，立即下载