【免费】DistinctiveImageFeaturesfromScale-InvariantKeypoints译文

SIFT

需积分: 0 137 浏览量更新于2023-06-01 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

Distinctive Image Features from Scale-Invariant Keypoints

David G.Lowe

Computer Science Department, University of British Columbia, Vancouver, B.C., Canada

摘要：本文提出了一种从图像中提取独特不变特征的方法，可用于不同视角之间目标或场景

的可靠匹配的方法。这种特点对图像的尺度和旋转具有不变性。并在大范围的仿射变换，三

维视点的改变，噪音和光照变化的图像匹配具有鲁棒性。特征是 highly distinctive 的，使场

景图像中的单一特征和许多图像中提取的大型特征数据库一样，有很高的正确匹配率。本文

还介绍了一个使用该特征来识别目标的方法。通过将个别特征与由已知目标特征组成的数据

库进行快速最近邻算法的匹配，然后使用 Hough 变换来识别属于单一目标的类簇(clusters)，

最后通过执行一致的构成参数的最小二乘解来验证。这种识别方法可以在杂乱和遮挡的对象

间鲁棒的识别目标并且具有接近线性的时间复杂度。

关键词：不变特征，目标识别，尺度不变性，图像匹配

1. Introduction

图像匹配是计算机视觉领域中很多问题的关键，包括目标和场景识别、多幅影像的 3D

structure、stereo correspondence、motion tracking 等。本文描述的图像特征有很多特性使得

它适合将一个目标或场景的不同影像进行匹配。这些特征对于图像尺度和旋转具有不变性，

并在光照变化和三维相机视点变化的情况下具有部分的不变性。它在空间域和频率域具有很

好的局部性，减少了遮挡（occlusion）、杂乱和噪音的影响。通过有效的算法，可以从典型

的图像中提取海量的特征。另外，这些特征是 highly distinctive 的，使场景图像中的单一特

征和大型特征数据库一样，有很高的正确匹配率，为目标和场景识别提供了基础。

通过一个级联滤波算法将 minimized 提取这些特征的 cost，这样，昂贵的运算仅在通过

初步测试的 locations。下面是生成图像特征集的主要步骤：

1.Scale-space extrema detection：第一阶段对所有尺度和图像 locations 进行搜索。通过

使用 difference-of-Gaussian function 高斯差分函数来识别对于尺度和方向具有不变性的潜在

兴趣点。

2. Keypoint localization：在每一个候选 location，一个 detailed model 适合于确定位置和

尺度。基于关键点的稳定性来选择关键点。

3.Orientation assignment：基于局部图像的梯度方向，给每个 keypoint location 指定一个

或多个方向。后面所有操作的图像数据都是将每个特征的方向、尺度和位置进行相关变换得

到的，因此特征对这些变换具有不变性。

4.Keypoint descriptor：局部梯度是在所选尺度上每个关键点附近的区域测量得到的。这

些局部梯度可以转化为允许强烈的局部形状扭曲和光照变化的图像表示法。

这种方法被命名为 Scale Invariant Feature Transform (SIFT)，把图像数据转换到对于局部

特征尺度不变的坐标上。

该方法的一个重要方面是它生成了大量特征，它们密集的覆盖了图像所有的尺度和

locations。一幅 500*500 像素的典型图片可以产生约 2000 个稳定的特征（这个数字依赖于

图像内容和几个参数的选择）。特征的数量对目标识别尤为重要，要检测杂乱背景下的小目

标，至少要求每个目标有三个特征被正确匹配才是可靠的识别。

对于图像匹配和识别，从一组参考图像中提取 SIFT features 并存储在数据库中，通过将

新图像中的各个特征与原有数据库进行对比并基于特征向量的欧氏距离找到候选匹配特征。

本文将讨论可以在大型数据库中进行快速计算的 fast nearest-neighbor algorithms。

关键点描述子是 highly distinctive 的，可以使单个特征在大型特征数据库中以很大概率

进行正确匹配。然而，在杂乱的图像中，很多背景中的特征在数据库中不存在正确匹配，产

生了很多错误的配对。通过标识与新图像在 the object and its location、尺度和方向一致的关

键点的子集，将正确的匹配从匹配的全集中过滤出来。几个特征的这些参数恰好一致的概率

比任一个特征匹配错误的概率要小很多。可以通过一个高效的广义 Hough transform 的散列

表快速确定这些一致的类簇。

每个拥有三个及三个以上与目标一致的特征的类簇的构成需进一步的更详细的验证。首

先，最小二乘估计是 the object pose(对象构成)的仿射近似。其他与此构成一致的图像特征

被标识出来，而离群点被丢弃。最后，详细的计算可以认为是一个特定的特征集合表明目标

存在的概率，给出匹配的准确率和可能的错误匹配数。通过这些测试的 Object matches 可以

认为就是正确的匹配。

2. Related Research

使用一组局部兴趣点来进行图像匹配的发展可以追溯到 1981 年 Moravec 在立体匹配中

使用的 corner detector(角点检测)。Moravec 的 detector 在 1988 年被 Harris 和 Stephens 改进，

在小的图像变动和近边缘区域具有了更高的可重复性。Harris 还展示了它在高效运动追踪和

从 motion recovery 中进行 3D structure 的价值(Harris，1992)。此后，Harris 角点检测被广泛

运用于图像匹配工作中。尽管这些特征检测器被称为 corner detectors，但它并不是只能选择

角，还可以选择在一个尺度的各个方向上具有大的梯度的图像 location。

该方法的最初应用是立体和短距离运动追踪，而后来被扩展到解决一些更困难的问题。

Zhang 等人在 1995 年在每个角点周围的相关窗口来选择可能的匹配，使得大幅图像范围的

Harris 角点匹配成为可能。通过求解严格场景的两个视角间的几何约束的基础矩阵和移除与

多数解不一致的配对来移除异常值。同年（1995），Torr 提出了一种类似的方法来进行远程

的运动匹配，使用几何约束来移除图像中 rigid objects 的移动的离群点。

1997 年，Schmid 和 Mohr 的开创性工作展示了不变的局部特征匹配可以被扩展到解决

一般的图像识别问题，即使用一个特征与大型图像数据库进行匹配。他们还使用 Harris 角点

检测来选择兴趣点，但他们使用一个图像局部区域旋转不变的描述子来代替相关窗口进行匹

配。这些特征可以在两幅图像之间进行任意方向变化时进行匹配。此外，他们还证明多特征

匹配可以通过标识一致的匹配的特征的类簇，在遮挡和混杂的情况下实现一般的识别。

Harris 角点检测对图像尺度的变化非常敏感。因此，对于不同尺度的图像匹配，Harris

角点检测并不能提供很好的基础。本文作者（Lowe）在 1999 年的早期工作中扩展了这种局

部特征方法来实现尺度不变性。该工作还阐述了一种新的局部描述子，给出一个 more

Distinctive 的特征，可以降低对局部图像变形的敏感度（如三维视点的变换）。本文提出了

对这一方法更加深入的研究，并分析了这些早期的工作，在稳定性和特征不变性上进行了大

量改进。

在之前的研究中，关于在尺度变换下表征（representation）的稳定识别占了很大的篇

幅。最早在这个领域进行研究的有 Crowley 和 Parker，1984 年，他们研究出一种表征法，标

识峰和脊并把它们放入一个树结构中。树结构的匹配可以在任意尺度变换的图像间进行。在

近期基于图的匹配工作中，Shokoufandeh 等人在 1999 年使用小波系数提出了一种 more

distinctive 的特征描述子。Lindeberg 在 1993-1994 年对为特征提取找到一个合适并且一致的

尺度这一问题进行了深入研究。他称之为尺度选择问题，我们在下面使用了这一结论。

最近，有了大量令人印象深刻的将局部特征扩展为全局仿射变换不变量的工作

（Baumberg，2000；Tuytelaars 和 Van Gool，2000；Mikolajczyk 和 Schmid，2002；Schaffalitzky

和 Zisserman，2002；Brown 和 Lowe,2002）。这使得在变化的正射三维投影平面上的特征匹

配具备了不变性，多数情况下采用对图像局部仿射框架进行重采样的方法。然而，还没有一

个方法实现了完全的仿射不变性，由于充分勘探仿射空间的成本过高，因此他们用一个非仿

射不变的方式对最初的特征尺度和位置进行选择。仿射框架与尺度不变的特征相比，对噪音

更加敏感，因此，实践中除非在仿射变形与平面倾斜程度大于 40 度时（Mikolajczyk，2002），

仿射特征比尺度不变的特征重复率要低。对于很多应用，更宽的仿射不变性可能并不重要，

因为为了获得三维目标的非平面变化和遮挡的影响，瞄准视角至少每 30 度旋转一下视点（也

就是说对于最靠近的瞄准视角，识别也是在 15 度以内进行的）。

尽管本文中的方法不具备完全的仿射不变性，但它使用了一种独特的方法来使局部描述

子可以随着描述子很小的变化来显著地改变相关特征的位置。这种方法不仅使描述子可以在

相当大范围的仿射变形时进行可靠地匹配，还可以使特征在非平面的三维视点变化时具有更

好的鲁棒性。另一个优点是它可以更高效地提取特征，并可以标识更多特征。另一方面，在

非常大的视角变化下，仿射不变性是匹配平面非常有价值的属性，以后的研究应该以高效而

稳定的方式将这一点与非平面的三维视点不变性结合。

许多其他的特征被提出用于识别，其中一些可以加入到本文所述特征中以在不同环境中

的进行进一步匹配工作。其中一类特征是利用图像轮廓或区域边缘的特征，这可以减少特征

在目标边界附近混乱背景的干扰。Matas 等人在 2002 年提出他们的最稳定极值区域可以产

生大量具有良好稳定性的匹配特征。Mikolajczyk 等人在 2003 年使用局部边缘（edge）而忽

略附近的无关边缘，提出一种新的描述子，即使在与杂乱的背景上狭窄形状的重叠的目标边

界附近也可以在寻找稳定的特征。Nelson 和 Selinger 在 1998 年使用基于图像轮廓分组的局

部特征得到了很好的结果。类似的，Pope 和 Lowe 在 2000 年使用的是基于图像轮廓的层级

分组的特征，尤其是对于缺少纹理细节的目标非常有用。

对于视觉识别的研究历史包括一组可被用作特征测量的多样的其他图像属性数集的工

作。Carneiro 和 Jepson 在 2002 年描述了一种基于相位的局部特征来表示相位来而不是局部

空间频率的量级，提高了特征的光照不变性。Schiele 和 Crowley 在 2000 年建议使用多维直

方图来概括图像区域内的测量值的分布。这种特征对于纹理明显的形状畸变的目标识别尤为

有效。Basri 和 Jacobs 在 1997 年证明了提取局部区域边界对于识别的价值。其他可以合并的

有用属性如颜色、运动、图形-背景差异、区域形状描述子和立体深度信息等。局部特征方

法可以轻易吸纳新的特征类型，因为其他特征提供正确的匹配来提高鲁棒性，并且除了它们

的计算成本外(对正确率)影响较小。因此，以后的系统可能会由很多特征类型组合而成。

3. Detection of Scale-Space Extrema

引言中已经提到，我们使用高效的方法来标识候选位置然后再进一步详细检查的级联滤

波方法来探测关键点。关键点检测的第一阶段是标识同一目标在不同视角下可被重复分配的

位置和尺度。使用尺度连续函数(尺度空间 Witkin，1983)，在所有可能的尺度中搜索稳定特

征，检测图像中具有尺度变换不变性的 locations。

Koenderink 和 Lindeberg 分别在 1984 年和 1994 年提出，在一系列合理的假设下，唯一

的尺度空间核是高斯函数。因此，图像的尺度空间被定义为函数 L(x,y,σ)，是由尺度可变的

高斯函数 G(x,y,σ)和输入图像 I(x,y)的卷积生成的：



󰇛



󰇜



󰇛



󰇜



󰇛



󰇜



其中*为 x 和 y 之间的卷积运算，

󰇛



󰇜











󰇛







󰇜



。

为了高效地在检测尺度空间中稳定的关键点 locations，我们 (Lowe，1999)使用

difference-of-Gaussian(高斯差分)函数中的尺度空间极值与图像进行卷积。

󰇛



󰇜

可由两个

由常数乘系数 k 分离的相邻尺度的差值计算得到：



󰇛



󰇜



󰇛



󰇜



󰇛



󰇜



󰇛



󰇜



󰇛



󰇜



󰇛



󰇜

(1)

有很多选择这个函数的理由。首先，这是一个计算起来相当高效的函数，因为平滑图像

L 需要计算尺度空间特征描述的所有情况，而 D 只需由简单的图像减法计算。

另外，Lindeberg 于 1994 年研究表明，高斯差分函数可以给出尺度规一化的高斯拉普拉

斯(LOC)算子的近似解







。Lindeberg (1994)提出参数



归一化的拉普拉斯算账需要真正的

尺度不变性。在详细的实验对比中，Mikolajczyk 2002 年发现，与其他可能的图像函数如梯

度法、Hessian 法和 Harris 角点函数相比，







的最大值和最小值产生了最稳定的图像特

征。

D 和







 的关系可以从微分方程式来理解(参数以 σ 而不是常见的

















由此，我们可以看出



可以由两个相邻的差分尺度 k的的有限差分逼近计算

得到：



















󰇛



󰇜



󰇛



󰇜



所以，



󰇛



󰇜



󰇛



󰇜

󰇛󰇜









这表明，高斯差分函数被常系数区分为各个尺度后，它就包含了尺度不变的拉普拉斯算

子要求的



尺度归一化。在所有尺度下，等式中的系数（k-1）是一个常数，因此不影响极

值的位置。K 越接近 1，逼近误差就越趋于 0，但是实践中我们发现，即使是显著的尺度差

异如



，近似值对极值检测的稳定性和或定位几乎没有影响。



󰇛



󰇜

的构建方法如图 1 所示。初始图像与高斯算子卷积形成图像，通过常数系数 k

在尺度空间中将图像分开，如左图中堆放的层。我们将尺度空间的每个 octave 组 (如的两

倍)分为一个整数，间隔为 s，即 



。我们必须为每个 octave 组在模糊图像堆中建立 s+3

幅图，所以最后的极值检测覆盖一个完整的 octave 组。相邻的图像尺度相减生成高斯差分

图像，如右图所示。一旦一个完整的 octave 处理完成，我们就以每行或每列两个像素对初

始值为的两倍的高斯图像(即堆顶的两幅图像)进行重采样。相对于，采样的精度与之前的

octave 没有差别，但计算量被大大地减小了。

剩余21页未读，继续阅读

Terry_o0o

粉丝: 37
资源: 14

会员权益专享

Distinctive Image Features from Scale-Invariant Keypoints译文

会员权益专享

最新资源

Distinctive Image Features from Scale-Invariant Keypoints译文

SIFT经典论文

IJCV2004 Distinctive image features from scale invariant keypoints翻译

Distinctive Image Features from Scale-Invariant Keypoints

vl_sift函数 matlab

有没有关于上述方法的参考资料

谁在SURF算法中提出的高斯差分尺度空间

列举10个与计算机视觉相关的参考文献

目标检测算法的国内外研究现状带参考文献

kp1, des1 = sift.detectAndCompute(img_l, None)

descriptor = cv2.xfeatures2d.SIFT_create()

local feature detector

4.py，将一段英文文本中连续重复了2次的英文单词改为1个。 flower, the characteristic reproductive structure of angiosperms. As popularly used, the term “flower” especially applies when part or all of the reproductive structure is distinctive in colour and form.

用python制作一个物种介绍网站

The largest animal ever to have lived on Earth is the dinosaur Argentinesaurus, a hulking 70－ton的英文全文

stinct词根思维导图

layui省市二级联动

distinctive_image_features_from_scale-invariant_keypoints

Distinctive Image Features from Scale-Invariant Keypoints(SIFT).pdf

Distinctive Image Features from Scale-Invariant Keypoints 译文.pdf

2024年设备创新与市场拓展成果.pptx

会员权益专享

最新资源