无监督学习排名用于兴趣点检测

105 浏览量更新于2023-10-16 收藏 3.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1822Quad-networks：无监督学习排名用于兴趣点检测Nikolay Savinov1，Akihito Seki2，1苏黎世联邦理工学院计算机科学系，2东芝公司，3微软{nikolay.savinov，ladickyl，sattlert，marc.pollefeys}@inf.ethz.ch，akihito. toshiba.co.jp摘要一些机器学习任务需要仅使用一组稀疏的兴趣点来表示数据。一个理想的检测器是能够找到相应的兴趣点，即使数据经历了一个典型的给定域的转换由于该任务在计算机视觉中具有很高的实际意义在本文中，我们提出了一个基本问题：我们能从零开始学习这种探测器吗？由于通常不清楚哪些点是“有趣的”，因此无法使用人为标签来找到真正无偏见的解决方案。因此，这项任务需要一个无监督的制定。我们是第一个提出这种提法的国家：训练神经网络以变换不变的方式对点进行排序。然后从该排名的顶部/底部分位数中提取兴趣点。我们验证了我们的方法上的两个任务：标准的RGB图像兴趣点检测和具有挑战性的跨模态RGB和深度图像之间的兴趣点检测我们定量地表明，我们的无监督方法的性能更好或与基线相当。1. 介绍机器学习任务通常分为两组：监督（当数据的标签由人类注释者提供时）和无监督（没有数据标记）。最近，有数百万个示例的更多标记数据已经可用（例如，Imagenet [30]，Microsoft COCO [17]），这导致了监督学习研究的重大进展这一进展部分是由于出现了方便的标签系统，如亚马逊土耳其机械。不过，人体标记过程是昂贵的，并没有很好的规模。此外，它通常需要大量的工作来解释人类注释者如何标记数据。学习兴趣点检测器是一项标记模糊性走向极端的任务。例如，在图像中，我们感兴趣的是一组稀疏的图像位置，即使图像经历了显著的视点或照明变化，这些位置也这些点可以进一步匹配相关图像中的对应关系，并用于估计场景或摄像机位置的稀疏3D结构。虽然我们对兴趣点应该具有什么性质有一些直觉，但还不清楚如何设计满足它们的最佳检测器。因此，如果我们把这个任务交给人类评估员，他可能会选择任何吸引他眼球的东西（可能是角落或斑点），但这可能是不可重复的。在某些情况下，人类没有直觉什么点可能是“有趣的”。让第一步可以是两种不同模式的兴趣点检测：RGB和深度图，表示3D模型。目标是在两者中检测到相同的点。设计这样的检测器特别具有挑战性，因为深度图看起来与自然图像非常这意味着简单的逻辑学将失败：RGB中最强的角/斑点可能来自深度图中缺少的纹理。针对不依赖于人的判断的特点，提出了一种基于无监督学习的兴趣点检测方法据我们所知，这项任务的无监督学习尚未在实际工作中探索。一些早期的作品手工制作的探测器，如狗[18]。最近的工作使用监督学习从手工制作的检测器中选择一个“好”的检测子集例如，LIFT [38]旨在提取在稀疏3D重建的后期阶段中正确匹配的DoG检测然而，在复杂的情况下，如交叉模态，依赖现有的检测器不是一种选择。相比之下，我们的方法从头开始学习解决方案。我们方法的思想是训练一个神经网络，将对象点映射到单个实值响应，然后根据该响应对点进行排名。该排名被优化为在期望的变换类下可重复：如果一个点在排名中比另一个点高，那么经过转换后，它仍然应该更高。因此，响应的上/下分位数是可重复的，可用作兴趣点。这个想法在图中说明。1.一、1823D在检测兴趣点时，通常不仅需要输出点在图像中的位置，还需要输出一些附加参数，如缩放或旋转。这些参数的检测值受到应用于图像的变换的影响。所有变换都可以根据它们对检测器输出的预期影响分为两组。检测器应该给出相同结果的变换称为不变变换。应该将检测器的结果与变换一起变换的变换-因此它们的参数必须被估计为潜在变量-被称为协变[22]。当使用我们的方法学习检测器时，我们可以选择协变和不变变换，因为它适合我们的目标。该选择作为训练数据的选择来实现，并且不影响公式。本文的结构如下。第二节讨论了相关的工作。在第3节中，我们介绍了我们的公式的检测问题的无监督学习排名问题，并展示了如何优化它。在第4节中，我们演示了如何将我们的方法应用于图像中的兴趣点检测。最后，在第5节中，我们通过实验验证了我们的方法，并在第6节中总结了论文并列出了未来工作的可能性。2. 相关工作目前，无监督学习包括许多方向：学习最好地解释数据的分布（通过EM算法学习的高斯混合模型[20]，受限玻尔兹曼机[10]，生成对抗网[7]），聚类，降维和无监督分割（kMeans [9]，LLE [29]，Isomap [32]，PCA [12]，归一化切割[31]，t-SNE [34]），学习模拟任务求解器（当求解器提供解决方案并且自动生成任务时[14]，[16]），以及学习适合在其他任务中进一步使用的数据表示（自动编码器[11]，深度卷积对抗网络[28]，通过上下文预测学习[6]，从视频中的跟踪学习[36]，度量学习[37]，学习[38]）。通过预测修复[26]，我们的方法的一个特定应用是图像中的兴趣大多数现有的图像兴趣点检测器都是手工制作的，以选择特定的视觉元素，如斑点，角落或边缘。这些包括DoG检测器[18]，Harris角检测器[8]及其仿射协变版本[21]，FAST角检测器[33]和MSER检测器[19]。最近，也出现了基于手工制作的解决方案进行监督学习的方法：LIFT [38]旨在提取DoG检测的SfM幸存子集，TILDE [35]使用DoG收集训练集，[15]仅在LoG滤波器给出大绝对值响应的情况下对训练点进行采样。基于手工制作的检测器的构建将这些监督方法限制在其基本方法检测的子集上-这使得这些方法在还没有好的检测器相反，我们的无监督方法通过优化可重复的排名来完全从头开始学习检测器。最后，图像兴趣点检测中的一个特别具有挑战性的情况是交叉模态：感兴趣点应该在不同的图像模型中是可重复的。一些作品提到了这个复杂的问题（[27]，[2]，[13]，[23]），但没有提出一个通用的解决方案。相反，我们的方法是通用的，因为相同的学习过程可以应用于不同的任务：我们示出了它对RGB/RGB和RGB/深度模态对起作用。3. 通过排名在这一节中我们介绍学习的问题兴趣点检测器作为学习点排序的问题。我们认为利息点来自某个响应函数的上/下分位数。如果这些分位数在某些变换类下被保留，我们就有了一个好的检测器：它会重新检测相同的点。对于要保留的排名的分位数，我们搜索对这些变换不变的排名让我们考虑一个对象集合D，每个对象d∈D是点（p1，. . .，p Nd）。D d通过解决拼图游戏来学习[25]。虽然有些任务实际上有非人类标签（例如，在求解器模拟中，我们可以通过运行求解器来获得解决方案），但其他任务（例如，表征学习）根本没有。相反，他们试图找到一个足够困难的辅助任务，以便学习对已经存在的任务（例如分类）有用的表示。设计这样的任务是不平凡的，因此只有少数成功的方法存在（例如，[6]）。另一方面，我们的方法不需要设计一个无关的辅助任务。如果我们可以获得一个可重复的排名，那么这个排名的顶部/底部分位数可以用作检测。每个点pi来自一个点集P。每个对象d都可以经历从集合T：D<$→D的变换。每个变换t∈T保持一定的点对应：对象t（d）中的某些点将对应于对象d中的点。我们假设一个点最多只能有一个核-另一个物体的反应为了简化符号，我们假设对应关系在对象d中在变换前后具有相同的索引我们将对应点索引的集合表示为C dt={i，1，. . . ，i Kdt}，其中K dt是d中的点的对应的数量和t（d）。我们希望对对象点进行排名，并使用单个实值响应函数H（p）表示此排名|w），其中1824ddt（d）t（d）DDt（d）图1. 左图：图像经历透视变换。右：我们学习的响应函数，可视化为热图，产生在变换下合理不变的图像位置的排名。由于所得排名在很大程度上是可重复的，因此响应函数的顶部/底部分位数也是可重复的（兴趣点的示例由箭头显示p∈P是一个点，w∈Rn是一个参数向量（H的一个可能选择是神经网络）。因此，变换t∈T下的排序的不变性可以表述为：其中R（R）是惩罚非正值的函数。一个天真的解决方案是使用“排名错误的计数”损失如下：对于每个四边形e（pi，pj，pi，pj）令人满意。DDt（d）i，j∈Cdt，i j，它成立，t（d）R=1、如果R≤0，0，否则，请执行以下操作。（五）1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000|w）>H（p）|w）&H（pi|w)>H(pj|w)d或t（d）t（d）不幸的是，这种损失很难优化，因为它要么没有梯度，要么梯度为零。相反，我们上-H（pi|w） 0.（三）变集与对应集是一个接一个的观察相同3D的图像之间的对应关系为了优先考虑这种不变性，我们将作为-将对象集D和变换集T设为有限（为了训练），并最小化目标：现场兴趣点检测器通常以两种方式确保稀疏性：通过保留ΣΣL（w）=Σ R（pi，pj，pi，pj|w)) , (4)响应函数（对比度滤波），并通过保留响应函数的局部极值（非最大值d∈D t ∈T i，j∈CdtDDt（d）t（d）抑制）。观察结果1表明，得双曲余切值.得双曲余切值.1826d dt（d）在对比度滤波下的检测中，根据以下公式观察2. 如果H满足排序约束（1），并且对应关系（pd，p t（d））的邻域在图像d和t（d）中都可见，则p d是图像d中的局部极值，p t（d）是图像t（d）中的局部极值。很容易看出为什么这个观察是正确的：如果该位置的排名高于/低于一个图像中的所有相邻者，则对应位置的排名应当高于/低于另一图像中的对应相邻者。因此，所提出的目标是有益的检测器管道，其中包括非最大值抑制和对比度滤波。该管道之后是许多检测器，包括流行的DoG检测器[18]。在下面的部分中，我们将解释如何用我们的目标训练图像4.1. 培训我们需要从图像集D和变换集T两者中进行采样，以利用目标（7）进行训练。当然，我们可以从任何可用的图像数据集中获取图像和转换。但这并没有解决两个重要问题：• 如何精确地实现我们想要的变换的不变性？例如，大多数真实图像都是垂直拍摄的，因此在图像之间没有相对旋转。任何一对。但是我们希望我们的检测器对存在这种旋转的情况具有• 如何增强训练图像？例如，训练图像中的所有对象可能都被很好地照亮。但在测试图像中，有些人在阴影中，有些人在光明中。我们可能希望对这种情况保持稳健。在本章中，我们将展示如何通过随机变换训练四元组最后，还有一些不变量/增广变换非朗伯效应（Non-Lambertian Effect）。在这种情况下，我们完全依赖它们的分布，来自真实数据。5. 实验我们的目标函数（7）基于成对的对应关系，形成训练四元组（这种四元组的示例如图所示）。2）的情况。为了训练检测器，我们需要获得这些对应关系。我们研究了学习• 一个RGB探测器，来自地面实况对应（它们来自将激光扫描的3D点投影到图像上），• 完全无监督的RGB检测器（通过随机扭曲图像和改变照明来获得对应关系），• 交叉模态RGB/深度检测器（对应关系是作为视图对齐的Kinect RGBD帧中的重合位置而平凡地获得的）。我们进一步描述了这些实验的设置。探测器类。我们集中讨论最常用的探测器类型：尺度空间协变的、旋转不变的（尽管我们的方法适合于检测器协变/不变性的任何组合）。例如，DoG就属于这种类型。这些检测器认为感兴趣点p由图像位置x、y和尺度s表征。使用响应函数在3H（p|w）= H（x，y，s|w）。（九）因此，非最大抑制和对比度过滤也在该3维空间中起作用（具有3×3×3邻域）。由于旋转是不估计的，所以要求检测器对它是不变的。不变性通过随机抽样实现（见第4.1节）。探测器评估。DoG是目前使用最广泛的检测器，因此我们将其用作评估的基线Q=（pk，pm，pkmt（d））的情况。（八）整个探测器是一个多级管道，我们的目标是替换其中的一个关键部分：用于卷积的滤波器为了实现变换类Ti的不变性，我们可以对两个随机变换ti1∈Ti，ti2∈Ti 进行采样，并将四重变换（ti1，ti1，ti2，ti2）逐个元素地应用于训练四重变换Q。这表达我们的偏好，以保持排名，即使从Ti的随机变换应用于图像。为了用一个变换类Ta来扩充数据，我们可以对两个随机变换ta1∈Ta，ta2∈Ta 进行采样，并将（ta1，ta2，ta1，ta2）应用于Q。这意味着我们对相应的两个补丁应用相同的转换创建更多的训练数据。形象为了做出公平的评估，我们修复了管道的所有其他阶段。整个过程的工作原理如下。首先，我们将响应函数H（p）应用于所有考虑尺度下图像的所有空间位置。这是一个阶段，我们的目标是取代一个学习函数（标准管道中的DoG过滤器）。其次，我们在尺度空间中进行非最大值抑制。第三，我们基于潜在兴趣点周围响应函数的二阶泰勒展开进行精确定位[18]。最后，我们只取响应的绝对值大于阈值的点。得双曲余切值.18273图2. 四重网络前向传递训练四重。图块（1，3）和（2，4）是两个不同图像之间的对应对，因此1，2来自第一图像，3，4来自第二图像。所有的补丁提取与随机旋转。对于定量评价，我们使用[22]中描述的重复性测量（重叠阈值参数等于40%）。重复性是在一对图像中正确检测到的点的数量与具有最低检测数量的图像中检测到的点的数量之间的比率。只有比较产生相同数量的兴趣点的方法才有意义：否则某些方法可能报告太多的点并且不公平地优于其他方法（例如，如果我们把所有的点都看作是“有趣的”，重复性将非常高）。因此，我们考虑一系列顶部/底部分位数，产生所需的点数，并比较这些固定数字的所有方法。响应函数。在所有实验中，响应函数H（p|w）是一个神经网络。我们将其描述为一个层元组，并使用以下符号：• c（f，i，o，p）对于具有滤波器大小f×f的卷积层，取i个输入通道，输出o个通道，在每个边界上使用p个像素的零填充（在所有实验中步幅总是1• f（i，o）对于全连接层，取i个特征并输出o个特征，• e对于ELU非线性函数[4]，• b对于批归一化层，• （·）n用于应用相同的网络工作n次。在所有实验中，响应函数被应用于灰度17x17块。如果训练数据是彩色的，我们将其转换为灰度。补丁被预处理，因为这是神经网络的典型特征：减去整个片上的平均值，然后除以片上的标准差。增强。我们用从[0，2π]开始的随机旋转和从[1，3]开始的随机尺度变化来增加训练数据（见第4.1节）。优化细节。为了优化目标（7），我们使用Adadelta算法[39]，这是梯度自动选择每个参数的梯度步长的下降。我们使用Torch7框架在GPU（Nvidia Titan X）上实现了模型和优化[5]。批量大小为256，我们的模型训练了2000个epoch，每个epoch包括随机采样一对对应的图像，然后从这对图像中随机采样10000个四元组。最终，当训练停止时，我们的模型已经看到了2000万个采样的四元组。5.1. RGB检测器从地面真实对应在这个实验中，我们展示了如何使用现有的3D数据来建立训练检测器的对应关系。训练我们使用DTU机器人图像数据集[1]。它具有来自激光扫描仪的3D点和相机姿态，其允许将3D点投影到图像对中并提取以投影为中心的图像块。这些投影形成用于训练的对应对。试验. 我们使用了牛津VGG数据集[22]，通常用于此类评估。该数据集由40个图像对组成。NN架构。在这个实验中，我们测试了两个NN架构：线性模型（c（17，1，1，0））和具有一个隐藏层的非线性NN（c（17，1，32，0），e，f（32，1））。结果我们证明了我们学习的线性模型的过滤器与图中基线的过滤器不同。3 .第三章。此外，我们在图中显示了与DoG相比的线性模型的检测。4.第一章我们学习的模型检测到的点与DoG不同：它们在图像中分布更均匀这对于估计相机帧之间的几何变换通常是有利的在大多数情况下，两种研究架构（线性、非线性）的学习响应函数表现出比基线更好的性能，如表1所示（结果是每种变换类型的所有图像对的平均值）。此外，在大多数情况下，非线性模型的性能优于线性模型。最后，我们将我们的检测器与SIFT描述器相结合，并测量检测点的检测效果如何1828Smatched. 为此，我们使用相同的匹配分数，在[22]中，即，正确匹配与所有匹配的比率。我们的检测器（线性，非线性） +SIFT 在大多数情况下略优于DoG+SIFT，如图所示。五、我们的方法只在UBC数据集上表现得比DoG差，这是为了测量对JPEG压缩的鲁棒性，而JPEG压缩没有包括在我们的训练中。墙（视点）鲁汶（照明）树木（模糊）UBC（JPEG）图5. DoG和我们的方法（线性，非线性）在[22]的基准上的匹配得分（越高，越好）。5.2. 完全无监督RGB检测器这个实验的目的是表明，来自额外数据源（如来自激光扫描仪的3D点）的地面实况对应对于用我们的方法训练检测器是不必要的。相反，我们可以对随机变换进行采样以获得对应性。训练在这个实验中，我们只使用来自DTU数据集的具有不同照明的图像。为了生成对应关系，从以下随机选择一个补丁：一个图像并随机变换。我们考虑了仿射扭曲，保留区域，以及照明变化，从数据集提供的那些均匀采样仿射翘曲被参数化为rot（α）diag（s，1）diagrot（−α））乘以旋转α（从[0，2π]均匀采样）和比例因子s。我们考虑了两种设置：小从[1，1. 1）和大扭曲（s从[1，2]均匀采样）。试验. 我们使用牛津VGG数据集[22]（与之前的实验相同）。NN架构。我们考虑了线性模型。结果如表2所示，我们的方法在超过一半的情况下优于DoG。5.3. 交叉模式RGB/深度探测器在这个实验中，我们展示了如何使用我们的方法来学习交叉模态检测器-一个很难的问题，表1.随机滤波器、DoG以及我们的线性（Lin-ear）和非线性（Non-lin）方法的重复性由于在非最大抑制之后没有足够的点，最左边的一列是transformation类，我们使用了缩写：VP表示视点，Z+R表示缩放+旋转，L表示照明。兴趣点不数据方法300600120024003000VP格拉夫随机0.060.080.120.170.19狗0.210.20.18--线性0.170.180.190.210.22非直线0.170.190.210.240.25壁随机0.180.220.270.330.36狗0.270.280.28--线性0.330.360.390.430.44非直线0.30.350.390.440.46Z+R树皮随机0.020.030.050.080.1狗0.130.13---线性0.140.150.150.15-非直线0.120.130.140.160.16船随机0.030.050.080.110.12狗0.260.250.2--线性0.270.270.270.260.25非直线0.210.240.280.280.29L鲁汶随机0.510.570.630.690.71狗0.510.510.5--线性0.690.690.730.730.72非直线0.70.720.750.760.77模糊自行车随机0.360.420.480.530.54狗0.410.410.39--线性0.530.530.490.550.57非直线0.520.510.510.490.49树木随机0.210.260.320.40.43狗0.290.30.31--线性0.340.370.420.450.5非直线0.360.390.440.490.5JPEGUBC随机0.420.470.530.590.61狗0.680.6---线性0.550.620.660.670.68非直线0.580.620.640.690.7我们不知道如何手工设计一个好的解决方案。我们通过在NYUv2数据集上训练来学习RGB和深度图像之间的检测器[24]。这样的检测器在用来自新获得的图像的颜色增强未着色的3D点云中具有应用。训练我们使用来自NYUv2的40个随机帧，其中包含视图对齐的Kinect RGBD帧（RGB像素对应于同一位置的深度像素）。试验. 我们使用来自NYUv2的40个随机帧（与训练集无关）。NN架构。我们评估了响应函数H的以下架构：• 深度卷积网络（Deep Conv Net）：（c（7，1，32，3），b，e，（c（7，32，32，3），b，e）8，c（17，32，1，0）），1829随机狗我们的线性图3. 线性模型的过滤器。DoG滤波器参数默认为标准实现[3]。狗左狗右我们左我们右图4. 正确（可重复）检测。按以下顺序将数据集对应为：graf1-2，wall1-2，bikes1-2，ubc1-2.• 浅全连接网络（Shallow FC Net）：（c（17，1，32，0），e，f（32，32），e，f（32，1）），• 深度全连接网络（Deep FC Net）：（c（17，1，32，0），e，（f（32，32），e）8，f（32，1））.结果最佳模型（深度卷积网络）的可重复性和过滤器如图所示。6和图7中所示。我们的最佳模型以较大的相对值优于其他模型。如重复性图所示，DoG产生的兴趣点数量相对较少。这是因为我们从两个传感器中提取了相同数量的点-为了公平比较，如本节开头所述-而DoG在深度通道中产生的点很少（在非最大抑制之后），深度通道非常平滑且缺乏纹理。相反，我们的方法在训练过程中学习“扩散”图像块时会产生更多的点，使响应分布更加峰值化。我们将我们最好的模型的检测结果与图1中的DoG进行了比较。8.图6. 我们的深度卷积模型（Deep Conv Net）比基线产生了更好的可重复性。1830DoG image DoG depth our image our depth图8. 正确（可重复）检测。这些帧对应于来自NYUv2的帧17、529、717、1257。表2. DoG的可重复性，我们的方法通过大（WarpL）和小（WarpS）扭曲学习。兴趣点图7. 从我们的深度卷积模型（Deep Conv Net）的第一层的一些7x7滤波器中，可以看到边缘滤波器，斑点滤波器和高频滤波器。6. 结论在这项工作中，我们提出了一种无监督的方法来学习兴趣点检测器。该方法的核心思想是产生一个可重复的排名点的对象，并使用排名的顶部/底部分位数作为兴趣点。我们已经演示了如何学习这样的图像检测器。我们在两种不同的设置中显示了我们的方法相对于DoG的优越性或可比性：从头开始学习标准RGB检测器，并学习检测器，可在不同模式之间重复（来自Kinect的RGB和深度）。未来的工作包括学习描述符与我们的检测器。此外，人们可以研究将我们的方法应用于图像之外的检测（例如，用于视频中的感兴趣帧检测）。鸣谢：这项工作部分由瑞士NSF项目163910、MaxPlanck CLS Fel-fellowship和瑞士CTI项目17136.1 PFES-ES资助。不数据方法300600120024003000VP格拉夫狗0.210.20.18--WarpL0.150.150.170.180.19经纱0.140.170.180.190.2壁狗0.270.280.28--WarpL0.350.370.390.420.42经纱0.270.320.360.410.42Z+R树皮狗0.130.13---WarpL0.090.090.09--经纱0.110.120.130.14-船狗0.260.250.2--WarpL0.160.180.180.190.19经纱0.20.210.220.220.23L鲁汶狗0.510.510.5--WarpL0.660.640.650.670.67经纱0.690.670.680.710.71模糊自行车狗0.410.410.39--WarpL0.490.460.420.52-经纱0.550.540.520.570.6树木狗0.290.30.31--WarpL0.310.350.380.430.47经纱0.330.370.410.440.49JPEGUBC狗0.680.6---WarpL0.540.590.610.610.62经纱0.540.60.650.670.671831引用[1] H. Aanæs，A. L. Dahl和K.斯丁斯特鲁普·佩德森很有趣的地方。IJCV，97：18-35，2012。5[2] C. Aguilera，F. Barrera，F. Lebrurras，A. D. 萨帕，还有R.位于托莱多多光谱图像特征点。传感器，12（9）：12661-12672，2012。2[3] G.布拉德斯基OpenCV库。Dobb博士7[4] D.- A. Clevert，T. Unterthiner和S. Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习。arXiv预印本arXiv：1511.07289，2015。5[5] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。5[6] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在ICCV，第1422-1430页，2015中。2[7] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。2[8] C. Harris和M.斯蒂芬斯一种组合的角点和边缘检测器。1988年，Alvey Vision Conference。2[9] J. A. Hartigan和M. A.黄。算法136：一种k-均值聚类算法。皇家统计学会杂志。 Series C （ AppliedStatistics），28（1）：100-108，1979年。2[10] G. E.辛顿通过最小化对比差异来训练专家的产品。Neural Computation，14（8）：1771 2[11] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 2[12] I.乔利夫主成分分析Wiley Online Li-2002. 2[13] A. Kelman，M. Sofka，和C.斯图尔特。关键点描述符用于匹配多种图像模态和非线性强度变化。2007年IEEE计算机视觉与模式识别会议，第1IEEE，2007年。2[14] L. Ladicky，S. 郑湾，智-地 Soldier，M. 波勒菲，还有M. 恶心使用回归森林的数据驱动流体模拟。ACMTOG，34（6）：199，2015。2[15] K. Lenc和A.维达尔迪学习协变特征检测器。arXiv预印本arXiv：1605.01224，2016。2[16] A. Lerer，S. Gross和R。费格斯。通过实例学习积木塔的物理直观。arXiv预印本arXiv：1603.01312，2016。2[17] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra- manan，P. Dollár和C. L.齐特尼克微软coco：上下文中的公用对象。在ECCV。2014. 1[18] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，60（2）：91-110，2004. 一、二、四[19] J. Matas，O. Chum，M. Urban和T.帕杰拉鲁棒的宽基线立体声从最大稳定的极值区域。图像与视觉计算，22（10）：761-767，2004. 2[20] G. McLachlan和D.剥皮有限混合模型John Wiley Sons，2004年。2[21] K. Mikolajczyk和C.施密特尺度仿射不变兴趣点检测器。IJCV，60（1）：63-86，2004. 2[22] K. Mikolajczyk、T.图伊特拉尔斯角Schmid，A. 齐瑟曼J. Matas，F. Schaffalitzky，T. Kadir和L.范古尔仿射区域检测器的比较。IJCV，65（1-2）：43二三五六[23] D. Mishkin，J. Matas，M. Perdoch和K.伦克Wxbs：宽基线立体概括。arXiv预印本arXiv：1504.06603，2015。2[24] P. K. Nathan Silberman、Derek Hoiem和R.费格斯。室内分割和支持从rgbd图像推断。ECCV，2012年。6[25] M. Noroozi和P.法瓦罗通过解决拼图游戏进行视觉表示的无监督学习。arXiv预印本arXiv：1603.09246，2016年。2[26] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。arXiv预印本arXiv：1604.07379，2016年。2[27] T. Plotz和S.罗斯使用平均阴影梯度将图像配准到无纹理几何。在IEEE国际计算机视觉会议（ICCV）上，2015年12月一、二[28] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。2[29] S. T. Roweis和L.K. 索尔局部线性嵌入的非线性降维Science，290（5500）：2323 2[30] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 1[31] Shi和J.马利克标准化切割和图像分割。PAMI，22（8）：888-905，2000. 2[32] J. B.特南鲍姆河谷De Silva和J. C.兰福德非线性降维的全局几何框架。Science，290（5500）：2319-2323，2000. 2[33] M. Trajkovic 和 M.海德利快速角点检测。 Image andVision Computing，16（2）：75-87，1998。2[34] L. Van der Maaten 和 G. E.辛顿使用 t-sne可视化数据JMLR，9（2579-2605）：85，2008. 2[35] Y. Verdie，K. M. Yi，P.Fua，and V.莱珀蒂Tilde：一种时间不变的学习检测器。在IEEE计算机视觉和模式识别会议（CVPR）中，第5279IEEE，2015年。2[36] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习在ICCV，2015年。2[37] P. Wohlhart和V.莱珀蒂用于物体识别和3d姿态估计的学习描述符。CVPR，2015。2[38] K. M. Yi，E. Trulls、V. Lepetit和P.呸提升：学习了不变特征变换.arXiv预印本arXiv：1603.09114，2016。一、二[39] M. D.泽勒 Adadelta：一种自适应学习率方法。arXiv预印本arXiv：1212.5701，2012。5

下载后可阅读完整内容，剩余1页未读，立即下载