可重构图像变换方法的研究及性能改进

172 浏览量更新于2023-10-12 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1可微图像变换姜伟1孙伟伟1Andrea Tagliasacchi1，2 Eduard Trulls2 Kwang Moo Yi11维多利亚大学视觉计算组2谷歌研究{jiangwei，weiweisun，kyi}@ uvic.ca，{taglia，trulls}@ google.com图1：图像对齐示例-我们迭代地找到图像变换参数，当使用不同的采样策略应用于源图像时，这些参数会产生下采样的目标图像。当使用双线性采样和所提出的线性化采样时，我们在收敛时可视化变换后的源图像。我们进一步显示了每种方法的优化路径所提出的线性化采样提供了改进的梯度，从而导致更好的收敛。摘要我们提出了一种新的图像采样方法，用于深度神经网络中的可重构图像变换。目前在深度学习中使用的采样方案，如空间Transformer网络，依赖于双线性插值，在严重的尺度变化下表现不佳，更重要的是，导致梯度传播不佳这是由于他们对直接邻居的严格依赖。相反，我们建议在采样图像中的每个像素附近生成随机辅助样本，并使用它们的强度值创建线性近似。然后，我们使用这个近似作为一个可微公式的变换图像。我们证明，我们的方法产生了更多的代表性梯度与更广泛的流域收敛图像对齐，这导致相当大的性能改进时，训练网络的分类任务。这不仅在大的下采样下是正确的，而且在没有尺度变化时也是如此。我们比较我们的方法与多尺度采样，并表明我们的表现。然后，我们证明，我们的改进的采样器是兼容的其他切向改进的空间Transformer网络，它进一步提高了它们的性能。11代码和模型可从https://github.com/ vcg-uvic/linearized_multisampling_release获得。1. 介绍[17] 的开创性工作引入了空间变换器网络（STN），这是一种允许通过深度网络对图像数据进行空间操作的可微分组件。从那时起，以图像转换操作的形式在深层体系结构中包括atten- tion机制已经变得司空见惯。STNs已被应用于对象检测[10]，分割[15，24]，密集图像字幕[19]，图像分类的局部对应[1]，局部特征[38，28，27]，并作为局部硬注意力的工具[21]。无论应用和架构，所有这些方法都依赖于双线性插值。双线性插值的一个主要缺点是它是非常局部的-它只考虑查询的四个最近的由于这种采样不考虑所应用的变换的幅度，因此当尺度变化严重时，依赖于它的网络的性能会下降，例如图1所示1.一、可微采样器的这一缺点在原始论文[17]中已经有所暗示，但从未得到充分研究。请注意，这在实践中是一个问题，因为利用注意力机制的应用程序通常会将图像转换为远低于原始分辨率的分辨率[37，28，15]。此外，STNs通常用作分类的预对准网络[17，23]。双线性采样器无法处理大的下采样，导致分类网络的容量要求增加29882989工作-将需要这种额外的能力来学习对转换的入侵，而转换不能捕获。我们表明，这确实是这样的情况下，通过证明，一个更好的分类精度可以实现与相同的网络，取代我们的采样操作。已经提出了几种方法来提高采用双线性采样的网络的稳定性和鲁棒性例如，Linet al. [23]介绍了逆组合空间Transformer网络（ICSTN），它将变换分解为更小的变换。Jia等人[18]建议扭曲特征而不是图像。Shu等人[32]提出了一种结合流场的分层策略。然而，所有这些方法在计算单个像素的值时仍然严重依赖于局部化的双线性插值。相反，我们从著名的Lucas-Kanade（LK）光流算法[26，2]中获得灵感，并通过随机采样查询的邻域来构建合适的一阶近似来线性化插值过程。这些辅助样本在变换图像域中产生，使得它们的空间位置考虑应用于图像的变换。换句话说，所得到的梯度是变换感知的，并且能够捕捉图像如何根据变换而变化。然而，该过程可能导致样本位置塌陷，因为变换可能将它们全部扭曲到单个像素为了克服这个问题，我们提出了一个有效的解决方案，扰动后，扭曲的辅助样本。这两个阶段的战略，使我们的方法来处理任何类型的仿射变换。我们的实验表明，这允许更广泛的盆地的收敛图像对齐，这有助于底层的优化任务。最重要的是，任何具有嵌入式注意机制的网络，即.在任何需要可微图像变换的地方，用我们的方法代替标准的双线性插值时，都能得到更好的结果。我们通过将我们的采样方法添加到ICSTN [23]来证明这一点，并且表明即使没有下采样，我们不仅能够将其错误率降低14.6%（相对），而且我们还有效地消除了4x下采样对分类器性能的有害影响（1x处的错误为4。85%，4x时为4.第一章86%）。这意味着我们可以使用分类网-比原作小11倍的作品，没有任何性能损失2. 相关工作在文献中有大量关于估计空间变换的工作，其中关键应用于图像配准问题，可以追溯到Lucas和Kanade的开创性工作[26]。在这里，我们回顾以前的在图像对齐和采样技术方面的努力，特别是关于它们在深度学习中的使用。线性化Lucas Kanade（LK）算法[26]使用线性回归预测变换参数。它通过一阶泰勒近似在数学上线性化像素强度和像素位置以此方式，可通过在个别像素取样期间强制执行线性关系来增强取样这种方法已被证明在许多应用中非常成功，如光流估计[3]。线性化也被广泛用于提高图像滤波中像素值的一致性[16]。多功能。多重采样是提高采样策略可靠性的常用方法。例如，可以在将其馈送到分类器之前对多个附近的像素进行采样，从而联合平滑来自像素及其邻居的分数[40，9]。非局部均值[5]计算可以通过马尔可夫链蒙特卡罗（MCMC）采样[8]来加速。采样也可以用于计算大尺度下的有限差分，以产生对噪声和不连续性不太敏感的梯度估计[34]。在深度学习的背景下。计算机视觉深度学习的早期努力受到无法操纵输入数据的限制，这是实现空间不变性的关键要求。 Jaderberg 等人提出了用空间Transformer网络[17]来解决这个缺点，其引入了可微变换的概念来主动操纵输入图像或特征图。这有效地实现了以端到端的方式学习硬注意力机制。为了实现这一点，他们引入了一种可微分的采样操作，使得在随后的任务中传播关于预测变换参数的损失成为可能STNs广泛用于对图像块进行操作的应用程序[36，32，39，4]。现代方法，如Wanget al.[35]，通过网内变换改进块采样Qi等人引入了PointNet [30]，这是一种用于3D点云分割的深度网络，它依赖于学习将数据转换为规范形式，然后再将其提供给网络。尽管如此，该论文仅报告了使用该方法后的边际性能改进，这表明在这一领域有进一步研究的潜力。有几种方法使用双线性采样，而不显式学习变换。LIFT [37]和LF-Net [28]依赖于卷积来扭曲图像块并以端到端的方式学习局部特征，其中变换参数由专门定制的网络（例如，关键点检测）。AffNet [27]应用类似的策略来学习仿射协变区域。 [11] 使用 PolarTransformer Networks [12]通过将输入补丁转换到对数极坐标空间来构建尺度不变描述符。2990∈∈我nates作为xR2，在此坐标下的图象强度为I（x）RC，其中C是图象，用参数θ作坐标变换为Tθ（x），则在x处估计的变换图象的灰度I为XI（xX图2：双线性采样以根据给定的变换在左图像中找到精确的对应点。如中心像素所示，通过双线性插值通过最近的邻居来计算注意，即使当右侧的像素落入更远的区域中时，也将始终从它们的直接相邻像素执行插值。其中K（·，·）是定义每个像素的影响的k内核。注意，图像索引操作I（Tθ（x））是不可微的，因为它是一个选择操作，并且梯度通过网络传播的方式取决于内核。理论上，该内核可以利用整个图像，从而使所有像素的梯度值为UE影响优化。然而，这将需要针对变换图像中的每个像素反向传播通过原始图像中的每个像素，这是非常昂贵的。在双线性插值的情况下，设置内核，使得当x和y不是直接相邻时K（x，y）= 0。因此，梯度仅流过我们将称为子像素梯度的梯度，即，国际双线性采样也被用在上下文中图像上采样，深度估计和分割[14，7，15，25，31]。例如，在Mask R-CNN [15]中，感兴趣区域对齐层主要依赖于双线性采样/插值。这些方法也可能受益于增强的采样。电流限制的空间变压器.尽管它的普及，在本文中，我们展示了如何利用的双线性采样器的框架是固有的不可靠，缺乏鲁棒性。最近已经提出了几种变体，以应对这些缺点。Jia等人[18]展示了如何利用在整个网络层中对双线性插值不敏感的特征映射变形中发现的模式，从而提高插值的准确性。Chang等[6]用Lucas-Kanade层训练了一个深度网络，以执行从粗到精的图像对齐。[23]中提出的逆合成网络在前向传递中传递变换参数而不是变换图像，以便减轻双线性采样中的误差最近，提出了一种通过合并U-Net [31]来处理多个级别的转换的网络策略[32]，提供了更丰富的转换线索。然而，所有这些仍然依赖于双线性采样来变换图像。3. 插值微分现在我们简要回顾一下双线性插值[17];见图2。使用插值形式（典型地为双线性插值）来实现可微分图像变换的主要原因是变换需要索引操作，而索引操作本身是不可微分的。更具体地，表示图像坐标-原始图像中相邻像素之间的sity差异形象这可能是相当有害的下显着downsampling。子像素梯度将不对应于当变换参数改变时发生的大尺度改变，因为这些不能被点的直接邻域捕获。换句话说，需要以对这些变形不变的方式来选择来自核K的具有非零梯度的强度值，并且仔细地使得其反映图像在变形下将如何实际改变。我们现在将介绍一种新的策略来克服这个问题。4. 线性化多重采样图3说明了我们的方法，一步一步。给定像素位置，我们应用高斯噪声来生成K个附近的辅助样本位置。然后，我们在这些位置进行双线性采样。在采样之后，我们使用这些点的强度和它们的坐标在样本位置执行最后，这些线性近似被用作变换图像中每个像素的可微这为局部变换提供了更大的上下文，并且增加了下采样下的鲁棒性。形式上，给定变换的参数化-其中，i是该样本的索引，我们将线性近似I（x）写成I（x）=I（Tθ（xi））+A>（Tθ（x）−Tθ（xi）），（2）其中Ai是定义我们寻求找到的线性化的矩阵。为了解释起见，让我们暂时假设我们有Ai。注意这里我们2991我我我我我我我我我我我我我我v~i我我随机样本生成双线性采样线性化图3：线性化多采样然后，我们处理这些强度以创建线性近似，我们将其用作查询像素的强度的可微表示。在变换后的坐标Tθ（xi）处线性化，因此将除Tθ（x）之外的所有参数都视为常数。因此，Ai在Eq.（2）对应于ψI（x）关于x的梯度。为了获得Ai，我们首先在期望的样本点xi附近对多个点进行采样，并找到样本结果的最小二乘拟合具体来说，我们取K个样本xk<$N（xi，σ），<$k∈ {1，2，.，其中，N（μ，σ）表示以µ，标准差为σ，x0=xi。在我们的实验中-我们设置σ来匹配像素的宽度和高度，样本输出。注意，通过使用高斯噪声，我们有效地假设采样时每个像素的高斯点扩散函数。然后我们获得。Aib. y leΣ aΣ st平方拟合。如果. 我们简化了图4：防止样本塌陷为了防止样本崩溃，我们将额外的噪声应用于变换的辅助样本位置（右）。到使用整个图像作为每个像素的邻域-但是计算成本的增加相对于辅助样本的数量是线性的随机选择使我们能够在一个将Tθxk记为T θxk，将Tθxk记为xk，克鲁克吉伊以高效的方式。其中xi=ui，vi，我们形成两个数据矩阵Yi，Xi在哪里Yi= XiAi，⑷5. 防止样品塌陷⇥1 0 20K-1联系我们而Eq。（7）计算简单，我们需要Yi=~Ii−~Ii~Ii−~Ii· ··~Ii−~Ii、（五）特别注意随机样本不会崩溃2u~1−u~0u~2−u~0u~K-1−u~03>变成一个像素。这种情况可能发生在转换-放大到特定区域;参见图4（中间）。Xi=4v~1−v~0v2−v0···K-1−v~05、（6）1 1 1然后用Tikhonov正则化在最小二乘意义下求解A，以获得数值稳定性变换的辅助样本的二维差将由非常小的数字组成，并且从强度差生成的数据矩阵Yi也可以变为Ai = X>Xi+XEΣ-1 X>Y1，（7）零.这导致梯度爆炸。为了避免这些问题，我们在变换后对辅助样本进行扰动其中，E是3 × 3单位矩阵，而λ是小标量。多尺度抽样另一种方法是为了使用具有辅助样本的多尺度对准，参见图4（右）。表示对于pi x el i的第k个辅助样本的修改坐标，其中 u∈k 和 v∈k ，对于 k ∈ {1 ，2，.， K}，然后我们应用uk←uk+N（0，6u），（8我.2992）我我分布在预定义的网格在不同水平的粗-k k奈斯这可以按需扩展vi←vi+N（0，6v），（9）如果发生这种情况，则从coor生成的数据矩阵Xi2993X我图5：数据集图像示例-（左上角）MNIST。（右上）GTSRB。（底部）Pascal VOC 2012。其中6u和6v对应于我们从中采样的图像中6. 结果为了证明我们的方法的有效性，我们首先提出了定量结果的性能STN和ICSTN与不同的采样方法。我们表明，基于线性化的采样的增强梯度导致深度网络性能的显着改善，尤其是然后，我们直观地检查由双线性采样和我们的线性化多采样方法产生的梯度，以证明由我们的方法产生的梯度更鲁棒并且导致更好的收敛。我们进一步表明，这可以通过一个简单的图像对齐任务，用不同的采样方法进行定量确认。最后，我们研究了辅助样本数目的影响和采样噪声大小的影响。数据集。我们的实验包括三个数据集：MNIST [22]、GTSRB [33]和Pascal VOC 2012 [13];参见图5。与MNIST，我们表明，我们的方法优于双线性插值在一个经典的分类数据集。与GTSRB，我们表明，我们的方法也导致更好的性能在更具有挑战性的情况下，分类交通标志图像。最后，我们使用PascalVOC 2012来展示我们的方法的优势在具有更丰富纹理的自然图像上更加突出。基线。除了标准的双线性采样之外，我们还评估了多尺度基线，其中图像在多个尺度下采样，然后进行聚合。这是类似于如何执行利用MIPMAP的多尺度采样为了创建多尺度表示，我们使用具有标准偏差的高斯内核创建三个尺度级别{1，5，10}。我们将这些抽样方法应用于分类[17]和ICESTRA [23]。6.1. 实现细节我们使用PyTorch [29]实现我们的方法，并使用其默认的双线性采样来获取对应于每个随机样本的强度。请注意，该采样过程不通过微分，并且我们仅使用这些强度来计算线性化。为了确保这一点，我们的实现显式地停止了梯度对除Tθ（x）之外的所有变量的反向传播。为防止样本超限，我们简单地屏蔽所有输出i的采样点。原始图像。具体地，对于每个像素i，如果TθK超出边界，我们排除它从方程。（5）和等式（六）、这可以很容易地通过将相应的条目乘以零来实现当所有像素都在边界之外时，Ai变成零矩阵，从而提供零梯度。在整个实验中，我们使用每个像素八个辅助样本（K=8），我们将在6.5节中证实这一选择。6.2. 分类为了证明采样在包含图像变换的网络中起着至关重要的作用我们模拟了一个标准的设置，用于利用注意力机制，通过使用ESTA/ICESTA来产生比输入图像更小的分辨率的变换，然后将其提供给分类器我们在不同的下采样下评估分类器的准确率2994×表1：使用不同采样方法训练的模型的测试误差最佳结果以粗体标记。我们的方法即使在没有下采样时也能提供最佳性能，并且在更高的下采样率下差距会扩大。下采样率1x 2x 4x 8x # classif.网络参数966千246千61千19千基线（不含糖）12.37 12.88 20.85 45.88STN+双线性6.29 6.50 7.95 15.31数字+多尺度6.83 6.70 8.30 15.00中国+我们的6.08 6.48 7.13 10.89ICSTN+双线性5.68 5.00 6.52 9.80多尺度5.40 5.95 6.06 10.19ICSTN+我们的4.85 4.68 4.86 6.10rates. 我们在下面详细介绍了这个实验和结果网络架构和培训设置。为了训练网络，我们将GTSRB的训练集随机分为两组，35309张图像用于训练，3900张用于验证。为了测试，我们使用提供的测试集，它包含12630个图像。我们将所有图像裁剪并调整大小为50×50。为的公司简介模块，表示卷积c通道层为C（c），ReLU激活为R，最大池层为P，我们的网络是：C（4）RC（8）RPC（16）RPC（32）RPC（1024）。所有convo逻辑层使用7 × 7内核。我们将max-pooling应用于最后一个特征图的每个通道以产生大小为1024的一个特征向量。然后，我们应用一个具有48个神经元和ReLU激活的全连接层，然后是另一个映射到转换参数的全连接层对于分类网络，我们使用一个简单的网络，它有一个包含128个神经元和ReLU激活的单个隐藏层我们选择了一个简单的架构，目的是为了防止网络依赖于大型分类网络的增加容量，并学习空间不变性，有效地忽略STN。我们使用ADAM [20]作为优化器，并分别选择10- 5和10- 3作为学习率的学习我们从头开始训练模型，批量大小为64，并将最大迭代次数设置为300k。如果模型在最后80k次迭代中没有显示出验证分裂的改进，我们使用早期停止结果在表1中，我们显示了我们的方法的测试精度相比，双线性采样和多尺度采样，与双线性采样和ICERAND。不出所料，两者的性能随着下采样变得更加严重而降低值得注意的是，图6：经训练的STN模块的示例输出在8x下采样的GTSRB数据集（顶部）上训练的STNs具有双线性采样（中间）和我们的方法（底部）。使用我们的线性化采样方案训练的STN学习放大以获得更好的分类准确性。用我们的采样方法训练的网络对于所有的下采样率都表现此外，使用ICSTN和我们的方法，即使使用4倍下采样也没有明显的性能下降，从而允许分类网络与不使用下采样时相比小11最后，我们在图中示出了测试集中的类的子集的平均变换图像。六、请注意，我们的网络的输出是如何相对于原始输入图像放大的，并且比双耳采样的结果更大这表明，通过我们的线性采样策略，网络可以更有效地学习关注重要区域。6.3. 梯度分析为了理解这种巨大的差异来自哪里，我们展示了我们的方法产生的梯度与双线性采样的梯度的我们比较了当我们人为地裁剪图像的中心区域，将其移动到不同的位置，并要求插值器将其移回原始位置时梯度的流动情况为此，我们使用Pascal VOC数据集的自然具体来说，我们裁剪图像的中心三分之二，用双线性插值以不同的速率对它们进行下采样，并使用此图像作为我们对具有`2损失的图像的指导。图8我们可视化的负梯度流，即。最陡下降的方向，在计算梯度的图像顶部的粗网格上提取。由于目标区域是中心区域，因此梯度应全部指向中心。如图所示，我们的方法提供了更宽的收敛盆地，使梯度始终指向中心，即，与双线性采样相比，从更远的点获得地面实况位置。请注意，虽然这对案件2995−√−(a) 下采样1x（b）下采样4x（c）下采样8x图7：图像对齐实验-我们基于采样区域四个角的平均重投影误差进行阈值设置。我们的方法（实线）即使在高下采样率下也表现良好，而双线性采样（虚线）和多尺度采样（虚线）的性能还请注意，自然图像（橙色）的差距甚至更大。图8：通过我们的方法与双线性采样产生的梯度（否定的）图像对准梯度用箭头可视化，根据它们是否匹配地面实况而从绿色到红色着色（所有箭头应指向中心）。我们的方法显示了更广泛的盆地比双线性采样的收敛。随着下采样率的增加，差异变得更加突出。即使没有下采样，我们也能提供更好的梯度。下采样的8倍，它仍然成立，即使没有下采样（图。8，左）。这在图像的底部周围特别明显，它具有比其他部分更丰富这导致双线性采样提供较差的梯度，而我们的方法对此不敏感。6.4. 优化图像对齐接下来，我们证明了由我们的方法产生的梯度中的这种改进在对齐图像时导致更好的结果，如图1中先前所示。1.一、为了隔离采样器的效果，我们排除了分类网络，并直接优化STN的参数，一次一个图像，一个单一的合成扰动。然后，我们评估收敛后的对齐质量。我们重复这个实验80次，从不同的数据集中随机选择图像，并进行随机变换。对于扰动，我们应用随机的平面内旋转，尺度变化（在对数空间中表示，即，规模0.5表示为1）在水平和垂直方向上（独立地），以及平移。我们以标准差为1的高斯噪声采样，并将其应用如下。将图像坐标归一化为[ 1，1]，我们使用标准偏差1/4用于旋转，2分别用于水平和垂直方向的尺度变化，0.2 用于翻译。我们在图中总结了我们的图像对齐实验。7.第一次会议。如图所示，即使没有下采样，我们的结果也明显优于双线性采样。如果存在任何下采样，我们也优于多尺度。更重要的是，方法之间的差距在自然图像上特别大，其中图像特征比其他两个数据集复杂得多。最后，下采样的影响在8倍时变得非常严重，有效地打破了所有数据集中的双线性采样器和多尺度方法，特别是对于PASCAL VOC2996(a) 召回率与阈值（b）σ= 1px（c）σ= 3px（d）σ= 6px图9：用于生成辅助样本的噪声幅度的σ（a）在回忆与阈值方面的定量结果。（b-d）随着辅助样本展开，空间上下文随着噪声（从左到右）而增加，如模糊所指示的。在（a）中，更多的噪声导致更多的空间背景，从而导致更大的收敛盆地，但以最终精度为代价。此外，如（b-d）所示，图像变得更模糊作为妥协。(a)（b）第（1）款图10：样本数量的消融测试（a）4x下采样下图像对齐的样本数量，以及（b）1x、2x和4x上采样两者都是关于召回与阈值的。我们再次使用采样图像的四个角的平均重投影误差。地区在（a）中，增加样本的数量在对准方面提供了更好的结果。在（b）中，我们证明了在上采样时样本崩溃预防是必不可少的。6.5. 消融试验辅助样本噪声。我们还研究了我们用来将辅助样本放置在方程中的噪声幅度的影响。（三）、图9（b-c）示出了在各种σ下的采样结果。由于高斯噪声模拟点扩散函数，因此在σ较大的情况下，我们通过等式（1）获得较模糊的图像。（一）.虽然结果是模糊的，但这有效地允许我们的方法在计算梯度时考虑更宽的支持区域，因此会更平滑。如图如图9（a）所示，随机样本覆盖的更宽的空间范围转化为Pascal VOC数据集中更好的图像对齐结果。辅助样本数量。在图10（a）中，我们评估了在4x下采样下使用Pascal VOC数据集为每个像素采集的随机样本数量的影响正如预期的那样，增加辅助样本的数量会导致更好的对齐结果。当只有四个辅助sam-使用PLS时，线性化是相当病态的，因此该方法的精度下降。避免样品塌陷。在图10（b）中，我们展示了第5节中描述的样品防塌方案的重要性。当我们的样本崩溃预防技术被删除，在图像对齐的性能下降，由于数值的不稳定性所造成的所有辅助样本落在同一neighbourhood。相比之下，我们的方法可以防止这个问题。7. 结论和今后的工作我们已经提出了一种基于多采样的线性化方法我们已经证明，经验表明，我们的方法可以提供改进的梯度，从而提高下游任务的性能我们的方法只是简单地交换了依赖于空间变换器的网络所使用的采样器，因此可以与基于它们的任何改进兼容。请注意，在推理时可以用双线性插值替换采样器以保持效率。到目前为止，这将导致采样结果的微小变化，并需要对分类器进行作为未来的工作，我们目前正在研究一个无偏公式方程。（6），这将允许就地更换而无需进一步微调。确认这项工作得到了加拿大自然科学与工程研究委员会“深度视觉几何机器”（RGPIN- 2018-03788，DGECR-2018-00426），谷歌和sys-2018的部分支持由Compute Canada提供。2997引用[1] Hani Altwaijry，Eduard Trulls，James Hays，Pascal Fua和Serge Belongie。学习将航拍图像与深度关注建筑相匹配在CVPR，2016年。1[2] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年：统一的框架。IJCV，第221-255页，2004年3月。2[3] John Leonard Barron，David J Fleet，and Steven SimonBeauchemin.光流技术的性能。IJCV，12：43-77，1994. 2[4] Chandrasekhar Bhagavatula ， Chenchen Zhu ， KhoaLuu，and Marios Savvides.比实时面部对齐更快：无约束条件下的三维空间Transformer网络方法。在ICCV，第2卷，第7页，2017年。2[5] 安东尼·布阿德斯、巴托梅乌·科尔和让-米歇尔·莫雷尔。一种非局部图像去噪算法。在CVPR，2005年。2[6] Che-Han Chang，Chun-Nan Chou，and Edward Y.昌级联卢卡斯-卡纳德网络图像对齐。在CVPR，2017年。3[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， Kevin Murphy ， and Alan L. 尤尔。DeepLab：使用深度卷积网络、Atrous卷积和全连接CRF进行语义图像分割。PAMI，2018年。3[8] Xianjie Chen和Alan L.尤尔。通过具有图像相关成对关系的图形模型的铰接式位姿估计。在NIPS，2014。2[9] 放大图片作者：Yi Chen，Nasser M. Nasrabadi和Trac D.交易。基于字典稀疏表示的高光谱图像分类TGRS，49（10）：3973-3985，2011. 2[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang ， Han Hu ， and Yichen Wei. 可变形卷积网络InICCV，2017. 1[11] Patrick Ebel ， Anastasiia Mishchuk ， Kwang Moo Yi ，Pascal Fua，and Eduard Trulls.超越局部描述符的笛卡尔表示在ICCV，2019年。2[12] Carlos Esteves 、 Christine Allen-Blanchette 、 XiaoweiZhou 和 Kostas Daniilidis 。极性 Transformer 网络。在ICLR，2018年。2[13] 马克埃弗林厄姆LucVan古尔克里斯托弗K. I.威廉姆斯约翰温和安德鲁齐塞-曼。的Pascal视觉对象类2012年挑战（VOC2012）结果。http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊5[14] C le'mentGodard，O i sinMacAodha，andGabrielJ. 布罗斯特。具有左右一致性的无监督单目深度估计。在CVPR，第7页，2017年。3[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。InICCV，2017. 第1、3条[16] 何开明，孙建，唐晓鸥。引导图像滤波。PAMI，（6）：1397-1409，2013. 2[17] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络参见NIPS，第2017-2025页，2015年。一、二、三、五2998[18] Zhiwei Jia，Haoshen Hong，Siyang Wang，KwonjoonLee，and Zhuowen Tu.可控自上而下的功能转换器。arXiv预印本，2018年。二、三[19] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。Densecap：用于密集覆盖的全卷积局部化网络。在CVPR，2016年。1[20] Diederik P. Kingma和Jimmy Ba。亚当：一种随机优化方法。arXiv预印本，2014年。6[21] Jason Kuen、Zhenhua Wang和Gang Wang。用于显著性检测的递归在CVPR，2016年。1[22] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。在Proceedings of the IEEE，pages 22785[23] 林振轩和西蒙·露西。逆合成空间Transformer网络。CVPR，2017年。一、二、三、五、十一[24] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR中，第8759-8768页，2018年。1[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。CVPR，2015。3[26] 布鲁斯·D卢卡斯和金田健夫。一种迭代图像配准技术及其在立体视觉中的应用。在IJCAI，第674-679页，1981中。2[27] Dmytro Mishkin，Filip Radenovic，and Jiri Matas.可重复性是不够的：通过可区分性学习仿射区域。在ECCV，2018。一、二[28] Yuki Ono 、 Eduard Trulls 、 Pascal Fua 和 Kwang MooYi。Lf-Net：从图像中学习局部特征。在NIPS，2018年。一、二[29] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。Pytorch中的自动微分。在NIPS，2017年。5[30] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：点集深度学习，用于3D分类和分割。在CVPR，2017年。2[31] Olaf Ronneberger， Philipp Fischer，and Thomas Brox.U-Net ：用于生物医学图像分割的卷积网络 . 在MICCAI，2015年。3[32] 常舒、曦辰、谢志伟、华涵。分层空间Transformer网络。arXiv预印本，2018年。二、三[33] Johannes Stallkamp，Marc Schlipsing，Jan Salmen，andChristian Igel. 德国交通标志识别基准：多类分类竞赛。IJCNN，2011年。5[34] 大卫·约瑟夫·谭，托马斯·现金男，乔纳森·泰勒，安德鲁·菲茨吉本，丹尼尔·塔罗，萨迈赫·哈米斯，沙赫拉姆·伊扎迪和杰米·肖顿。像手套一样合身：快速可靠的手形个性化.在CVPR，2016年。2[35] Fangfang Wang，Liming Zhao，Xi Li，Xinchao Wang和Dacheng Tao。基于实例变换网络的几何感知场景文本检测。在CVPR，2018年。2[36] Wanglong Wu ， Meina Kan ， Xin Liu ， Yi Yang ，Shiguang Shan，and Xilin Chen.递归空间Transformer2999（ReST）用于无对准人脸识别。在CVPR中，第3772-3780页，2017年。2[37] Kwang Moo Yi ， Eduard Trulls ，Vincent Lepetit， andPascal Fua. LIFT：学习不变特征变换。在ECCV，2016年。一、二[38] Kwang Moo Yi，Yannick Verdie，Pascal Fua和VincentLepetit。学习为要素点指定方向。在CVPR，2016年。1[39] 张浩洋和何旭明。用于对象掩模配准的深度自由变形网络在CVPR中，第4251-4259页2[40] Xiangyan Zhang ， Jiayi Li ， Yuancheng Huang ， andLiangpei Zhang.一种高光谱图像的非局部加权联合稀疏表示分类方法。J-STARS，7（6）：2056-2065，2014. 2

下载后可阅读完整内容，剩余1页未读，立即下载