深度学习新突破：Spatial Transformer Networks解析

需积分: 49 134 浏览量更新于2024-09-07 收藏 1.08MB PDF 举报

"理解Spatial Transformer Networks" Spatial Transformer Networks (STNs)是深度学习领域中一个创新的组件，设计用于增强卷积神经网络（CNNs）的几何变换不变性。CNNs在计算机视觉任务中表现出色，如分类、定位、语义分割和动作识别等，但它们对物体的姿势或位置变化的不变性处理有限。传统的CNN依靠卷积和池化操作提供一定程度的平移不变性，但这并不足以处理旋转、扭曲等更复杂的几何变换。 STNs引入了一种学习方法，能够自适应地学习针对不同数据的空间变换。它们的关键特性如下： 1. **自定义空间变换**：每个输入都有与之对应的特定空间变换，例如仿射变换。 2. **全局应用**：变换作用于整个输入特征图。 3. **多种变换类型**：包括缩放、剪切、旋转和空间扭曲等。 4. **可微分**：由于STN的可微性，它们可以在训练过程中优化变换参数，无需额外的标注数据。 5. **模块化**：STN可以插入到现有的CNN架构中的任何层，对特征图执行空间变换。 STN的结构包含三个主要部分： 1. **定位网络(Localisation Network)**：接收特征图U作为输入，通过一系列卷积或全连接层，预测出变换参数θ。 2. **网格生成器(Grid Generator)**：根据θ和预定义的变换类型，生成一个输出特征与输入特征之间的映射T(θ)。 3. **采样器(Sampler)**：利用映射T(θ)和变换参数，对输入特征进行选择，并通过双线性插值生成输出特征图。通过这种方式，STNs使网络能够在保持性能的同时，学习和适应各种几何变换，从而提高了模型在各种基准数据集上的表现，增强了其泛化能力。STNs的引入，为解决计算机视觉中的定位和变形问题提供了一个强大的工具，进一步推动了深度学习在该领域的应用。

Localisation net:

Localisation net 输入为一张 Feature map: U∈R

H×W×C

.经过若干卷积或全链接操作后接

一个回归层回归输出变换参数θ. θ的维度取决于网络选择的具体变换类型,如选择仿射变换

则θ∈R

2×3

.如选择投影变换则θ∈R

3×3

. θ的值决定了网络选择的空间变换的”幅度大小”.

Grid generator:

Grid generator 利用 localisation 层输出的θ, 对于 Feature map 进行相应的空间变换.设

输入 Feature map U 每个像素位置的坐标为(X

),经过 ST 后输出 Feature map 每个像素

位置的坐标为(X

), 那么输入和输出 Feature map 的映射关系便为(选择变换方式为仿射

变换)

也就是说,对于输出 Feature map 的每一个位置,我们对其进行空间变换(仿射变换)寻找其对

应与输入 Feature map 的空间位置,到目前为止,如果这一步的输出为整数值(往往不可能),也

就是经过变换后的坐标可以刚好对应原图的某些空间位置,那么 ST 的任务便完成了,既输入

图像在 Localisation net 和 Grid generator 后先后的确定了空间变换方式和映射关系.

剩余10页未读，继续阅读

SIGAI_csdn

粉丝: 2352

深度学习新突破：Spatial Transformer Networks解析

2016-Spatial Transformer Networks理解

1506.02025_Spatial Transformer Networks

2016-Spatial Transformer Networks理解2

Spatial transformer networks 代码

Spatial transformer networks实现代码

Spatial Transformer Networks

spatial transformer networks

spatial transformer 和transformer的区别

pytorch spatial transformer

RoI Transformer

最新资源