深度学习与卷积神经网络：多尺度空间非对称重标定提升图像分类性能

96 浏览量更新于2024-06-20 收藏 1.23MB PDF 举报

"这篇论文提出了一种新的图像分类方法，称为多尺度空间非对称重标定（MS-SAR），以解决卷积神经网络（CNN）在处理视觉识别时的空间对称性问题。传统的卷积操作忽略了上下文线索，而MS-SAR通过引入重校准过程，考虑了神经元周围区域的重要性，提高了特征提取的效率。这种方法在多个尺度上提取视觉信息，并设计了空间非对称的加权方案。MS-SAR在实际应用中需要的额外参数和计算量较小，适用于如残差块和密集连接块等流行的网络结构。实验结果显示，MS-SAR在CIFAR和ILSVRC2012分类任务上表现优越，证明了其在大规模图像分类任务中的潜力。此外，该研究也得到了多项基金支持，并与其他领域的学者进行了讨论。" 本文的核心知识点包括： 1. **卷积神经网络**（Convolutional Neural Networks, CNNs）：CNN是深度学习的重要模型，广泛应用于图像处理任务，如图像分类、对象检测和语义分割等。其基本构造单元是卷积层，通过卷积操作捕捉图像的局部特征。 2. **空间对称性**：传统卷积操作的空间对称性意味着神经元对图像中任何位置的相同特征响应相同，这忽略了上下文信息对特征识别的影响。 3. **多尺度空间非对称重标定**（Multi-Scale Spatial Asymmetric Re-calibration, MS-SAR）：为了解决空间对称性问题，论文提出了MS-SAR方法，它通过计算神经元周围区域的重要性，重新校准神经响应，从而利用上下文线索增强特征提取。 4. **重校准过程**：这个过程涉及计算每个神经元邻域的权重，这些权重反映了周围区域对特征识别的重要性，然后与原始神经响应相乘，增强了特征表达。 5. **额外参数和计算量**：MS-SAR方法的实现效率高，仅需要少量额外参数，且计算复杂度相对较低，适合集成到现有的网络架构中。 6. **残差块和密集连接块**：这两种网络结构是CNNs中常用的模块，MS-SAR被应用于这两个模块，进一步证明了其通用性和有效性。 7. **CIFAR和ILSVRC2012**：这两个数据集是图像分类任务的标准基准，MS-SAR在这些数据集上的优秀表现验证了其在大规模图像分类任务上的优势。 8. **实验结果**：通过对比实验，显示了MS-SAR相比于标准卷积操作在性能上的提升，这表明利用上下文线索可以显著改进图像分类的准确性。 9. **资助和支持**：该研究得到了国家自然科学基金、国家高技术研究发展计划以及CSC-IBM未来数据科学家奖学金等多个项目的支持。 10. **讨论和合作**：作者感谢其他研究人员的讨论，这表明研究过程中可能有跨学科的交流与合作，有助于研究的深入和发展。

Wang

等人

联系

我们

在同一组。这个想法也被广泛用于对象检测，以总结给定一组区域建

议的视觉特征[7][28]。

另一方面，研究人员还注意到空间重要性（显着性）在空间域中

并不是均匀分布的因此，设计了各种方法典型的例子包括使用梯度反

向传播来找到对分类结果贡献最大的神经元[43][39]，将显着性[30][26]

或注意力[2]引入网络，并研究局部属性（

例如，神经元的局部属

性）。

，smoothness [37]）。我们注意到，常规卷积层也捕获空间域

中的局部模式，但是（i）它执行线性模板匹配，因此不能捕获非线

性特性（

例如，非线性特性）。

平滑度），同时（ii）它通常需要更

大数量的参数和更重的计算开销。

在这项工作中，我们考虑了一种

重新校准

方法[13]，其目的是通过

空间权重来修订每个神经元的响应。与[13]不同，所提出的方法利用

多尺度视觉信息，并允许在不同的空间位置添加不同的权重。这带来

了显著的精度增益。

我们的方法

3.1

动机：为什么需要空间不对称？

假设X是卷积层的输出这是一个3D立方体，

其中

和

是宽度和高度，指示空间分辨率，并且

是深度，指示卷

积核的数量。根据卷积的定义，X中的每个元素（由

，

表示）表

示坐标（

，

）处的第

个视觉图案的强度，其是从第

个卷积核和

对应于坐标（

，

）的输入区域的内积获得的

这里我们注意到卷积执行

空间对称

模板匹配，其中强度x

，

与空间

位置（w

，

h）无关。我们认为这不是最佳选择。在视觉识别中，我们

经常

需要

一种复杂的视觉形式（

例如：

在

图2中，图1中的应用

程序

在

图1中的应用程序2中的应用程序1中的应用程序2中的应用程序

1）

，

并且在图1中的应用程序2中的应用程序2中的应用程序2中的应用程序

3中的应用程序2中的应用程序3中的应用程序2中的应用程序3中的应用程序2

中的应用程序1

。

为此

，我们

将

，

定义

为

包含（w

，

h）的相邻坐标的坐标集（在下一小节中详细描述）。我们的

目标是计算新的响应

，

，其通过在所有新的神经元上进行同步来实

现

。

，

. . .

，

其中表示笛

卡尔积。我们的方法与现有的几种方法相关但不同。

–

首先，我们注意到标准卷积可以学习小的局部区域中的上下文，

例如。

，

是一个以（

，

）为中心的3

3正方形我们的方法

可以参考

多

个卷积，它具有不同的规模，可以实现卷积形

式，并且比卷积更有计算效率。

–

第二种类型在空间域中工作，它使用

，

{

}

中的响应来计算

，

。执

行

包含S

的

示例

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习与卷积神经网络：多尺度空间非对称重标定提升图像分类性能

图像分类

标定差值图像 DoG

opencv 源代码 标定 检测

摄像头标定 角点检测

人工智能-机器学习-随机表面的散斑与光散射标定法及近场散斑的格林函数法计算模.pdf

微尺度三维变形测量：显微数字图像相关技术新突破

MATLAB双目摄像头标定教程：棋盘图与参数提取

2025年软考高级 - 信息系统项目管理师考试备考全攻略

MySQL 5.7从入门到精通 第23章 新闻发布系统数据库设计 共6页.pptx

高分springboot毕设+vue的游戏创意工坊与推广平台的设计与实现_orv论文-Java源码.zip

最新资源

opencv 源代码标定检测

摄像头标定角点检测

MySQL 5.7从入门到精通第23章新闻发布系统数据库设计共6页.pptx