统计激励二阶池：紧凑表示超越一阶与二阶模型

161 浏览量更新于2024-06-20 收藏 1.21MB PDF 举报

本文主要探讨了统计激励的二阶池（Statistically Motivated Second-Order, SMSO）在深度学习视觉识别领域的研究。作者们，于凯成和马蒂厄·萨尔茨曼，来自瑞士洛桑联邦理工学院CVLab，针对二阶合并，也就是双线性池化在卷积神经网络（CNN）中的应用提出了一个创新的压缩策略。传统上，二阶池化通过计算区域内像素之间的协方差，能够提供更强的表达力，但在实践中，这种复杂度带来了显著的存储和部署挑战，因为生成的向量表示比一阶模型大得多。二阶CNN（如双线性CNN）的优势在于其对复杂特征的捕捉，尤其是在诸如行人检测、材料识别和语义分割等任务中。然而，将这些二阶特征向量化并传递到分类层会导致内存消耗过大，容易引发过拟合问题。为了解决这一问题，论文提出了一种参数化的压缩策略，该策略通过对协方差矩阵进行向量化并进行归一化来减少表示的维度，从而提高模型的紧凑性和效率。实验部分展示了这种统计激励的二阶池（SMSO）压缩策略的有效性。它不仅能够在保持模型性能的同时显著减小模型尺寸，而且在多个基准识别数据集上表现出优于当前最先进的第一和第二阶模型的性能。作者们强调，他们的方法不仅限于非参数压缩技术，而是允许网络具有更大的表达能力，这对于提升整体的视觉识别准确性和实用性至关重要。瑞士国家科学基金会为这项研究提供了部分资金支持。本文的研究成果对于那些寻求在保持模型性能的前提下优化深度学习模型大小和计算效率的计算机视觉研究者来说，具有重要的理论价值和实际应用意义。

K. Yu和M. Salzmann

根归一化策略，其表现优于其他变换技术。

所有上述方法简单地将二阶表示向量化，即，协方差矩阵因此，它们产

生最终表示，其大小与最后卷积特征图中的通道的数量成二次比例，因此通

常比一阶

CNN

的最终表示大几个数量级。为了减少由此产生的存储器成本

和参数爆炸，已经提出了几种方法来压缩二阶表示，同时保留其鉴别能力。

压缩的第一次尝试是由

[13]

实现的，它引入了两种策略，基于随机投影的思

想，将协方差矩阵映射到向量。然而，这些预测没有被学习，因此没有增加

网络的容量，并且最多产生与

[36]

的双线性

CNN

相同的精度。在

[27]

中，采

用参数化策略来减少双线性特征的维数。虽然有效，这种策略是专门设计

的，被纳入一个双线性支持向量机。

相比之下，在这里，我们引入了一种参数压缩方法，可以集成到任何

标准的深度学习框架中。此外，我们的策略是统计动机，以便产生最终

表示，其分布与一阶深度网络固有使用的分布类型相同。正如我们的实

验所证明的，我们的方法可以产生比现有的压缩技术更紧凑的表示，但

优于最先进的一阶和二阶模型。

请注意，高阶信息在过去也被利用

[10

，

28]

。虽然有希望，我们认

为，开发统计动机的汇集策略，这样的高阶信息超出了本文的范围。

方法

在本节中，我们首先介绍我们的二阶池化策略，同时解释其背后的统计

动机。然后，我们提供了另一种解释，我们的方法产生一个较低的复杂

性，研究和显示我们的网络的表示的经验分布，最后讨论我们的模型

的关系，最近的二阶池技术。

3.1 SMSO

合并

我们的目标是为二阶深度网络设计一个通用的参数压缩策略此外，受一

阶深度网络固有地利用高斯分布用于其特征表示的事实的启发请注意，

虽然我们在

CNN

形式主义中引入了

SMSO

池化策略，但它适用于依赖于

二阶表示的任何方法。

剩余16页未读，继续阅读

cpongm

粉丝: 5

统计激励二阶池：紧凑表示超越一阶与二阶模型

Ip102:害虫识别的大规模基准数据集

mnist手写数字识别数据集

常见图片动作识别数据集

BETA数据集和基准数据集

果蔬识别数据集.zip

eth行人重识别数据集

至此以后不再使用UCF101数据集，所以宣告了该数据集的死亡

osnet行人重识别模型

怎么才能突出对比实验选择的基准模型的重要性

人脸识别深度学习数据集

最新资源