统计激励二阶池:紧凑表示超越一阶与二阶模型

0 下载量 102 浏览量 更新于2024-06-20 收藏 1.21MB PDF 举报
本文主要探讨了统计激励的二阶池(Statistically Motivated Second-Order, SMSO)在深度学习视觉识别领域的研究。作者们,于凯成和马蒂厄·萨尔茨曼,来自瑞士洛桑联邦理工学院CVLab,针对二阶合并,也就是双线性池化在卷积神经网络(CNN)中的应用提出了一个创新的压缩策略。传统上,二阶池化通过计算区域内像素之间的协方差,能够提供更强的表达力,但在实践中,这种复杂度带来了显著的存储和部署挑战,因为生成的向量表示比一阶模型大得多。 二阶CNN(如双线性CNN)的优势在于其对复杂特征的捕捉,尤其是在诸如行人检测、材料识别和语义分割等任务中。然而,将这些二阶特征向量化并传递到分类层会导致内存消耗过大,容易引发过拟合问题。为了解决这一问题,论文提出了一种参数化的压缩策略,该策略通过对协方差矩阵进行向量化并进行归一化来减少表示的维度,从而提高模型的紧凑性和效率。 实验部分展示了这种统计激励的二阶池(SMSO)压缩策略的有效性。它不仅能够在保持模型性能的同时显著减小模型尺寸,而且在多个基准识别数据集上表现出优于当前最先进的第一和第二阶模型的性能。作者们强调,他们的方法不仅限于非参数压缩技术,而是允许网络具有更大的表达能力,这对于提升整体的视觉识别准确性和实用性至关重要。 瑞士国家科学基金会为这项研究提供了部分资金支持。本文的研究成果对于那些寻求在保持模型性能的前提下优化深度学习模型大小和计算效率的计算机视觉研究者来说,具有重要的理论价值和实际应用意义。