跨域模型压缩的结构化权重共享方法

153 浏览量更新于2023-10-19 收藏 12.57MB PDF 举报

内存占用

计算成本

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

PerformanceCompressionratePerformanceCompressionrate89730通过结构化权重共享进行跨域模型压缩0高尚谦1，邓程2，黄恒�1,301 美国匹兹堡大学电气与计算机工程系 2 西安电子科技大学电子工程学院 3 京东数科 shg84@pitt.edu,chdeng.xd@gmail.com, heng.huang@pitt.edu0摘要0常规模型压缩方法专注于RGB输入。而跨域任务需要更多的DNN模型，每个域通常需要自己的模型。因此，对于这种任务，存储成本、内存占用和计算成本与单个RGB输入相比大幅增加。此外，跨域任务中的独特外观和特殊结构使得直接应用常规压缩方法变得困难。因此，在本文中，我们提出了一种新的鲁棒的跨域模型压缩方法。具体而言，该方法通过结构化权重共享来压缩跨域模型，在训练时通过图嵌入对模型进行正则化。由于通道智能权重共享，所提出的方法可以减少计算成本，而无需特别设计的算法。在实验中，所提出的方法在两个不同的任务上取得了最先进的结果：动作识别和RGB-D场景识别。01. 引言0近年来，卷积神经网络（CNN）在许多相关领域变得非常流行，例如图像分类[3, 23]，动作识别[37,4]，自动驾驶汽车[1]等。然而，随着CNN越来越深入[10,14]，内存占用和计算成本大幅增加，使得在资源有限的平台上部署变得不切实际，如手机和嵌入式设备。为了解决这个问题，已经进行了无数的努力[8, 43, 7,17]。这些用于CNN模型压缩的方法可以分为四类：修剪[8]、稀疏引导正则化[43]、权重量化[7]和低秩分解[17]。0�通讯作者。S. Gao，H. Huang受美国NSF IIS 1836945、IIS 1836938、DBI1836866、IIS 1845666、IIS 1852606、IIS 1838627、IIS1837956的部分支持。0单域压缩0单域压缩0跨域权重共享0图1：我们的方法与单域压缩方法之间的差异示例。上图显示，对于跨域压缩，仅使用常规压缩方法无法在性能和压缩率之间实现令人满意的平衡。下图显示，跨域共享权重可以取得良好的结果。0正则化[43]、权重量化[7]和低秩分解[17]。0尽管压缩技术已经广泛应用于RGB输入，但很少考虑应用压缩算法于跨域应用。尽管跨域任务受到很少关注，但内存成本和计算需求甚至高于单个RGB域。流行的跨域应用，如RGB-D场景识别[6]、动作识别[37]、跨域检索[20,25]等，通常使用两个或多个DNN模型从不同源收集领域特定信息。因此，存储成本、内存占用和计算成本至少是单个RGB任务的两倍。因此，值得探索如何为跨域任务获得紧凑的模型。204060801001201401602040608010012014016000.10.20.30.40.50.60.70.80.9120406080100120140160204060801001201401600.10.20.30.40.50.60.70.80.9189740在跨域任务中，不同数据源之间的独特空间结构和外观常常阻止直接使用主流压缩方法。事实上，当应用于跨域任务时，主流压缩方法存在许多缺点。跨域模型对通道智能修剪非常敏感。对于稀疏引导方法，超参数搜索更加困难。此外，主流压缩方法无法利用底层的跨域关系来实现更好的压缩率。为了解决上述问题，我们提出了一种新的跨域压缩方法，该方法对超参数设置具有鲁棒性，并且可以利用跨域关系来实现更好的模型压缩。在提出的方法中，权重在域之间进行结构共享。为了实现结构化权重共享，跨域模型使用图嵌入正则化进行训练。训练完成后，根据中间特征相似性图对权重进行聚类。最后，对跨域模型进行微调以获得最终结果。本文的主要贡献可以总结为三个方面：01.当使用常规稀疏引导方法和剪枝算法进行跨领域压缩时，我们发现存在困难。02.我们提出了一种专门针对跨领域压缩的新方法，通过在训练时使用图嵌入作为约束条件。所提出的方法对超参数调整具有鲁棒性，并且可以自然地实现计算成本的降低。03.与其他方法相比，所提出的方法在两个不同的任务（动作识别和场景识别）上可以取得最佳结果。02. 相关工作0本文的相关工作可以分为两个不同的视角，第一部分与模型压缩相关，第二部分与跨领域任务相关。02.1. 模型压缩0剪枝和权重共享方法与我们的方法最相关。因此，我们主要关注这些算法。对于权重共享，有一组算法[33, 7, 16, 34,50]研究如何将权重的标量值聚类成几个簇。这种算法也被称为量化。最早的一项工作[7]将量化和汉明编码结合起来，属于这个类别。通过权重量化，权重可以从32位浮点数减少到至多1位二进制值[15]。许多研究表明，将权重量化为8位[49]通常不会对性能造成损害。一系列较不常见的方法涉及结构化权重共享。与量化不同，结构化权重共享关注的是在通道或滤波器之间找到结构级别的相似性。Learning to Share[47]属于这个类别，它通过使用一种称为组加权顺序套索（GrOWL）[31]的正则化项来寻找输入通道之间的相似性。WSNet[21]试图创建一个共享的滤波器组，而不是寻找相似性。在音频分类任务中，WSNet可以取得最先进的结果。我们的跨领域压缩方法与这些方法密切相关。尽管我们的方法与结构化权重共享方法之间存在相似之处，但我们的方法是一种完全的权重共享方法，不同于Learning toShare，并且共享的滤波器组是在训练过程中学习到的，这也与WSNet中预设计的滤波器组不同。对于剪枝权重，许多研究[51, 26, 8, 13,11]表明，删除大部分连接或神经元不会导致显著的性能下降。剪枝算法通常寻求一种评估通道、滤波器或单个权重相对重要性的准则。然后，这种准则用于剪枝，其中可以剪枝掉最不重要的权重。与剪枝相比，稀疏引导方法[43, 47,28]可以被视为一种类似的方法。在[43]中，组套索被用作训练时的正则化。在权重接近零之后，可以安全地从网络中剪枝掉它们。但是使用稀疏约束往往会导致接近零的解，一些研究[44]认为小的权重实际上对于保持性能是重要的。一些数据驱动的剪枝方法[13]可以通过基于中间特征图设计准则来避免这个问题。除了数据驱动的方法，某些用于稀疏约束的优化方法[47]也可以缓解这个问题。从另一个角度来看，剪枝算法的目标是减少模型中的唯一权重并删除其他权重。我们的方法在这里有相同的目标，但我们不删除其他权重，而是使它们0（a）权重相关性可视化0（b）特征相关性可视化0图2：（a）是跨领域MNIST实验的权重相关性。（b）是跨领域MNIST实验的特征相关性。从（a）和（b）可以看出，使用GrOWL训练的模型无法捕捉输入中的跨领域信息。0一系列较不常见的方法是关于结构化权重共享的。与量化不同，结构化权重共享关注的是在通道或滤波器之间找到结构级别的相似性。Learning to Share[47]属于这个类别，它通过使用一种称为组加权顺序套索（GrOWL）[31]的正则化项来寻找输入通道之间的相似性。WSNet[21]试图创建一个共享的滤波器组，而不是寻找相似性。在音频分类任务中，WSNet可以取得最先进的结果。我们的跨领域压缩方法与这些方法密切相关。尽管我们的方法与结构化权重共享方法之间存在相似之处，但我们的方法是一种完全的权重共享方法，不同于Learning toShare，并且共享的滤波器组是在训练过程中学习到的，这也与WSNet中预设计的滤波器组不同。对于剪枝权重，许多研究[51, 26, 8, 13,11]表明，删除大部分连接或神经元不会导致显著的性能下降。剪枝算法通常寻求一种评估通道、滤波器或单个权重相对重要性的准则。然后，这种准则用于剪枝，其中可以剪枝掉最不重要的权重。与剪枝相比，稀疏引导方法[43, 47,28]可以被视为一种类似的方法。在[43]中，组套索被用作训练时的正则化。在权重接近零之后，可以安全地从网络中剪枝掉它们。但是使用稀疏约束往往会导致接近零的解，一些研究[44]认为小的权重实际上对于保持性能是重要的。一些数据驱动的剪枝方法[13]可以通过基于中间特征图设计准则来避免这个问题。除了数据驱动的方法，某些用于稀疏约束的优化方法[47]也可以缓解这个问题。从另一个角度来看，剪枝算法的目标是减少模型中的唯一权重并删除其他权重。我们的方法在这里有相同的目标，但我们不删除其他权重，而是使它们minθL(fθ(x)) + R(θ).(1)R(θ) =L�l=1Nl−1�i=1λl,i∥θl,i∥,(2)S(i, j) =θTl,iθl,j∥θl,i∥2∥θl,j∥2.(3)89750共享相同的通道。除了权重剪枝和共享，其他流行的方法包括矩阵分解[35]、知识蒸馏[12, 45, 22]和变分推断方法[29,27]。02.2. 跨领域应用0本文关注两种类型的跨领域任务，第一种是双流动作识别，第二种是RGB-D场景分类。关于动作识别，最流行的方法之一是双流CNN。在[37]提出了一种使用RGB和堆叠的光流帧作为外观和运动信息的方法之后，这种方法越来越受到关注。我们的跨领域压缩框架基于这一系列的工作，因为这种方法的架构接近图像分类任务，这使得可以在这种方法上应用许多压缩方法。选择双流方法的另一个原因是基于RNN的动作识别算法[4]依赖于相应的RGB或光流CNN模型的特征或输出，而大部分的内存使用和计算成本来自CNN部分。其他动作识别方法如C3D [19]、3D-resnet[9]使用3D卷积核同时学习空间和时间信息。但是现有的压缩技术很难应用于3DCNN。场景分类是计算机视觉研究中的基本问题之一。通过价格合理的深度传感器Kinect，深度图像可以用于场景分类任务。与RGB图像相比，深度图像可以提供额外的强照明和颜色不变的几何线索。然后，RGB和深度图像融合成为一种有前途的场景分类方法。在本文中，我们考虑了得分级别的RGB-D融合[6,18]，保持中间特征图不变。RGB-D模型也适合应用压缩技术。03. 方法0在本节中，我们首先展示了以前的权重共享方法（如Learning to Share[47]）不能利用潜在的跨领域关系。然后，我们将介绍我们的方法。03.1. Learning to Share 重访0在学习共享[47]中，他们将压缩问题形式化为正则化问题。与GroupLasso相关的方法具有类似的公式，但正则化项不同。该公式可以表示为：0在大多数分类任务中，L 是交叉熵损失，R 是正则化项，f θ是由 θ 参数化的神经网络。对于学习共享，正则化项为：0其中 θ l 是第 l 层的权重，θ l ∈ R w l × h l × N l − 1 × Nl 。w, h, N l − 1 , N l 分别是第 l层的宽度、高度、输入通道数和输出通道数。该组是沿着通道维度预定义的。正如我们在第2节中提到的，� N l − 1 i=1 λ li ∥ θ li ∥是一种特殊的正则化项，称为组有序加权Lasso（GrOWL），它可以同时强制稀疏性和学习输入之间的相关性。将Learning toShare扩展到跨领域模型的一个自然方法是添加GrOWL正则化。我们在实验中只考虑了两个领域。为了验证LearningtoShare是否能够学习输入之间的跨领域相关性，我们设计了一个简单的任务。在这个简单的任务中，对MNIST进行了一些修改，创建了两个玩具领域MNIST-Rot（旋转45度）和MNIST-Blur（运动模糊）。权重相关性的计算公式如下：0特征相关性在公式5中计算。我们在每个领域上使用LeNet-5。除了第一层和最后一层外，应用了GrOWL。如图2所示，在GrOWL正则化之后，来自不同领域模型的权重之间的相关性接近于零，这表明GrOWL不能利用潜在的跨领域关系。除了这种缺点外，超参数调整困难，每一层都有自己的λ l。03.2. 跨域任务0为了更好地解释我们的方法，给出了跨域任务的正式定义。我们在两个域上使用相同的网络架构，除了第一层，因为输入可能具有不同数量的通道。一个典型的 DNN层可以被定义为一个由权重参数化的函数，可以表示为：y l= f θ l ( x l)。不失一般性，第一个域中的模型可以被定义为 y A,l = f θA,l ( x A,l )。第二个模型可以通过将 A 替换为 B来定义。假设数据集 D 有 m 个样本：D = {( x A 1 , x B 1 ,y 1 ), ..., ( x A m , x B m , y m )}。那么目标函数的形式为：0min θ A ,θ B L ( f θ A ( x A i ) , f θ B ( x B i )) + R ( θ A , θ B ) ,(4)0其中 L 是跨域任务损失，R 是正则化损失。……………………2.22.31.32.01.60.51.30.71.61.91.82.40.40.6-10.3l2l∥2.(5)xt,l = Trim(xl).(6)89760通道权重共享0A 域的第 th 层权重0B 域的第 th 层权重0B 域的第 th 个通道0A 域的第 th 个通道0全连接层权重共享卷积层通道权重共享0共享权重空间...0...0...0...0第 l 层0第 l 层0神经元权重共享0共享权重空间0权重0图 3：左图显示了全连接层的权重共享。右图显示了卷积层的权重共享。03.3. 图嵌入作为正则化0在第 3.1节中，我们认为仅仅学习共享对于跨域任务是不够的，因为它们不能发现跨域相关性，而且超参数调整太耗时。类似的论证也适用于 Group Lasso 方法。当使用 GrOWL 和Group Lasso训练模型时，一层中的所有权重通常都变为零。如果发生这种情况，就必须调整超参数再次训练。因此，为了解决这两个问题，我们的目标是通过结构化的权重共享来压缩模型。在训练过程中，模型受到图嵌入约束的正则化。训练完全后，我们根据转换后的特征对权重进行聚类。如果我们使用完全共享的方法，就不会遇到上述训练不稳定的问题。完全共享的方法不会将一层中的所有权重变为零。0算法 1 图嵌入正则化01: 输入: 中间层输出, x A l 或 x B l , l = 1 , . . . , L ; 数据集D 包含 ( x A i , x B i , y i ) , i = 1 , . . . , m 2: 初始化: f A ,f B , R Spectral 3: 循环 epoch = 1 到 N 4: x A t,l = Trim( x A l )05: x A t,l = Trim ( x A l )06: R Spectral = R Spectral ( concate ( x A t,l , x B t,l ) , θ s ) 7: min θ A,θ B L ( f θ A ( x A ) , f θ B ( x B )) + R Spectral08: 结束循环 9: 输出: f A , f B , R Spectral0在介绍图嵌入约束之前，我们首先0展示我们如何表示中间特征。一种简单的表示输入通道之间相似性的方法是计算输入特征之间的相关性。给定第 l层的输入 x l ∈ R W l × H l × C l ，其中 W l是特征图的宽度，H l 是特征图的高度，C l是输入通道的数量。假设 D 中的数据点数为 m，所有样本的输入可以表示为 X l ∈ R W l × H l × C l × m，这个 X l 可以被重塑为一个二维表示 X 2 D l ∈ R C l ×mW l H l 。我们可以如下表示输入通道之间的相似性：0S x l ( i, j ) = X 2 D l ( i, :) T X 2 D l( j, :)0在公式5中，如果输入通道i和j相似，则所有样本中xl的内积也应该很大。然而，如果xl很大，计算成本就很高。例如，如果l是VGG-16的第13层，我们有5×10^4个样本，那么X 2 Dl中的每个向量将有245万维。当训练时，计算相似性矩阵的更新将变得不可承受。为了使输入特征相似性矩阵的更新可承受，我们对特征图应用了平均池化来减小其大小。如果特征图的大小为W×H×C，则减小后的特征图的大小为w×h×C，其中wh远小于WH。通过随机采样部分特征图，可以进一步减小特征图的大小。通过这样做，相似性矩阵的计算大大减少，我们称这个操作为Trim。对于每个输入xl，修剪后的输入特征图x t,l为：0相似性计算与公式5中相同，只是将x l替换为xt,l。在训练过程中，我们用批量大小替换mRSpectral =L�l=114C2l�i,j=1:2ClSl(i, j)∥zl,i − zl,j∥22, (7)12ClzTl zl = I.(8)zl,i = fsl(X2Dl(i, :)).(9)RSpectral =L�l=11∥22,(10)Shared weights ��θll,i89770b用于前向和后向计算。在我们获得层输入通道之间的相似性矩阵后，我们尝试根据相似性图对权重进行聚类。直接在相似性图上聚类权重可能导致性能下降。因此，可以使用图嵌入作为约束条件。我们可以使用图嵌入[30,41]的另一个原因是，它在我们已经拥有的相似性图上进行聚类是众所周知的。在图嵌入的范围内，使用了最近提出的深度谱聚类方法SpectralNet[36]中的类似公式。谱聚类可以插入到方程3中的R中，并规范模型的复杂性。下面给出了图嵌入正则化的详细信息。如上所述，我们使用截断的输入特征图来实现可承受的中间层相似性计算。跨域的中间相似性矩阵计算使用了方程5，通过替换X 2 D l ( i, :) = concate ( X A, 2 D t,l ( i, :) , X B, 2D t,l ( i, :))。'concate'是一个简单的操作，将两个向量连接成一个向量。然后，可以在中间相似性图上应用谱聚类。给定特定的层l，图嵌入约束具有以下形式：0其中S l ∈ R 2 C l × 2 Cl是第l层输入在两个域之间的相似性矩阵，C l是输入x A l或xB l中的通道数，z l ∈ R 2 C l × k l是谱聚类的输出，kl是第l层的目标聚类数。对于谱聚类，对zl有一个额外的约束：0并且需要在S l上计算特征分解以获得zl。然而，计算特征分解是耗时的。与SpectralNet类似，我们使用一个具有正交层的神经网络f sl来近似特征分解。正交输出通过使用Cholesky分解实现，感兴趣的读者可以参考[36]中的附录B。通过插入f sl：0如前所述，X 2 D l ( i, :) = concate ( X A, 2 D t,l ( i, : ) , XB, 2 D t,l ( i,:))。简单地使用标准谱聚类可能导致聚类不平衡，这将限制模型的容量。相反，我们使用归一化谱聚类来强制平衡聚类。04 C 2 l0i,j =1:2 C l S l ( i, j ) ∥ z l,i0d i − z l,j0第�层的输入0减少输入通道数量0产生相同的输出0第�层的减少输入0第�层的权重0第�层的减少权重0卷积0卷积0图4：我们提出的方法如何降低计算成本的示意图。可以理解为减少特征图和权重中的输入通道数量。原始版本和降低版本都可以产生相同的输出。0其中 d i = � 2 C l i S l ( i, j ) .我们方法的最终目标函数可以表示为：0min θ A ,θ B L ( θ A , θ B ) + R Spectral , (11)0其中 R Spectral 和 L ( θ A , θ B )在公式10和公式4中分别定义。03.4. 权重共享0在使用目标函数公式11训练模型后，我们准备根据每层的 zl ∈ R 2 C l × k l对特征进行聚类。与普通的谱聚类过程一样，我们使用K-means根据 z l对特征进行聚类。由于我们有特征的聚类，可以用来指导权重的聚类。如果中间特征的通道 i, j 在同一聚类中，通道 i, j的权重也将在同一聚类中。详细的共享过程如图3所示。权重聚类完成后，我们根据聚类结果对模型进行微调。假设第l 层中第 i 组权重有 n l,i 个输入通道，则第 i组的权重将被该组的中心 g l,i 替换。中心的梯度计算如下：0∂L ∂g l,i = 1 n l,i0�0∂L ∂θ l,j , (12)0其中 G l,i 是包含该组所有实例的集合。03.5. 提高推理速度0在这项工作中，我们主要关注压缩模型而不是减少计算成本，但我们仍然可以实现moderate improvement concerning computation cost. It canbe shown that we can reduce the number of channels by a89780(a) RGB和光流帧0(b) RGB和深度图像0图5：数据集图像示例，(a)是UCF-101数据集中的RGB和光流图像，(b)是SUN RGB-D数据集中的RGB和深度图像0k l .与WSNet不同，我们不需要特殊设计的算法来减少计算成本。同一组中的权重通道可以被一个通道替换，相应的特征图可以由该组中所有特征图的平均值替换。这样的替换不会改变输出。详细信息请参见图4。03.6. 跨领域共享的好处0正如我们上面所描述的，权重共享的好处之一是它提供了一种在推理时间上加速的自然方式。跨领域权重共享的另一个优势是相比于任何其他单领域压缩方法，它允许更大的模型容量。对于具有输入大小 n input 的特定层，如果我们想要20倍的压缩率，对于单模型压缩，我们只能保留每个模型的5%的权重，但对于跨领域权重共享，我们可以有 0 . 1 ninput个聚类，比单领域压缩方法多两倍。请注意，权重共享是实现这种结果的关键。相对较大的模型容量在需要极端压缩率时尤为重要。04. 实验0我们在三个不同的数据集上评估了所提出的方法，并进行了两个任务的比较。我们将我们的方法与一系列修剪和稀疏诱导方法进行比较。修剪算法包括结构化权重修剪[13,26]和单独权重修剪[51,8]。我们之所以只比较修剪和稀疏诱导方法，是因为这些方法是模型压缩算法的主要方法。此外，量化方法侧重于单个权重值共享，并可以基于修剪算法和所提出的方法应用。04.1. 实现细节0我们的方法和相关比较方法都是在pytorch[32]中实现的，其中一些比较方法0基于[52]的实现。稀疏性诱导方法仅应用于场景分类任务，因为在动作识别任务中，我们无法找到适合GrOWL或GroupLasso的超参数，无论我们使用近端梯度或软阈值作为优化方法，一些层总是变为零。对于SUN-RGBD数据集，我们使用图嵌入约束训练模型，训练100个epoch，批量大小为128。使用带动量的SGD作为优化器，动量设置为0.9，初始学习率为0.03。学习率每30个epoch衰减0.1倍。训练完成后，按照第3.4节中的描述进行权重共享。在权重共享阶段，使用相同的优化器进行60个epoch的微调，学习率设置为3×10^(-3)，使用相同的调度器。对于动作识别数据集，模型在每个域上分别使用[42]中的设置和五次裁剪数据增强进行训练。将模型放在一起，使用图嵌入约束进行80个epoch的训练，使用SGD和动量0.9，初始学习率为1 ×10^(-4)，批量大小为32。聚类后，使用相同的学习率进行60个epoch的微调。04.2. 数据集0SUN-RGBD数据集[39]包含从不同相机拍摄的10,355对RGB和深度图像。我们遵循[18]中的实验设置。我们选择了19个类别进行实验，其中4,845张图像用于训练，4,659张图像用于测试。UCF-101数据集[40]包含从YouTube收集的逼真视频。它包含101个动作类别，总共有13,320个视频（9,537个视频用于训练，其余用于测试）。我们使用UCF-101split-1进行训练和测试。HMDB-51数据集[24]包含大约7,000个视频片段，分布在51个动作类别中。每个类别包含至少101个视频片段。我们使用HMDB-51数据集的官方发布中的split-1。04.3. RGB-D场景分类0对于SUN-RGBD数据集，我们遵循[18]中的相同实验设置。HHA图像的提取方法如[6]所述。正如我们在第3节中讨论的那样，我们计算两个域之间的平均分数融合。同时，我们使用加权交叉熵作为常见的实践方法，每个类别的权重由 w (t ) = N cmax − N cmin N t − N cmin + τ 给出，其中 N (t ) 是第 t 个类别中的示例数量，c max是样本最多的类别，c min是样本最少的类别。对于两个域，我们使用在Placed365数据集上预训练的AlexNet。在表1中，我们列出了SunRGB-D数据集的网络设置。k A 和 k B是我们方法的两种不同设置。GrOWL的设置是使用GrOWL正则化训练后的结果。列表中的数字是跨域模型的唯一输入通道数。conv16666conv2128321612conv3384964812conv47841929621conv55121286472fc11843210245121037fc28192512512423fc38192819281928192For action recognition tasks, during training we combinetwo popular methods TSN [42] and two-stream [5]. VGG-16 is used for action recognition task. As in [5], we use5-crops data augmentation in training. The optical ﬂow im-ages are extracted based on [46]. Following TSN, we split avideo into three segments, and random samples RGB framefor each segment. Once we have the index of RGB frame,we sample the same index and following 10 frames in hori-zontal and vertical optical optical ﬂow. The horizontal andvertical ﬂow images are stacked to a 224 × 224 × 20 cubicto feed into optical ﬂow DNN model.89790表1：AlexNet [23]在SUN RGB-D数据集上的网络设置。0层原始 k A k B GrOWL0表2：SUN RGB-D数据集的结果。0方法性能率0原始 47.32% 1 GrOWL [47]44.28% 17.6 我们的方法 k A47.21% 14.8 我们的方法 k B47.01% 22.80从表2可以看出，GrOWL的性能比我们提出的方法低近3%。即使GrOWL的压缩率与我们方法的k B设置相似。这表明，对于跨域模型，稀疏性诱导方法通常会给出次优解。此外，我们的方法可以被视为没有稀疏性的GrOWL。在这个实验中，我们给出了我们方法的两种设置k A和 kB。尽管压缩率不同，但性能只有很小的差异，这表明我们的方法对超参数调整是鲁棒的。另一方面，GrOWL对超参数敏感，表2中的结果是在GrOWL中给出不同超参数设置的十多轮实验中获得的。04.4. 动作识别数据集0r .对于不同的设置，r设置为2、4或8。为了相对公平的比较0为了比较，我们分别将修剪率（表4中的p-rate）设置为0.3、0.5或0.75。0动作识别数据集中VGG-16 [38]的网络设置表格0层原始 k A k B k C0conv1 23 23 23 23 conv2,3 128 32 32 16conv4,5 256 64 64 16 conv6到8 512 128128 64 conv9到13 1024 256 128 64 fc150176 1024 512 256 fc2 8192 512 512 256fc3 8192 8192 8192 81920用于比较方法的VGG-16 [38]的网络设置表格0层原始 p-rate 0.3 p-rate 0.5 p-rate 0.750conv1 3 3 3 3 conv2,3 64 44 32 16 conv4,5 128 90 6432 conv6到8 256 180 128 64 conv9到13 512 358 256128 fc1 25088 17561 12544 6272 fc2 4096 2867 20481024 fc3 4096 4096 4096 40960在表3和表4中，我们列出了我们的方法和比较方法的目标网络结构的详细信息。表3和表4之间的主要区别在于，在表3中，所有的设置都是针对两个领域的，相反，4个设置只针对单个领域。例如，在k A的conv2中，我们有32个独特的通道，用于RGB和光流模型的128个通道。在p-rate0.5的conv2中，这里也给出了32个通道，这只适用于RGB或光流模型，对于两个模型，在p-rate0.5时，权重矩阵中有64个独特的通道。表5显示了UCF-101数据集和HMDB-51数据集的结果。比较方法后面的数字是该方法的修剪率（p-rate）。例如，“修剪或不修剪0.5”表示在修剪率为0.5时进行修剪或不修剪的方法。显然，与所有其他方法相比，我们的方法可以在性能和压缩率之间取得最佳结果。此外，个体权重修剪算法比群体权重修剪算法更好（几乎有10%的绝对改进）。像Apoz [13]和Ef�cientNetwork[26]这样的群体权重共享方法通常会出现较大的性能下降（与原始方法相比下降6%到10%），即使只有很小一部分的修剪率。123456789100102030405060123456789100100200300400500600Rs =89800动作识别数据集的总体结果表格0方法性能率0UCF-101数据集0原始 88.52% 1 修剪或不修剪0.5 [51] 87.7% 2敏感性 [8] 0.5 87.9% 2 Ef�cient convnet[26] 0.578.3% 2 Apoz 0.5 [13] 79.6% 2修剪或不修剪0.75 [51] 83.8% 4 敏感性 0.75[8]77.9% 4 Ef�cient convnet [26] 0.75 58.9% 4Apoz 0.75 [13] 69.6% 40我们的 k A 88.21% 12 我们的 k B88.9% 23 我们的 k C 87.7% 460原始 5个裁剪 90.8% 1 我们的 k B 5个裁剪91 % 230HMDB51数据集0原始 57.51% 1 Apoz 0.3 [13] 53.6% 1.42 Ef�cientconvnet 0.3 [26] 51.8% 1.42 Apoz 0.5 [13]47.7% 2 Ef�cient convnet 0.5 [26] 20.8% 20我们的 k B 57.4% 23 我们的 k C 56.9%460原始 5个裁剪 59.9% 1 我们的 k B 5个裁剪59.8 % 230(0.3或0.5)。这些观察结果与单一RGB模型修剪结果不一致。至少在修剪率为0.3或0.5时，许多算法可以保持性能。这可能有很多原因，非RGB领域所需的模型容量可能比RGB领域大，因此修剪一些通道可能会严重损害性能。另一个可能性是数据集的难度，HMDB-51被认为比UCF-101更难。因此，在HMDB-51数据集上保持性能并不容易。0另一个有趣的现象是我们的方法对一组不同的超参数是稳健的。性能在相对较高的压缩率（46倍）之后开始下降（绝对性能损失不到1%）。对于三个数据集的五个不同设置，压缩前后的最大差异为0.8%。在UCF-101的k B设置中，我们的方法比原始方法好0.4%。总的来说，与稀疏引导方法相比，我们的方法更容易进行超参数搜索，并且可以在性能和压缩算法之间取得更好的平衡。0（a）设置A0（b）简单约束0图6：VGG-16的conv13层中最大10个组的组大小。设置A，在图（a）中，可以达到88.2%。简单约束在图（b）中可以达到87.5%。随机分组可以达到87.3%。04.5. 组大小的研究0我们的方法还与随机共享和简单相似性约束进行了比较。简单地说，给定一个相似性映射 Sim l 在层 l ，我们定义：0� 1 − S l ( i, j ) ，如果 S l ( i, j ) ≤ t，否则为 S l ( i, j ) 。 (13)0这表明，如果通道相似性大于 t，我们会将特征图和权重推得更近。 t设置为0.3。使用这样的约束会导致压缩模型中高度不平衡的组。从图6可以明显看出，大而不平衡的组会损害性能，并使结果接近于随机共享。这表明我们方法的一个关键因素是具有平衡的组。在两个领域中都有一些组的组大小为1。这可以被视为只捕捉领域特定信息的领域私有部分。在领域分离网络[2]中，可以找到类似的论证。生成的压缩模型可以分为两部分，领域共同部分和领域分离部分。根据这个论证，我们的方法可以被看作是一种识别跨领域模型中领域共同部分的方法。领域共同部分对于跨领域模型压缩是必不可少的，因为它可以在不同领域之间重复使用。05. 结论0在本文中，我们解决了跨领域设置中的模型压缩问题。为了实现这个目标，我们使用图嵌入作为跨领域模型的正则化。根据聚类特征的结果，权重被结构化共享。我们的方法在压缩率上可以达到最先进的结果，并且在两个不同的任务上几乎没有性能损失。每个层中的组大小被确定为我们方法成功的关键因素之一。[15] I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, andY. Bengio. Binarized neural networks. In Advances in neuralinformation processing systems, pages 4107–4115, 2016.[16] I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, andY. Bengio. Quantized neural networks: Training neural net-works with low precision weights and activations. The Jour-nal of Machine Learning Research, 18(1):6869–6898, 2017.[17] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding upconvolutional neural networks with low rank expansions.arXiv preprint arXiv:1405.3866, 2014.[18] Z. JG, H. KQ, et al. Df2net: A discriminative feature learn-ing and fusion network for rgb-d indoor scene classiﬁcation.2018.[19] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neuralnetworks for human action recognition. IEEE transactionson pattern analysis and machine intelligence, 35(1):221

下载后可阅读完整内容，剩余1页未读，立即下载