ReSprop: 稀疏反向传播加速CNN训练，保持高精度

83 浏览量更新于2024-06-20 收藏 698KB PDF 举报

标题"ReSprop：重用稀疏反向传播对CNN训练加速、准确度损失较小的研究"聚焦于提升卷积神经网络（CNN）的训练效率和精度。传统的CNN训练过程中，大量的计算集中在梯度更新上，而研究发现大约90%的梯度在整个训练期间是重复的。这一发现启发了ReSprop算法的设计，该算法利用这一观察，通过重用稀疏梯度来减少反向传播计算。 ReSprop的核心思想是通过细粒度的稀疏性来降低计算密集度，这种方法类似于Resprop（Resource Propagation）引入的计算减少策略。它能够在保持高精度的同时，将CIFAR-10、CIFAR-100和ImageNet等数据集上的精度损失控制在1.1%以内，显著地降低了反向传播计算的需求，从而实现了10倍的计算减少。这种加速效应使得整体训练时间缩短了2.7倍。为了进一步优化稀疏计算，研究人员开发了一个通用的稀疏卷积神经网络加速器（GSCN），它专为稀疏卷积神经网络设计，能够与ReSprop紧密结合。在与GSCN结合时，例如在ResNet34和VGG16模型上，GTX1080Ti GPU的反向传播速度可以提升至原来的8.0倍，这意味着更高效的计算处理能力。这项研究不仅关注于性能提升，还兼顾了模型的精度，表明在追求效率的同时，并没有牺牲太多模型的准确性。通过对比不同体系结构的实验结果，如图1所示，向后传播（Backward Propagation）的效率得到了明显改善，特别是在ResNet18、ResNet34、ResNet50、WRN-50-2、VGG16和VGG19等模型上，验证了ReSprop的实用性和有效性。总结来说，ReSprop是一种创新的算法，它通过重用稀疏梯度和稀疏计算策略，实现了CNN训练的高效和精准。这种技术有望在未来推动深度学习模型的训练过程，提高计算效率，减少资源消耗，为实际应用中的大规模神经网络训练带来重大进步。

1550

阿

吉

勒

转动依赖于它的矢量（等式2和3）在后向传递中被更

新。本质上，ReSprop预先计算输出梯度向量的一部

分，这反过来又能够预先计算反向传播值的一部分。

我们推测训练样本之间存在大量相似特征，这促使我

们探索在小批量之间重用输出梯度。我们专注于重复

使用的连续迭代之间的输出梯度的子集的可行性我们

提出了一种重用策略，利用预先计算的输出梯度从以

前的迭代，同时执行计算，只有显着改变的输出梯度

在当前的迭代（小批量）。我们将重用策略定义如

下：如果输出梯度的分量与其先前迭代相比改变超过

自适应阈值，那么我们使用当前（第i）迭代值;否则，

我们重用上一次迭代的值。我们引入一个向量，我们

称之为

混合输出梯度（

）

。我们定义

HG，使得它包含前一次迭代的梯度的x%在这里，x%

被称为重用百分比。迭代i处的层1的HG被定义为：

Anderson等人在高维空间37中

，

是两个向量之间的相

对小的角度，使得两个向量具有相似的方向。

θ= HG，原始梯度> θ= meProp，原始梯度>

θ= 37°

100

30% 50% 60% 70% 80% 90%

稀疏百分比（meProp）/重用百分比（HG）

图2. HG和meProp角度分别用于不同的重用百分比和稀疏

度。该角度是通过在CIFAR-10上训练ResNet-18进行100次迭

代（批量大小=128）时找到所有层的平均角度来

（HG）=（）

+Th[（

）−

（

）

（4）

−

1+ 1

−

表

1.meProp

和重复使用策略（

）的验证准确性

我们使用符号（a

）

来表示向量a在

层l和迭代i。每一层都有自己的自适应广告，

调整阈值（

），其满足重用百分比。在层1处应用于

输出梯度向量V的函数Th

（V）（其中Th代表

分别具有不同的稀疏度和重用百分比。在CIFAR-10上训练

ResNet-1830个epoch（批量大小= 128，lr =

0.1

优化器

= SGD

）。

图2展示了原始输出梯度向量和HG向量（深绿色）

乌斯季

夫

一世

∈

：u

|> T

0 |

|≤

（五）

条）和meProp梯度（浅蓝色条）。如1处所示，连续迭

代的输出梯度向量之间的角度接近90

。这表明，连续

出-

其中，

，

表示输出向量

（

）的元素，

是每层自适应阈值。在第4节中，我们解释了如何使

用（HG

）

来稀疏化使用ReSprop的反向传播。在这

里，我们凭经验表明，HG

是原始输出梯度（

WGL

）的

良好近似，并且

+1个

用HG向量训练网络是可行的

为了研究HG和原始输出梯度之间的相关性，我们使用

余弦相似性来研究角度保持根据高维计算理论[25]，

从高维空间d

中随机

选取的两个独立的各向同性向量

近似正交。如果HG vec之间没有相关性，

tor和原始输出梯度，它们将形成大约90

的角度。另一

方面，Andersonet al. [5]证明了在高维空间d（d

→∞

）

中对随机向量进行二值化，以最小的变化保持向量方

向，并且随机向量及其二值化版本形成约37

的角度。

根据

放置梯度近似正交。但我们

观察到，通过HG重用策略，在连续迭代中重用输出梯

度的子集将原始输出梯度和HG向量之间的角度减小到

小于37

。我们通过研究角度保持特性和有效性将此策

略与meProp [55]进行比较。

这些算法的精度。meProp算法将未按幅度排名在Top-

K中的输出梯度图3和图2具有稀疏输出梯度。图2显示

了原始输出梯度和meProp之间的角度。由于余弦相似

性对于零向量是未定义的，因此不呈现100% 稀疏

meProp的角度我们可以看到HG比meProp的稀疏输出

梯度更好地保留了原始的输出梯度方向表1进一步验证

了重用梯度时的网络收敛。该表显示了与设置小幅度

相比，重复使用具有小幅度变化的输出梯度（HG Val

Acc）

角度

重用

HG Val Acc

稀疏性

meProp Val Acc

百分

之五

十

84. 21 ±0

。

百分之

五十

84. 14 ±0

。

百分

之六

十

84. 11 ±0

。

百分之

六十

六十四

29 ±0

。

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

ReSprop: 稀疏反向传播加速CNN训练，保持高精度

Deep Learning 优化小结1

深度学习优化艺术：精通反向传播算法的细节与高级技巧

【卷积神经网络：新手必备5大入门技巧】：快速掌握CNN基础与实战应用

【移动端CNN优化】：轻量化架构设计与应用的终极指南

探索CNN中的全连接层

YOLOv8与深度学习框架优化：提升PyTorch性能技巧

迁移学习与半监督学习：打造混合模型的优势策略

MATLAB深度学习精进之路：卷积神经网络的深入应用

【神经网络参数调优艺术】：金融预测性能的关键

【AI计算效能提升】：Orin平台性能优化终极指南

最新资源