卷积神经网络优化与加速技术探索

161 浏览量更新于2024-06-17 收藏 1.83MB PDF 举报

“卷积神经网络优化和加速：综述” 卷积神经网络（CNN）是深度学习领域中的关键组成部分，特别是在计算机视觉任务中扮演着重要角色。CNNs 的设计灵感来源于人脑的视觉皮层，能够有效地处理图像、视频和其他高维数据。近年来，随着大数据集的可用性和计算能力的提升，CNNs 在各种应用中取得了显著的成果，例如图像识别、目标检测、语义分割和自然语言处理。然而，CNNs 的训练过程是计算密集型的，需要大量的计算资源和时间。传统的优化方法如随机梯度下降（SGD）在大型模型上可能会变得效率低下，尤其是在实时或嵌入式系统中，对计算速度和能源效率有严格要求。因此，研究者们提出了多种策略来优化和加速 CNNs，包括但不限于以下三个方面： 1. 参数优化：优化算法的选择对于训练速度和模型性能至关重要。除了基础的 SGD，还有诸如 Adam、NADAM 和 RMSprop 等更先进的优化器。这些优化器采用了不同的动量和适应性学习率策略，可以更快地收敛并减少过拟合。 2. 激活函数：ReLU（Rectified Linear Unit）是当前最常用的激活函数，因为它解决了传统 sigmoid 和 tanh 函数的梯度消失问题。但是，也出现了 Leaky ReLU、ELU（Exponential Linear Units）等变体，旨在进一步改善梯度传播和模型的表达能力。 3. 并行化和硬件加速：为了加速计算，研究人员利用 GPU 和其他并行计算平台进行分布式训练。HyPar 是一种这样的并行化框架，它通过将计算任务分解到多个处理器上，极大地提高了训练速度。此外，针对特定硬件的优化，如 FPGA 和 ASIC，也成为了加速 CNN 计算的新趋势。文章还讨论了 CNN 架构的演化，从经典的 LeNet 到 AlexNet、VGG、GoogLeNet、ResNet 等更复杂的网络结构。这些结构上的改进，如残差连接和深度可分离卷积，不仅增加了模型的容量，还减少了计算复杂度，有助于实现更快的训练速度和更高的准确度。 CNN 的组件如卷积层和池化层是其核心部分。卷积层通过学习的滤波器对输入数据进行操作，提取特征；池化层则用于下采样，降低计算量同时保持关键信息。此外，现代 CNNs 常常结合批量归一化、dropout 等正则化技术，以防止过拟合并提高泛化能力。该综述提供了关于 CNN 优化和加速的全面概述，涵盖了从算法层面到硬件实现的多种方法。通过了解和应用这些技术，研究者和工程师可以更好地应对实时应用中的计算挑战，从而实现更高效、更节能的 CNN 训练。

G. Habib

和

S. Qureshi

沙特国王大学学报

4248

对于小尺寸矩阵，就乘法减少而言，它显示出更好的性能，但另一

方面，与

Strassen

算法相比，它会导致更多的加法所提出的算法的

性能类似于

Wino-grad

算法，但是当矩阵大小减小时，

Wino-grad

算

法优于混合算法（

Chen

等人，

2015

年）。该算法的主要局限性在

于，虽然它大大降低了

CNN

的计算成本，但它很难在实时应用和嵌

入式系统中实现。还通过在并行化

CNN

中造成障碍而使

CNN

的硬件

加速变得困难（

Zhao

等人，

2018

年）。

（王玉林赵东辉等，

2019

年）为了克服这些快速卷积算法在上述

实时和嵌入式系统中实际实现的困难，这些算法需要较低的作者提出

了使用快速卷积算法的各种加速器设计。所提出的设计都是基于现场

可编程门阵列的，要求低功耗，图形处理单元虽然是一个出色的处理

器，但是功耗很大。与

GPU

相比，现场可编程门阵列（

FPGA

）由

于其灵活的性质而被广泛实现，并且在其他方面是节能的。设计使用

Xilinx kintex-7 32 t FGPA

和

vivado 2014.3

使用

ver- ilog

实现和评

估

FGPA

的实现在

100 MHz

下进行实验结果表明，所有设计在执行

相似矩阵卷积时所花费的时间几乎相同，在功耗分析方面，基于

Strassen

算法的设计比传统算法的设计功耗降低了4%

Rithm。然而，信号和逻辑功率的设计是比较，

基于Winograd算法的设计比传统最后，基于Strassen和 Winograd

算法优于所有的，并显示出

：

的总动态功耗小于传统的设计。

作者得出结论，所提出的设计能够降低总体资源利用率和功耗。越远

也能够提高适合相同

FPGA

的设计的性能（

Zhao

等人，

2019

年）的

报告。

(JeanKossaifi Adrain Bulat et all in 2019

）通过将张量分解与

有效卷积联系起来，提出了一个统一的框架他们还展示了如何从这个

统一的框架中衍生出其他计算效率高的框架。他们将卷积表示为低秩

的线性组合，并有效地重构卷积从论文的实证分析中，他们表明，

通过利用现有的框架，所提出的算法可以他们还表明，该方法是计算

效率，内存效率和有效的准确性。他们通过利用高阶张量分解理论

上推导出用于

卷积的有效卷积算法（

Kossaifi

等人，

2019

年）的

报告。

（

Partha Maji Andrew Mundy

等，

2019

年）基于流行的

Cook-

Toom

或

Winograd

卷积的一类算法由于其巨大的计算负担而限制了

对嵌入式设备的应用。作者试图通过在最新的

Arm cortex-A CPU

上

设计基于卷积的高效算法来弥补这一差距，这些算法他们提出的方法

的结果表明，比现有技术提高了60%（

Maji

例如，

2019

年）的报告。

(DiHaung Xishan Zhang et all in 2020

）如上所述，最流行的

快速卷积算法之一是

Winograd

减少乘法以加速CNN。但当核大小大于1且步长大于1时，该算法失

败。对于较大的卷积核大小，它会导致FLOPS数量的显着增加，并具有

精度下降的问题。为了解决Winogard最小过滤算法所面临的问题。Di

Haung等人提出了被称为可分解Winograd算法（DWM）的修改的

Winograd算法。该方法将大于3 3的核或步长大于的核分解为步长为1

的小于或等于3 3的小核，并对这些小核应用Winograd算法。因此，以

这种方式，DWM有助于减少乘法运算而不降低精度。DWM可以适用于

任何大小的卷积核，否则这是原始Winograd算法中最大的问题。DWM

能在不降低数值精度的情况下达到20倍的加速比。他们在NVIDIA V

100 GPU上测试了所有结果，并在Tensor Flow（Abadi et al. 2016）

和PyTorch（Paszke et al. 2017）上实现了DWM。这些平台允许我们

使用DWM作为播放和插入操作符，使其在推理和训练时更容易使用。

作者观察到DWM优于原始的Winograd算法，特别是在大内核的情况

下。有时，DWM显示出比CuDNN更好的性能（Huang等人， 2020

年）。

（

Chao Cheng Keshab K.Path

，

2020

年）提出了用于

和

卷积的快速

CNN

的效率可以只增加，如果乘法操作，在增加加法运

算的该算法提供了灵活性，因为它处理具有相似大小的输入和输出特

征图，并且与卷积权重核大小无关。该算法不仅加快了计算时间，而

且大大提高了内存访问效率。实验结果表明，与直接二维卷积算法相

比，该算法可节省高达

3.24

的乘法因子所提出的算法的潜力是，它是

适用于软件以及硬件实现。

并行卷积算法可以简单地以即插即用

的方式实现（

Cheng

和

Parhi

，

2020

）。

2.4.

CNN

新闻主义

CNN在计算机视觉、文本分类、卫星图像和游戏方面的杰出成就这

些CNN许多现有的并行化技术已经用来改进CNN的训练。大多数技术

都采用数据并行来加速CNN的训练。但是这项技术提出了一些上面已经

提到的关键挑战。另一种最常用的方法是模型并行，将整个网络分成不

相交的集合，每个不相交的集合被分配给专用设备以提高性能。训练

效率。

（Zhihao Jia Sina Lin et al. 2018）提出了分层并行化，允许每一

层利用单独的并行化。它们允许使用图搜索问题优化每一层。他们使用

两个不同的图清楚地定义了prallelization问题。设备图和计算图，设备

图表示所有现有的硬件以及设备如何相互连接。后者表示如何为CNN

网络分配设备图。提出了代价模型，通过动态图搜索算法，利用

剩余24页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

卷积神经网络优化与加速技术探索

卷积神经网络综述

卷积神经网络结构优化综述.docx

卷积神经网络的压缩和加速

深度卷积神经网络最新架构综述：性能提升的关键

"深度卷积神经网络最新进展综述：2019年CNN架构创新全面解析

卷积神经网络研究综述.pdf

卷积神经网络结构优化综述_林景栋(2019-09-04-18-25_read)1

卷积神经网络综述 (2).pdf

基于3D-cube结构的卷积神经网络硬件加速.docx

深度学习优化焦点：卷积神经网络结构精简与加速策略综述

最新资源