GFW加速卷积神经网络训练：显著性能提升算法

需积分: 0 144 浏览量更新于2024-08-05 收藏 235KB PDF 举报

随着深度学习在各个领域的广泛应用，如图像识别、自然语言处理等，卷积神经网络（Convolutional Neural Networks, CNN）的训练效率成为研究者关注的核心问题。由于CNN模型中卷积层占据了训练过程中的大部分计算量，特别是当处理高分辨率图像或大量卷积核时，如何优化这些密集计算任务，提升训练速度显得尤为关键。2019年由宋铁提出的GFW加速调度算法就是在这一背景下诞生的。 GFW算法的核心理念在于根据输入图像的大小和卷积核数量动态调整卷积操作的执行策略。通过比较不同的卷积运算方法，如通用矩阵乘法（GEMM）、快速傅立叶变换（FFT）以及Winograd算法，GFW算法旨在找到一种在特定场景下最有效的计算路径。GEMM是一种基础的矩阵运算，而FFT则常用于信号处理中的高效卷积，Winograd算法则是针对小尺寸卷积核设计的特殊算法，它们各自在不同条件下的性能各有优劣。在论文中，作者通过实验详细比较了GFW算法与传统方法的性能。实验对象是9层卷积网络，结果显示GFW算法在加速效果上显著优于其他方法。相比于GEMM卷积算法，GFW算法提供了2.901倍的加速；与FFT算法相比，GFW算法实现了1.467倍的加速；相对于Winograd算法，GFW算法的加速优势更为明显，达到了1.318倍。这些结果表明，GFW算法能够有效地减少卷积层的计算负担，从而整体提升神经网络的训练速度。该研究不仅对卷积神经网络的硬件加速具有实际意义，也为其他领域的深度学习模型提供了优化思路。通过GFW调度算法，研究人员和开发者可以针对具体应用场景灵活选择最适合的卷积运算策略，以降低计算成本，提高训练效率。此外，这项工作也体现了作者宋铁在GPU并行加速和深度学习领域的专业知识，他将这些技术应用于实际的算法设计中，展现了深厚的研究功底和创新能力。

2019 年软件 2019, Vol. 40, No. 3

第 40 卷第 3 期

COMPUTER ENGINEERING & SOFTWARE

国际 IT 传媒品牌

作者简介:

宋铁

(1992-)

，男，上海理工大学光电信息与计算机工程学院硕士，主要研究方向为

GPU

并行加速、深度学习。

基于卷积神经网络的 GFW 加速调度算法

宋铁

(上海理工大学光电信息与计算机工程学院，上海 200093)

摘要: 神经网络的广泛应用使得人们更加关注神经网络的训练，更高精度的要求给神经网络的训练带来了困

难，因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间，所以加

速卷积层的训练成为了加速神经网络的关键。本文提出了 GFW 加速调度算法，GFW 算法通过对不同卷积图像的大

小和卷积核的数量调用不同的卷积算法，以达到整体的最佳训练效果。实验中具体分析了 9 层卷积网络的加速训练，

实验结果显示，相比于 GEMM 卷积算法，GFW 算法实现了 2.901 倍的加速，相比于 FFT 算法 GFW 算法实现了 1.467

倍的加速，相比于 Winograd 算法，GFW 算法实现了 1.318 倍的加速。

关键词: 卷积神经网络；GEMM；FFT；Winograd 算法；GFW 调度算法

中图分类号: TP391; TP183 文献标识码: A DOI：10.3969/j.issn.1003-6970.2019.03.044

本文著录格式：宋铁. 基于卷积神经网络的 GFW 加速调度算法[J]. 软件，2019，40（3）：217-221

GFW Accelerated Scheduling Algorithm Based on

Convolutional Neural Network

SONG Tie

(School of Optical-Electrical and Computer Engineering, University of Shanghai

for Science and Technology, Shanghai, 200093, China)

【Abstract】: The wide application of neural networks makes people pay more attention to the training of neural

networks. The requirement of higher precision brings difficulties to the training of neural networks. Therefore, the

training of accelerated neural networks has become the focus of research. For the training of neural networks, the

convolutional layer occupies most of the training time, so the training of the accelerated convolution network be-

comes the key to accelerate the neural network. In this paper, the GFW accelerated scheduling algorithm is proposed.

The GFW algorithm calls different convolution algorithms on the size of different convolution images and the num-

ber of convolution kernels to achieve the overall optimal training effect. In the experiment, the acceleration training

of the 9-layer convolutional network is analyzed in detail. The experimental results show that compared with the

GEMM convolution algorithm, the GFW algorithm achieves 2.901 times acceleration; compared with the FFT algo-

rithm, the GFW algorithm achieves 1.467 times acceleration; Compared to the Winograd algorithm, the GFW algo-

rithm achieves a 1.318x acceleration.

【Key words】: Convolutional neural network; GEMM; FFT; Winograd algorithm; GFW scheduling algorithm

0 引言

自从深度学习被提出后，便迅速成为了研究的

热点。深度神经网络的应用使得图像分类，语音识

别和语言翻译等领域取得了很大的进步，并且在很

多方面已经超过了人类的识别能力。卷积神经网络

在图像和视频识别，推荐系统和自然语言处理等领

域取得了较好的效果，在本文中主要研究了卷积网

络训练与加速。

许多算法都被提出用以加速卷积神经网络的训

练，但是每个算法都有各自的优点和缺点，并且没

有一个算法可以处理所有情形的问题。在本文中，

我们在 GPU 环境下测试了不同算法对卷积神经网

络的加速性能。根据各个算法的特点和适合不同的

卷积输入图像的大小以及卷积核数量，我们对卷积

神经网络中不同的卷积层使用不用的调度策略以达

下载后可阅读完整内容，剩余4页未读，立即下载

西门镜湖

粉丝: 29
资源: 296

GFW加速卷积神经网络训练：显著性能提升算法

基于卷积神经网络的GFW加速调度算法.pdf

gfw-viirs-fires-api

wireguard-manager：:check_mark:自托管的Wireguard Manager

pip install 等待时间

ModuleNotFoundError: No module named 'jpegtran'

纯电动汽车模糊控制的相关文献

String 转 PrivateKey

在使用ANSYS ICEM CFD进行二维流体流动分析时，如何高效地创建网格以及设置基础的CFD分析参数？

在ANSYS ICEM CFD中如何快速建立二维流体流动的网格并进行基础的CFD分析？

最新资源