移动GPU加速CNN计算：实战优化与时间减半

需积分: 0 140 浏览量更新于2024-08-05 收藏 381KB PDF 举报

本文主要探讨了卷积神经网络（CNN）在移动GPU上的加速研究，由作者王湘新和时洋、文梅共同完成，发表于2019年9月8日。CNN在图像分类、语音识别等领域的广泛应用使得将其部署到移动设备，特别是手机上成为研究热点。然而，由于CNN的高计算需求，直接移植到手机上往往导致性能瓶颈，尤其是在GPU资源有限的设备上。研究者们注意到，移动GPU作为手机中的强大计算单元，其潜力尚未充分挖掘。因此，文章的核心内容围绕如何通过深度学习框架MXNet在手机上实现CNN的前向传播，并重点优化卷积运算，这是整个流程中最耗时的部分。通过OpenCL通用编程框架，研究人员将卷积操作转化为矩阵乘法，从而实现了GPU上的并行计算，显著提升了计算效率。在技术实现上，他们首先设计了一种策略，将CNN模型适配到移动GPU的架构，然后针对性地对GPU进行了优化，包括内存管理和数据流水线调度，以减少延迟。实验结果显示，经过这些优化，前向过程的时间相比原始方法被减半，这表明该方法在提升移动设备上CNN性能方面取得了显著成果。本文的研究对于推动CNN在移动设备上的实际应用具有重要意义，特别是在资源受限的环境中，通过合理的GPU加速策略，能够有效提高深度学习任务的处理速度，为用户提供更流畅的体验。此外，它也为其他研究者提供了在移动GPU上优化CNN计算的实用参考和技术路径。

Ｃ

ＮＮ

卷积计算在移动

ＧＰＵ

上的加速研究

＊

王

湘新

１

，

时

洋

２

，

文

梅

２

（

１

．

武警湖南省消防总队信息中心

，

湖南长沙

４１０２０５

；

２．

国防科技大学计算机学院

，

湖南长沙

４１００７３

）

摘

要

：

卷

积神经网络

（

Ｃ

ＮＮ

）

凭

借其优秀的表现正在诸如图像分类

、

语音识别等领域里扮演着越来

越重要的角色

，

已经有一些研究人员想要将这个深度学习过程复制到手机上

。

但是

，

由于

Ｃ

ＮＮ

巨

大的计

算量

，

移植程序的性能一直难以令人满意

。

为了探讨如何解决这一问题

，

借助

Ｍ

ＸＮｅｔ

这

样一个深度学习

的框架在手机上实现了

Ｃ

ＮＮ

的

前向过程

，

并且将注意力放在了使用手机上另一个强大的计算设备

—

——

Ｇ

ＰＵ

上

。

最

终选择使用

Ｏ

ｐ

ｅ

ｎＣＬ

通用编程框架将前向

过程中最耗时的卷积操作利用矩阵乘来完成

，

并转

移到

Ｇ

ＰＵ

上

进行

。

在此基础之上还针对手机

Ｇ

ＰＵ

做

了一些优化

。

最终

，

实验结果显示我们成功地将前

向过程的时间降低到了原来时间的一半

。

关键词

：

Ｃ

ＮＮ

；

手

机

；

移动

Ｇ

ＰＵ

；

快

速算法

；

Ｏ

ｐ

ｅ

ｎＣＬ

中

图分类号

：

Ｔ

Ｐ３９１．４

文

献标志码

：

Ａ

ｄ

ｏｉ

：

１０．３９６９

／

ｊ

．ｉｓｓｎ．１００７

－

１

３０Ｘ．２０１８．０１．００５

Ａ

ｃｃｅｌｅｒａｔｉｎ

ｇ

ＣＮＮ

ｏｎ

ｍｏｂｉｌｅ

ＧＰＵ

Ｗ

ＡＮＧ

Ｘｉａｎ

ｇ

－

ｘ

ｉｎ

１

，

Ｓ

ＨＩ

Ｙａｎ

ｇ

２

，

Ｗ

ＥＮ

Ｍｅｉ

２

（

１

．Ｉｎｆｏｒｍａｔｉｏｎ

Ｃｅｎｔｅｒ

ｏｆ

Ａｒｍｅｄ

Ｐｏｌｉｃｅ

Ｆｉｒｅ

Ｃｅｎｔｅｒ

，

Ｃｈａｎ

ｇ

ｓｈａ

４１０２０５

；

２．Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

，

Ｎａｔｉｏｎａｌ

Ｕｎｉｖｅｒｓｉｔ

ｙ

ｏｆ

Ｄｅｆｅｎｓｅ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｃｈａｎ

ｇ

ｓｈａ

４１００７３

，

Ｃｈｉｎａ

）

Ａ

ｂｓｔｒａｃｔ

：

Ｃｏｎｖｏｌｕｔｉｏｎａｌ

Ｎｅｕｒａｌ

Ｎｅｔｗｏｒｋｓ

（

ＣＮＮｓ

）

ａｒｅ

ｐ

ｌａ

ｙ

ｉｎ

ｇ

ａｎ

ｉｎｃｒｅａｓｉｎ

ｇ

ｌ

ｙ

ｉｍ

ｐ

ｏｒｔａｎｔ

ｒｏｌｅ

ｉｎ

ａｒｅ

－

ａ

ｓ

ｓｕｃｈ

ａｓ

ｉｍａ

ｇ

ｅ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ

ａｎｄ

ｓ

ｐ

ｅｅｃｈ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｂｅｃａｕｓｅ

ｏｆ

ｔｈｅｉｒ

ｅｘｃｅｌｌｅｎｔ

ｐ

ｅｒｆｏｒｍａｎｃｅ．Ｓｏｍｅ

ｒｅ

－

ｓ

ｅａｒｃｈｅｒｓ

ｈａｖｅ

ａｌｒｅａｄ

ｙ

ｗａｎｔｅｄ

ｔｏ

ａ

ｐｐ

ｌ

ｙ

ｔｈｉｓ

ｄｅｅ

ｐ

ｌｅａｒｎｉｎ

ｇ

ｐ

ｒｏｃｅｓｓ

ｏｎ

ｍｏｂｉｌｅ

ｐ

ｈｏｎｅｓ

，

ｂｕｔ

ｔｈｅ

ｐ

ｅｒｆｏｒｍａｎｃｅ

ｏｆ

ｔｈｅ

ｐ

ｏｒｔｉｎ

ｇ

ｐ

ｒｏ

ｇ

ｒａｍ

ｉｓ

ｕｎｓａｔｉｓｆａｃｔｏｒ

ｙ

ｄｕｅ

ｔｏ

ｔｈｅ

ｈｕ

ｇ

ｅ

ａｍｏｕｎｔ

ｏｆ

ｃｏｍ

ｐ

ｕｔａｔｉｏｎ

ｏｆ

ＣＮＮ．Ｉｎ

ｏｒｄｅｒ

ｔｏ

ｅｘ

－

ｐ

ｌ

ｏｒｅ

ｈｏｗ

ｔｏ

ｓｏｌｖｅ

ｔｈｉｓ

ｐ

ｒｏｂｌｅｍ

，

ｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ

ｕｓｅｓ

ａ

ｄｅｅ

ｐ

ｌｅａｒｎｉｎ

ｇ

ｆｒａｍｅｗｏｒｋ

ｎａｍｅｄ

ＭＸＮｅｔ

ｔｏ

ｒｅａｌｉｚｅ

ｔｈｅ

ｆｏｒｗａｒｄ

ｐ

ｒｏｃｅｓｓ

ｏｆ

ＣＮＮ

ｏｎ

ｍｏｂｉｌｅ

ｐ

ｈｏｎｅｓ

ａｎｄ

ｆｏｃｕｓｅｓ

ｏｎ

ｔｈｅ

ｕｓｅ

ｏｆ

ＧＰＵ

ｔｈａｔ

ｉｓ

ａｎｏｔｈｅｒ

ｐ

ｏｗｅｒｆｕｌ

ｃｏｍ

－

ｐ

ｕ

ｔｉｎ

ｇ

ｄｅｖｉｃｅ

ｏｎ

ｔｈｅ

ｍｏｂｉｌｅ

ｐ

ｈｏｎｅ．Ｂａｓｅｄ

ｏｎ

ｔｈｅ

Ｏ

ｐ

ｅｎＣＬ

ｃｏｍｍｏｎ

ｐ

ｒｏ

ｇ

ｒａｍｍｉｎ

ｇ

ｆｒａｍｅｗｏｒｋ

，

ｗｅ

ｕｓｅ

ｍａ

－

ｔ

ｒｉｘ

ｍｕｌｔｉ

ｐ

ｌｉｃａｔｉｏｎ

ｔｏ

ｃｏｍ

ｐ

ｕｔｅ

ｔｈｅ

ｍｏｓｔ

ｔｉｍｅ

－

ｃ

ｏｎｓｕｍｉｎ

ｇ

ｃｏｎｖｏｌｕｔｉｏｎ

ｉｎ

ｔｈｅ

ｆｏｒｗａｒｄ

ｐ

ｒｏｃｅｓｓ

ａｎｄ

ｍｏｖｅ

ｉｔ

ｔｏ

ｔｈｅ

ＧＰＵ．Ｂｅｓｉｄｅｓ

，

ｓｅｒｖａｌ

ｉｍ

ｐ

ｒｏｖｅｍｅｎｔｓ

ａｒｅ

ｍａｄｅ

ｔｏ

ａｃｈｉｅｖｅ

ｂｅｔｔｅｒ

ｐ

ｅｒｆｏｒｍａｎｃｅ．Ｆｉｎａｌｌ

ｙ

，

ｔｈｅ

ｅｘ

ｐ

ｅｒｉ

－

ｍ

ｅｎｔａｌ

ｒｅｓｕｌｔｓ

ｓｈｏｗ

ｔｈａｔ

ｗｅ

ｓｕｃｃｅｅｄ

ｉｎ

ｒｅｄｕｃｉｎ

ｇ

ｔｈｅ

ｔｉｍｅ

ｏｆ

ｔｈｅ

ｆｏｒｗａｒｄ

ｐ

ｒｏｃｅｓｓ

ｔｏ

ｈａｌｆ

ｏｆ

ｔｈｅ

ｏｒｉ

ｇ

ｉｎａｌ

ｔｉｍｅ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ＣＮＮ

；

ｍｏｂｉｌｅ

ｐ

ｈｏｎｅ

；

ｍｏｂｉｌｅ

ＧＰＵ

；

ｆａｓｔ

ａｌ

ｇ

ｏｒｉｔｈｍ

；

Ｏ

ｐ

ｅｎＣＬ

１

引

言

关

于卷积神经网络

Ｃ

ＮＮ

（

Ｃｏｎｖｏｌｕｔｉｏｎ

Ｎｅｕｒａｌ

Ｎｅｔｗｏｒｋ

）

的

相关研究在过去几十年中取得了很多

的成果

，

Ｃ

ＮＮ

作为一种强有力的

方法在图像分

类

［

１

］

、

语

音识别

［

２

］

以

及目标检测

［

３

］

等

移动GPU加速CNN计算：实战优化与时间减半

mmdetection测试权重文件--faster_rcnn_r50_fpn_1x_20181010-3d1b3351.pth

cascade_rcnn_dconv_c3-c5_r50_fpn_1x_20190125-dfa53166.pth

python main_fed.py --dataset cifar --epoch 10 --num_channel 3 --gpu 0 --model_cnn --iid

pt_inception-2015-12-05-6726825d.pth

easy_lstm_cnn-master

cnn_faces_recognition-master

Traceback (most recent call last): File "C:\Users\马斌\Desktop\cnn测试\cnn-lstm改.py", line 57, in <module> lstm_input[:-cut,:,:,:],lstm_output[:-cut:],lstm_input[-cut:,:,:,:],lstm_output[-cut:] IndexError: too many indices for array: array is 3-dimensional, but 4 were indexed

cnn_image_denoising-master

cnn卷积神经网络笔记

最新资源