FPGA加速CNN：卷积神经网络在Altera OpenCL下的实现与优化

版权申诉

5星 · 超过95%的资源 45 浏览量更新于2024-08-11 4 收藏 746KB PDF 举报

本文主要探讨了卷积神经网络（CNN）在现场可编程门阵列（FPGA）上的实现方法，特别是针对Nallatech公司基于Altera OpenCL软件开发套件的产品。CNN因其在图像识别任务中的高效性能而被广泛应用，特别是在大规模的图像分类问题中。首先，文章强调了Caffe深度学习框架在CNN设计中的重要作用。Caffe以其强大的表达能力、高速度和模块化特性，允许用户通过XML接口轻松配置不同类型的处理层，如卷积层、池化层、ReLU层以及全连接（IP/FC）层。这些层的组合能够根据具体需求快速构建定制化的网络结构。将这些基础层移植到FPGA上，可以显著提升CNN处理速度，同时通过调整计算精度来优化性能，牺牲一部分精度以换取更高的吞吐量。例如，卷积层通过一系列可学习的滤波器对输入图像进行卷积操作，每个滤波器产生一个特征图，捕捉图像的不同特征。池化层则通过非重叠的窗口滑动并取最大值，减少数据维度，提高计算效率。ReLU层在保持神经元活跃的同时，避免梯度消失问题，而IP/FC层则负责将图像转换为一维向量，便于后续处理。文中提到的ImageNet CNN网络是一个经典案例，它由多个卷积层和全连接层构成，这些层占据了网络处理时间的绝大多数。通过将ImageNet CNN移植到FPGA上，开发者可以直接修改Caffe XML网络描述文件中的层参数，以适应FPGA硬件环境。这篇文档提供了在FPGA上实现CNN的具体步骤和技术细节，包括使用Caffe框架、优化计算精度、选择合适的网络层以及实际应用到ImageNet等大型数据集的网络架构。这对于那些希望利用FPGA进行深度学习加速的开发者来说，是一份实用的技术指南。

图4：Arria 10定点DSP配置

根据CNN卷积神经⽹络的应⽤性能要求，可以进⼀步降低位精度。如果乘法的位宽可以减少到10位或更少，则可以仅使⽤

FPGA ALU有效地执⾏乘法。与使⽤FPGA DSP逻辑相⽐，这样可以增加可乘数。

OpenCL库函数

Altera提供了将⽤户定义和优化的IP组件纳⼊其编译器⼯具流程的能⼒。这允许使⽤标准库符号创建和包含这样的优化功能。

库组件允许有经验的HDL程序员以汇编语⾔程序员创建的⽅式创建⾼效的实现，并且包含x86优化的函数。

对于ImageNet使⽤的CNN - 卷积神经⽹络层，简单的定点实现可以采⽤10位系数来获得的最⼩减少量，这相对于单精度浮点

运算保持⼩于1％的误差。因此创建10位3×3卷积的优化库，受FPGA资源的限制，这个库被实现（复制）多次。

图5：Arria 10 GX1150资源

Arria10最⼤的可⽤设备是GX 1150.该设备具有约512个卷积块的资源以及应⽤程序控制逻辑。Nallatech 510T硬件平台

卷积内核的并⾏运算增加的数量加⼤了对输⼊带宽要求。为了避免全局内存成为瓶颈，⼀次计算多个图像时候可以为每个不同

的图像重新使⽤卷积滤镜权重。这对于FC层是特别重要的，其中对于每个点对点连接需要新的⼀组滤波器权重，其中从全局

存储器检索权重的瓶颈是瓶颈。幸运的是，卷积层重⽤了特征图像中每个点的权重数据。最⼩卷积特征图像为13×13像素，因

此卷积权重仅在最坏情况下每169次迭代更新⼀次。

图6：Nallatech 510T加速器

选择硬件平台Nallatech 510T实现CNN - 卷积神经⽹络，Nallatech 510T是与⼤多数服务器平台的GPU相兼容的FPGA加速

卡，旨在兼容英特尔⾄强Phi或GPGPU加速器。Nallatech 510T 具有两个Altera Arria 10 GX 1150 FPGA，具有60 GBytes /

sec的外部存储器带宽⽤于加载权重、输⼊和输出数据。510T的典型功耗仅为150W，不到⾼端GPU功耗的⼀半。使⽤10位系

数数据进⾏FPGA实现的另⼀个好处是可以从全局存储器读取的重量数据量与浮点数据的三倍。

使⽤Nallatech 510T加速器，可以处理16个并⾏图像，每个图像具有并⾏处理的64个内核。这是通过并⾏⽣成8个输出特征和8

个像素来实现的。总共提供了1024个并⾏的3×3内核。

在我们的实现中，我们为1个图像创建了⼀个OpenCL内核系统，并在FPGA资源限制的情况下复制了这个多次。卷积权重对于

每个图像重新使⽤，因此当缩放到多个并⾏图像时，对全局内存要求的增加最⼩。

结果分析

通过应⽤上述FPGA系统，每个图像需要9毫秒才能被FPGA分类。使⽤510T处理的12个并⾏图像，平均每个图像的时间为748

微秒。这是每天超过1.15亿张图⽚。

剩余10页未读，继续阅读

_webkit

粉丝: 30
资源: 1万+

FPGA加速CNN：卷积神经网络在Altera OpenCL下的实现与优化

CNN FPGA加速概述

基于FPGA的深度学习目标检测系统的设计与实现.pdf

CNN唯一开源FPGA实现

卷积神经网络的FPGA实现

CNN-LSTM神经网络原理

jl卷积神经网络与fpga

基于卷积神经网络和FPGA的图像识别

FPGA实现卷积神经网络

一维卷积神经网络(cnn-1d)结合lstm,第二个模型为一维卷积神经网络(cnn-1d)结合gru

python：实现人马图像分类--卷积神经网络

最新资源