ZYNQ平台：基于FPGA的卷积神经网络硬件加速设计

需积分: 0 71 浏览量更新于2024-08-05 收藏 1.24MB PDF 举报

"ZYNQ的卷积神经网络硬件加速通用平台设计" 本文主要探讨了在人工智能领域中，卷积神经网络（CNN）的应用日益广泛，为了满足实际工程中的高效运算需求，如何将CNN算法有效地固化到嵌入式平台，特别是使用现场可编程门阵列（FPGA）进行硬件加速。文章特别关注Xilinx ZYNQ ZC706开发板，设计了一个通用的硬件加速平台，以适应不同CNN算法模块的加速需求。 CNN作为一种深度学习模型，其计算密集型特性使得数据并行度高、计算量大。因此，传统的CPU处理方式难以满足实时性和效率的要求，而FPGA因其可编程性和并行计算能力，成为了CNN硬件加速的理想选择。Xilinx的ZYNQ系列芯片集成了ARM处理器和FPGA逻辑单元，使得硬件加速与软件控制能够无缝集成，非常适合构建CNN加速平台。在文章中，作者冯光顺和应三丛详细介绍了基于ZYNQ ZC706的CNN硬件加速平台的设计流程和关键技术。他们首先分析了CNN的运算特点，包括卷积、池化和激活函数等操作，然后针对这些操作设计了高效的硬件加速器。这些加速器可能包括专门的卷积引擎、矩阵乘法单元以及针对特定激活函数如ReLU的硬件模块。在设计过程中，他们考虑了灵活性和可扩展性，使得该平台能够适应不同规模和结构的CNN模型。这通常涉及到对权重存储、数据流控制和并行计算策略的优化。此外，他们还可能探讨了如何利用FPGA的资源进行动态配置，以应对训练和推理阶段的不同需求。文章进一步讨论了实现过程中的挑战，如功耗管理、时序收敛以及与ARM处理器的接口设计。通过实例验证，展示了该平台在加速CNN运算方面的性能提升，并可能与其他硬件加速方案进行了对比，证明了其优越性。这篇研究论文提供了一个实用的CNN硬件加速解决方案，对于需要在嵌入式系统上实现快速、低延迟CNN处理的工程师和技术人员具有很高的参考价值。它不仅展示了FPGA在CNN加速上的潜力，也为未来基于FPGA的AI硬件设计提供了借鉴。同时，该工作还对FPGA在深度学习领域的应用和发展起到了推动作用。

敬请登录网站在线投稿

２０１９

年第

３

期

３

ＺＹＮ

Ｑ

的卷积神经网络硬件加速通用平台设计

＊

冯光顺

，

应三丛

（

四川大学计算机学院

，

成都

６１００６５

）

＊

基金项目

：

四川省科技厅科技支持项目

（

２０１６ＧＺ００９７

）。

摘要

：

近年来卷积神经网络

（

ＣＮＮ

）

在人工智能领域备受关注

，

被越来越多应用到实际生产中

。

为了较好地实现工程应

用

，

需要将算法固化到嵌入式平台上

。

由于卷积神经网络的数据计算并行度高

、

计算量大

，

现场可编程门阵列成为对其

进行硬件加速的重要工具

。

本文基于

Ｘｉｌｉｎｘ

ＺＹＮＱ

ＺＣ７０６

设计实现了卷积神经网络硬件加速的通用平台

，

可以满足不

同卷积神经网络算法模块实现硬件加速的需求

。

关键词

：

ＺＣ７０６

；

卷积神经网络

；

硬件加速

；

ＦＰＧＡ

；

ＺＹＮＱ

中图分类号

：

ＴＰ３９１

文献标识码

：

Ａ

Ｄｅｓｉ

ｇ

ｎ

ｏｆ

Ｈａｒｄｗａｒｅ

Ａｃｃｅｌｅｒａｔｉｏｎ

Ｇｅｎｅｒａｌ

Ｐｌａｔｆｏｒｍ

ｆｏｒ

ＣＮＮ

Ｂａｓｅｄ

ｏｎ

ＺＹＮＱ

Ｆｅｎ

ｇ

Ｇｕａｎ

ｇ

ｓｈｕｎ

，

Ｙｉｎ

ｇ

Ｓａｎｃｏｎ

ｇ

（

Ｓｃｈｏｏｌ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

，

Ｓｉｃｈｕａｎ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｃｈｅｎ

ｇ

ｄｕ

６１００６５

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ｃｏｎｖｏｌｕｔｉｏｎａｌ

Ｎｅｕｒａｌ

Ｎｅｔｗｏｒｋ

ｉｓ

ａｔｔｒａｃｔｅｄ

ｍｏｒｅ

ａｔｔｅｎｔｉｏｎ

ｒｅｃｅｎｔｌ

ｙ

ｉｎ

ＡＩ

ｆｉｅｌｄ

，

ｍｏｒｅ

ａｎｄ

ｍｏｒｅ

ａ

ｐｐ

ｌｉｃａｔｉｏｎｓ

ａｒｅ

ｕｓｅｄ

ｉｎ

ｉｎｄｕｓｔｒ

ｙ

ｆｉｅｌｄ

ｕｓｉｎ

ｇ

ｉｔ．Ｉｎ

ｏｒｄｅｒ

ｔｏ

ｅｎｈａｎｃｅ

ｔｈｅ

ａ

ｐｐ

ｌｉｃａｔｉｏｎ

ｖａｌｕｅ

，

ｉｔ

ｉｓ

ｍｅａｎｆｕｌ

ｔｏ

ｉｍ

ｐ

ｌｅｍｅｎｔ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

ｏｎ

ｅｍｂｅｄｄｅｄ

ｓ

ｙ

ｓｔｅｍｓ．Ｄｕｅ

ｔｏ

ｔｈｅ

ｌａｒ

ｇ

ｅ

ｃｏｍ

－

ｐ

ｕｔｉｎ

ｇ

ｑ

ｕａｎｔｉｔ

ｙ

ａｎｄ

ｈｉ

ｇ

ｈ

ｄｅ

ｇ

ｒｅｅ

ｏｆ

ｐ

ａｒａｌｌｅｌｉｓｍ

，

ＦＰＧＡ

ｈａｓ

ｂｅｃｏｍｅ

ａ

ｃｏｎｓ

ｐ

ｉｃｕｏｕｓ

ｔｏｏｌ

ａｓ

ａ

ｈａｒｄｗａｒｅ

ａｃｃｅｌｅｒａｔｏｒ

ｏｆ

ａｌ

ｇ

ｏｒｉｔｈｍｓ．Ｉｎ

ｔｈｉｓ

ｐ

ａ

－

ｐ

ｅｒ

，

ａ

ｎｏｖｅｌ

ｈａｒｄｗａｒｅ

ｐ

ｌａｔｆｏｒｍ

ｉｓ

ｄｅｓｉ

ｇ

ｎｅｄ

ｔｏ

ａｃｃｅｌｅｒａｔｅ

ＣＮＮ

ａｌ

ｇ

ｏｒｉｔｈｍｓ

ｂ

ｙ

Ｖｅｒｉｌｏ

ｇ

ＨＤＬ

ｏｎ

Ｘｉｌｉｎｘ

ＺＹＮＱ

ＺＣ７０６ｂｏａｒｄ

，

ｗｈｉｃｈ

ｍｅｅｔｓ

ｔｈｅ

ｎｅｅｄｓ

ｏｆ

ｄｉｆｆｅｒｅｎｔ

ｋｉｎｄｓ

ｏｆ

ｉｍ

ｐ

ｌｅｍｅｎｔａｔｉｏｎ

ｏｆ

ＣＮＮ

ｄｅｓｉ

ｇ

ｎ

ｍｏｄｕｌｅｓ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ＺＣ７０６

；

ｃｏｎｖｏｌｕｔｉｏｎａｌ

ｎｅｕｒａｌ

ｎｅｔｗｏｒｋ

；

ｈａｒｄｗａｒｅ

ａｃｃｅｌｅｒａｔｉｏｎ

；

ＦＰＧＡ

；

ＺＹＮＱ

引

言

随着计算机技术的不断发展和对人工智能领域的深

入研究

，

卷积神经网络成为近年来的研究热点之一

，

在图

像分类

、

目标检测

、

图像语义分割等诸多领域取得一系列

突破性研究成果

［

１

］

。

卷积神经网络

（

ＣＮＮ

）

的智能化程度

和处理能力随着深度学习技术的发展不断提高

，

但同时

ＣＮＮ

的结构越来越复杂

，

数据规模越来越大

，

导致计算密

集度越来越大

。

基于通用处理器实现的

ＣＮＮ

计算时间

过长

，

已不能满足实际应用的需求

。

采用

ＧＰＵ

和多核

ＣＰＵ

对

ＣＮＮ

进行加速

，

则会导致系统功耗太大

，

不适合

低功耗的嵌入式系统

。

ＦＰＧＡ

作为一种可编程逻辑器件

，

不仅可以实现低功耗的高性能计算

，

还能充分挖掘

ＣＮＮ

内部固有的并行性

［

２

］

。

Ｘｉｌｉｎｘ

公司推出的

ＺＹＮＱ

－

７０００

全可编程片上系统采

用了

ＡＲＭ＋ＦＰＧＡ

的异构架构

，

在单芯片上集成了处理

系统

（

Ｐｒｏｃｅｓｓｉｎ

ｇ

Ｓ

ｙ

ｓｔｅｍ

，

ＰＳ

）

和可编程逻辑

（

Ｐｒｏ

ｇ

ｒａｍｍａ

－

ｂｌｅ

Ｌｏ

ｇ

ｉｃ

，

ＰＬ

）

两大功能模块

［

３

－

４

］

，

两部分以高速片上总线

ＡＸＩ

（

Ａｄｖａｎｃｅｄ

ｅＸｔｅｎｓｉｂｌｅ

Ｉｎｔｅｒｆａｃｅ

）

互联

，

保证系统的处

理带宽

。

基于

ＸＣ７Ｚ０４５

－

２ＦＦＧ９００Ｃ

芯片的

ＺＣ７０６

是一款

高性能

、

低功耗的开发套件

，

它包含了所有必须的接口

，

是

一款理想的设计验证平台

。

本文基于

ＺＣ７０６

设计实现了

ＣＮＮ

硬件加速通用平台

，

可以满足不同

ＣＮＮ

算法模块实

现硬件加速的需求

。

１

ＣＮＮ

结构介绍

典型的

ＣＮＮ

由输入层

、

卷积层

、

池化层

、

全连接层及

输出层构成

，

往往采用交替连接的卷积层和池化层对输入

图像进行前向传播

，

最后经全连接和输出层进行概率分布

输出

。

图

１

所示为

ＬｅＮｅｔ

－

５

［

５

］

的网络结构图

，

其中以字母

Ｃ

开头的为卷积层

，

以字母

Ｓ

开头的为池化层

，

以字母

Ｆ

开

头的为全连接层

。

卷积层对输入的特征图谱

（

或输入层的

图像

）

进行卷积运算

，

提取特征

，

输出新的特征图谱

；

池化

层对卷积层输出的特征图谱进行降采样

，

缩减特征图谱尺

寸

；

全连接层将输入数据经过若干个指定维度的滤波器进

行加权求和

，

得到若干维输出

；

输出层通常使用

ｓｏｆｔｍａｘ

函数计算每个类别的概率

［

６

］

。

在各层中

，

卷积层是运算量

下载后可阅读完整内容，剩余4页未读，立即下载

李诗旸

粉丝: 32
资源: 328

ZYNQ平台：基于FPGA的卷积神经网络硬件加速设计

基于ZYNQ的卷积神经网络加速器源码项目

ZYNQ平台上的卷积神经网络加速器设计与应用探索

基于ZYNQ的CNN硬件加速器系统设计与实现

ZYNQ的卷积神经网络硬件加速通用平台设计.pdf

基于ZYNQ的卷积神经网络硬件加速器，基于FPGA的卷积神经网络加速器的设计与实现

深度学习基于ZYNQ的卷积神经网络硬件加速器项目系统源码.zip

x_为Xilinx_Zynq_搜索_ Linux系统_----Zynq-教程_使用_Vivado+PetaLinux_

ucos.rar_ucos zynq_zynq_zynq sdk_zynq ucos_zynq-7000

深度学习基于ZYNQ的卷积神经网络硬件加速器项目系统源码+论文PDF+文档说明（高分毕业设计）

Zynq-7000嵌入式Linux移植教程_zynq嵌入式linux_linux_zynqlinux_zynq_zynq-700

最新资源