Tiny-yolo网络压缩与FPGA硬件加速技术研究

需积分: 0 103 浏览量更新于2024-08-05 收藏 1.07MB PDF 举报

"基于Tiny-yolo的网络压缩与硬件加速方法" 本文主要探讨了如何针对Tiny-YOLO网络模型进行优化，以解决其在嵌入式设备上运行时存在的问题，如模型规模大、内存需求高和计算量大的挑战。Tiny-YOLO是一种轻量级的目标检测模型，虽然在GPU支持下具有较高的检测速度，但将其部署到资源有限的嵌入式设备上仍面临困难。首先，为了减小网络规模和内存占用，作者提出了网络连接关系的分析和裁剪策略。通过对网络中的连接进行分析，识别并移除那些对网络性能贡献较小的连接，实现网络的压缩。这种裁剪后的权值矩阵通过稀疏化存储方式进一步减少了内存占用。其次，进行了权值量化处理，即通过减少数据的位数来降低内存占用和计算复杂度，同时确保精度损失在可接受范围内。这一步骤对于在资源受限的嵌入式环境中运行神经网络至关重要，因为它可以显著降低存储和计算的需求。最后，针对Tiny-YOLO网络的特性，设计了一种深度并行-流水的FPGA加速优化方案。FPGA（Field-Programmable Gate Array）因其可编程性和并行处理能力，常被用于加速计算密集型任务。提出的优化方案能够充分利用FPGA的硬件资源，加速Tiny-YOLO的运算过程。实验结果显示，通过网络裁剪和权值量化，可以实现约36倍的压缩比率，极大地减小了模型的大小。而在采用FPGA进行硬件加速后，相比于在667 MHz的ARM Cortex-A9处理器上的运算，实现了大约7倍的运算速度提升。这些优化措施对于在嵌入式设备上实时运行Tiny-YOLO，提高目标检测的效率和响应速度具有重要意义。关键词涉及神经网络、Tiny-YOLO、压缩、硬件加速以及FPGA，表明研究的核心是利用压缩和硬件加速技术改进Tiny-YOLO在网络资源受限环境下的性能。该研究对于嵌入式系统中的人工智能应用，特别是需要实时目标检测的场景，提供了有价值的参考和实践指导。

第

卷第

期

2019

年

月

华南理工大学学报

（

自然科学版

）

Journal of South China University of Technology

（ Natural Science Edition）

Vol． 47 No． 6

June 2019

收稿日期

： 2018-07-08

基金项目

：

国家自然科学基金资助项目

（ 61501069）

Foundation item： Supported by the National Natural Science Foundation of China（ 61501069）

作者简介

：

黄智勇

（ 1978-），

男

，

博士

，

副教授

，

主要从事无线传感器网络建模和高效能嵌入式计算研究

． E-mail： zyhuang@

cqu． edu． cn

doi： 10． 12141 /j． issn． 1000-565X． 180360

基于

Tiny-yolo

的网络压缩与硬件加速方法

黄智勇吴海华虞智仲元红

（

重庆大学微电子与通信工程学院

，

重庆

400044）

摘要

：

针对

Tiny-yolo

网络模型规模大

、

占内存多

、

计算量大

、

不易在嵌入式端实现的问

题

，

提出了网络压缩

、

结合硬件加速的方法对其进行优化

．

首先

，

分析网络连接关系

，

对网

络贡献较小的连接进行裁剪实现网络压缩

，

裁剪后的权值矩阵采用稀疏化存储方式减少

内存占用

；

其次

，

对权值进行量化

，

通过改变数据的位数

，

在保证精度误差范围内进一步减

小内存占用量和计算复杂度

；

最后

，

根据

Tiny-yolo

网络结构特点提出了深度并行

－

流水

的

FPGA

加速优化方案

，

最终实现了

Tiny-yolo

网络运算的硬件加速

．

通过实验验证

，

网络

裁剪结合量化可以实现

36X

左右的压缩比率

，

通过硬件加速优化

，

相比在最大频率为

667

MHz

的

AＲM Cortex-A9

上运算实现了

左右的运算加速

．

关键词

：

神经网络

； Tiny-yolo；

压缩

；

硬件加速

； FPGA

中图分类号

： TP399

文章编号

： 1000-565X（ 2019） 06-0051-06

Tiny-yolo

［1］

作为卷积神经网络

（ Convolutional

Neural Network）

的一种

，

与同样用于目标检测的网

络模型

Ｒ-CNN

［2］

、SSD

［3］

等相比

，

检测速度在

GPU

的支持下可以达到

100 + FPS．

将其移植到嵌入式

端

，

可以使

Tiny-yolo

被应用于更多的场景

．

卷积神经网络

（ CNN）

的概念很早就被提出

［4］

，

其受到广泛关注是在

2012

年

ImageNet

竞赛上

，Alex

Krizhevsky

［5］

运用卷积神经网络将分类错误从

26%

降到了

15% ．

但网络的复杂性限制神经网络在嵌入

式端实现

，

许多研究工作致力于提高网络检测精度

的同时简化网络的复杂度

．

Babak Hassibi

和

David G Stork

等

［6］

提出基于

分析损失函数的海森矩阵信息

，

删除影响较小的连

接

，

达到压缩网络的目的

． Yunchao Gong

等

［7］

采用

向量量化的方法压缩神经网络

，

达到减少神经网络

模型占用存储空间的目的

． Wenlin Chen

等

［8］

提出散

列网络的方法

，

利用桶式散列共享参数的方式简化

网络

． Song Han

等

［9］

将网络裁剪

、

参数量化

、

霍夫曼

编码方法结合使用

，

实现网络深度压缩

．

硬件加速方面

，

利用

FPGA（

现场可编程门阵

列

）

的并行特性对神经网络加速的研究也在持续

，

很多学者提出了各自的加速方案

［10-13］

． Clement

Farabet

等

［14］

使用

FPGA

对神经网络进行加速

，

最终

可以对

512 × 384

大小的人脸识别图像达到

帧每

秒的速度

． Qiu

等

［15］

针对卷积神经网络中数据所占

位宽过大的问题

，

通过减小数据位宽

，

达到加速的目

的

． Gan Feng

等

［16］

在使用

FPGA

并行加速的同时

，

更加关注功耗的问题

．

Tiny-yolo

的网络模型占用

63． 5MB

的存储空

间

，

而

Yolo

的模型更是达到了

258MB，

不利于在存

储空间有限的嵌入式端存储

．

同时

，

神经网络包含了

大量的卷积运算

，

消耗时间多

．

针对这两点问题

，

文中

采用网络裁剪的方法对网络进行压缩

，

达到减小模型

体积的目的

；

通过数据量化操作

，

对权重值进行量化

，

进一步减少模型所占内存

，

以及运行消耗的位宽

；

最

后在嵌入式端

，

采用硬件加速

，

提高网络运算速度

．

下载后可阅读完整内容，剩余5页未读，立即下载

玛卡库克

粉丝: 34
资源: 309

Tiny-yolo网络压缩与FPGA硬件加速技术研究

Tiny-yolo预训练模型darknet.conv.weights

tiny-yolo-voc.weights

基于TINY_YOLO的嵌入式人脸检测系统设计_游忍(2019-09-11-15-50_read)1

YOLO神经网络游戏中的物理模拟：让游戏世界更真实

挖掘YOLO数据集中的宝藏：数据分析与模式识别

YOLO数据集格式转换与边缘计算：研究转换在边缘计算中的作用

YOLO识别疑难杂症大揭秘：常见问题与解决方案，彻底解决识别难题

YOLO算法在安防领域的应用：智能监控与安全预警，打造安全无忧

YOLO识别帧率优化：数据分析与模型调优，从数据中挖掘性能提升潜力

YOLO视频检测训练集：开源资源、商业应用，全面解析

最新资源