HLS优化：FPGA实现深度学习中卷积神经网络的硬件友好设计

5星 · 超过95%的资源需积分: 0 30 浏览量更新于2024-07-01 7 收藏 3.75MB PDF 举报

"本文主要探讨了基于HLS（硬件描述语言）的高效深度卷积神经网络（DCNN）在FPGA（现场可编程门阵列）上的实现方法，重点介绍了如何考虑硬件友好性和网络小巧的设计思路，特别是针对卷积操作中的填充方式选择，包括'FULL'、'SAME'和'VALID'三种填充方式。" 深度卷积神经网络（DCNN）在图像识别、计算机视觉等领域中起着关键作用，而FPGA因其并行计算能力和低功耗特性，成为实现DCNN硬件加速的理想平台。在FPGA上实现DCNN时，设计思路需兼顾硬件效率和模型的计算需求。首先，我们需要关注网络结构的优化，使其适合硬件实现，这通常意味着要减少计算复杂度和内存需求。 1.1 考虑硬件友好和网络小巧的设计思路 1.1.1 填充方式的选择对硬件实现的影响至关重要。填充（Padding）是为了保持输出特征图的尺寸不变或调整卷积的计算区域。对于'FULL'填充，它在图像边缘填充K-1维的0，确保每个位置都能进行卷积，输出尺寸为(R+K-1)×(C+K-1)，但增加了额外的计算量和存储需求。 1.1.2 'SAME'填充则保持输入和输出特征图尺寸相同，通过不均匀填充0，使得卷积核可以在图像边界处完全覆盖，减少了计算区域的边缘处理，同时保持了尺寸的一致性。 1.1.3 'VALID'填充不进行填充，仅在图像内部进行卷积，输出特征图尺寸为(R-K+1)×(C-K+1)，这种方式减少了计算量，但可能导致输出尺寸减小，可能不适合需要特定输出尺寸的应用。 1.1.4 在FPGA实现时，选择合适的填充方式可以有效控制硬件资源的使用和计算效率。例如，'VALID'填充减少了填充的计算，节省了硬件资源，但可能导致计算步骤增多，影响整体性能。 1.1.5 此外，考虑到FPGA的并行计算能力，选择较大的卷积步进（Stride）可以进一步减少计算量，但可能会导致信息损失，需要根据具体应用需求权衡。 1.1.6 在进行硬件实现时，还需要注意避免大量的乘除运算，因为它们在硬件中执行较慢，会增加延迟和资源消耗。通过精心设计网络结构和选择合适的填充方式，可以简化计算，提高执行速度。实现基于HLS的FPGA上的高效DCNN，需要在满足模型精度的同时，充分考虑硬件资源限制，优化网络结构，合理选择填充方式，以达到最佳的性能与资源利用率。通过这样的设计思路，可以在保证模型性能的前提下，实现快速且高效的DCNN硬件加速。

1.1.5 以平均池化代替全连接

全连接层可以对特征进行高度的提纯，并充当分类器的作用，但是与普通的卷积

层相比，参数量过于庞大。假定需要分类的类别只有 4 种，但对于全连接层的输入图

像的每一个像素都存在与之对应的 4 个权重，会带来极大的参数量，增加了硬件内部

的存储以及因数据读取所造成的功耗，尤其是第一个与最后的卷积层相连的全连接层。

假设网络当中只有一个全连接层充当分类器，如果使用全局平均池化代替该全连

接层，可以省去这一全连接层的全部参数。同时，假定最后一个卷积层的输出特征图

的尺寸为 16×16×4，即输出通道为 4 恰为分类个数，全副图像池化相比全连接节省

了 16×16×4=1024 倍的乘法运算。但如果最后一个卷积层的输出特征图的尺寸为 16

×16×512 的话，使用该方法得到的是 512 个值，相比四分类来说个数太多，可以再

接一个小的全连接层，但这样也比卷积后直接全连接去分类带来的运算量和参数量要

少的多。另外，最大池化更适合提取极端特征，在池化区域尺寸较大时，会造成较多

的信息丢失，而平均池化相当一个期望特征检测器，可以利用上所有的信息。经过实

践验证，全副图像平均池化相比全连接，其最终的分类效果并没有带来任何减少。

1.1.6 尺寸不变深度增加

在硬件实现时，大多种任务都不能在一个时钟周期内完成，假定一个任务的处理

时间 t 为 8 个时钟周期。但多次执行时可以在消除数据依赖的情况下，进行流水处理

来缩短总的处理时间，如下图 1.5 所示。可毕竟一个任务需要一定的时延 t 才能产生

结果，因此即使进行了流水处理，连续执行 8 次该项任务所需的总时间 T 并不是 8

个周期，而是 8+(8−1)=15 个周期，这个在图也有所示意。所以随着任务执行次数的

减少，任务的处理时延 t 所占总体处理时间 T 的比例则会越来越大，将带来资源利用

率的降低，最终导致整个网络的处理速度下降。

MULRD ADD ADD ADD CMPRD WR

8 iterations

T=15 cycles

t=8 cycles

Ratio = t/T 1/2

!!!

MULRD ADD ADD ADD CMPRD WR

剩余29页未读，继续阅读

贼仙呐

粉丝: 32
资源: 296

HLS优化：FPGA实现深度学习中卷积神经网络的硬件友好设计

基于HLS的Tiny_yolo卷积神经网络加速研究

HLS VIVADO 高层次综合教程

卷积神经网络代码（HLS版本）.zip

基于HLS的高效深度卷积神经网络FPGA实现方法

基于HLS的高效深度卷积神经网络FPGA实现方法_FPGA-DCNN-Accelerator.zip

基于Python HLS的高效深度卷积神经网络FPGA实现方法【100011343】

基于HLS的高效深度卷积神经网络FPGA实现方法+项目源码+文档说明+原理说明

毕设&课设&项目&实训-基于HLS的高效深度卷积神经网络FPGA实现方法.zip

基于HLS的高效深度卷积神经网络FPGA实现方法详细文档+全部资料+优秀项目+源码.zip

基于HLS的高效深度卷积神经网络FPGA实现方法.zip(毕设&课设&实训&大作业&竞赛&项目)

最新资源