FPGA上优化的3D可变换CNN加速器：并行度搜索算法

版权申诉

73 浏览量更新于2024-06-27 收藏 477KB DOCX 举报

"1. CNN的基础与挑战卷积神经网络（CNN）是一种深度学习模型，因其在图像处理领域的出色表现而备受瞩目。自LeNet-5的诞生以来，CNN的复杂度不断攀升，包括更深层次、更大规模，随之而来的是计算量的急剧增加。这种增长对硬件加速器提出了更高的要求，以满足实时推理的需求。 2. FPGA在CNN加速中的角色在GPU、ASIC和FPGA三种常见CNN推理平台中，FPGA因其高并行性、低功耗和可编程性成为理想的解决方案。然而，当前的CNN硬件加速器在资源利用率方面存在不足，这直接影响了加速器的性能和能效。 3. 3维可变换CNN加速结构文献[2]提出了一种创新的3维可变换CNN加速结构，旨在通过精细的粒度控制提高计算结构的灵活性，以解决资源利用率低下的问题。这种结构允许在多个维度上调整，从而适应不同的CNN模型和计算需求。 4. 并行度优化搜索算法为了匹配上述灵活的计算结构，本文提出了一种并行度搜索算法。该算法遍历所有可能的并行度组合，寻找能最大化资源利用率的配置。然而，这种全面搜索方法面临的问题是搜索空间过大，导致计算时间过长。 5. 算法优化与效率提升为了解决这个问题，本文进一步发展了一种优化搜索算法。通过多轮迭代的数据筛选，可以有效地剔除无效的并行度组合，大幅度压缩搜索空间。同时，通过剪枝策略，可以避免无谓的计算，显著减少搜索时间，将原本长达106小时的计算时间降低到10秒以内。 6. 应用范围与效果该算法适用于各种FPGA芯片，能在不同规格的硬件上找到最优的并行度配置，实现平均(0.957,0.962)的高计算资源利用率。这意味着无论是在小型还是大型的FPGA平台上，都能获得高效的CNN加速性能。 7. 结论本文提出的并行度优化搜索算法对于提升基于FPGA的CNN硬件加速器的性能和能效具有重要意义。通过巧妙的算法设计，既保证了资源利用率，又解决了搜索效率问题，为未来CNN硬件加速器的设计提供了有价值的参考。 8. 参考文献 [1] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324. [2] [文献引用待补充] [3-9] [其他相关文献引用待补充] [6,7] [具体问题相关的文献引用待补充] [8] [具体问题相关的文献引用待补充] 注：由于缺少具体的参考文献信息，这里用[文献引用待补充]表示，实际应用时需要替换为实际的文献引用。"

基于以上分析，本文采用具有结构代表性的典型 CNN AlexNet 作为 benchmark，通过

验证的并行度确定算法能适用于绝大多数的 CNN 网络。此外，以 AlexNet 为 benchmark 能

够更明显地反映并行度确定算法的优劣：若并行度确定算法在加速 AlexNet 时可以获得突

出的加速效果，那么该算法在加速其他卷积结构更加单一、N

out

更加规律的 CNN 网络

时，同样可以获得良好的加速效果。反之，若算法在网络结构差异性上考虑不全面，即使

其在加速部分 CNN 时可以获得不错的效果，其算法问题会在加速 AlexNet 过程中显示出

来。

3. 技术现状与问题分析

在加速 CNN 这类计算密集型网络时，如何高效利用 FPGA 片上的计算资源是设计的

核心要点。本文采用文献[2]所提出的计算资源利用率作为评估指标。该指标有两个评估参

数(R1, R2)，R1 和 R2 的取值范围都是[0, 1]区间内的实数，其值越大代表资源利用越充

分。R1 衡量设计中 FPGA 的可用计算性能潜力被开发出的百分比，R2 衡量设计中计算资

源的冗余占用情况，R1 的优先级高于 R2。

表 2 为不同加速器的计算资源利用率情况。从表中可知，现有加速器的计算资源利用

率普遍存在提升空间：其(R1, R2)结果均不够理想，或难以同时兼顾(R1, R2)达到理想值。

同时，对比 VGG 和 AlexNet 加速器评估结果，AlexNet 加速器的资源利用率普遍劣于

VGG 加速器—加速器的不足在 AlexNet 这样的 benchmark 上更为突出。

表 2 不同 FPGA CNN 加速器的资源利用率

VGG

AlexNet

文献

[5]

0.8

[3]

0.32

0.38

[11]

0.71

[4]

0.42

0.55

[14]

0.77

0.84

[6]

0.50

0.85

[8]

0.78

0.99

[8]

0.67

0.76

[15]

0.66

0.80

[14]

0.62

0.78

下载: 导出 CSV

| 显示表格

剩余14页未读，继续阅读

罗伯特之技术屋

粉丝: 4464
资源: 1万+

FPGA上优化的3D可变换CNN加速器：并行度搜索算法

一种改进的深度神经网络结构搜索方法

一种改进的MDX查询优化算法.doc

一种改进的均值金字塔快速搜索算法.doc

一种基于sort-last架构的非结构网格并行体可视化算法.docx

基于CNN扰动的极化码译码算法.docx

近似欧氏距离变换的一种并行算法.docx

基于小波变换的码元速率估计优化算法.docx

一种基于相似维的高维子空间聚类算法.docx

基于三维模型凹凸结构特征的多载体信息隐藏算法.docx

基于粒子群优化算法.docx

最新资源