CNN加速器上的非规则网络结构高效调度策略

需积分: 10 7 下载量 48 浏览量 更新于2024-09-01 收藏 2.67MB PPTX 举报
标题:"Irregular Network Structures Scheduling: Efficient Processing on CNN Accelerators" 该研究聚焦于如何有效地调度不规则网络结构(如深度学习中的卷积神经网络,CNN)在专用加速器上的计算流程。传统的CNN加速器采用迭代模式,逐层处理计算任务,每次将输入特征图(featuremap)和滤波器权重从外部DRAM加载到本地缓冲区,执行卷积操作,然后将结果写回DRAM。然而,这种架构在处理大量特征图数据时,对存储系统提出了挑战。 融合策略(fusion)引入了改进,旨在减少内存访问。在计算过程中,通过一次加载输入tile(黑框),一次性计算出整个金字塔层级的中间值,避免了频繁的数据传输。只有金字塔顶部(融合层)的输出特征图被完全保留,其余可能仅在需要时保存或重新计算。这种方法显著减少了芯片内存的存储需求,提高了效率。 PolyMage和Halide等先前的工作也探索了自动融合的启发式方法,但这些方法往往基于贪心策略,可能会错过某些有效的融合机会。例如,对于一个具有n阶段的线性流水线,理论上总共有2n-1种可能的分组方式,但在实际应用中,可能有很多无效分组,即包含非相邻阶段的组合。优化算法会从节点开始,逐步合并节点以形成效益最大的集团,但这种方法可能并不全面。 有效的融合和tile大小模型是优化图像处理管道的关键。作者提出了一种模型,考虑了所有可能的分组选项,包括成对的生产者-消费者合并,以找到最佳的计算和数据流策略。这种模型旨在提高资源利用率,降低延迟,并适应不同CNN架构的复杂性。 总结来说,这项研究主要关注的是通过改进的调度和融合技术,提升CNN加速器在处理不规则网络结构时的性能,特别是在内存管理和计算效率方面。它与现有工作的关联在于寻找更全面、更精细的优化策略,以适应深度学习任务的多样性和计算需求。