高效低内存流量神经网络：HardNet实现推理优化

PDF格式 | 1.03MB | 更新于2025-01-16 | 91 浏览量 | 举报

"本文主要探讨了如何通过优化神经网络架构以降低内存流量，进而提高推理效率和减少功耗，特别关注在边缘设备上的应用。低内存流量网络HardNet被提出，它在保持高精度的同时，显著减少了MAC操作和内存访问，从而缩短了推理时间。通过与现有模型如FC-DenseNet-103、DenseNet-264、ResNet-50和ResNet-152以及SSD-VGG的比较，证明了新网络在效率提升上的优势。文中还利用Nvidia profiler和ARMScale-Sim等工具进行了内存流量和推理延迟的测量，证实了内存流量对推理延迟的影响。" 本文的重点在于解决在边缘设备上高效运行神经网络的问题。随着计算机视觉任务中卷积神经网络(CNN)的广泛应用，如何在计算资源有限且电池容量受限的边缘设备上执行推理是关键挑战。论文提出，模型大小、MAC操作数量以及内存流量是影响计算效率和能耗的主要因素。研究者们已经尝试通过减少模型大小来提高计算效率，这通常意味着降低MAC操作和DRAM交互。例如，ResNets、SqueezeNets和DenseNets通过高效的结构设计实现了高参数效率。尽管如此，模型大小的减小并不总是直接对应于推理时间的减少，因为内存访问也是一个重要因素。Han等人的深度压缩方法通过权重修剪和量化进一步减小模型大小，但内存流量仍然是需要考虑的关键因素。为了解决这一问题，研究者提出了HardNet，这是一种新的低内存流量网络架构。该网络设计旨在减少中间特征图的内存访问，同时保持高精度。通过实验对比，HardNet相对于其他基准模型在推理时间上平均减少了约30%-45%，验证了其在减少内存流量方面的有效性。此外，使用专业工具进行的测量进一步证明了推理延迟与内存流量消耗之间的正比关系。这篇论文强调了内存流量在优化边缘设备上神经网络推理效率中的重要性，并提供了一种新的网络架构方案——HardNet，以期在不牺牲精度的情况下，实现更低的内存访问和更快的推理速度，从而降低整体功耗。这对于推动边缘计算在高分辨率应用中的实际部署具有重要意义。

3552

HardNet：一种低内存流量网络

赵平

、

高朝阳

阮玉山

黄

建祥

林永隆

国立清华大学

密歇根大学

pingchao@umich.edu{chaoyangkao923，esunxd，james128333}gmail.comylin@cs.nthu.edu.tw

摘要

最先进的神经网络架构，如

ResNet

、

MobileNet

和

DenseNet

，在低

MAC

和小模型大小的计算器上实现了

出色的精度。然而，这些度量对于预测推断时间可能

不准确。我们建议，访问中间特征图的内存我们提出

了一个谐波密集连接网络，以实现高效率的低

MAC

和

内存流量。与

FC-DenseNet-103

、

DenseNet-264

、

ResNet-50

、

ResNet-152

和

SSD-VGG

相比，新网络的推

理时间分别减少了

35%

、

36%

、

30%

、

32%

和

45%

我们

使用包括

Nvidia profiler

和

ARM Scale-Sim

在内的工具来

测量内存流量，并验证推理延迟确实与内存流量消耗

成正比，我们的结论是，在为边缘的高分辨率应用设

计神经网络

介绍

卷积神经网络（CNN）一直流行于计算机视觉任

务，因为计算能力的爆炸性增长使得在合理的时间内

训练AlexNet [22，23]，VGG-net [32]和Inception [34]等

复杂网络成为为了将这些迷人的研究成果投入大规模

使用，在边缘设备上执行神经网络推理是不可避免

的。然而，边缘计算依赖于有限的计算能力和电池容

量。因此，如何在边缘处提高神经网络推理的计算效

率和降低功耗

减少模型大小（模型的参数或权重的数量）是提高

计算和能量效率的热门研究主题，因为减少的模型大

小可以减少计算量。

模型大小通常意味着更少的MAC（乘法累加操作或浮

点操作的数量）和更少的动态随机存取存储器

（DRAM ）业务，用于读取和写入模型参数和特征

图。一些研究已经转向最大化的精度参数比。最先进

的网络，如残差网络（ ResNets ） [16] ， SqueezeNets

[20]和密集连接网络（DenseNets）[18]，已经实现了

高参数效率，在保持高精度的同时大大降低了模型大

小。模型大小可以通过压缩进一步减小。Han等人[15]

表明，从DRAM加载的大量浮点权重可能比算术运算

消耗更多的功率。他们的深度压缩算法采用权重修剪

和量化来显著降低模型大小和功耗。

除了功耗之外，由于有限的DRAM带宽，DRAM访

问还可以在推断时间方面主导系统性能由于我们已经

观察到CNN中所有中间特征图的大小总和可以比其模

型大小大十到一百倍，特别是对于高分辨率任务，例

如使用全卷积网络的语义分割[27]，我们建议减少

DRAM对特征图的访问可能会在某些情况下导致加

速。

缩小特征图的大小是减少流量的直接方法。虽然只

有少数论文涉及特征图的无损压缩，但在模型精度操

作和近似的研究中，特征图的有损压缩已经得到了深

入研究[8，11，14，28，29]。在这些工作中使用的量

化模型压缩通常可以自动减少特征图的大小。然而，

像其他有损压缩方法，如二次采样，他们通常惩罚精

度。在本文中，我们探讨了如何通过仔细设计CNN的

架构来减少特征图的DRAM流量，而不影响准确性。

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

高效低内存流量神经网络：HardNet实现推理优化

Imagination发布PowerVR NNA神经网络加速器.pdf

一种便捷的模糊推理系统在DSP上的实现方法

从Tensorflow到基于FPGA的加速器的ShortcutFusion，具有可重用的快捷数据内存分配_ShortcutFus

TPU加速大模型训练：实现效率飞跃的全攻略

【NPU优化术】：提升神经网络计算效率的5大策略

网络通信在微型计算机中的实现：从原理到实践的全攻略

YOLOv8模型优化实战：提升推理速度与准确度的必学技巧

【FPGA设计最佳实践】：在VITA 46.0系统中实现高性能FPGA

【ESP32音频输出秘诀】：如何利用NS4168实现高质量音频系统

【高级编程技巧】：FPGA上实现复杂MPU6050数据处理算法的终极指南

最新资源