N2UQ: 硬件友好的非均匀到均匀量化神经网络

79 浏览量更新于2024-06-20 收藏 762KB PDF 举报

非均匀量化神经网络的硬件友好均匀量化方法是一种新兴的研究领域，它针对的是深度神经网络（DNN）在实际应用中所面临的挑战，尤其是在资源有限的设备上的部署问题。传统上，非均匀量化策略因其出色的表示能力在模型压缩中表现出色，然而，它们通常需要复杂的投影过程，这在硬件实现中带来显著的时间和空间开销。为了克服这个难题，研究者提出了非均匀到均匀量化（N2UQ）策略。 N2UQ的核心目标是保留非均匀量化方法的优势，同时使其更适合于硬件部署，降低时间和空间需求。该方法的关键创新在于引入了可学习的等距输入阈值，这些阈值通过一个通用的直通估计器（G-STE）进行训练，该估计器特别设计用来处理非均匀量化中难以计算的向后导数。通过这种方式，底层分布得到更好的拟合，而实值输入能够被有效地量化为等距输出。此外，为了进一步减少量化过程中的信息损失，研究还考虑了熵保持正则化技术，它作为一种重量量化策略，有助于在施加对权重和激活进行均匀量化的约束下，提升N2UQ的整体性能。对比最先进的非均匀量化方法，N2UQ展现出了明显的性能优势，例如，相比于现有的非均匀方法，N2UQ提升了5.1.7%的性能，证实了其设计的有效性和实用性。 N2UQ的研究成果可供公众下载，相关代码和模型可以通过指定的GitHub地址获取：<https://github.com/liuzechun/Nonuniform-to-Uniform-Quantization>。这项工作对于推动深度学习模型在资源受限环境下的高效部署具有重要意义，为未来神经网络的硬件优化提供了新的可能。