GXNOR-Net:三元权重与激活下的无精度内存DNN训练框架

1 下载量 51 浏览量 更新于2024-08-26 收藏 956KB PDF 举报
GXNOR-Net是一种创新的深度神经网络架构,它旨在解决深度学习中面临的硬件开销挑战,特别是在资源受限的设备上运行。传统深度神经网络(DNNs)依赖于大量的浮点运算,这在实际应用中带来了显著的计算和存储需求。GXNOR-Net的核心创新在于采用三元权重和激活,即利用-1、0和1三个离散值来替代传统的实数值,这有助于减少乘法和累加运算,从而降低硬件成本。 GXNOR-Net的关键贡献包括两个方面: 1. 多步神经元激活离散化与微分逼近技术:为了在神经元的激活函数离散化后仍然能够进行有效的反向传播,GXNOR-Net提出了一种多步骤的离散化方法。这种方法允许在网络的前向传播过程中保持一定程度的连续性,同时在反向传播阶段通过微分逼近技术处理离散化的梯度,确保了模型的训练过程得以顺利进行。 2. 离散状态转换(DST):GXNOR-Net还提出了一种策略,即在训练过程中不保存精确的隐藏权重,而是将权重约束在离散状态中。DST方法巧妙地避免了存储大量中间权重的内存开销,同时利用离散权重的特性实现了高效的计算,进一步降低了计算和内存消耗。 通过这两个核心组件,GXNOR-Net构建了一个统一的框架,将二进制和三进制网络作为其特例,使得这些低精度网络能够在相同的训练框架内工作,同时保持了较高的性能。这种框架不仅适用于现有的二进制神经网络(Binary Neural Networks, BNNs),也适用于稀疏的二进制网络,进一步增强了网络的效率和灵活性。 GXNOR-Net的成果在GitHub上的项目Gated-XNOR(<https://github.com/AcrossV/Gated-XNOR>)上公开,研究人员可以通过这个平台获取实现细节和相关算法,以便在实际应用中探索三元神经网络的潜力,尤其是在嵌入式系统和资源有限的环境中,如物联网设备和移动设备上推动人工智能的发展。