FPGA上的二值化卷积神经网络语音分类加速器

需积分: 0 147 浏览量更新于2024-08-05 收藏 882KB PDF 举报

"基于FPGA和卷积神经网络量化的语音分类加速器1" 本文主要探讨了如何通过FPGA（Field-Programmable Gate Array）和卷积神经网络（CNN）的量化技术，来解决传统CNN在语音分类任务中遇到的挑战，即模型存储空间过大和浮点运算需求高的问题。在低功耗和高吞吐率的应用场景下，这些问题限制了CNN算法的有效应用。首先，研究者们提出对网络参数进行二值化处理，即将原本的连续浮点数值转化为只有0和1两种状态的二进制值。这种二值化能够极大地减少模型的存储需求，因为二值参数比浮点数占用更少的存储空间。此外，二值化还有助于简化计算过程，使得运算速度得以提升。其次，网络激活值也被转换为定点数量化，即将浮点数转化为具有固定小数位的整数。定点运算相比于浮点运算，不仅更快，而且更适合硬件实现，特别是在FPGA这样的可重构计算平台上。定点量化能够保持模型的性能同时降低计算复杂度，有利于在低功耗设备上实现高效运行。接下来，文章介绍了基于这些量化优化的软硬件协同设计方法。通过精心设计的FPGA架构，构建了一个全流水线、低功耗且高吞吐率的语音分类加速器。流水线设计能提高处理效率，而FPGA的灵活性使得硬件可以按需配置，适应不同的计算需求。实验结果显示，与先进的多核CPU平台相比，单个处理元素（PE）的加速器在吞吐率上实现了18到300倍的显著提升。这表明，利用FPGA和量化技术，可以在满足实时性和效率的同时，有效地降低系统的能耗，从而在语音识别等实时应用领域提供更具竞争力的解决方案。关键词涵盖了可重构计算、神经网络、量化压缩以及语音分类，这些都是本文核心研究内容的关键点。可重构计算强调了FPGA在硬件层面的灵活性，神经网络量化压缩则讨论了如何减小模型大小和计算需求，而语音分类是这一技术实际应用的具体场景。这项工作为实现低功耗、高性能的语音识别系统提供了新的思路，对于嵌入式系统和物联网(IoT)等领域的应用有着重要的参考价值。通过FPGA的硬件加速和CNN的量化优化，未来有望在更多资源受限的环境中实现高效、准确的语音分类服务。

衡流水线结构和卷积神经网络层间低延迟流水线设计。

我们在 CPU 平台上进行了单线程、多线程和多节点环境下的目标声音分类模型的性能测

试，得到了多组高性能 CPU 平台上的基准性能数据。与上述测试结果相比，我们的设计在性

能功耗比和计算加速比上具有绝对优势。

2 神经网络推理量化

现在的深度神经网络模型通常包含大量的参数，为了更好地训练神经网络模型，研究人

员通常选择全精度浮点数据格式作为参数数据格式。然而，在推理任务中，所有这些参数一

旦训练完成在数值上就不会被改变，因此就不需要继续保留全精度数据格式或保留所有的参

数。通过离线的对神经网络参数进行剪枝、量化压缩精度，我们可以显著的降低网络的存储

体积、总计算量和计算延迟。[7] 提出了一种将浮点深度神经网络参数压缩为包含+1 和-1 二

进制数据的算法。与原有的 64 位浮点数据格式模型相比，这种压缩方法不仅大大减少了参数

存储空间需求，而且用加减运算替代卷积中的乘法运算，显著降低了单个卷积运算的计算延

迟。该方法使设计人员可以将所有参数都放在芯片内，降低了内存数据交换开销；另外对于

FPGA 硬件平台而言，加减电路也比乘法器更易设计和实现。

另外，[7]中提出了将神经网络运行中的激活值数据也全部转化为二值格式的方法。与训

练完成后不发生改变的神经网络参数不同的是，网络激活值数据会随着输入对象（如图片或

音频特征图）的不同而产生数值上的波动，对激活值数据做二值化处理就会产生较大的精度

损失。此时对网络激活值进行定点化处理就可以在精度和计算性能上得到较好的平衡：一方

面定点数计算的计算周期数较浮点数大幅减少；另一方面定点格式可以根据激活值数据实际

的数值分布范围来调整整数和小数位宽，小数位宽越大，对原数据的精度保持就更好，整数

部分位宽则决定了数据格式的数值表征范围。相比二值化数据格式，定点数据可以更好的在

计算精度和计算速度上达到平衡。

3 声音分类模型

3.1 模型结构和权值二值化

该卷积神经网络声音分类模型是在 Tensorflow 语音指令数据集上进行训练得到，能

够分辨出“up”，“down”，“yes”，“right”，“left” 共 5 种单词语音段和未知声音(unknown)。

最初得到的原始网络模型中的权值和中间结果（激活值）都由浮点格式表达。首先，该

模型利用 MFCC 算法将一个音频文件变换成维度为 20*49*1 的浮点格式的张量，该张量

即为音频的特征图矩阵。此张量将被送入包含两个卷积层、三个全连接层的卷积神经网

络中，所有的卷积核大小均为 3，卷积步长为 1。该卷积神经网络没有边缘扩展，便于我

们加速，该网络的结构如图 1 所示。最后，该模型通过 softmax 函数输出六种类型标签

的预测概率。

Figure 1 Convolution Neural Network’s Architecture

图 1 卷积神经网络结构

当模型训练完成、参数数值都确定之后，我们利用 tanh 函数将数值分布没有约

束范围的浮点权值约束到（-1，1）的范围，然后使用一系列放缩与映射的方法将浮

剩余12页未读，继续阅读

UEgood雪姐姐

粉丝: 43
资源: 319

FPGA上的二值化卷积神经网络语音分类加速器

基于异构FPGA的卷积网络加速器.pdf

基于FPGA的递归神经网络加速器的研究进展.pdf

基于FPGA的多核可扩展卷积加速器设计.pdf

基于FPGA的SqueezeNet推断加速器设计.docx

基于FPGA的深度学习加速器的设计与实现》.zip

基于硬件的神经网络加速.pdf

FPGA加速深度学习综述

如何使用FPGA加速机器学习算法？

FPGA上的二值化神经网络语音分类加速器

FPGA深度学习加速器实现CNN自适应映射技术

最新资源