DCT-SNN：基于DCT的低延迟尖峰神经网络

157 浏览量更新于2023-09-25 收藏 1006KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4671DCT-SNN：使用DCT随时间分布空间信息用于低延迟尖峰神经网络Isha Garg*Sayeed Shafayet Chowdhury*KaushikRoy Purdue University，West Lafayette，IN，USA 47907gargi，chowdh23，kaushik@purdue.edu摘要尖峰神经网络（SNN）提供了传统深度学习的有希望的替代方案，因为它们由于事件驱动的信息处理而提供了更高的计算效率。SNN随时间将像素强度的模拟值分布成二进制尖峰。然而，最广泛使用的输入编码方案，例如基于泊松的速率编码，并没有有效地利用SNN的额外时间学习能力此外，这些SNN遭受高推理延迟，这是其部署的主要瓶颈。为了克服这一点，我们提出了一种基于时间的编码方案，利用离散余弦变换（DCT），以减少推理（DCT-SNN）所需的时间步长的数量。DCT将图像分解为加权和正弦基础图像。在每个时间步长，按顺序取并由其对应的DCT系数调制的单个频率基础被输入到累加器，该累加器在越过阈值时生成尖峰。我们使用所提出的方案来训练DCT-SNN，这是一种低延迟的深度SNN，使用基于代理梯度下降的反向传播的漏积分和激发神经元。我们使用 VGG 架构在 CIFAR-10 ， CIFAR-100 和TinyImageNet上分别值得注意的是，与其他最先进的SNN相比，DCT-SNN以2- 14倍的延迟执行推理，同时实现与其标准深度学习对应物相当的准确性。变换的维度允许我们控制推理所需的时间步长的数量。此外，我们可以通过在推断期间丢弃最高频率分量来以原则性的方式权衡准确性与延迟。该代码可公开获取。11. 介绍深度学习网络极大地提高了许多任务的最先进性能，例如对象*平等贡献1https://github.com/SayeedChowdhury/dct-snn检测、分类和自然语言处理[7，12，19]。然而，这样的架构是非常耗能的[22]，并且需要定制的架构和边缘部署的培训方法[14]。为了解决这个问题，尖峰神经网络（SNN）已经成为传统深度学习架构的一个有前途的替代方案[25，31]。SNN是生物似然网络，其灵感来自于在哺乳动物大脑中观察到的学习机制。它们在结构上类似于标准网络，但以尖峰形式而不是完全模拟值的形式执行计算，如标准网络中所做的那样。在本文中，我们参考标准网络作为模拟神经网络（ANN），以将它们与具有数字（尖峰）输入的尖峰对应物SNN中的输入和对应生成的激活都是二进制尖峰，并且通过随时间累积尖峰来执行推断。这可以被可视化为将ANN的一步推理分布到SNN中的SNN的能量效率的主要来源来自于在任何给定的时间步长处非常少的神经元尖峰的事实。这种事件驱动的计算以及通过SNN中的加法来替换ANN中的每个乘法-累加（MAC）操作允许SNN以更少的能量进行推断。使用具有架构修改的自定义SNN实现可以进一步增强这种能量益处[17]。Li等人。 [23]发布了基于神经形态传感器输入的CIFAR-10数据集的尖峰版本。IBM设计了一个非商业处理器“TrueNorth”[2]，英特尔设计了它的等价物“Loihi”[6]，可以在SNN上训练和推断。Blouw等人。 [3]已经表明，在Loihi上实现的SNN比在GPU上运行的等效ANN更有效两个数量级。然而，SNN中由于尖峰随时间步长的累积而导致的较高推理延迟仍然是一个挑战。以过高的延迟为代价的能量效率仍然会因此，减少SNN中推理所需的时间步长是一个活跃的研究领域。影响人数的主要因素之一4672需要的是在时间步长上将像素转换成尖峰的编码方案。目前，最常见的编码方案是泊松尖峰生成[32]，其中输入处的尖峰被生成为泊松尖峰序列，平均尖峰速率与像素强度成比例。该方案在时间轴上不编码任何有意义的内容，每个时间步长与任何其他时间步长相同。此外，使用该方案训练的网络遭受高推理延迟[32]。已经引入了诸如相位[18]或突发[27]编码的时间编码方案以更好地将时间信息编码到尖峰序列中，但是仍然引起高延迟并且需要大量尖峰用于推断。另一种相关的时间方法，第一尖峰时间（TTFS）编码[28，44]，限制了每个神经元的尖峰数量，但高延迟问题仍然存在。在[5]中已经使用了用于编码信息的尖峰的相对定时，但是结果仅针对像MNIST这样的简单任务进行了报告，并且其对更深层次的架构（例如VGG）和更复杂的数据集（例如CIFAR）的可扩展性仍然不清楚。在本文中，我们提出了一种新的编码方案，随着时间的推移将像素转换为尖峰。所提出的方案利用块矩阵乘法将空间信息分解成基的加权和，然后反转变换以允许在多个时间步上重建输入。然后，将每个时间步取一个、由来自正向变换的权重调制的这些基呈现给尖峰生成层。尖峰发生器将当前时间步长之前看到的所有碱基的贡献相加，如图1所示。虽然任何可逆矩阵都可以用作变换，但理想变换遵循能量压缩和基的正交性的性质，我们激励离散余弦变换（DCT）作为理想的选择，因为它是数据独立的，与正交基排序的频谱能量的贡献。每个时间步长从第一时间步长处的零频率分量开始获得对应于单个基的信息。每个后续步骤逐步细化输入表示。在周期结束时，整个像素值已经通过尖峰生成神经元。因此，该方法以有意义的方式成功地将像素值分布在所有时间步长上。选择变换的适当维度提供了对用于推断的时间步长的数量的细粒度控制。我们使用所提出的方案来训练DCT-SNN ，并观察到它将从 CIFAR-10 ， CIFAR- 100 和TinyImageNet数据集推断图像所需的另外，对在每个时间步输入的频率基础进行排序提供了原则性的交易如果需要，通过丢弃最不重要（最高频率）的分量，在推断期间减少时间步数的精度。概括起来，这项工作的主要贡献是-• 一种新的SNN输入编码方案的介绍，其中每个时间步长的计算编码不同的信息，不同于其他速率编码方法。• 所提出的编码方案用于训练DCT-SNN，与其他现有技术的SNN相比，DCT-SNN能够以低2- 14倍的时间步长进行推断，同时实现相当的准确度。• 据我们所知，所提出的技术是第一个利用频域学习SNN视觉应用的工作。• 据我们所知，这是第一个工作，命令时间步长的意义重建。这提供了通过修剪一些稍后的频率分量来权衡准确性以获得更快推断的选项，这对于在其他SNN中执行是不平凡的。2. 相关作品在频域中学习ANN。在频域中的视觉任务的成功学习已被证明在人工神经网络在几个作品。这些利用直接从JPEG压缩方法[36]获得的DCT系数，而在[35]和[29]中，使用传统的CNN与DCT系数作为图像分类的输入。 Ehrlich和Davis [11]提出了一种模型转换算法将预训练的空间域网络应用于JPEG图像。[37]中利用小波特征来训练基于CNN的分类器。然而，这些方法受到影响与空间域中的学习相比，小的准确度降级。在[41]中，DCT特征被有效地用于大规模分类和实例分割任务。虽然这样的频域方法已经证明在ANN中是富有成效的，但是在SNN中是未探索的，尽管图像的空间基础到频域中的时间基础的转换直观地与将ANN中的模拟像素值分布到SNN中随时间的尖峰有关。存在三种用于训练SNN的突出工作路线，即使用尖峰定时依赖可塑性规则（STDP）[8]，ANN-SNN转换[9，33]和从头开始训练SNN [34，39]。虽然基于STDP的局部学习[8，42]在生物学上更合理，但将此类算法扩展到MNIST类型的任务之外一直具有挑战性。因此，以下讨论主要集中在基于转换和反向传播的作品上。ANN-SNN转换。训练速率编码的深度SNN的最常见方法是首先训练ANN，然后将其转换为SNN进行微调[4，9，33]。4673∼∈Σ∈∈∈通常，人工神经网络的训练有一些限制，以促进这一点，例如不使用偏置，批量范数或平均池化层，尽管一些工作能够绕过这些约束[32]。为了成功地将ANN转换为SNN，适当地调整集成和激发（IF）/泄漏IF（LIF）神经元的阈值是至关重要的。Sengupta等人。 [33]建议计算分层阈值作为神经元的最大预激活。这导致高准确性，但引起高推理延迟（约1000个时间步）。或者，Rueckauer et al. [32]选择激活前分布的某个百分位数为阈值，减少推理等待时间并提高鲁棒性。这些作品和我们的作品的不同之处在于我们对时间步长的重视。来自 Scratch 和 Hybrid Training 的反向传播训练SNN的另一种方法是使用反向传播从头开始学习此外，这种训练需要很长时间才能收敛。基于替代梯度的优化[26]已被用于规避该问题并有效地在SNN中实现反向传播[15，21]。在[43]中提出了仅在单个时间步长处基于替代梯度的膜电位反向传播 Shrestha 和Orchard [34]使用膜电位和阈值之间的差异计算梯度Wu等人。 [39]在SNN上执行时间反向传播（BPTT），其中在膜电位上定义了替代梯度，因为它是连续值的。总的来说，使用这种代理梯度用BPTT训练的SNN已经被示出实现高准确度和低延迟（100-125时间步），但是与转换技术相比，训练是非常计算密集的。拉蒂和[30]提出了两种方法的组合，其中预先训练的ANN用作SNN域中后续替代梯度学习的初始化。混合方法通过减少延迟和加速收敛来改进转换。然而，这与编码方案正交，并且可以用于提高任何速率编码方案的性能。在这项工作中，我们采用混合训练方法来训练SNNs。我们的方法的关键区别在于如何随时间对像素值进行编码，这将在下面描述。3. 编码方案用于随时间将像素值转换成尖峰的理想编码方案应当捕获数据的时间统计中的相关信息。另外，输入神经元处的所有时间步上的总尖峰活动应对应于像素强度。我们的编码方案解构成一个加权和的基函数的图像。我们反转该变换以重建随时间步长的图像。每个基函数，取每个时间步一个并且由来自解构的权重调制的信号被输入到积分激发（IF）神经元，该IF神经元累积时间步上的输入，并且当累积超过其阈值时激发。3.1. 一种用于像素随时间一维变换为了简单起见，我们首先考虑在整个输入像素空间上的一维变换。让我们考虑单个d维图像，XR1×d。我们使用变换矩阵T将该图像变换到新的坐标系中，其中TRd×d。变换后的矢量Y=XT，其中YR1×d包含新坐标系中图像的系数这在图1中对于d=5以图形方式示出。假设T是满秩矩阵，我们考虑T−1Rd×d，将我们带回原始坐标系的逆变换矩阵。为了简单说明原因，假设T是一个正交矩阵，其逆矩阵等于其转置矩阵，T−1=T′。正向变换表示将输入X解构为基向量的加权和，由T-1的行或T的列表示，如图1所示。这些碱基由Tn，n=1，2…D.如果我们每个时间步向SNN输入一个基函数，则我们通过用来自前向变换的其对应权重调制第t个基来获得时间步t处的输入的中间表示X（t）对所有基求和可以重建X. 从数学上讲，不X（t）=ynTn和X（d）=Xi（1）n=1X（t）的模拟值是在每个时间步长处到尖峰发生器的输入，并且使用IF神经元转换为尖峰，如图2所示。因此，我们已经成功地将输入X分布在d个时间步上，每个时间步在我们选择的基上携带信息。在下一节中，我们将讨论解构X的基的理想性质。基向量的期望性质。变换矩阵T的列包含解构X的基。由于我们每个时间步长使用一个基，因此我们希望每个基都提供关于X. 上的正交约束捕获了这一点。T.标准正交列避免了时间步之间的信息的消除，并且通过转置操作将正向变换和反向变换相关联。对T的第二个约束是碱基通过它们携带的信息的度量来排序。这允许每个基函数以连续地细化每个时间步的表示。希望将大部分信息集中在较早的时间步中，并在后面的步骤中添加细粒度的信息。这种碱基的排序使我们能够4674Yt=2年 2...... =t=3y3T-1T2T3T4...T 5…t=4...y4+... ......这是什么？T5 ......这是什t=5y5○=X（5）= X反向变换：时间扩展（）��=;��=��X重建=X（1）X（3....T1++=×个×个×个Σ×个Σ×个× ××y1y2y3y4y5○ ... ......这是什么？T1 ......这是什么？ ......这是什么？+111111 =○○1图1：1-D编码方案：在左边，我们展示了正向变换。T表示将输入X带入中间坐标系的变换矩阵，从而产生表示Y。在右边，我们显示了逆变换，它使用Y随时间重建X。这里T−1=T′。输入图像X在每个时间步通过对在所有先前时间步上由对应系数y，n调制的基向量T，n求和来渐进地重构。由于此处显示了5个碱基，因此X需要5个时间步进行重建。以原则性的方式丢弃碱基，以在推理期间针对等待时间来折衷准确性。满足约束的变换。有两种广泛使用的变换满足这些属性：DCT变换[1]和Karhunen-Lo e v e变换[10]，也称为主成分分析（PCA）。DCT将图像分解为正弦频率的线性组合，按频谱能量排序。PCA使用输入的协方差矩阵的特征向量作为基，按数量排序他们解释的差异。DCT通常用于JPEG压缩，PCA通常用于降维，通过近似后面的分量。然而，PCA导致数据集相关的基础，而DCT基础是预先确定的，避免了额外的计算。1-D DCT变换使用以下等式以使用正弦基底将像素值Xn取为DCT系数XkDCT中空间频率到时间频率的转换直观地使其适合于将ANN中的空间信息分布成随时间的尖峰的概念。3.2. 二维离散余弦变换现在我们将该方案扩展到2-D。2-D DCT只是首先沿着宽度通道然后沿着长度通道应用的1-D DCT。图像是高维的，导致大的变换矩阵T。这是不期望的，因为DCT基的数量（或T的维度）规定了重建图像所需的时间步长的数量。为了解决这个问题，类似于JPEG压缩[36]，我们首先将图像从RGB转换到YCbCr域，然后对大小为n n的块执行2-D DCT，得到n2 个有序频率分量。我们用等价地整形的频率系数替换n n像素块。一个n-n块需要n-2的时间步长的像素块的完美重建Xk=N−1n=0xncosΣπNn+1k2k= 0，. . . ，N-1。（二）小的n值允许我们通过仅对几个基础图像求和来重建图像。在标准JPEG压缩中，使用8 × 8块，从而产生图3中所示的64个基础图像。从以下获得的碱正弦曲线的基底可以作为列输入的变换矩阵T。然后，正向变换被计算为Y=TXT’，并且反向变换被计算为X=T’YT。表1中示出了DCT、PCA、没有排序基的随机正交变换和随机非正交非排序变换的结果的比较。下半在本文中，我们使用数据集不可知的DCT。此外，本发明还还示出了CIFAR-10的训练数据集上的PCA。从经验上讲，我们发现，块大小为4 - 4收敛到最佳精度与最低数量的时间步长。我们通常需要运行3个周期以实现最佳精度的收敛，总计4 4 3= 48个时间步。在3个循环中的每一个中，我们重复16个DCT系数和基，以允许尖峰传播到更深层的时间。这将在第4节中进一步详细讨论。与JPEGt=1年 1X（2）十（4XX3.****不T1T2T3T4 T5****=Y正向变换：X的解构��⋅y5y4y3y2y1X5X4X2X1==1Σ1......T3......1......T4......4675×× ××个∼×个图2：每个时间步长输入1-D DCT基函数的尖峰生成（垂直显示）。当累积值超过阈值时，神经元发放尖峰。在压缩方案中，我们利用重叠方案来提高精度，其中像素块重叠。这等效于以4的内核大小和2的步幅执行卷积，并将输入维度增加4.第一章为了解决这个问题，我们在线性层之前添加了一个额外的2 2平均池层。3.3. 在我们的方案中，SNN在中间像素表示上进行训练。因此，我们利用一个人工神经网络训练的像素（而不是DCT系数）的初始化。在尖峰发生器的IF神经元的阈值显着影响尖峰传播到更深层所需的时间步长。这个IF神经元，如图所示。2，接收由DCT系数调制的基，并在时间步长上累加它们，当累加超过阈值时触发。我们允许正尖峰和负尖峰来解释正弦基底的正周期和类似于隐藏层神经元，阈值被选择为尖峰发生器神经元处的累积的百分位我们得到最好的结果，分别使用6.5和93.5百分位数的积累作为阈值的负和正尖峰4. 实验和结果我们实现DCT-SNN通过将所提出的编码方案与使用LIF神经元的基于代理梯度的学习。从预训练的ANN开始，我们将权重复制到SNN，并选择每层激活前分布的99.9%作为其阈值。学习方法和训练超参数的详细信息分别在第1节和第2节的补充中给出。执行情况作为补充材料的一部分提供。转型的选择。我们首先分析图 3 ： CIFAR-10 的 8 个 2-D DCT 基（左）和 PCA 基（右）。DCT基从左上到右下以Z字形方式排序，PCA基从左到右和从上到下排序。在不同选择的变换矩阵（在3.1节中表示为T表1示出了在CIFAR上训练的VGG5网络的结果10.对于随机T，网络确实收敛，但精度比ANN低得多。接下来，为了避免不同基之间的干扰，我们使用随机正交T。表1示出了与非正交情况相比，准确度提高了20%。然而，T的这种选择不执行能量压缩。通过它们对重建的贡献来排名基础允许我们在推理期间权衡延迟的准确性。为了整合这一点，我们对转换进行了通过对4 × 4个块执行PCA生成的矩阵来自训练数据集的输入。虽然这满足了所需的属性并提供了最佳性能，但它是一种依赖于数据的变换。因此，我们利用固定的DCT矩阵，并发现它与PCA表现相当对于所有后续分析，我们使用DCT作为变换的选择。块大小和重叠的影响。在选择DCT来确定我们的编码方案的基础之后，我们调整块大小和步幅。结果示在图4中。‘DCT-x’ denotes a network trained oninputs transformed with DCT of blocksize 将块大小从16减小到4一致地提高了准确性。此外，由于块大小为X需要X2个时间步来传递周期的一个信息，因此较小的块大小受益于每个周期的时间步的较少要求。不同块大小的结果与括号中所需的时间步长如图所示。4.我们的经验发现，DCT-2是无法收敛，和重叠版本的DCT-4的步幅为2优于所有其他情况。因此，我们将该方案用于所有进一步的实验。信息传播的周期数。下一个设计参数是每次正向传递的时间步数。用不同时间步长训练的DCT-SNN的性能如图所示。5.在方案DCT中-4676表1：具有DCT块的CIFAR-10表2：准确度（%），括号中指示时间步长。-p和-d分别尺寸=4×4VGG9VGG11VGG13变换精度配置CIFAR-10CIFAR-100TinyImageNet矩阵（%）ANN-p 91.3 69.7 56.9随机64.7未排名83.3正交PCA 83.8DCT 83.588.9（100）SNN-d 88.2（100）65.1（125）44.6（250）DCT-SNN89.9468.352.43（125）（四十八）（四十八）51.45（48）不带batchnorm和maxpool的ANN，以便于转换b具有batchnorm和maxpool的图4：CIFAR10上VGG9的准确度（%），DCT块大小（时间步长）在图4中，一个完整的周期相当于16个时间步。该网络收敛到89.94%的准确度，48个时间步和88.41%的准确度，只有32个时间步。由于性能在3个周期（48个时间步）后饱和，因此我们将48固定为在CIFAR-10和CIFAR-100上训练DCT-SNN的时间步数。然而，对于更深的网络和更大的数据集，更大的时间步长可能会产生进一步的改进，如表2所示。值得注意的是，泊松编码网络的准确性严重下降到45个时间步长以下（图1）。5），而DCT-SNN即使在28个时间步长下也遭受最小的下降。特别是，泊松不收敛下32个时间步长，而我们在32个时间步长实现小于2%的精度下降。CIFAR 和 TinyImageNet 的结果。使用 CIFAR 和TinyImageNet数据集的建议方案的实验结果DCT-SNN的性能与用泊松编码像素训练的SNN相当，但需要少于一半的时间步长。此外，DCT-SNN优于在泊松编码的DCT系数上训练的SNN，这可能是由于像素随时间的重建。为了证明DCT-SNN的可扩展性，我们将其应用于TinyImagenet。而具有泊松编码像素的SNN需要250图5：不同时间步长下为了收敛，我们的方法在125个时间步中实现了相当的精度。允许1%的准确度下降，我们的方法收敛甚至48个时间步。性能比较。我们将我们的性能与表3中不同的现有技术SNN的报告结果进行比较。DCT-SNN比这些方法的报告准确度表现得更好或相当，同时实现更低的推理延迟。吴等人[39]报告了CIFAR10结果，其中30个时间步长用于具有2个卷积层和2个完全连接层的浅网络，其中50个时间步长。7%的准确率。我们用DCT-SNN实现了同样的网络，并实现了68。1%的精度，28个时间步长。接下来，我们比较了将模拟像素强度直接暴露给第一卷积层而不是尖峰的方法。在随后的工作中，Wu et[40]在CIFAR-10上实现90.53%的准确度，在具有5个卷积和1个卷积的网络上仅使用12个时间步长。2个完全连接的层。然而，在[40]中，在每个conv层之后，二进制激活经历逐通道归一化，这使得二进制激活基本上是模拟的。我们认为，每一层的模拟计算使该网络更接近ANN而不是SNN，从而大大减少了时间步长。ANN-d 90.466.445.5a53.1bSNN-p90.1（175）67.8（125）五十三（二百五4677∼×个×个×个EL图6：推断期间的准确性-延迟折衷; VGG 9在CIFAR-10上用所有16个频率训练48个时间步。在推断期间，周期1使用所有16个频率，周期2使用有限的有序频率。特别是因为它们的网络被示出为在单个时间步长中收敛到良好的精度。我们还比较了训练人工神经网络的DCT系数的作品。[11]的作者报告了具有72个的ANN。5%，38。CIFAR-10和CIFAR-100的准确率分别为5%，[35]报告的作者 86 。 CIFAR-10 的准确率为 35% 。 DCT-SNN 在CIFAR-10上达到高达90%的精度，如表2所示，当对大小4 4，重叠为2，不像标准JPEG方案8 8没有重叠。然而，与[11]不同，DCT-SNN不在频域中训练，因为在通过网络传递调制基之后，像素域中的输入图像的等效物通过SNN。为了验证我们的方法是可以通过从头开始的反向传播来训练的，我们从头开始训练了一个VGG 9 SNN用于CIFAR-10，它给出了84。9%的精度，48个时间步长。在补充部分5中示出了与其他编码方案的更详细的比较。准确性-延迟权衡。在我们的计划中的基地的排名允许我们放弃最不重要的组件。在图6中，我们通过使用所有16个频率对在CIFAR-10上训练的VGG 9 DCT-SNN进行48个时间步的推断来显示碱基排序对准确性的影响。尖峰传播到更深层需要最少16个时间步长（1个周期），因此时间步长小于16的任何配置都无法正确推断。我们在测试数据上提供2个输入周期。第一个周期使用所有16个分量，下一个周期依次添加更高的频率。由于大部分信息包含在较早的时间步中，因此我们能够获得良好的准确率（73.9%图7：DCT-SNN逐层尖峰速率。C和FC分别表示Conv和全连接层这是一个原则性的权衡推理准确性和训练网络上的延迟。用有限频率训练的网络的结果在补充部分中示出3.在补充部分6中示出了改变输入频率的顺序的效果计算效率。用浮点加法代替人工神经网络中的浮点MAC运算在SNN中。M A C 操作的成本（4. 6pJ）是五、1与添加（0. 9pJ）[13]（45nm）CMOS工艺表达代表在补充部分4中给出了ANN中每层操作形式的计算成本#ANNops等效DCT-SNN中的每层操作的数量通过层的尖峰速率与#ANN操作#DCT-SNNops，L=尖峰速率L×#ANNops，L，（3）其中尖峰速率L是在层L中的所有时间步上每个图像每个神经元的尖峰的平均数量。使用DCT-SNN的CIFAR-10和CIFAR-100的逐层尖峰速率示于图2中。7.两种情况下所有层的总体平均尖峰速率远低于5.1（MAC与添加的相对成本），表明DCT-SNN相对于相应的ANN的能量益处。对于DCT-SNN，前向和反向预处理变换中的2次全精度矩阵乘法的附加成本被表示为编码器操作。该计算仅需要一个周期（16个时间步长），因为其他2个周期仅重复相同的基和系数。当与跨所有时间步的所有层上的操作的数量相比时，开销可以忽略不计。我们计算DCT-SNN的能量效益超过占88.6%）仅具有前4个碱基。连续组件添加了更精确的信息，因此ANN，α=EANNDCT-SNN 因为，ΣL#ANN ops，L* 4. 6从图中可以明显看出，精度饱和。6. 到达贝斯特我们的知识，这是第一个工作，证明了一个α=编码器操作次数* 4。6+Σ#DCT-SNN操作，L*0。9（四）4678×个表3：DCT-SNN与其他报告结果的比较。SGB表示基于替代梯度的反向传播，Hybrid表示预训练的ANN，随后进行SNN微调，TTFS表示首次尖峰时间方案，TL表示串联学习，并且（xC，yL）表示具有x个Conv层和y个线性层的架构。参考数据集培训架构准确度（%）时间步Hunsberger和Eliasmith [16]CIFAR10转换2C、2L82.956000Cao等人[4]美国CIFAR10转换3C、2L77.43400Sengupta等人[33]第三十三届CIFAR10转换VGG1691.552500Lee等人[21日]CIFAR10SGBVGG990.45100Rueckauer等人[32个]CIFAR10转换4C、2L90.85400Rathi等人[30个]CIFAR10混合VGG990.50100Park等人[28日]CIFAR10TTFSVGG1691.40680Park等人[27日]CIFAR10突发编码VGG1691.401125Kim等人[18个国家]CIFAR10相位编码VGG1691.201500Wu等人[39]第三十九届CIFAR10SGB2C、2L50.7030Wu等人[第四十届]CIFAR10SGB5C、2L90.5312Wu等人[38个]CIFAR10TL（LIF）5C、2L89.048这项工作CIFAR10DCT-SNNVGG989.9448卢和森古普塔[24]CIFAR100转换VGG1563.2062Rathi等人[30个]CIFAR100混合VGG1167.90125Park等人[28日]CIFAR100TTFSVGG1668.80680Park等人[27日]CIFAR100突发编码VGG1668.773100Kim等人[18个国家]CIFAR100相位编码VGG1668.608950这项工作CIFAR100DCT-SNNVGG1168.3048Sengupta等人[33]第三十三届TinyImageNet转换VGG1648.602500Kundu等人[20个]TinyImageNet混合VGG1651.92150这项工作TinyImageNetDCT-SNNVGG1352.43125对于VGG 9-CIFAR 10和VGG 11-CIFAR 100，所获得的α值与[28]类似，在此评估中未考虑存储器访问的成本，因为它取决于硬件架构和系统配置。5. 结论生物似然SNN从每个时间步的尖峰的稀疏性和事件驱动的计算中获得效率，但遭受高推理延迟。最广泛使用的基于泊松的速率编码方案不将有意义的信息编码到SNN的时间轴中，并且需要大量的时间步长用于推断。为了解决这个问题，我们提出了一个新的编码方案，可以用来分配空间像素信息的时间步长在一个有序的方式。它利用可逆矩阵形式的线性变换，其中列用作表示分布的基础。通过对由中间系数调制的这些基求和来随时间在每一步中，我们将调制的碱基馈送到输入层的集成和激发神经元。当我们在时间步长上循环通过所有基时，神经元累积地接收总像素值。基的理想性质是正交性以避免干扰，并且通过对像素重建的贡献进行排序。DCT满足这些条件，同时也是数据集不可知的。我们得到最好的性能与2- D DCT 4-4块的输入，从而在16个基本频率。我们表明，DCT-SNN训练通过循环通过SNN几次这16个基地达到相当的准确性，其人工神经网络的同行，与其他国家的最先进的SNN相比，推理时间步长的数量不到一半。此外，对这些碱基进行排序允许我们删除最不重要的碱基（因此，时间步长）。推理准确性和延迟之间的这种原则性权衡是在边缘设备上部署SNN的有希望的方向。6. 确认这项工作得到了JUMP六个中心之一的大脑启发计算中心（C-BRIC）的部分支持，该中心是DARPA赞助的半导体研究公司（SRC）计划，由SRC，国家科学基金会，英特尔公司， DoD Vannevar BushFellowship和美国国防部。陆军研究实验室和英国国防部，协议编号W 911 NF-16-3-0001。4679引用[1] Nasir Ahmed，T Natarajan，and Kamisetty R Rao.离散余弦变换IEEE Transactions on Computers，100（1）：90[2]F. 阿科皮扬 J.泽田 A. 卡西迪 R. 阿尔瓦雷斯-伊卡萨J. Arthur，P.Merolla，N.伊玛目，Y.Nakamura山口达塔G. 南湾 Taba，M. 比克斯湾布雷佐邝R. Manohar ， W. P. 风险， B. Jackson 和 D. S. 莫达Truenorth：65兆瓦100万神经元可编程神经突触芯片的设计和工具流程IEEE Transactions on Computer-AidedDesign of Integrated Circuits and Systems，34（10）：1537-1557，2015. doi：10.1109/TCAD。2015.2474396.[3] Peter Blouw 、 Xuan Choo 、 Eric Hunsberger 和 ChrisEliasmith。在神经形态硬件上对关键词识别效率进行基准测试。在第七届年度神经启发计算元素研讨会论文集，第1-8页[4] Yongqiang Cao，Yang Chen，and Deepak Khosla.用于节能对象识别的尖峰深度卷积神经网络。InternationalJournal of Computer Vision，113（1）：54[5] Iulia M Comsa ， Thomas Fischbacher ， KrzysztofPotempa，Andrea Gesmundo，Luca Versari，and JyrkiAlakuijala.具有α突触功能的脉冲神经网络中的时间编码。在ICASSP 2020-2020 IEEE声学，语音和信号处理国际会议（ICASSP），第8529-8533页IEEE，2020年。[6] Mike Davies ， Narayan Srinivasa ， Tsung-Han Lin ，Gautham Chinya，Yongqiang Cao，Sri Harsha Choday，Georgios Dimou ， Prasad Joshi ， Nabil Imam ， ShwetaJain，et al. Loihi：具有片上学习的神经形态众核处理器。IEEE Micro，38（1）：82[7] 李登和杨柳。自然语言处理中的深度学习。Springer，2018.[8] Peter U Diehl和Matthew Cook。数字识别的无监督学习使用尖峰时间依赖可塑性。Frontiers in ComputationalNeuroscience，9：99，2015.[9] Peter U Diehl，Daniel Neil，Jonathan Binas，MatthewCook，Shih-Chii Liu，and Michael Pfeiffer.通过权重和阈值平衡实现快速分类、高精度尖峰深度网络。2015年国际神经网络联合会议（IJCNN），第1-8页。IEEE，2015。[10] R Dony等. Karhunen-loeve变换变换和数据压缩手册，1：1[11] 马克斯·埃利希和拉里·S·戴维斯。深度残差学习在JPEG变换域中。在IEEE计算机视觉国际会议论文集，第3484- 3493页[12] GeoffreyHinton，Li Deng，Dong Yu，George E Dahl，Abdel-rahman Mohamed ， Navdeep Jaitly ， AndrewSenior， Vincent Vanhoucke ， Patrick Nguyen ，Tara NSainath，et al.用于语音识别中声学建模的深度神经网络：四个研究小组的共同观点。IEEE Signal processingmagazine，29（6）：82[13] 马克·霍洛维茨1.1计算的能源问题（以及我们能做些什么）。2014年IEEE国际固态电路会议技术论文摘要（ISSCC），第10-14页。IEEE，2014。[14] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAndreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[15] Dongsung Huh和Terrence J Sejnowski.脉冲神经网络的梯度下降。神经信息处理系统进展，第1433-1443页，2018年[16] Eric Hunsberger和Chris Eliasmith用lif神经元构建深度arXiv预印本arXiv：1510.08829，2015。[17] Xiping Ju ， Biao Fang，Rui Yan ，Xiaoliang Xu，andHuajin Tang.用于低功耗和快速分类的深度脉冲神经网络的fpga实现。神经计算，32（1）：182[18] Jaehyun Kim 、 Heesu Kim 、 Subin Huh 、 Jinho Lee 和Kiyoung Choi。具有加权尖峰的深度神经网络。神经计算，311：373[19] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页[20] Souvik Kundu、Gourav Datta、Massoud Pedram和PeterA Beerel。节约穗：通过经由注意力引导的压缩限制尖峰活动来实现节能的深度尖峰神经网络。在IEEE/CVF计算机视觉应用冬季会议论文集，第3953-3962页[21] Chankyu Lee ， Syed Shakib Sarwar ， PriyadarshiniPanda，Gopalakrishnan Srinivasan，and Kaushik Roy.支持基于尖峰的反向传播来训练深度神经网络架构。神经科学前沿，14，2020。[22] Da Li，Xinbo Chen，Michela Becchi，and Ziliang Zong.在cpu和gpu上评估深度卷积神经网络的能效2016年IEEE大数据和云计算国际会议（BDCloud），社交计算和网络（ SocialCom ），可持续计算和通信（SustainCom）（BDCloud-SocialCom-SustainCom），第477-484页。IEEE，201

下载后可阅读完整内容，剩余1页未读，立即下载