基于像素处理器阵列的嵌入式神经网络实现

131 浏览量更新于2023-10-12 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CNN的摄像头：基于像素处理器阵列的嵌入式神经网络Laurie Bose1陈佳宁2Stephen J.Carey2 Piotr Dudek2Walterio Mayol-Cuevas11 University ofBristol，布里斯托尔，英国2University of Manchester，曼彻斯特，英国摘要我们提出了一个卷积神经网络实现像素处理器阵列（PPA）传感器。PPA硬件由通用处理元素的细粒度阵列这允许在光捕获点直接存储和操作图像，而不必将图像传输到外部处理硬件。我们的CNN方法将该阵列划分为4x4的处理元素块，基本上是权衡图像分辨率，以增加每4x4“像素”的本地存储容量我们implement并行操作的图像加法，减法和移位图像在这个4x4块格式。使用这些组件，我们制定了如何对这些图像执行三进制权重卷积，压缩存储这种卷积的结果，执行最大池化，并将得到的子采样数据传输到附加的微控制器。我们训练三元权重滤波器CNN用于数字识别和简单的跟踪任务，并在SCAMP5 PPA系统上演示这些网络的推理。这项工作代表了将神经网络处理能力直接嵌入到传感器焦平面上的第一步。1. 介绍卷积神经网络（CNN）的应用已经在各种视觉任务中取得了巨大的成功。虽然这些应用中的大多数需要大量的计算工作，并且因此需要大量的计算机硬件资源（GPU、FPGA、基于云的服务器等），但是在计算硬件受到严格限制的场景中（诸如对于移动和小占用空间系统）应用基于视觉CNN的推断也有很大的兴趣。然而，神经网络算法的要求通常超过这些电路中使用的嵌入式微处理器图1：SCAMP5是一种传感器处理器，它在其大规模并行像素处理器阵列上使用CNN进行真正的端到端捕获和处理。在这里，它演示了使用MNIST训练的CNN的推断从手绘输入（左）进行数字预测以产生正确的输出（右下角）。情况这导致了大量硬件加速引擎的出现。解决方案的范围从适用于神经网络计算的主流设备（如GPU）到针对神经网络加速优化的定制处理器硬件[11，25，1，12，8，13]。使计算更接近传感器在数据减少和功率效率方面提供了明显的优势这种效率在许多应用中至关重要，例如：移动机器人、自动驾驶汽车、可穿戴计算、物联网等等。与此同时，一类新的视觉传感器正在出现。这些器件将处理器和图像传感器集成在单个集成电路中。在某些情况下，处理电路可以直接集成到图像传感器的像素中，从而形成所谓的焦平面处理器设备[27]。其中一些计算相对简单的操作，例如提取每个像素的时间对比度[21，4]。一些实现更复杂的计算，例如卷积核[19]。传感器-处理器紧密集成的优势在于传感器接口处可用的大带宽，从而在低功耗下实现高速率操作，因为高功耗数据通信被重新部署。13351336duced。在图像传感和处理的集成的极端是像素处理器阵列（PPA），在图像传感器的每个像素中集成完整的软件可编程处理器的设备[5，16]。图像计算在这些处理器中进行，并且只有稀疏的输出从传感器设备传输这些设备已被证明在关键点提取[6]、焦深[17]或视觉里程计[3]等应用中具有独特的在这项工作中，我们考虑在这样的设备上实现CNN。计算基板的灵活性使我们能够考虑在配备PPA设备的智能相机系统中实现一个完整的基于CNN的分类器（见图1）。我们演示了如何将多个卷积核和最大池运算符直接结合在传感器上，以实现神经网络计算。一个特别感兴趣的领域是使用低精度权重和神经元激活[26，18]，以大大降低存储器需求并消除由实值乘法产生的大部分计算工作。在这一领域，越来越多的研究工作使用二进制[9，23，15]和三进制[14，28，2]权重来研究网络，以及在专门定制的硬件上实现这种低精度权重网络[20，22]。在这项工作中，我们提出了一种新的PPA设备上三元权重CNN的方案，并在SCAMP5 [7] PPA系统上演示了推理我们提出了一个合适的网络架构，讨论了我们的训练方法，并描述了如何实现PPA本身的我们解决了几个实际问题，lems有关的计算映射到有限的硬件资源的 PPA 芯片，并演示了一些简单的应用程序（MNIST数字分类，汽车跟踪）。我们的实验是使用SCAMP-5视觉传感器进行的，但结果适用于一般新兴的PPA设备类。这项工作的目的是证明这种方法的可行性，并为未来的传感器视觉计算铺平道路，甚至更有能力的PPA实现。2. 算法及实现简而言之，我们获取每个捕获的灰度图像（存储在PPA的模拟寄存器中然后，我们使用三进制权重内核执行从这些卷积得到的图像然后被转换回模拟，并在进行并行最大池化之前彼此并排存储所有上述步骤都是在PPA的像素阵列上执行的图2：SCAMP-5视觉芯片在SIMD阵列中执行每个像素包含模拟和数字存储寄存器和执行单元。ARM微控制器控制其操作并执行附加的顺序计算。然后，阵列的稀疏读出用于将特定的最大池化数据传输到附加的微控制器，在该微控制器上进行最终的完全连接层。然后，系统输出这最后一层的神经元激活2.1. 像素处理器阵列我们实验中使用的PPA是SCAMP-5视觉系统[7]。该架构如图2所示。它代表一类PPA器件，其中传感器的每个像素都包含处理器电路。每个像素中的资源是有限的，在SCAMP-5设备上，每个PE包含13个数字（1位）和7个模拟存储器寄存器，以及一些简单的算术，逻辑和控制电路[5]。PPA阵列在中央控制器的命令下，并且有效地作为图像范围的SIMD协处理器单元操作这使得操作，如灰度模拟图像加法，和二进制图像的逻辑或，要在整个轮胎256x256图像阵列在一个单一的指令周期进行。在典型的操作过程中，通过每个像素上的光传感器获取图像，通过并行处理在PPA阵列上提取信息，最后将数据传输到芯片外的控制器。近传感器处理方法非常有效。SCAMP-5在未来的设备上，可以在提高计算能力和降低功耗方面取得非常在这项工作中，我们专注于技术，只需要一个小数目的位每像素。这对于PPA实现是重要的。本地内存量和单个处理器的物理大小（限制了可行的数组大小）之间的权衡导致1337图3：左位1-16的顺序从最小到最重要的一个4x 4像素块.中间是一个16x16像素的网格，分成4x4块，存储16位图像。右边同样的图像以灰度显示。通常在每个像素中可用的少量本地存储器（例如，SCAMP-5上的13位，[ 16 ]中的64位，[ 24 ]中的64位）。此外，在更复杂的应用中，有限的本地存储器需要在算法之间共享。我们的方法，处理一个非常有限的每像素的位数，因此应该很容易转移到未来的数字PPA设备，这将允许更深的网络和更快的计算速度。应该注意的是，我们在这项工作中使用的SCAMP-5PPA在某些情况下，模拟操作可以提供更高的速度和效率，但是，除非仔细解决，否则重复的模拟操作都可能导致噪声的积累。因此，与[10]不同，这项工作使用数字寄存器进行图像卷积，而模拟寄存器用于存储和并行最大池化。2.2. 低分辨率高位深数字图像SCAMP-5 PPA上的每个256 x256像素处理器包含13个数字（二进制）寄存器。写入或读取- ING到同一个数字寄存器内的所有像素的阵列射线，从而允许一个单一的256 x256二进制图像被存储和操纵。然而，1位图像不足以计算和存储图像卷积结果。另一方面，同时使用多个数字寄存器来存储较高位深的图像可能占用执行其他计算所需的大量资源。为了解决这个问题，我们提出了一种图像格式，其将256x256阵列分割成4x4像素块，如图3所示和图4所示。来自每个4x4块（即每个“像素”）的16个数字寄存器然后用于保存单个16位值。这种数字图像格式有效地将图像存储分辨率从256x256降低到64x64，但将位深度从1增加到16。这为深度学习任务提供了分辨率和位深度之间更适合的权衡，并用于执行图像卷积。下面是如何有效地添加、减去和操作以这种格式存储的图像的方法。图4：从左到右，SCAMP 5捕获的模拟图像被转换为数字4x4像素块格式，然后再转换回模拟图像。请注意，分辨率从256x256降至64x64。图5：4x4块向上（上）和向下（下）移位以及加载到传输方向寄存器的相应模式2.3. 钻头排列和移位图3中示出了单个4x4块中从最重要到最不重要的位的顺序。这种排列由连续的Z字形路径或“位蛇”组成，每个位位置与下一个和前一个最高有效位置相邻。在SCAMP-5中，像素只能与四个直接相邻的像素进行通信所提出的位蛇模式避免了这个问题时，位移位的图像，因为每个像素可以立即将其数据传输到下一个或前一个位的位置。移位操作如图5所示。每个像素传输数据的方向由四个控制寄存器 R-NORTH 、 R-SOUTH、R-EAST、R-WEST确定，每个寄存器指定不同的传输方向。通过为每个4x4“像素”块将正确的模式加载到这些寄存器这为我们提供了一种有效的并行方式来对4x4块格式的图像进行位移位，这是图像加法和减法的重要组成部分。1338图6：单个4x4块添加步骤。2.4. 加减法使用三进制权重执行图像卷积需要能够执行图像加法和减法的序列。本节介绍如何对4x4块格式的图像执行这些操作。2.4.1此外在图像A和B之间执行图像相加涉及计算两个中间图像AND（A，B）和XOR（A，B）。这些都可以产生使用的NOR和非操作原生SCAMP5数字寄存器的组合，灰。如果AND（A，B）的内容是黑色（全0）图像，则在A和B之间的任何相同位置都没有设置位，并且A+B的结果只是XOR（A，B）。然而，如果图像AND（A，B）在其中设置了位，则它被复制并向上移位，因为在A和B的相同位置设置的位被加在一起。然后，图像A被A=XOR（A，B）替换，B被B = BitShiftUp（AND（A，B））替换在图6中，在两个4x4块上示出了该过程。2.4.2减法从图像A减去图像B的过程遵循与加法类似的一组步骤。图像XOR（A，B）和AND（！A，B）是使用本机NOR和NOT运算生成的，AND（！A，B）然后保持减法的进位，XOR（A，B）中间结果。如果进位图像具有设置位，则其被向上移位，并且图像B被B =BitShiftUp（AND（！A，B）），并且图像A被A =XOR（A，B）替换。然后重复这一系列步骤，直到进位寄存器中没有设置位为止，在此基础上返回XOR（A，B）作为减法结果。该过程如图7所示。图7：单个4x4块减法步骤。2.5. 模拟图像如前所述，我们避免使用模拟寄存器执行长时间计算，但它们用于卷积结果的中间图像存储，因为它们提供了每个像素中可用的额外本地存储资源。这涉及到一个数字到模拟转换，采取每个4x4像素块，并加载到一个模拟像素块的存储值的近似值。这种从16到1的阵列像素用于存储一个值，允许16个图像在数字4x4块格式存储在一个单一的256x256模拟图像。这是使用如图8所示的棋盘格方案来完成的，其中x和y中的每第4个像素属于同一图像。2.6. 图像卷积图像卷积生成新图像，其中每个像素由来自源图像的像素的一些线性组合形成。具体地，通过从源图像中的局部矩形区域中取像素的加权和来形成每个像素的值。相同的权重用于形成每个像素，并且对应的权重矩阵被称为卷积核或滤波器。在这项工作中，我们限制这样的内核的三元权重（可能值为1，0，-1）。这使得图像卷积以并行方式实现SCAMP，只使用图像加法和减法，避免compu-tation昂贵的乘法，并需要较少的内存存储的权重。所有卷积都是在第2节中描述的4x4块数字寄存器格式中存储的图像之间进行的，广泛使用了图像加法、减法和移位的2.6.1方法执行卷积包括迭代地移动源图像，使得每个像素都访问了它在新图像中贡献的每个在我们的例子中，这涉及到沿着Z字形路径移动整个源图像1339图8：单个棋盘模拟寄存器中存储的16个卷积结果示例。四个卷积图像被提取并显示在右侧，覆盖所使用的矩形内核的尺寸。在每个步骤中，检查与当前移位相关联的核权重，并且将移位的源图像添加到两个可能图像中的一个在最后步骤中，累加减法的图像从累加加法的图像中被子化，形成由卷积运算生成的新图像。这个过程在算法1中概述，图8显示了从各种内核产生的图像的一些示例。算法1在A上执行图像卷积透明（B、C）对于y=0：y KernelSize−1 doforx=0：x KernelSize−1 doifWeight[x][y]== 1thenB =添加4x4块图像（A，B）否则，如果权重[x][y]==-1，则C =添加4x4块图像（A，C）end if如果y%2 == 0，则图像东移x4（A）其他图像西移x4（A）结束if结束forShift Image South x4（A）端A =减去4x4块图像（B，C）图9：MNIST训练中的内核过滤器示例。左侧显示实值权重，中间和右侧分别以阈值0.2和0.5生成三元权重自己的软件进行网络培训和模拟。这使我们能够快速测试各种想法和训练-方案，考虑硬件实现约束，并纠正PC上的训练与SCAMP5硬件上的实际推理之间的任何差异。我们将自己限制为卷积层上的三元权重-1，0，1，因为这些权重是在像素ar上计算的射线，其中简单的图像操作，如加法和减法（对应于权重+1，-1）比乘法更可取。我们训练涉及三元权重的网络的方法与[9]所采取的方法高度相似，从二元扩展到三元权重，应用于卷积核的共享权重。我们存储网络中所有权重的实值表示，在每个前向传递步骤中，与三进制权重相关的实值根据公式1和2执行该离散化，公式1和2是计算上便宜的硬S形函数。本质上，三进制权重的关联实值越接近1. 在前向传递中生成的相同的三进制权重值然后，由这些三进制值生成的梯度有助于在参数更新步骤中更新整个网络的权重注意，我们使用整流线性单位（ReLU）作为所有神经元的激活函数，并且我们还绑定了权重在[-1，1]区间内，因为超出这些值将不再影响离散化过程根据公式2。中国+1概率σ（w）返回（A）3. 三重权值网络训练T（w）=10-1|W|）−1概率σ（−w）（一）本节介绍用于训练网络以供以后在SCAMP 5硬件上进行推理的过程由于SCAMP5硬件的独特性，与更多标准设备有很大不同，我们实施了σ（x）=max（0，min（1，x））（2）这种方法背后的一个关键见解是，在随机离散化过程中，每个三元权重可以被视为其相关实数的噪声近似，1340R价值的重量。由这些三进制权重生成的梯度，在许多训练样本上累积，求平均值以表达它们背后的真实值。这允许随机梯度下降仍然以与具有实值权重的网络类似的方式进行4. SCAMP5的推论本节描述了根据第3节训练网络并在SCAMP5硬件上复制网络的过程如第3节所述，每个三进制权重具有相关联的实值，其在每个前向传递中用于概率性地生成所述权重的相关联的三进制值。然而，当执行推理时，我们需要确定用于这些权重的最终固定这可以通过简单地将每个三进制权重对于给定的阈值，α∈[0，1]，三元权重WT被分配值+1，如果WT> α，如果WT−α，则值为−1，否则为0。在-由于视角、传感器位置、照明条件等，原始MNIST数据集的变化，因此采用简单的数据扩充来使网络对这些变化更鲁棒。这包括对图像应用随机变换，特别是最多2像素的大小，±20度之间的随机旋转，并随机重新缩放所产生的图像，x和y方向分别为原始尺寸的±10%我们训练了由单个5x5内核组成的网络卷积层的16个过滤器，其次是一个4x4的最大池层到一个完全连接的输出层使用8位权重。图9示出了从训练过程产生的9个滤波器内核的示例。这些网络通常分类准确率达95%。5.2. SCAMP5推理当在SCAMP 5上执行MNIST数字识别推理的评估时，我们面临的问题是没有有效的方法将数据集图像直接输入到R R增加阈值α会导致网络中的0值权重的数量增加，从而降低了推理的计算成本，但可能会以牺牲准确性为代价，这将在后面的章节中进行探讨图9显示了针对α的高值和低值通过这种阈值化生成的三进制权重的示例。一旦从训练好的网络中提取出所有权重，我们就可以执行程序，直接在SCAMP5视觉系统上执行相同CNN架构的推理。每个程序都遵循一个类似的方案，即获取相机图像，将其转换为第2节中描述的数字4x4块格式，然后使用闪存中存储的内核权重对其执行图像卷积，如第2.6节所述，将所得图像存储在棋盘模拟图像中，如第2.5节所述。然后可以对存储在该棋盘图像内的所有图像执行并行最大池化，并且使用像素阵列的稀疏读出将表示到全连接层的输入的所得低分辨率图像从SCAMP芯片传送然后，使用ARM核心上的这些读出图像执行最终的全连接层，生成神经元的输出层。最后一组神经元激活构成SCAMP视觉系统的输出我们现在在下面的部分中演示这种实时推理。5. MNIST5.1. 数据扩充和训练MNIST图像将显示在监视器上，并由图像传感器捕获，因为这是PPA的主要输入通道这会导致图像偏离像素阵列相反，我们显示测试集图像通过监视器传送到传感器，在SCAMP5上执行简单的字符提取算法，并通过网络馈送提取的字符图像，并记录预测的数字以与正确的分类进行比较。这个字符提取例程定位一个被黑色背景包围的白色形状（或黑色对白色），确定形状然后将提取的图像重新居中并缩放到所需的大小，利用[3]中描述的方法进行焦平面上的图像变换。在MNIST的情况下，该例程提取在相机图像中找到的MNIST字符，并将其转换为与原始MNIST图像中的字符相似的大小和位置图10显示了网络所做预测的示例。5.3. 评价图12显示了SCAMP 5上MNIST网络的分类准确度，以及该准确度如何在用于从训练的实际权重值生成三元权重的不同阈值我们观察到导致网络中的纯二进制权重的阈值0比各种非零阈值具有更低的精度和更高的图像卷积计算时间。这表明三元权重所允许的额外信息确实在分类过程中得到了使用最高分类准确率达94. 2%发生在阈值0.2时。请注意，这与95的精度相比有明显下降。4%，其中捕获的图像和训练数据之间的不匹配可能是部分原因。正如预期的那样，执行卷积的计算时间随着用于三进制权重的阈值1341图10：在显示的MNIST数字上使用SCAMP5 MNIST训练数字识别的示例。每个复合框架包含四个面板：左上是由传感器捕获的图像，右上是被馈送到神经网络的提取的、重新缩放的数字图像，左下是分类结果，即，十个输出神经元的激活，右下角是分类结果的抽象可视化。尽管视角扭曲了提取的数字，但网络仍然实现了正确的分类，除了高度可疑的数字，如右边的数字。图11：与图10类似，使用SCAMP5 MNIST训练的数字识别新手绘数字的示例请注意最右侧示例中的故障情况，其中极端角度2被错误分类为7。条形图指示与数字0-9相关联的最后一层神经元的激活。图12：显示分类准确度（蓝色）和卷积计算时间（红色）与三元权重阈值的关系图。因为零值权重的数量应该与该阈值近似成比例。有趣的是，阈值为0。99，其中每个卷积核只有几个权重是非零的，该网络仍然具有70%的分类准确度。帧速率从135到210 fps（帧每秒）近似线性地缩放，将三进制权重阈值从0更改为0.99。我们还进行了定性分析，简单地用手画数字，然后观察网络预测，其中一个例子如图11所示。6. 汽车跟踪除了MNIST，我们还测试了CNN在本地化任务中的推理，从鸟瞰图中检测游戏垫上的玩具车为了使推理对光照差异更加鲁棒，我们在边缘图像上训练了网络，如图13所示。游戏垫的视觉混乱迫使网络学习特征内核，专门识别汽车本身，而不仅仅是依靠找到输入图像的最亮区域。6.1. 培训此任务的训练图像是动态生成的，通过SCAMP5看到的两个示例如图13所示。每个训练图像都是通过在随机位置和方向绘制游戏垫和汽车来生成的，以确保汽车完全位于图像边界内。此外，每个训练图像随机扩展到原始大小的±10%训练好的网络再一次由16个滤波器的单个5x5内核卷积层组成然而，这次最后一层由40个神经元组成，20个代表汽车的潜在x位置（从左到右）和随后的20个y位置（从上到下）。本质上，前20个神经元将输入图像划分为20个等间隔的垂直切片或1342nXyXyXyn图13：SCAMP系统估计汽车在图像中位置的两个示例输出。每个输入图像以红色勾勒，神经元估计x位置的值沿顶部绘制，神经元估计y沿右侧绘制。估计的汽车位置由每个图像内的红点指示。每个神经元的激励值表示汽车位于其关联仓内的可能性。我们使用等式3为这些神经元分配正确的输出，并计算反向传播中使用的误差，其中Ax是与x相关的第n个神经元的正确激活，图14：显示估计误差与三进制权重阈值的关系的图。许多其他的阈值。可以看到，在阈值0之间，误差保持大致相同。2比0。5之后，观察到误差的指数增加。计算成本以与5.3相同的方式变化，因为再次使用5x5内核，然而，随着需要执行字符提取，帧速率略微增加，现在范围从140到250 fps，对于三进制权重阈值0到0.99。Itrue是神经元的索引，其相关联的bin7. 结论和今后的方向车Ax=11个以上|n−i true（三）|这提出了一种将CNN直接嵌入像素处理器阵列传感器的方法，该方法具有进行此类开发的计算能力和灵活性同样，以下20个神经元是用于表示汽车的潜在Y位置，每个位置与不同的水平仓相关联，并且其正确输出以与表示X位置的神经元大致相同的方式被分配。6.2. SCAMP5推理与评估通过直接观察显示在监视器上的生成的训练图像，然后将网络的预测与每个图像的汽车真实位置进行比较，再次对该任务进行推理评估对于x位置的最高激活神经元的索引被用来表示网络对汽车的x位置i est的估计，其中y位置i est的估计以类似的方式其相关联的仓包含汽车的真实x和y位置的神经元的索引由itrue，itrue表示。然后根据预测位置和真实位置之间的距离测量误差，如表达式4所示。.可能我们专注于组织计算，以利用PPA结果是有希望的。我们能够进行大量的计算在传感器中，并成功地展示了良好的分类性能的例子任务。虽然我们的算法实现卷积使用数字逻辑运算，我们已经进行了我们的实验，使用当前一代的PPA设备原型（SCAMP-5），设计的pri，模拟操作和制造使用过时的硅技术。在提供令人印象深刻的性能和效率的同时，这里使用的当前技术的特点是低时钟速度（10MHz）和中等阵列大小（256x256像素）。我们希望这项工作能够促进下一代PPA设备的开发，从而实现更深层次的网络。专门为满足视觉处理而设计的架构的发展是推进和理解视觉的重要一步。我们希望这项工作能激励其他人考虑（iest— itrue）2+（iest— 第二章（四）这个方向的潜力。图14说明了用于确定推断期间使用的最终三进制权重的阈值如何具有与第5.3节中的MNIST预测准确性相似的效果。使用零阈值，导致二元权重，实际上再次导致比数据访问和确认由英国 EPSRC EP/M019454/1 和 EP/M019284/1 支持。 PPA的性质意味着，在这项工作中用于评估的数据从未被记录。XXyX1343引用[1] Alessandro Aimar，Hesham Mostafa，Enrico Calabrese，Antonio Rios-Navarro，Ricardo Tapiador-Morales，Iulia-Alexandra Lungu，Moritz B Milde，Federico Corradi，Ale-jandro Linares-Barranco ， Shih-Chii Liu ， et al.Nullhop：一个基于特征映射稀疏表示的灵活卷积神经网络加速器。IEEE Transactions on Neural Networks andLearning Systems，（99）：1-13，2018。1[2] 汉德·阿莱姆达尔、文森特·勒罗伊、阿德里安·普罗斯特·布克莱和弗雷德里克·佩特罗特。三值神经网络用于资源有效的人工智能应用。2017年国际神经网络联合会议（IJCNN），第2547IEEE，2017年。2[3] Laurie Bose ， Jianning Chen ， Stephen J Carey ， PiotrDudek，and Walterio Mayol-Cuevas.像素处理器阵列的视觉里程计。在IEEE计算机视觉国际会议论文集，第4604-4612页二、六[4] Christian Brandli，Raphael Berner，Minhao Yang，Shih-Chii Liu，and Tobi Delbruck.240× 180 130 db 3µ s延迟全局快门时空视觉传感器。IEEE Journal of Solid-StateCircuits，49（10）：2333-2341，2014. 1[5] Stephen J Carey，Alexey Lopich，David RW Barr，BinWang，and Piotr Dudek.一个100，000帧/秒的视觉传感器，内置535 gops/w256× 256 SIMD处理器阵列。 2013年超大规模集成电路研讨会，C182-C183页IEEE、2013. 2[6] Jianning Chen，Stephen J Carey，and Piotr Dudek.使用便携式视觉系统进行特征提取，2017年。2[7] Jianning Chen ， Stephen J Carey ， and Piotr Dudek.Scamp5d视觉系统及开发框架。第12届分布式智能相机国际会议论文集，第23页。ACM，2018。2[8] Yu-Hsin Chen，Joel Emer，and Vivienne Sze. Eyeriss：Aspatial architecture for energy-efficient decomposition forconvolu- tional neural networks.在ACM SIGNAL ComputerArchi-tecture News，第44卷，第367IEEE Press，2016.1[9] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3123-3131页，2015年。二、五[10] Thomas Debrunner，Sajad Saeedi，and Paul HJ Kelly.模拟simd焦平面传感器处理器阵列的自动内核代码生成。ACM Transactions on Architecture and Code Optimization（TACO），15（4）：59，2019。3[11] Zidong Du ， Robert Fasthuber ， Tianshi Chen ， PaoloIenne ， Ling Li ， Tao Luo ， Xiaobing Feng ， YunjiChen，and Olivier Temam.施甸脑：将视觉处理转移到更靠近传感器的地方。在 ACM SIGNAL ComputerArchitecture News，第43卷，第92-104页ACM，2015. 1[12] Greg Efland Sandip Parikh Himanshu Sanghavi 和 AamirFarooqui用于视觉、成像和神经网络的高性能dsp。在Hot Chips Symposium，第1-30页，2016年。1[13] Song Han，Xingyu Liu，Huizi Mao，Jing Pu，ArdavanPe-Peng，Mark A Horowitz，and William J Dally. Eie：基于压缩深度神经网络的高效推理引擎。 2016年ACM/IEEE 第 43 届计算机体系结构国际研讨会（ISCA），第243IEEE，2016.1[14] Fengfu Li，Bo Zhang，and Bin Liu.三重网络arXiv预印本arXiv：1605.04711，2016。2[15] ZhouhanLin，MatthieuCourbariaux，RolandMemisevic，and Yoonge Bengio.具有少量乘法的神经网络。arXiv预印本arXiv：1510.03009，2015年。2[16] Alexey Lopich和Piotr Dudek 160 × 80像素并行simd处理器阵列的通用视觉处理器。在IEEE定制集成电路会议论文集，2017年。二、三[17] 7 月， NPMartel ， LorenzKMüller ， StephenJCar ey ，JonathanMüller，YuliaSandamirskaya和PiotrDudek。可编程焦平面处理器上的实时聚焦深度。IEEE Transactions onCircuits and Systems I：Regular Papers，65（3）：925-934，2018. 2[18] Lorenz K Muller和Giacomo Indiveri。低分辨率突触权重神经网络的舍入方法。 arXiv 预印本 arXiv ：1504.05767，2015年。2[19] Alireza Nilchi，Joseph Aziz，and Roman Genov.焦平面算法倍增cmos计算图像传感器。IEEE Journal of Solid-State Circuits，44（6）：18291[20] ErikoNurvitadhi， Ganesh Venkatesh ， Jaewoong Sim ，Debbie Marr ， Randy Huang ， Jason Ong Gee Hock ，Yeong Tat Liew ，Krishnan Srivatsan ，Duncan Moss，Suchit Subhaschan-dra，et al. FPGA能否在加速下一代深度神经网络方面击败GPU？在2017年ACM/SIGDA国际研讨会上，可编程门阵列，第5-14页。ACM，2017。2[21] ChristophPosch ， DanielMatolin ， andRainerWohlgenannt.一个qvga143db动态范围无帧pwm图像传感器与无损像素级视频压缩和时域光盘。IEEE Journalof Solid-State Circuits，46（1）：259-275，2011。1[22] 阿德里安·普罗斯特·布克莱、阿尔班·布格、弗雷德里克·帕特洛、汉德·阿伦达尔、尼古拉斯·考德威尔和文森特·勒罗伊。基于fpga的卷积三值神经网络可扩展高性能架构2017年第27届现场可编程逻辑与应用国际会议（FPL），第1-7页。IEEE，2017年。2[23] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。Xnor-net：使用二元卷积神经网络的Imagenet分类。欧洲计算机视觉会议，第525-542页施普林格，2016年。2[24] Cong Shi ， Jie Yang ， Ye Han ， Zhongxiang Cao ， QiQin，Liyuan Liu，Nan-Jian Wu，and Zhihua Wang. 基于PE阵列处理器和自组织映射神经网络的动态可重构混合体系结构的1000 fps视觉芯片。固态电路，IEEEJournal of，49：2067-2082，2014年9月。3[25] Jaehyeong Sim ， Jun-Seok Park ， Minhye Kim ，Dongmyung Bae，Yeongjae Choi，and Lee-Sup Kim. A1.42顶/W深1344卷积神经网络识别处理器，用于智能IOE系统。2016年IEEE 国际固态电路会议（ ISSCC），第 264IEEE，2016.1[26] Ganesh Venkatesh，Eriko Nurvitadhi，and Debbie Marr.使用低精度和稀疏性加速深度卷积网络。2017年IEEE声学、语音和信号处理国际会议（ICASSP），第2861-2865页。IEEE，2017年。2[27] A'kosZar a' nd y. 焦平面传感器。SpringerScience BusinessMedia，2011. 1[28] Chenzhuo Zhu，Song Han，Huizi Mao，and William JDally.经过训练的三进制量化。arXiv预印本arXiv：1612.01064，2016。2

下载后可阅读完整内容，剩余1页未读，立即下载