深度神经网络加速器：设计与未来趋势

82 浏览量更新于2024-01-04 收藏 1.77MB PDF 举报

深度神经网络

计算平台

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程6（2020）264研究人工智能综述深度神经网络陈怡然a，陈晓，谢元b，宋凌浩a，陈凡a，唐天奇ba电气和计算机工程系，杜克大学，达勒姆，NC 27708，美国b美国加州大学圣巴巴拉分校电气与计算机工程系，邮编：93106-9560阿提奇莱因福奥文章历史记录：收到2019年2019年9月6日修订2020年1月9日接受2020年1月29日在线提供保留字：深度神经网络特定领域架构加速器A B S T R A C T最近，由于大数据的可用性和计算能力的快速增长，人工智能（AI）重新获得了巨大的关注和投资。机器学习（ML）方法已成功应用于解决学术界和工业界的许多问题虽然大数据应用的爆炸式增长正在推动ML的发展，但它也对传统计算机系统的数据处理速度和可扩展性提出了严峻的挑战专门为人工智能应用设计的计算平台已经被考虑过，从对冯·诺依曼平台的补充到这些平台属于一个更大的类别，称为“特定领域计算”在本文中，我们将重点总结深度神经网络（DNN）加速器设计的最新进展-即DNN加速器。我们讨论了支持DNN执行的各种架构，包括计算单元、并行优化、目标网络拓扑、新兴技术的架构以及新兴应用的加速器我们还提供了我们对AI芯片设计未来趋势的愿景©2020 THE COUNTORS.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍古典哲学将人类思维的过程描述为对符号的机械操作。很长一段时间以来，人类一直试图创造具有意识智能的人工生命，这是人工智能（AI）的最初种子。1950年，艾伦·图灵在数学上讨论了实现智能机器的可能性，并提出1956年的达特茅斯人工智能夏季研究项目[2]通常被认为是人工智能作为一个新研究领域的官方开创性事件。在接下来的几十年里，人工智能经历了几次起伏。最近，由于大数据的可用性和随着计算能力的提高，人工智能重新获得了巨大的关注和投资。机器学习（ML）方法已经成功地应用于解决学术界[3，4]和工业界[5]的许多问题。ML算法（包括生物学上合理的模型）最初明确地模拟生物大脑的行为[6]。的*通讯作者。电子邮件地址：yiran. duke.edu（Y. 陈）。人脑被认为是目前最智能的“机器”，具有极高的结构复杂性和运算效率。与生物神经系统类似，ML算法中的两个基本功能单元是突触和神经元，它们分别负责信息处理和特征提取。与突触相比，有更多类型的神经元模型，例如这些神经元模型都具有一定的非线性特征，这是特征提取和神经网络（NN）训练所必需的。后来，一般来说，现代ML算法可以分为两类：人工神经网络（ANN），其中数据表示为数值[9]，以及尖峰神经网络（SNN），其中数据表示为尖峰[10]。虽然大数据应用的爆炸式增长正在推动ML的发展，但它也对传统计算机系统的数据处理速度和可扩展性提出了严峻的挑战。更具体地说，传统的冯·诺依曼计算机具有单独的处理和数据存储组件。处理器和片外存储器之间所需的频繁数据移动限制了系统性能和能量效率，https://doi.org/10.1016/j.eng.2020.01.0072095-8099/©2020 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程杂志主页：www.elsevier.com/locate/engY. Chen等人/工程 6（2020）264265人工智能应用程序中数据量的激增进一步加剧了这一问题专门为人工智能应用设计的计算平台已经被考虑过，从冯诺依曼平台的补充到这些平台属于一个更大的类别，称为“特定领域计算”，专注于人工智能的特定定制。通过克服众所周知的“内存墙”[11]和“功率墙”[12]挑战，已经实现了数量级的功率和性能效率改进最近的AI专用计算系统（即AI加速器）通常由大量高度并行的计算和存储单元构成。这些单元以二维（2D）方式组织，以支持NN中常见的片上网络（NoC）[13]，高带宽存储器（HBM）[14]，数据重用[15]等被应用于进一步优化这些加速器中的数据流量。生物学理论基础、硬件设计和算法（软件）三个层面的创新是人工智能加速器的三大基石。本文总结了用于数据中心[5，16，17]和边缘设备[18除了传统的互补对称金属氧化物半导体（CMOS）设计之外，新兴的非易失性存储器（诸如金属氧化物电阻式随机存取存储器（ReRAM））最近已经在AI加速器设计中被探索。这些新兴的存储器具有高存储密度和快速访问时间，以及实现内存计算的潜力[21更具体地说，ReRAM阵列不仅可以存储NN，还可以以模拟方式执行原位与最先进的CMOS设计相比，由于模拟计算的低功耗特性，基于ReRAM的AI加速器可以实现3-另一方面，ML算法在很大程度上可以容忍噪声模拟操作，因为它们对噪声和故障具有然而，ReRAM交叉开关中的模拟信号与加速器中其他数字单元中的数字值之间的转换需要在这篇文章中，我们主要关注ANN。特别是，我们总结-深度神经网络（DNN）加速器设计的最新进展-即DNN加速器。我们讨论了支持DNN执行的各种架构，包括计算单元、并行优化、目标网络拓扑等。本文的结构如下。第2节介绍ML和DNN的基础知识。第3节和第4节分别介绍了几个代表性的DNN片上和独立加速器。第5节描述了使用新兴存储器实现的各种DNN加速器。第6节简要总结了新兴应用的DNN加速器。第7节提供我们对AI芯片设计未来趋势的2. 背景本节介绍DNN的一些背景知识，以及构成本文讨论内容基础的几个重要概念简要介绍了新兴的ReRAM及其在神经计算中的应用。2.1. DNN的推理和训练一般来说，DNN是一个参数化函数，它采用高维输入来进行有用的预测，即分类标签。这个预测过程称为推理。为了获得为了确定一组有意义的参数，在训练数据集上执行DNN的训练，并且通过诸如随机梯度下降（SGD）的方法来优化参数，以便最小化某个损失函数。在每个训练步骤中，首先执行前向传递以计算损失，然后执行后向传递以反向传播错误。最后，计算并累积每个参数的梯度。为了充分优化大规模DNN，训练过程可能需要100万步或更多。DNN通常是NN层的堆叠如果我们将第l层表示为函数fl，则L层DNN的推断可以表示为：fxfl-1fl-2：f2f 1x1其中x是输入。在这种情况下，每一层的输出只被下一层使用，整个计算没有回溯。DNN推理的并行流是以链的形式存在的，并且可以在硬件中有效地加速，而无需额外的内存需求。这个特性对于前馈神经网络和递归神经网络（RNN）都是正确的。“递归”结构可以被视为一个可变长度的前馈结构，具有一个层的权重的时间重用，并且递归流仍然形成一个链。在DNN训练中，数据依赖性是推理中的两倍虽然前向传递的递归流与推理相同，但后向传递则以相反的顺序执行层。此外，前向传递中每一层的输出在后向传递中被重用以计算错误（由于反向传播的链式规则），导致许多长数据依赖性。图图1说明了训练训练图与推理图的不同之处。DNN可以包括卷积层、全连接层（批量矩阵乘法）和逐点操作层，例如ReLU、sigmoid、最大池化和批量归一化。向后传递可以具有逐点操作，其形式与向前传递的形式不同矩阵乘法和卷积在反向传递中也保持其计算模式不变;主要区别在于它们分别对转置权重矩阵和旋转卷积核执行2.2. 计算模式虽然DNN可能包括许多类型的层，但矩阵乘法和卷积占90%以上的操作，并且是DNN加速器设计的主要目标。对于矩阵乘法，如果我们使用Ic，Oc，B分别表示输入通道数，输出通道数和批量大小，则计算可以写为：Fig. 1. DNN训练在PipeLayer中很低[22]。每个箭头代表一个数据依赖关系。T：逻辑循环; L：地面真值标签; d：特征图; A：数组; W：权重;d：错误;W0：重组后的W。266Y. Chen等人/工程6 （2020年）264X≤X x XIc-1输出tb;oc/l输入tb;ic×重量tic;oc/2磅ic¼0其中ic是输入通道的索引，oc是输出通道的索引，b是一批中样本的索引。对于0≤bB，0ocOc.矩阵乘法中涉及的数据重用是每个输入被重用于所有输出通道，并且每个权重被重用于所有输入批次。DNN中的卷积可以被视为矩阵乘法的扩展版本，它增加了局部连通性和平移不变性的特性。与矩阵乘法相比，在卷积中，每个输入元素由2D特征图代替，并且每个权重元素由2D卷积核（或滤波器）代替。然后，计算基于滑动窗口：如图2所示，从输入特征图的左上角开始，过滤器向右端滑动。当它到达特征图的右端时，它将移回左端并移至下一行。正式描述如下所示：I c-1Fh-1F w-1输出boxy1/2输入bixiyj×滤波器oiij图三. 将卷积转换为Toeplitz矩阵乘法。*：卷积。如图所示。如图4（a）所示，每个ReRAM单元具有夹在顶部电极（TE）和底部双极（BE）之间的金属氧化物层。忆阻器单元的电阻可以通过施加具有适当脉冲宽度或幅度的电流或电压来具体地，存储在单元中的数据可以相应地由电阻水平表示：低电阻状态（LRS）表示位对于读取操作，在器件两端施加小的检测电压;然后确定电流的幅度;c;;ic¼01/4j¼0;c;benefit;c;c; ;c被抵抗组织2012年，惠普实验室提出了一种ReRAM交叉开关结构，其中Fh是过滤器的高度，Fw是过滤器的宽度，i是2D过滤器中的行的索引，j是2D过滤器中的列的索引，x是2D特征图中的行的索引，y是2D特征图中的列的索引。对于0≤b

下载后可阅读完整内容，剩余1页未读，立即下载