没有合适的资源?快使用搜索试试~ 我知道了~
300主编介绍:芯片上学习的硬件和算法0YU CAO,亚利桑那州立大学XINLI,卡内基梅隆大学TAEMINKIM,英特尔SUYOG GUPTA,谷歌0近年来,机器学习和神经计算算法取得了重大进展,在各种任务中实现了接近甚至优于人类水平的准确率,如基于图像的搜索、多类别分类和场景分析。然而,大多数方法在很大程度上依赖于大型数据集的可用性和耗时的离线训练以生成准确的模型,这在许多处理大规模和流式数据的应用中是主要限制因素,如工业互联网、自动驾驶车辆和个性化医疗分析。此外,这些智能算法的计算复杂性仍然对最先进的计算平台构成挑战,特别是当所需的应用受到功耗低、吞吐量高、延迟小等要求的严格限制时。由于高容量、高维度和高速度数据,最近传感器技术的进步进一步加剧了这种情况。0在严格的条件下支持芯片上学习和分类的挑战0性能和功耗的限制来自硬件和算法的两个方面:0-从硬件方面来看,今天的硬件架构与算法的数学结构不匹配0算法的数学结构。尽管现今的架构将计算和内存单元分离,但深度学习和神经计算算法通常涉及多个计算层;在每一层中,有多次迭代和异构计算原语。如果不认识到这种数学特性,对现有的CPU/GPU进行简单实现会导致重大的延迟和内存访问开销,并且无法进行实时分析。0-从算法方面来看,机器学习和神经计算的复杂性0算法的复杂性显著增加,以管理大量的数据变化和大量的搜索空间。例如,使用大量标记的数据,可以离线训练卷积神经网络(CNNs);然而,考虑到模型参数的数量庞大,使用平面CNN在移动平台上进行多尺度的穷举分类是不切实际的。0在这种情况下,一种整体的方法是同时在硬件和算法方面进行创新0在芯片上进行信息分析,对于实现芯片上学习是至关重要的。尽管先进的硬件0作者地址:Y.Cao,亚利桑那州立大学电气、计算机和能源工程学院,亚利桑那州,坦佩85287;电子邮件:ycao@asu.edu;X.Li,卡内基梅隆大学电气和计算机工程系,匹兹堡,PA 15213;电子邮件:xinli@cmu.edu;T.Kim,英特尔公司战略CAD实验室,希尔斯伯勒,OR 97124;电子邮件:taemin.kim@intel.com;S.Gupta,谷歌,Mountain View,CA94043;电子邮件:suyoggupta87@gmail.com。未经许可,个人或课堂使用本作品的部分或全部的数字或实体副本是免费的,前提是副本不得用于盈利或商业优势,并且副本上必须附有本声明和第一页的完整引用。必须尊重本作品第三方组成部分的版权。对于其他所有用途,请联系所有者/作者。版权归所有者/作者所有。1550-4832/2017/02-ART30DOI:http://dx.doi.org/10.1145/30221930ACM计算系统新兴技术杂志,第13卷,第3期,第30篇文章,发表日期:2017年2月。030:2 Y. Cao等人0虽然像IBM TrueNorth和QualcommZeroth这样的解决方案可以将昂贵的学习和分类带入低功耗处理器,但与人脑相比,它们的效率仍然远远不够高。因此,本特刊的总体目标是探索芯片上学习的潜力,揭示受神经科学启发的新算法和设计需求,并推动在性能、能量效率和紧凑性方面有数量级改进的新型智能应用。0在国家科学基金会的支持下,ACM特别兴趣小组0我们在2015年组织了第一届“芯片上学习和算法”(HALO)研讨会,旨在建立硬件设计和统计学习社区之间的密切互动,以推进IC设计和设计工具向新应用的发展。本特刊集中展示并扩展了研讨会上的一些演讲。除了HALO研讨会的演讲,我们还向研究界发布了一般的征文通知,以便吸引更广泛的参与。总共收到了15篇投稿,最终通过了审稿过程的7篇文章。0近年来,在加速机器学习方面取得了巨大的进展0利用可重构硬件(如FPGA)和应用特定IC(ASIC)的算法进行硬件加速是最有效的技术之一。其中一种最有效的技术是在训练期间或训练后利用学习模型的稀疏性,显著压缩模型以提高计算效率和内存使用率。AdamPage和同事在前两篇文章“SPARCNet:用于稀疏卷积网络高效部署的硬件加速器”和“深度卷积神经网络的结构修剪”中,提出了各种基于稀疏化的技术来降低深度卷积神经网络的复杂性。通过模拟和在CPU/GPU/FPGA平台上进行验证了结果。0为了进一步减少计算中的数据量,一种解决方案是观察到的0视觉皮层的作用是识别特征空间中的非均匀性,将模型组织成层次结构,并仅处理训练和推理所需的必要信息。PriyadarshiniPanda和同事在本期第三篇文章“具有条件深度学习的能效改进的图像识别”中,将每个卷积层的输出级联,推理过程中产生频繁的反馈,并决定准确识别所需的最小层数。0除了这些算法技术之外,实现硬件的关键挑战之一是0深度学习算法的瓶颈是由内存带宽(即冯∙诺依曼瓶颈)所限制。造成这种限制的主要原因之一是当前的硬件架构将内存视为与逻辑处理分离的组件,而不是紧密集成的组件。RobertKaram和同事在第四篇文章“面向分类和机器学习应用的内存中心可重构加速器”中提出了一种通用的内存中心加速器,该加速器在内存的最后一层运行,以减少数据传输所需的能量。该新框架已在FPGA上实现,适用于各种类型的机器学习算法。此外,当学习算法被指定时,硬件架构可以进行优化。Bo Yuan和Keshab K.Parhi在第五篇文章“受限玻尔兹曼机的VLSI架构”中以受限玻尔兹曼机(RBM)为案例研究,重点关注缩短延迟和降低内存需求的架构优化。0除了现有硬件的加速研究,计算机科学领域近期的进展0对于芯片上的学习,计算神经科学和纳米电子技术的进一步发展有助于揭示未来硬件算法协同设计的方向。最后两篇文章,“Leibin Ni和同事的二进制RRAM交叉栏上的分布式内存计算”以及“DhireeshaKudithipudi和同事的基于随机CBRAM的神经形态时间序列预测系统”,展示了抵抗性存储器设备在神经形态计算中的潜力。第六篇文章描述了一种数字抵抗性交叉栏,加速矩阵向量乘法,而第七篇文章则利用了随机设备属性进行时间序列预测。通过将这些新兴设备应用于集成系统中,作者承诺在能源消耗和硬件尺寸方面实现显著节省。0ACM计算系统新兴技术期刊,第13卷,第3期,文章30,出版日期:2017年2月。0客座编辑的引言:芯片上的硬件和算法学习30:30Kudithipudi和同事展示了抵抗性存储器设备在神经形态计算中的潜力。第六篇文章描述了一种数字抵抗性交叉栏,加速矩阵向量乘法,而第七篇文章则利用了随机设备属性进行时间序列预测。通过将这些新兴设备应用于集成系统中,作者承诺在能源消耗和硬件尺寸方面实现显著节省。0总之,智能应用的大量增加带来了基本的挑战。0对于学习算法和计算硬件来说,这种智能应用的大量增加带来了基本的挑战。本专辑旨在推广能够实现芯片上学习和大数据推理的关键技术,为未来智能系统提供节能的解决方案。0ACM计算系统新兴技术期刊,第13卷,第3期,文章30,出版日期:2017年2月。
下载后可阅读完整内容,剩余1页未读,立即下载














安全验证
文档复制为VIP权益,开通VIP直接复制
