深度神经网络的片上处理与学习技术

14 浏览量更新于2024-06-18 收藏 3.05MB PDF 举报

"在芯片上处理和学习深度神经网络，由Ghouthi Boukli Hacene撰写，是一篇关于在硬件层面实现深度神经网络（DNN）运算的科学研究文件，属于信息与通信专业，特别是电子、计算机、信号、图像和视觉领域。该论文在2019年由国立高等矿业电信学院发表，并被HAL（多学科开放获取档案馆）收录，允许全球的研究人员访问和分享。论文的评审专家包括Hervé JEGEAN, Yoeli Bengio和Vincent GRIPON等知名学者。" 本文深入探讨了深度神经网络在芯片上的实现，这是现代计算技术的一个关键领域，因为深度学习模型通常需要大量的计算资源。深度学习是机器学习的一个分支，它模拟人脑的工作方式，通过多层神经网络对大量数据进行处理，从而实现模式识别、分类、自然语言处理等多种任务。正文: 1. **导言** 导言部分可能介绍了深度学习的发展背景，以及在芯片上实现深度学习的重要性。随着AI技术的普及，对于高效能、低能耗的计算平台需求日益增长，这推动了在芯片上直接处理和学习深度神经网络的研究。 2. **深度学习基础** 这一部分详细阐述了深度学习的基本概念，包括数据集的使用。数据集是训练、验证和测试模型的基础，它们确保了模型的泛化能力。作者可能详细讨论了如何划分数据集，以及各个部分的作用：训练集用于训练模型，验证集用于调整模型参数，测试集用于评估模型的最终性能。 2.1.1 **训练、验证和测试集** 训练集是模型学习规律的主要来源，而验证集用于防止过拟合，通过比较在训练集和验证集上的表现来调整超参数。最后，测试集是评估模型在未见过的数据上的性能，保持其独立性，确保模型的泛化能力。尽管提供的内容有限，但可以推测论文可能涵盖了以下主题： - 芯片设计优化以适应深度学习计算，例如专用集成电路（ASIC）或现场可编程门阵列（FPGA）的设计。 - 能效比和计算效率的提升策略，如使用低功耗材料和算法优化。 - 在硬件上实现卷积神经网络（CNN）、循环神经网络（RNN）和变换器（Transformer）等深度学习架构的方法。 - 模型压缩和量化技术，以减小模型大小并提高在芯片上的运行速度。 - 实际应用案例，如在物联网设备、自动驾驶汽车或边缘计算中的应用。通过这样的研究，作者可能提出了新的方法或改进方案，以提高在芯片上运行深度学习模型的效率和性能，为未来硬件与深度学习算法的融合奠定了基础。

图1.1：机器学习技术如何随着数据量

而

扩展

www.slideshare.net/ExtractConf

图1.2：深度学习和一般机器学习方法中的特征提取

https://medium.com/intro-to-artificial-intelligence/deep-learning-series-1-intro-to-deep-learning-

abb1780ee20

教育，以发现学生的长处和短处，并调整和审查学生的学习路径

。例如，移动应

用Duolingo使用基于深度学习的解决方案来预测记住特定单词的概率，然后提供

更多的练习单词，这些单词更难

记住

。

为了实现最先进的性能，深度学习使用大量的资源，包括存储模型和数据的内存

以及处理输入的计算，导致大量的能量消耗。这种需求可能很快成为限制，减少深度

学习应用领域。内存、计算和电源是最近引入的深度学习方法旨在保护的关键资源。

这些问题涉及科学、技术甚至社会挑战

社会挑战：

在社会挑战中，可以讨论两个主要主题，生态学和深度学习之间的关系，以及每

个人都可以使用深度学习。如上所述，深度学习需要大量的内存占用和计算来存

储和处理数据，特别是在学习过程中，算法需要多次重复该过程，试图找到连接

它们之间的人工神经元的结构，以达到最佳性能。考虑到这一点，几乎所有的深

度学习应用和研究都使用图形处理单元（GPU），这是一种重要的能耗设备，使

用时间长达数小时、数天甚至数月。能源成本很快就会变得巨大。这种能源消耗

使得深度学习成为一种昂贵的解决方案，不尊重环境和可持续发展。

使用深度学习方法，很难获得关于计算中心专用于计算的能耗的但可以公平地设

想，使用量正在增长，而且绝对不是微不足道的。在写这篇论文的时候，在著名

的ImageNet ILSVRC 2012挑战赛上训练现代深度学习架构需要在现代桌面计算

机上进行一周的计算由于在向一个重要的知名会议提交论文时，经常需要这个基

准来证明方法的效率知道这样的计算机的功耗是1000W的量级，可以快速地推导

出

of-g

全球气候变化

https://aibusiness.com/machine-learning-and-the-future-of-education

https：www.forbes.com/sites/bernardmarr/2018/07/25/how-is-ai-used-in-education-real-world-

examples-of-today-and-a-peek-into-the-future/70626870586e

第

章介绍

提交给顶级会议的大多数论文使用的计算对应于典型西方国家一年以上的家庭消

费当然，这场讨论的重点不是批评研究或目前的研究方式，而只是为了说明简单

的计算对生态的影响。当涉及到大公司时，人们必须想象数量级更高的要求架

构。

找到降低训练架构功耗和训练成本的方法，可能是限制该领域在未来几年内对生

态影响的关键。

此外，深度学习解决方案旨在帮助人们在工作或日常生活中，从而使他们从一些

繁重的工作中解脱出来，减轻他们的日常任务。然而，如上所述，深度学习是一

种昂贵的解决方案，需要大量的内存占用，计算和功耗，并使用GPU，一种昂贵

的设备来处理数据。这种需求使得深度学习对每个人的可访问性都是一个相当大

的挑战，然后可能无法达到其帮助人们工作和日常生活的目标事实上，如果数据

是公共研究机构的关键限制因素，那么计算也是。通过减少为给定任务找到正确

的超参数所需的资源，我们将使每个人的深度学习更加民主化

技术挑战：

在实时应用中使用深度学习解决方案或在资源有限的嵌入式系统上实施它们时，

可能会出现技术挑战实际上，为了处理给定的输入，该算法需要从内存中读取深

度学习模型由于存储深度学习模型和处理数据所需的计算所需的大内存，该算法

需要多次从内存中读取模型因此，这种算法需要大量的时间来处理数据。为了实

现最先进的性能，深度学习模型依赖于大量的参数和计算，这增加了处理给定输

入所需的时间因此，将深度学习方法用于实时应用可能具有挑战性。

考虑实时应用时的另一个技术挑战是创造

性学习（也称为持续学习或课程学习），

这是一

种学习场景，其中通过时间学习新的信息片段，建立在先前获得的知识之

上。尽管深度学习模型是大脑启发的，但它们并不适应增量学习，因为当学习

新的信息，模型被调整以更好地表示新的学习数据，然后先前学习的知识被破

坏。请注意，这种现象在文献中被称为因此，深度学习可能不适于实时应用，在

该实时应用期间，数据流连续地提供先前看不见的信息。

资源有限的嵌入式系统（如智能手机）或更低级的系统（如现场可编程门阵列

（FPGA）或专用集成电路（ASIC））需要解决一些技术挑战，以便

使用深度学

习解决方案。实际上，嵌入式系统具有有限的计算

资源和稀缺的内存量。因此，嵌

入式系统不适合存储现代深度学习模型所需的大型参数集，并且无法在合理的时

间内执行模型所需的大量计算最后，这种嵌入式系统是电池供电的，这进一步限

制了实现具有密集存储器访问和计算的算法的可行性。由于所有这些原因，在嵌

入式系统上实现最先进的深度学习应用程序目前具有挑战性。

科学挑战：

深度学习主要是一个实验领域，通过实验协议获得结果和改进因此，寻找能够实

现最佳性能的深度学习架构可能是一项苛刻的搜索，需要测试所有可能的结构

一个科学挑战是使用一些数学假设来描述深度学习模型事实上，这样的假设允许

理解深度学习模型，然后加速模型数学假设可以用来定义深度学习模型中人工神

经元的完美数量，它们最初连接的方式（在学习之前），模型需要处理和学习相

同数据的迭代次数，以及在学习期间用于优化神经元连接的算法因此，它避免了

对每个参数测试所有可能的情况，这大大加速和简化了模型结构搜索。

通常，人工神经网络（或深度学习模型）包含大量的神经元和连接，这使其成为

复杂的结构，难以理解或数学描述。简化理解深度学习模型的相关方法是依赖于

包含更少参数和计算的模型。然而，使用不太复杂的模型获得可比较的最先进性

能是一个真正的挑战。此外，这是一个必要的标准，

剩余124页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度神经网络的片上处理与学习技术

深度网络学习

深度神经网络

网络游戏-基于深度神经网络和DSP芯片的人数统计装置和方法.zip

面向深度神经网络加速芯片的高效硬件优化策略.pdf

卷积神经网络在图形处理GPU芯片上的优化.pdf

深度神经网络内容整理.zip

神经网络 小芯片缺陷检测_2,神经元网络芯片,matlab

深度神经网络硬件基准测试现状及发展趋势.pdf

基于深度学习的图像压缩和图像加密，算法实现和芯片加速方案，便于深度学习在图像压缩和加密领域应用生态建设.zip

一种支持稀疏卷积的深度神经网络加速器的设计.pdf

最新资源

神经网络小芯片缺陷检测_2,神经元网络芯片,matlab