持续学习中的灾难性遗忘及其重放过程

49 浏览量更新于2023-12-04 收藏 5.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

626持续学习：在神经深处处理灾难性遗忘具有重放过程的这是一个博士学位在P奥林匹克理工学院的P是由Ee第626号博士学校P a r is奥林匹克技术学院（ED IPP）博士学校《科学与科学》，作者：《科学与科学》，作者：作者2020年6月12日，在Alaiseau的一个地方，你可以感觉到自己和裸体。TIMOTHEELESORT评审团组成：亚历山大·格珀斯专业fessor，富尔达大学v大学（计算机科学系）伊琳娜·里什蒙特利尔大学（MILA）副教授报告员地理rges Que not格勒诺布尔计算机科学实验室（LIG）CNRS研究主任拉兹万·帕斯卡努报告员研究科学家，Deepmind伦敦考官大卫·菲利亚特Prof Essor，EnstaPar is（U2IS），T&E' SE安德烈·斯托扬泰雷兹（Theresis）研究科学家，共同资助T & HNNT：2谢谢你J’ai 所有这一切因此，我感谢在这个工作环境中的每一个人，他们此外，在这篇论文期间，我还继续在我的家人和朋友的帮助下在隔壁进行各种活动，也感谢你们所有人更详细地说，首先我要感谢我的论文导师大卫，他在我的整个论文过程中一直在场，帮助我，给我建议，倾听我的意见感谢您的光临，感谢您的耐心。我还要感谢Andrei和Jean-François，他们先后担任我在泰雷兹大学的论文联合主任谢谢你，此外，我还要感谢我在泰雷兹的同事们，他们每个人都以自己的方式为实验室营造了良好的氛围，感谢蒂亚戈、蒂埃里、J-E、大卫、斯蒂芬妮（x2）：）、迈克尔（x3）、凯文、塞德里克、让-伊夫、斯特凡、安德烈娜、亚辛、汤姆、雷米、席琳、路易斯、托马斯和所有其他人还要感谢我在ensta的同事，我的多个三个行为的同志午餐-咖啡-婴儿，蒂博，奥利维尔，朱利安，亚历克斯，托马斯和其他人。运动伙伴：加布里埃尔，Vyshakh（雨果。感谢我所有的合著者，来自恩斯塔和其他地方，感谢他们让我的论文进展得更快：娜塔莉亚（一起工作这么多）。!），雨果，安东尼（再次），勒内，特，马西莫，文森佐，亚历山大，弗洛里安，马蒂厄，阿什利!感谢我的家人，感谢我的父母总是在那里支持我，帮助我，欢迎我，感谢Zaz，Cacou和Cec，一个美丽的薯条店总是准备分享一顿美餐。还要感谢曼夫，特别是这两个了不起的侄子和侄女，露露和米卢。感谢我的祖父亨利，他是坚韧和活力的典范还有家里的其他人，特别是萨宾和克莱尔，他们偶尔会在星期二的油炸食品店工作感谢我在这里和其他地方的朋友们，感谢他们，感谢他们在这里。TBC：Julaix，Günter，GrandMax，Sylvain，Eddine，Etienne，Jej，Joss和Tang，都是塔罗牌和比宾的狂热爱好者!被忽视的人：我的小弟弟前吸烟者：索菲，鲁比尔，露西，罗曼，露西尔，艾琳，安东尼，昆汀，亚历克西斯，PX，克里斯托弗。巴黎的其他朋友，前巴黎人或其他地方：迈诺特，卡米尔，艾曼纽，吉格，雨果，路易斯，纳斯塔，奥利维尔，玛歌，克莱尔，龙达夫，保罗，托马斯，勇敢的雷米利厄，西尔维斯特，嘉布遣会和许多其他人蒙特利尔的朋友：文森特，弗洛里安，塞萨尔，亚历山大，托马斯，马西莫，洛朗，西奥多拉。我希望很快见到你;）。好老童子军，埃米尔，巴尔特和马丁，这是很好的，我们仍然看到对方有时。来自Cibeins的Sean、Marion、Lucie、Melanie和许多其他人。最后，Beber和Sylvain，这些受人尊敬和有才华的人，我希望能经常见到你们，以便有效地工作，体验还要感谢我所有的审稿人，感谢那些一直以来的审稿人，也感谢那些直接参与这份手稿的人：我的父亲、母亲、扎兹、科林、卡库、维克多、维沙赫、杰克、君特、艾蒂安、嘉布遣会、弗洛伦斯、安德烈，当然还有大卫。内容物内容3图5列表表7列表1导言111.1上下文111.2贡献和范围131.3出版物131.4大纲142深度学习后端：原理与应用2.1通过梯度下降训练深度神经网络2.2学习范式182.3学习过程302.4走向终身学习322.5结论343持续学习373.1导言373.2持续学习的定义383.3关键词汇393.4持续学习框架433.5最先进技术493.6评估553.7应用：机器人的623.8结论664继续学习中的监督自由推理4.1导言694.2背景704.3规范化方法714.4提案734.5实验804.6讨论8434内容4.7结论865持续学习生成模型875.1引言/动机875.2背景885.3接近915.4实验915.5结果945.6讨论1035.7结论1036分类生成式1056.1导言1056.2背景1066.3方法1086.4实验1126.5结果1136.6讨论1216.7结论1217为政策提炼而1237.1引言1237.2背景1247.3方法1267.4实验1287.5结果1307.6讨论和未来工作1357.7第135章8讨论1378.1重新思考持续学习目标1378.2关于论文选择的1418.3持续学习陷阱1458.4研究建议1469结论1499.1贡献摘要1499.2未来研究150参考书目153图列表1.1不相交的任务说明。......................................................................................................................... 122.1深度神经网络（DNN）的一个示例。............................................................................................152.2人工神经元的插图。..........................................................................................................................162.3卷积神经网络的插图。......................................................................................................................192.4强化学习环境的说明。.......................................................................................................................212.5著名RL基准的插图。.........................................................................................................................232.6可变自编码器（VAE）的示例。..................................................................................................... 252.7生成式对抗网络（GAN）的示例。................................................................................................ 262.8拟合容量方法（FiC）的示例。....................................................................................................... 282.9来自类似MNIST的数据集的样本。.................................................................................................292.10 样本来自Cifar10数据集。.................................................................................................................292.11 来自ImageNet数据集的狗样本。.................................................................................................... 303.1任务标签和概念漂移：不同场景的插图。......................................................................................473.2一些最受欢迎的CL策略的维恩图。................................................................................................ 563.3机器人任务插图644.1学习边界决策的说明。......................................................................................................................744.2多任务环境中持续学习分类的简单案例。......................................................................................804.3一个任务分类设置中表示重叠的情况。..........................................................................................814.4多任务分类设置中表示重叠的案例。..............................................................................................814.5MNIST-Fellowship数据集的三项任务插图4.6不带测试标签的不相交类与测试标签的实验。..............................................................................834.7联合类实验。......................................................................................................................................835.1所考虑的不相交设置的885.2在MNIST上拟合各种生成模型的能力评估。.................................................................................895.3生成式模型评估之间的比较。.......................................................................................................... 905.4MNIST和Fashion-MNIST93上的测试和分类准确度5.5FID结果与拟合容量结果之间的945.6VAE、CVAE、GAN、CGAN和WGAN的955.7CGAN96的EWC结果5.8[218]97的EWC实验复制5.9使用MNIST98生成的样本56图列表5.10 使用Fashion-MNIST99生成的样本5.11 在MNIST100上调整GAN和VAE的容量结果5.12 使用CIFAR10101生成的样本5.13 使用每种方法在CIFAR10上生成样本。........................................................................................1025.14 在CIFAR10上使用WGAN_GP对CL任务进行FiC和FID。................................................... 1025.15 每个任务中的最佳工作解决方案示例，GAN生成式重放1046.1多任务学习连续体的示例。............................................................................................................1086.2MNIST为轮换任务提供培训数据。...............................................................................................1086.3用于排列类型任务的MNIST训练数据。.......................................................................................1096.4不相关任务的MNIST培训数据示例1096.5排列任务110的MNIST训练数据示例6.6用于连续学习的生成式重放和条件式重放。................................................................................1116.7不同重放策略的类不平衡图1126.8不同任务培训期间的测试和准确性6.9比较每个方法在第一个任务中的准确性。.................................................................................. 1166.10 比较每个方法生成模型的FID6.11 为排列任务118生成的MNIST样本6.12 条件和边际重放准确度之间的1207.1三个机器人任务的图像。............................................................................................................... 1247.2概述我们持续多任务强化学习的完整管道。................................................................................1277.3SRL组合型号127的插图7.4表示数据采样策略以提炼教师政策1317.5每个任务的累积奖励。....................................................................................................................1327.6不同采样策略的1327.7蒸馏有效性的证明。........................................................................................................................1337.8将教师政策提炼成学生网络。....................................................................................................... 134表列表3.1持续学习情景的说明。......................................................................................................................463.2持续学习主要策略的分类3.3持续学习3.4准确度矩阵R59插图4.1正则化方法评估的模型架构。..........................................................................................................825.1适合容量计算的分类体系结构935.210项不同任务的结果表MNIST和时尚MNIST111的超参数表7.1学生政策的平均标准化绩效13178表列表缩写列表CL持续学习LLL终身学习DL深度学习人工神经网络NN神经网络CNN卷积神经网络SOD随机梯度下降MLP多层感知器i.i.d.独立和同构分布MAP最大后验概率估计MLE最大似然估计PCA主要成分分析RGB红、绿、蓝RL强化学习LwF学习而不忘记GEM梯度情景记忆iCaRL增量分类器和表示学习EWC弹性权重合并法语摘要人类一生都在学习他们从一系列的学习经历中积累知识，并记住其中神经网络在这种条件下很难学习。他们通常需要特别是，当他们学习数据集的序列时因此，人工神经网络通常不能理解真实的场景，例如自主机器人L’apprentissage continu est une branche de l’apprentissage automatique s’attaquant à ce typede 创建连续算法是为了在学习经验的课程中学习知识、丰富知识持续学习有四种主要的方法。首先，动态架构方法包括进化神经元其次，正则化方法评估已经训练过的神经元的重要性，以便相应地限制它们的修改。这是一个优先学习第三，数据重放方法包括保存代表所学知识的图像，并在以后重放它们以供记忆。第四种类型的方法称为生成重放，使用辅助区域学习神经网络来生成当前的训练数据因此，以后可以使用辅助网络来重新生成过去的数据，并将其返回到主模型，以防止主模型忘记这些数据我们在第3章中详细介绍了在本文中，我们将研究我们将它们收集在数据集方法家族中数据重放方法在优化当前学习目标和优化过去的学习经验之间提供了一个折衷方案我们证明了这些方法在持续学习中的前景它们允许用新的知识重新评估过去的数据，并比较来自不同实验的数据。这些特征使数据重放方法相对于动态架构或正则化方法具有明显的优势，动态架构或正则化方法可能无法学习区分来自不同学习经验的910表列表为了突出这些方法的优点，我们在不相交的任务序列上试验了数据重放不相交任务是在其学习标准中没有相交的明确分离的学习任务例如，在分类中，它是关于学习如何识别来自不同神经网络一个接一个地学习每个类集最终，它必须能够从任何集合中识别图像这些实验首先评估学习区分单独学习的概念（例如类）的能力，其次评估记住在为了最这些数据集在传统深度学习中很容易解决，但在复杂的环境中仍然很难解决[186]第一百八十五话此外，在第7章中，我们通过教机器人解决一系列强化任务，对一个接近真实情况的场景进行了实验因此，我们可以将我们的贡献总结如下：• 我们对持续学习进行了深入的概述我们总结了此外，我们还深入研究了机器人技术的例子，• 我们从理论上证明了正则化方法在连续学习中的局限性我们表明，这些方法不允许学习者• 我们对生成模型在持续学习场景中的训练进行了实证研究• 我们正在试验不同的数据重放方法，以实现持续学习特别是，我们将这些方法应用于不相交的任务场景，以突出它们对持续学习的好处总之，我们通过无监督（第5章）、监督（第4章和第6章）和强化（第7章）学习范式证明了数据重放方法持续学习的能力这些实验使我们能够展示和强调这些方法的优点，并证明它们在学习经验课程的某些关键方面的第一章简介1.1上下文近年来，具有深度神经网络的机器学习在解决许多研究和工业问题方面显著提高了技术水平。在视觉问题中，深度神经网络特别提高了分类和检测的最新技术水平在自然语言处理中，深度神经现在被用于搜索引擎和文本分析。深度学习还提高了强化学习性能。它使学习各种应用的政策和技能成为可能，如视频游戏、棋盘游戏或控制。机器人技术是一个为深度学习提供重要机会的它的成功可能会改善机器人的认知功能，如视觉、语言处理或探索。更重要的是，深度强化学习可以帮助利用具有挑战性的机器人任务，如物体操纵或自主驾驶。然而，学习算法受到许多不足的影响。深度学习的一个重要限制是对数据集质量的依赖，一个干净、构建良好的数据集是有效学习过程的关键条件在大多数机器学习算法中，训练数据被假设为独立和标识分布（iid），即数据分布被假设为静态的。如果数据分布在学习过程中发生变化，新数据将干扰现有知识并将其抹去。这种现象是如此令人眼花缭乱，它对算法的性能提出了如此严峻的挑战，以至于我们称之为"灾难性遗忘这个问题对算法训练神经网络的方式和机器学习的潜在应用领域例如，让我们考虑一个在不断变化的环境中工作的机器人，它被分配了操纵新物体或解决新任务的任务。然后，机器人将需要逐步学习新的知识和技能，以改进和适应其行为，以适应新的情况。使用经典的机器学习技术，为了在避免灾难性遗忘的同时融入新知识，模型必须从头开始重新学习所有内容。一个只需要新数据来改进和发展知识和技能的机器人在这种情况下会更有效率持续学习（CL）是机器学习的一个分支，旨在处理这种情况，更一般地说，使用非iID数据源的设置。他喜欢创建机器学习算法来积累一组按顺序学习的知识。持续学习背后的一般想法是使算法能够从现实生活中的数据源中学习自然地1112第一章。引言在这种环境下，学习机会不是同时可用的，需要按顺序处理。从现有数据中学习，并能够在以后继续使用新数据，而不是只学习一次，这似乎是非常合适的。它打开了在某个任务上改进算法或使它们在不忘记的情况下学习新技能/知识的可能性。它还支持学习体验之间的迁移获得的知识可以帮助学习解决新问题，新知识可以改进为过去任务找到的解决方案由于灾难性的遗忘现象，终身学习是一门具有挑战性的学科。保存一切以避免忘记一切的策略是不令人满意的，因为它在内存和计算方面是不可扩展的使用的内存量可能增长过因此，只记住基本概念是很重要的。此外，为了处理灾难性遗忘，算法应该识别任务1之间的潜在干扰源，以便使用平滑的遗忘过程。图1.1：使用ImageNet图像进行分离任务设置的插图[124]。有两个任务按顺序学习，在第一个有两个类，黑猫（c1）和白猫（c1），第二个任务是相同的，但狗（c3对c4）。在部署阶段，我们希望模型能够区分任何类与任何其他类，就像白猫与黑狗一样。因此，该模型既需要解决这两个任务，也需要解决更高级别的任务，其中包括从各种任务中区分类在本文中，我们专门研究了数据部分静态的学习场景。每一部分都与另一部分不同，并被称为"任务"此设置称为不相交任务设置，在分类中也称为类增量设置。每项任务都为学习课程带来了新的课程，过去的课程不再提供。我们在图1.1中展示了课堂增量学习的例证。在这种设置中，只有在任务更改时才会发生遗忘。此外，由于类只在一个任务中可用，因此适合评估神经网络如何学习和记忆它们。另一方面，这种设置使得评估算法是否能够从不同的任务中学习区分类成为可能，这在持续学习中是具有挑战性的。因此，我们研究了算法如何能够处理这种设置，因为解决不相交设置的能力是能够处理现实生活设置的必要条件。当不同的学习标准发生冲突时，就会发生干扰现象。1.2. 贡献和范围131.2贡献和范围正如本文后面所详述的，持续学习方法可分为四大类：正则化、动力学。架构、排练和生成的重播。在我们的工作中，我们证明了正则化和动力学架构方法在理论上对持续学习有不足之处，因此我们专注于研究重放方法（即重放和生成重放方法）在分类和强化学习中的应用。更具体地说，我们研究了生成式重放和重放方法在不连续设置中连续学习的能力本文的贡献是：• 持续学习研究领域的全球概述（第3章）。我们介绍了持续学习的最新技术水平，并介绍了经典的基准和指标。此外，我们还开发了机器人作为持续学习解决方案的应用。• 连续学习正则化方法不足的理论证明（第4章）。我们证明了正则化方法不能提供一个学习标准来区分不同任务环境中不同学习经验的可用数据• 一项关于连续学习中生成模型能力的实证研究（第5章），采用了一种新的评估指标：适应能力。• 我们在连续学习设置中试验重放方法（第5、6和7章）。我们在无监督的无障碍环境中进行特殊的课堂增量学习。这一基准强调了在持续学习中重播的必要性本文对持续学习中的重放方法进行了广泛的研究，并对这些方法在持续学习中的优势进行了深入的探讨。我们将重放方法应用于无监督、有监督和强化学习，以说明我们的陈述。此外，我们还进行了广泛的讨论，强调了持续学习的实际要求，介绍了重播方法在持续学习中的优势，并阐明了为取得进展而应探索的研究方向。1.3出版物我们的工作产生了以下出版物：1.3.1日记帐• [141]机器人的持续学习：定义、框架、学习策略、机遇和挑战（2019）T Lesort，VLomonaco，A Stoian，D Mal- toni，D Filliat，N Díaz-Rodriguez，信息融合，爱思唯尔，2019，ISSN 1566-2535，doi：10.1016/j.infus.2019.12.004.1.3.2国际会议• [135]从持续学习角度看生成模型（2019 ）T Lesort ，H Caselles-Dupré ，M. Garcia-Ortiz，J-F Goudou，D Filliat，IJCNN -神经网络国际联合会议，匈牙利布达佩斯14第一章。引言• [140]T Lesort，A Stoian，J-F Goudou，D Filliat，人工神经网络和机器学习-• [137]边际重放与持续学习的条件重放（2019）T Lesort，A Gepperth，A Stoian，D Filliat，人工神经网络和机器学习-1.3.3国际会议讲习班• [112]使用策略蒸馏和Sim 2 Real转移在现实生活中部署的持续强化学习（2019）RTraoré*，H Caselles-Dupré*，T Lesort*，T Sun，GCai，N Díaz-Rodriguez，D Filliat，ICML多任务和终身学习研讨会，2019年，长滩• [248]DisCoRL ：通过政策提炼进行持续强化学习（2019 ）R Traoré* ，H Caselles-Dupré*，T Lesort*，T Sun，G Cai，N Díaz-Rodriguez，D Filliat，深度RL研讨会，NIPS2019，温哥华1.4大纲这份手稿的幸存者的组织如下：• 第二章介绍了理解论文实验中应用的学习过程所需的深度学习背景。• 第三章对持续学习、其目标、应用和评估进行了全面的概述。• 第四章通过指出其他方法的理论不足和阐明重放方法的优点来激励重放方法的研究。• 第五章介绍了生成式重放方法并评估了其核心组件能力：连续上下文中的生成式模型。• 第六章在增量分类任务序列中试验生成重放方法。• 第7章通过将复述策略应用于连续多任务强化学习环境，带来了关于复述方法的额外结果结果算法应用于真实机器人。• 第八章讨论了持续学习的目标和使用案例，论文中的选择和持续学习研究的陷阱。• 第9章结束了为期3年的持续学习和重播方法的工作，并为其扩展开辟了研究方向。第二章深度学习后端：原理与应用深度学习是一个喜欢开发学习算法的研究领域。那些算法应该学习一个函数，优化数据上的目标函数。在深度学习中，这一功能被实现为深度神经网络，即具有不止一个隐藏层的神经网络[20，214]（图2.11）。图2.1：深度神经网络（DNN）的示意图深度学习有许多应用，如信号处理、语言处理和图像处理。本论文的范围仅限于图像处理：我们致力于从图像中学习以理解其他图像的算法。然而，将本论文的结果转移到其他应用领域没有理论上的限制。本章介绍了2.1节中经典深度学习的基本概念及其2.2节中的应用。为了更深入地理解这一主题，我们建议参考《深度学习》一书我们还在第2.3节中介绍了全球深度学习管道，并在第2.4节中介绍了其对持续学习的约束。1图片取自https://towardsdatascience.com/a-laymans-guide-to-deep-neural-networks-ddcea24847fb1516第二章。深度学习背景：原理与应用-Σ>2.1通过梯度下降在本节中，我们介绍了训练深度神经网络的最简单方法：随机梯度下降。我们还介绍了目标优化和深度学习库。2.1.1深度神经网络（DNN）深度神经网络（DNN）是具有多个隐藏层的人工神经网络一层由一组神经元组成，这些神经元连接到前一层的神经元它们执行计算并将单个值发送到下一层。神经元共同形成神经网络。深层神经结构的表示见图2.1。通过将所有神经元组合成一个相干体，神经网络应该能够学习复杂的功能来解决复杂的问题。从数学上讲，对于一组n 1个输入值x1，x2，...，x n神经元将计算以下输出：nout=σ（xi ωi+b）（2.1）i=1使用σ（。a）非线性激活函数，b是偏置，ωi是神经元的权重单个神经元的示意图如图2.2所示。为了训练神经网络，我们调整所有神经元的权重（或参数）和偏差，以产生特定的功能。图2.2人工神经元的示意图。有不同类型的神经网络，如卷积神经网络或全连接神经网络。我们将在第2.2.1节中介绍这些内容。在下一节中，我们将了解如何培训DNN。2.1.2随机梯度下降（SOD）我们定义了函数f（。由神经网络实现。f）。）由θRN参数化，θ RN是对应于所有神经元的连接权重和偏差的N个实值的向量。对于输入数据x，我们有：y=f（x;θ）（2.2）因为神经不工作，所以它不工作。我们假设数据集由对等体（x，y）组成，x是一个数据点，y是与之相关的执行输出。Foreach数据pointx>D，we可以计算ty=f（x;θ）和de损失2约2.1. 通过梯度下降训练深度神经网络17L（Y）。 l（y，y）ete 损失函数是一个可微函数，例如平方欧几里得距离：l2（y，y）=y−y2（2.3）然后，训练程序的目标是找到使成本函数最小化的最佳向量θ *。L（. 我们有数据集D。对于each参数ofθ，θj奏效θ，weca n计算梯度ntθj：θj=（f（x;θ），y）θj（2.4）深度神经网络的资产之一是梯度在整个模型中的有效反向传播。梯度可以使用链规则从一层传递到另一层。（a）（b）（c）（d）（2.5）θjf（x;θ）θjHence，A（f（x;θ）;θj），y）可以计算d，因此e对于allandbe在rto计算ltheθ之后使用。f（x;θ）j这是一个很大的问题，也是一个很大的问题，也是一个很大的问题。学习率。θj→θj−ηθj（2.6）然后对从数据集随机采样的所有（x，y）重复此操作，直到收敛到l（f（x;θ），y）的局部最小值θ*这个过程被称为随机梯度下降（入住率下降）。这是通过梯度下降训练深度神经网络的最简单方法。随机采样的数据称为i.i.d.（完全相同且独立分布）。i.i.d. 对数据分布的假设通常是训练算法成功的必要条件。更新规则（等式2.6）可以被修改以实现更有效的优化。一些众所周知的优化方法是Adagrad[64]、Nesterov momentum [239]、Adam [118]、RMSProp [55]。他们将动量和加速度分量添加到梯度中，以便更快地学习。在本论文的实际应用中，我们主要使用Adam和SOD来优化深度神经网络。2.1.3过拟合和概括第2.1.2节中描述的优化过程最小化训练数据上的损失函数，直到找到局部最小值θ*：θ*= argminE（x，y）Dtrl（f（x;θ），y）（2.7）θ使用培训数据集。然而，深度学习优化的真正目标是对从未见过的数据做出良好的预测，即将知识从培训数据推广到新数据。对未知数据做出良好预测的能力称为推广。它是通过计算测试中的损失来衡量的，而D是模型从未见过的。如果训练损失非常低，但测试损失18第二章。深度学习背景：原理与应用设置为高，模型没有学习到解决任务的好方法。这种现象被称为过拟合。如果测试集的损失较低，则我们认为模型推广良好，培训成功。机器学习和深度学习的主要目标之一是学习能够很好地概括新数据的函数。然而，重要的是要注意，测试集应该与训练集相似。神经网络不能推广到完全不同的数据。2.1.4深度学习编程框架神经网络的训练在大多数情况下都是通过编程专门用于深度学习的库来实现的。这些库允许高效和自动地计算所有参数的梯度并更快地训练神经网络。使用这些库还可以更快地开发代码，并轻松使用GPU加速进行深度神经网络训练。目前最著名的深度学习库是Pytorch，TensorFlow[1]和Keras [44]，但几年前的咖啡[106]和Theano [11]是最常用的。所有这些库都可以与python一起使用，但其中一些库有一个接口，可以与其他编程语言（如C++）一起使用。近年来，这些库已经得到了非常密集的开发，使得查找预训练模型和已经实现的架构、神经层和优化过程成为可能。今天，它们是开发和训练深度神经网络的完整框架。在本论文中，所有训练深度神经网络的代码都是在Python中使用Pytorch框架开发的。2.2学习范式深度神经网络的训练已经应用于不同的学习范式。这些范式在它们的监督信号上有所不同。有监督的算法对所有数据点都有一个真实的标签，强化学习算法有一个稀疏的标签，称为奖励，而无监督的算法根本没有标签。2.2.1分类图像分类（或图像识别）是深度学习的典型应用。它包括学习预测与输入数据相关联的类。在这一部分中，我们只对深度神经网络分类的监督训练感兴趣。监督培训是最常用的学习分类方法。历史在21世纪10年代早期，深度神经网络帮助图像识别领域取得了重大进展，特别是卷积神经网络（CNN）架构[77]和图形处理单元（GPU）的硬件计算加速GPU硬件的发展促进了神经网络训练的加速。在过去的几年里，它极大地帮助了深度神经网络的发展，从几层沙子发展到了数百万个参数。从那时起，它们在分类挑战中无处不在，如PASCAL VOC、ImageNet、MS COCO和Open Images。2.2. 学习范式19深度神经网络由一堆不同的神经层组成，这些神经层学习如何检测数据中的基本特征并做出决策。在分类的早期，人工工程的特征提取器在学习算法之外，并且只学习决策层。今天，特征提取和决策都可以在单个神经网络中自动学习。在下一节中，我们将介绍特征提取和决策所需的神经层的重要类型。基于这些层，帮助开发深度神经网络的最著名的架构是LeNet [131]、AlexNet [124]、Inception [242]、VGG [231]、ResNet [93]。这些模型提出了神经元和神经元层之间的各种类型的连接，以帮助图像识别的学习特征。卷积层在图像分类中，特征提取器通常由卷积层的堆栈组成。图2.3：用于图像分类的多层卷积神经网络特征映射包含使用学习的过滤器计算的所有激活输出。子采样包括仅将特征映射的一部分传输到下一层。卷积层被设计为显著地限制参数的数量，同时尊重完全连接的层（在下一节中介绍）。它们能够捕捉局部依赖性，并从某些特征的不变性中获益，以便更好地学习，例如，无论汽车在图像中的位置如何，汽车仍然是汽车卷积层由离散卷积滤波器组成（图2.3）。每个过滤器的目标是检测特定模式。对于给定的输入，输入越接近特征，卷积的输出就越高。通过堆叠卷积层，模型可以检测越来越多的复杂特征。训练神经网络包括学习正确的过滤器来检测允许它们解决分类任务的辨别特征。卷积层的输出是由一组特

下载后可阅读完整内容，剩余1页未读，立即下载