深度学习在不同应⽤场景的数据量是不⼀样的,这也就导致我们可能需要考虑分布式计算、多GPU计算的问题。例如,对计
算机图像处理研究的⼈员往往需要将图像⽂件和计算任务分部到多台计算机节点上进⾏执⾏。当下每个深度学习平台都在快
速发展,每个平台对分布式计算等场景的⽀持也在不断演进。
参考参考4 :深度学习平台的成熟程度:深度学习平台的成熟程度
成熟程度的考量是⼀个⽐较主观的考量因素,这些因素可包括:社区的活跃程度;是否容易和开发⼈员进⾏交流;当前应⽤
的势头。
参考参考5:平台利⽤是否多样性?:平台利⽤是否多样性?
有些平台是专门为深度学习研究和应⽤进⾏开发的,有些平台对分布式计算、GPU 等构架都有强⼤的优化,能否⽤这些平
台/软件做其他事情?⽐如有些深度学习软件是可以⽤来求解⼆次型优化;有些深度学习平台很容易被扩展,被运⽤在强化学
习的应⽤中。
3.1.4 为什么使⽤深层表⽰?
1. 深度神经⽹络是⼀种特征递进式的学习算法,浅层的神经元直接从输⼊数据中学习⼀些低层次的简单特征,例如边缘、
纹理等。⽽深层的特征则基于已学习到的浅层特征继续学习更⾼级的特征,从计算机的⾓度学习深层的语义信息。
2. 深层的⽹络隐藏单元数量相对较少,隐藏层数⽬较多,如果浅层的⽹络想要达到同样的计算结果则需要指数级增长的单
元数量才能达到。
3.1.5 为什么深层神经⽹络难以训练?
1. 梯度消失
梯度消失是指通过隐藏层从后向前看,梯度会变的越来越⼩,说明前⾯层的学习会显著慢于后⾯层的学习,所以学习会
卡住,除⾮梯度变⼤。
梯度消失的原因受到多种因素影响,例如学习率的⼤⼩,⽹络参数的初始化,激活函数的边缘效应等。在深层神经⽹络
中,每⼀个神经元计算得到的梯度都会传递给前⼀层,较浅层的神经元接收到的梯度受到之前所有层梯度的影响。如果
计算得到的梯度值⾮常⼩,随着层数增多,求出的梯度更新信息将会以指数形式衰减,就会发⽣梯度消失。下图是不同
隐含层的学习速率: