深度学习笔记2:过拟合欠拟合、GRU/LSTM与Transformer详解

0 下载量 46 浏览量 更新于2024-08-30 收藏 356KB PDF 举报
在《动手学深度学习》的第二篇笔记中,作者深入探讨了深度学习中的关键概念和技术。首先,笔记涉及了模型训练中的核心问题——过拟合与欠拟合。过拟合是指模型在训练集上表现优秀,但在新数据上泛化能力较差,其原因可能是模型复杂度过高或训练数据不足。解决过拟合的方法包括简化模型结构、使用L2正则化来控制参数量、以及利用Dropout技术减少过度依赖部分特征。为了防止过拟合,通常建议使用更多训练数据。 欠拟合则是指模型在训练和测试数据上的表现都不佳,往往是因为模型过于简单或者训练数据量不足以充分捕捉数据的复杂性。在这种情况下,可以通过增加模型复杂度或获取更多的训练数据来改善模型性能。 接下来,笔记讨论了梯度消失和梯度爆炸的问题,这是深度神经网络中常见的数值稳定性问题。随着网络层数的增加,如果权重参数没有适当初始化,可能会导致梯度变得非常小(梯度消失)或非常大(梯度爆炸),影响模型训练。为了解决这个问题,PyTorch的nn.Module类提供了合理的权重初始化策略,如Xavier初始化,它确保每一层的输出方差独立于输入个数,梯度方差独立于输出个数,以保持模型的稳定。 此外,笔记提到了几个可能影响模型性能的因素,比如协变量偏移(训练和测试数据的输入分布差异)、标签漂移(标签分布随时间和数据来源的变化)、以及概念偏移(同一词汇在不同语境下的含义变化)。在处理这些问题时,需要谨慎调整模型,确保其能够适应各种可能的数据分布。 最后,笔记对比了长短时记忆网络(LSTM)和门控循环单元(GRU)。GRU是LSTM的一种简化版本,它们在许多任务上具有类似的性能,但GRU由于其结构更简洁,计算成本相对较低。理解并选择合适的循环神经网络结构对于深度学习实践者来说至关重要。 总结起来,本笔记不仅涵盖了深度学习中的基本概念,还强调了实际应用中遇到的挑战和解决方案,帮助读者更好地理解和应对深度学习模型训练中的常见问题。