FRATERNAL DROPOUT：优化递归神经网络的新方法

需积分: 0 116 浏览量更新于2024-08-04 收藏 463KB PDF 举报

"本文介绍了递归神经网络（RNN）在语言建模和顺序预测中的应用，以及优化RNN所面临的挑战。文章提出了一种名为FRATERNAL DROPOUT的新技术，它通过使用两个共享参数但具有不同DROPOUT掩码的RNN副本，最小化它们的预softmax预测差异，从而增强模型的鲁棒性。这种方法被证明是由期望-线性DROPOUT目标限定的，有助于解决训练和推理阶段DROPOUT差异带来的问题。在Penn Treebank和Wikitext-2数据集上的实验显示，该技术在序列建模任务上取得了最新成果，并且在图像字幕和半监督学习任务上也有显著性能提升。" 在深入探讨递归神经网络（RNN）时，我们首先理解RNN是一种特殊类型的神经网络，特别适合处理序列数据，如自然语言。然而，RNN在优化过程中遇到的问题主要是由于长期依赖问题，即模型在处理远距离依赖关系时容易出现梯度消失或爆炸。为了解决这些问题，研究者们提出了一系列技术，如长短时记忆网络（LSTM）和门控循环单元（GRU），这些结构试图保留更长时间的上下文信息。 FRATERNAL DROPOUT是一种新颖的正则化策略，其核心思想是训练两个相同参数的RNN副本，但每个副本应用不同的DROPOUT掩码。DROPOUT是一种常用的防止过拟合的技术，它在训练期间随机关闭一部分神经元，强制模型学习更多的一般性特征。在FRATERNAL DROPOUT中，通过最小化两个RNN副本的预测差异，可以促进模型学习到与DROPOUT掩码无关的表示，从而增强其泛化能力。该技术的理论基础是期望-线性DROPOUT目标，这个目标有助于缓解训练与推理阶段的DROPOUT差异，这通常会导致模型性能下降。通过实验，作者展示了FRATERNAL DROPOUT不仅提高了模型在 Penn Treebank 和 Wikitext-2 上的语言建模任务上的表现，而且还在Microsoft COCO图像字幕任务和CIFAR-10的半监督学习任务中取得了改进。实验证据包括不同模型在训练和验证过程中的复杂度比较，以及模型的收敛速度和验证误差。结果显示，使用FRATERNAL DROPOUT的模型不仅更快地收敛，而且在保持较低验证复杂度的同时，也能够减少平均隐藏状态激活的幅度，这进一步证明了该技术的有效性。 FRATERNAL DROPOUT提供了一种简单但强大的方法，通过增强RNN的鲁棒性和泛化能力，解决了传统DROPOUT在训练与推理一致性上的问题。这一进展对于深度学习领域，特别是涉及序列数据和语言建模的任务，具有重要的理论和实践意义。

展开