优化LSTM：DropConnect与NT-ASGD在语言建模中的应用

需积分: 0 141 浏览量更新于2024-08-05 收藏 442KB PDF 举报

"这篇学术文章探讨了如何规范和优化长短期记忆网络（LSTM）语言模型，特别是针对字级语言建模的任务。作者提出使用DropConnect作为正则化手段，改进LSTM的隐藏层到隐藏层的权重更新，并介绍了非单调触发的平均随机梯度下降（NT-ASGD）方法。通过这些策略，他们在Penn Treebank和WikiText-2数据集上取得了当时最先进的性能。此外，研究还涉及了神经网络缓存的有效性，展示了其在某些情况下的优势和不足。文章中包含了详细的实验结果和模型比较，包括各种优化和正则化技术的影响。" 在这篇文章中，作者主要关注了两个关键知识点： 1. **LSTM的正则化与优化**：LSTM作为一种递归神经网络，常用于序列学习任务，如机器翻译、语言建模和问答系统。作者提出了使用DropConnect来正则化LSTM的隐藏层到隐藏层的权重，这是一种类似于dropout的技术，可以防止过拟合，提高模型的泛化能力。此外，他们还引入了一种新的优化算法——非单调触发的平均随机梯度下降（NT-ASGD），该算法的平均触发器不是固定设置，而是依据非单调条件自动调整，从而可能更适应LSTM的学习过程。 2. **神经网络缓存的效果分析**：除了正则化和优化策略，作者还研究了将神经网络缓存与LSTM模型结合的效果。他们在两个数据集上进行了实验，发现缓存可以在某些情况下提高模型的性能，但也存在一些场景下缓存反而降低了模型的性能。通过详细的损失差异分析，他们列出了缓存对于特定单词的益处和弊端。实验部分提供了多张表格，如表1和表2，展示了在Penn Treebank和WikiText-2数据集上不同模型的验证和测试困惑度，表3则揭示了缓存对WikiText-2验证数据集总损失的影响，而表4总结了最佳LSTM模型的消融实验结果，区分了优化和正则化变体的影响。这篇文章为LSTM语言模型的优化和正则化提供了有价值的见解，同时探讨了神经网络缓存在实际应用中的作用，为后续研究提供了有益参考。

学界 | 规范和优化 LSTM 语言模型

2017-11-17

机器海岸线

选自 arXiv

作者：Stephen Merity，Nitish Shirish Keskar，Richard Socher 等

机器海岸线编译

参与：方建勇

论文链接：https://arxiv.org/pdf/1708.02182

摘要：递归神经网络（RNN），如长短期记忆网络（LSTM），可作为许多序列学习任务（包

括机器翻译，语言建模和问答）的基本构建模块。在本文中，我们考虑了字级语言建模的具

体问题，并研究了基于 LSTM 的模型的正则化和优化策略。我们提出了使用 DropConnect 作

为一种反复调节形式的权重下降 LSTM 的隐藏到隐藏的权重。进一步，我们引入平均随机梯

度法的变量 NT-ASGD，其中平均触发器是使用非单调条件确定的，而不是由用户进行调整。

使用这些和其他 reg-ularization 策略，我们在两个数据集上达到最新的字级复杂度：Penn

Treebank 上的 57.3 和 WikiText-2 上的 65.8。在研究神经网络缓存与我们提出的模型相结合

的有效性方面，我们在 Penn Treebank 上得到了更低的 52.8 的最新复杂度，WikiText-2 上得

到了更低的 52.0。

下载后可阅读完整内容，剩余3页未读，立即下载

设计师马丁

粉丝: 20
资源: 299

优化LSTM：DropConnect与NT-ASGD在语言建模中的应用

code _lstm-ga_优化LSTM_遗传算法GA优化LSTM网络参数_优化LSTM_LSTM优化_

PSO优化LSTM.zip

GA-LSTM 遗传算法优化的lstm 预测代码 python实现

遗传算法优化LSTM模型

粒子群优化算法优化lstm模型有什么意义

CPSO优化LSTM模型的过程

遗传算法算法优化lstm模型的好处

麻雀优化算法优化LSTM语音识别模型参数

PSO优化LSTM模型

l1/l2正则化方法优化lstm模型的好处

最新资源