bert2BERT:高效复用预训练语言模型

0 下载量 36 浏览量 更新于2024-06-19 收藏 2.3MB PDF 举报
“bert2BERT:重用预训练语言模型的有效方法” 近年来,预训练语言模型(PLMs)如BERT、GPT等已经成为自然语言处理(NLP)领域的核心工具。这些模型通过在大规模无标注文本上进行预训练,然后在特定任务上微调,能够展现出强大的性能。然而,随着模型规模的增大,预训练过程所需的计算资源也急剧增加。大多数研究者选择从零开始训练大型模型,忽视了已有预训练模型的价值。 bert2BERT是一种创新的方法,旨在解决这一问题,它允许有效利用较小的预训练模型(如BERTBASE)来初始化更大的模型(如BERTLARGE)。这种方法借鉴并扩展了功能保持的思想,即在更大模型的构建中保留小模型的部分功能,同时引入高级知识来改进模型初始化。通过这样的参数初始化,bert2BERT能够在保持甚至提高预训练效果的同时,减少大型模型训练中的缺陷。 文章还提出了一种两阶段的预训练策略,这有助于加速训练进程。第一阶段专注于小模型的特性迁移,第二阶段则对大型模型进行进一步的预训练优化。实验结果表明,bert2BERT不仅显著降低了训练成本,相比从头开始训练、StackBERT和Mackay等方法,而且其通用性适用于各种类型的预训练模型。例如,在BERTBASE和GPTBASE上,bert2BERT通过重用大约一半的模型参数,节省了45%和47%的计算成本。 论文的贡献主要体现在以下几个方面: 1. 提出了一种新的预训练模型初始化方法,能够有效地将小模型的知识迁移到大模型,从而提升预训练效果。 2. 设计了两阶段预训练策略,加速了大型模型的训练过程。 3. 展示了该方法在多个代表性PLMs上的有效性,并且节省了大量训练成本。 4. 证明了bert2BERT的通用性,适用于不同类型的预训练模型结构。 bert2BERT的出现,为NLP领域提供了一个经济高效的途径,以利用现有资源来构建更强大的语言模型,这对于减少计算资源的需求和提高模型训练效率具有重要意义。随着源代码的公开,该方法有望成为未来研究和实践的标准之一,推动预训练模型的发展。