谷歌发布MobileBERT:轻量级预训练模型,跨任务性能强大

2 下载量 111 浏览量 更新于2024-08-27 收藏 1.38MB PDF 举报
谷歌近期在NLP领域取得了重大突破,发布了MobileBERT,这是一个针对移动设备优化的任务无关的轻量级预训练模型。随着深度学习在自然语言处理(NLP)中的广泛应用,BERT等大型预训练模型如BERT、BERT-LARGE凭借其强大的性能引领了行业的进步,但其庞大的模型规模和高计算需求使得在移动设备上实现高效应用变得困难。传统方法通常是针对特定任务对BERT进行微调或蒸馏,但这并未提供一个通用的轻量化解决方案。 MobileBERT的提出旨在解决这一问题。它保持了BERT-LARGE的深度,但通过引入瓶颈结构和平衡注意力机制以及前馈网络,成功地减少了每层的宽度,从而实现模型的压缩。设计过程中,谷歌首先训练了一个特殊的教师模型,即IB-BERT,它是BERT-LARGE的倒置瓶颈版本,然后将IB-BERT的知识转移至MobileBERT。这种方法避免了直接减小模型尺寸导致的精度损失,因为MobileBERT能够利用更深层次的结构来维持足够的表达能力。 实验证明,MobileBERT在保持高性能的同时,具有显著的轻量化优势。它的大小只有BERT-BASE的4.3倍,速度提升约5.5倍。在GLUE自然语言推理任务中,MobileBERT的得分达到77.7,仅比BERT-BASE低0.6分,而且在Pixel4手机上运行的延迟仅为62毫秒,显示出了良好的便携性。在SQuAD问答任务中,MobileBERT在开发集上的F1分数分别优于BERT-BASE 1.5和2.1,显示出其在多种NLP任务上的广泛适应性和有效性。 MobileBERT的出现填补了轻量级预训练模型的空白,为移动设备上的NLP应用提供了新的可能性,不仅提升了性能,还降低了计算成本和响应时间,是NLP领域的一个重要里程碑。未来,随着技术的进一步发展,我们期待看到更多这类兼顾效率和效果的轻量级模型应用于现实生活中的各种场景。