WoBERT:以词为单位的中文预训练模型新探索

需积分: 10 1 下载量 30 浏览量 更新于2024-08-04 收藏 103KB PDF 举报
"本文主要探讨了基于词颗粒度的中文预训练模型——WoBERT,它与以字为基本单位的模型相比,具有速度提升和效果稳定的特点。文章中提到,虽然大多数现有中文模型以字为基础,如ZEN和AMBERT,但词级别的模型如腾讯的UER在实际应用中效果并不理想。作者团队开发并开源了WoBERT,一个完全基于词的BERT模型,其在多项任务中展现出了优势。文章还质疑了字优于词的普遍观点,指出以词为单位的模型在使用预训练词向量时可能具有更强的拟合能力,并讨论了过拟合的双面性,提出通过抑制过拟合可以优化模型性能。" 在中文自然语言处理(NLP)领域,预训练模型是关键的组成部分,它们在各种任务中提供基础表示。早期的模型大多以字为基本单位,例如BERT、RoBERTa等,这些模型将中文句子拆分成单个字符进行处理。然而,中文语言的特性决定了词语是基本的意义单元,以词为单位的模型理论上能更好地捕捉语义。ZEN和AMBERT等模型尝试在字级别上融合词的信息,但它们的基础仍然是字。 文章指出,以词为单位的预训练模型在实际应用中并不常见,一个例子是腾讯发布的UER,其表现并不尽如人意。相比之下,作者团队开发的WoBERT以词作为基本单位,不仅提高了处理速度,而且在保持甚至提高任务效果方面表现良好。这一成果挑战了字优于词的传统认知,并提出了词级模型的潜在价值。 关于“字”与“词”的争论,文章引用了香侬科技在ACL2019上的研究,该研究认为字模型在深度学习中文表示时通常优于词模型。然而,作者认为这个结论可能不全面,因为实验中词模型的Embedding层是随机初始化的,而在实际应用中,词模型通常会利用预训练的词向量,这改变了过拟合的性质。作者强调,过拟合虽然有负面效应,但适度的过拟合可能表明模型具有更好的拟合能力,通过控制过拟合,可以构建更强大或更简洁的模型。 WoBERT的开源发布,为研究者和开发者提供了一个新的工具,以探索词级别的预训练模型在中文NLP中的潜力。通过比较和优化,可以进一步理解不同粒度模型的优劣,推动中文NLP技术的发展。