WoBERT：以词为单位的中文预训练模型新探索

需积分: 10 30 浏览量更新于2024-08-04 收藏 103KB PDF 举报

"本文主要探讨了基于词颗粒度的中文预训练模型——WoBERT，它与以字为基本单位的模型相比，具有速度提升和效果稳定的特点。文章中提到，虽然大多数现有中文模型以字为基础，如ZEN和AMBERT，但词级别的模型如腾讯的UER在实际应用中效果并不理想。作者团队开发并开源了WoBERT，一个完全基于词的BERT模型，其在多项任务中展现出了优势。文章还质疑了字优于词的普遍观点，指出以词为单位的模型在使用预训练词向量时可能具有更强的拟合能力，并讨论了过拟合的双面性，提出通过抑制过拟合可以优化模型性能。" 在中文自然语言处理（NLP）领域，预训练模型是关键的组成部分，它们在各种任务中提供基础表示。早期的模型大多以字为基本单位，例如BERT、RoBERTa等，这些模型将中文句子拆分成单个字符进行处理。然而，中文语言的特性决定了词语是基本的意义单元，以词为单位的模型理论上能更好地捕捉语义。ZEN和AMBERT等模型尝试在字级别上融合词的信息，但它们的基础仍然是字。文章指出，以词为单位的预训练模型在实际应用中并不常见，一个例子是腾讯发布的UER，其表现并不尽如人意。相比之下，作者团队开发的WoBERT以词作为基本单位，不仅提高了处理速度，而且在保持甚至提高任务效果方面表现良好。这一成果挑战了字优于词的传统认知，并提出了词级模型的潜在价值。关于“字”与“词”的争论，文章引用了香侬科技在ACL2019上的研究，该研究认为字模型在深度学习中文表示时通常优于词模型。然而，作者认为这个结论可能不全面，因为实验中词模型的Embedding层是随机初始化的，而在实际应用中，词模型通常会利用预训练的词向量，这改变了过拟合的性质。作者强调，过拟合虽然有负面效应，但适度的过拟合可能表明模型具有更好的拟合能力，通过控制过拟合，可以构建更强大或更简洁的模型。 WoBERT的开源发布，为研究者和开发者提供了一个新的工具，以探索词级别的预训练模型在中文NLP中的潜力。通过比较和优化，可以进一步理解不同粒度模型的优劣，推动中文NLP技术的发展。

当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。

中文也有一些多颗粒度的语言模型，比如创新工场的和字节跳动的，但这类模型的基本ZEN AMBERT

单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了

解到就只有腾讯开源了一个以词为颗粒度的BERT模型，但实测效果并不好。UER

那么，纯粹以词为单位的中文预训练模型效果究竟如何呢？有没有它的存在价值呢？最近，我们

预训练并开源了以词为单位的中文BERT模型，称之为），（Word-based BERT，我的BERT！WoBERT

实验显示基于词的WoBERT在不少任务上有它独特的优势，比如速度明显的提升，同时效果基本不

降甚至也有提升。在此对我们的工作做一个总结。

：开源地址 https://github.com/ZhuiyiTechnology/WoBERT

字还是词？ #

究竟是“字”好还是“词”好？这是中文NLP一个很让人抓狂的问题，也有一些工作去系统地研究

这个问题。比较新的是香侬科技在ACL 2019上发表的《Is Word Segmentation Necessary for

，里边得到了字几乎总是优于词的结论。前面也Deep Learning of Chinese Representations?》

说了，现在中文预训练模型确实也基本上都是以字为单位的。所以，看上去这个问题已经解决

了？就是字更好？

事情远没有这么简单。就拿香侬科技的这篇论文来说，它的实验结果是没有错，但却是没有代表

性的。为什么这样说呢？因为它比较的是大家的Embedding层都是随机初始化的情况下的效果，这

样一来，对于同样的任务，以词为单位的模型Embedding层参数更多，自然就更容易过拟合，效果

容易变差，这不用做实验都能猜个大概。问题是，我们用基于词的模型的时候，通常并不是随机

初始化的，往往都是用预训练好的词向量的（下游任务看情况选择是否微调词向量），这才是分

词的NLP模型的典型场景，但论文里边却没有比较这个场景，所以论文的结果并没有什么说服力。

事实上，“过拟合”现象具有两面性，我们要防止过拟合，但过拟合也正好说明了模型拥有比较

强的拟合能力，而如果我们想办法抑制过拟合，那么就能够在同样复杂度下得到更强的模型，或

者在同样效果下得到更低复杂度的模型。而缓解过拟合问题的一个重要手段就是更充分的预训

练，所以不引入预训练的比较对以词为单位的模型来说是不公平的，而我们的WoBERT正是证实了

以词为单位的预训练模型的可取性。

词的好处 #

一般认为，以字为单位的好处是：

1、参数更少，不容易过拟合；

2、不依赖于分词算法，避免边界切分错误；

3、没那么严重的稀疏性，基本上不会出现未登录词。

至于以词为单位的理由是

1、序列变短，处理速度更快；

2、在文本生成任务上，能缓解Exposure Bias问题；

3、词义的不确定性更低，降低建模复杂度。

下载后可阅读完整内容，剩余3页未读，立即下载

北极象

粉丝: 1w+
资源: 387

WoBERT：以词为单位的中文预训练模型新探索

系统提速精灵破解版 v7.1 绿色版.rar

电信宽带提速软件[Windows]

GETL:基于 Groovy 的 ETL 引擎-开源

OkOne：基于okhttp库的网络性能优化框架

百度地图开发java源码-HuaiRiverRepository:基于WebGIS的淮河水量水质监测系统

1 X证书制度何以创新推进：基于区块链技术的研究.pdf

计算机行业：信创提速的信号：产业核心资产加快上市进程.zip

计算机行业：信创提速的信号：产业核心资产加快上市进程.pdf

北京联通提速降费方案：宽带免费升一倍.docx

计算机行业：信创提速的信号：产业核心资产加快上市进程（2021）（17页）.pdf

最新资源