WoBERT:以词为单位的中文预训练模型新探索
需积分: 10 30 浏览量
更新于2024-08-04
收藏 103KB PDF 举报
"本文主要探讨了基于词颗粒度的中文预训练模型——WoBERT,它与以字为基本单位的模型相比,具有速度提升和效果稳定的特点。文章中提到,虽然大多数现有中文模型以字为基础,如ZEN和AMBERT,但词级别的模型如腾讯的UER在实际应用中效果并不理想。作者团队开发并开源了WoBERT,一个完全基于词的BERT模型,其在多项任务中展现出了优势。文章还质疑了字优于词的普遍观点,指出以词为单位的模型在使用预训练词向量时可能具有更强的拟合能力,并讨论了过拟合的双面性,提出通过抑制过拟合可以优化模型性能。"
在中文自然语言处理(NLP)领域,预训练模型是关键的组成部分,它们在各种任务中提供基础表示。早期的模型大多以字为基本单位,例如BERT、RoBERTa等,这些模型将中文句子拆分成单个字符进行处理。然而,中文语言的特性决定了词语是基本的意义单元,以词为单位的模型理论上能更好地捕捉语义。ZEN和AMBERT等模型尝试在字级别上融合词的信息,但它们的基础仍然是字。
文章指出,以词为单位的预训练模型在实际应用中并不常见,一个例子是腾讯发布的UER,其表现并不尽如人意。相比之下,作者团队开发的WoBERT以词作为基本单位,不仅提高了处理速度,而且在保持甚至提高任务效果方面表现良好。这一成果挑战了字优于词的传统认知,并提出了词级模型的潜在价值。
关于“字”与“词”的争论,文章引用了香侬科技在ACL2019上的研究,该研究认为字模型在深度学习中文表示时通常优于词模型。然而,作者认为这个结论可能不全面,因为实验中词模型的Embedding层是随机初始化的,而在实际应用中,词模型通常会利用预训练的词向量,这改变了过拟合的性质。作者强调,过拟合虽然有负面效应,但适度的过拟合可能表明模型具有更好的拟合能力,通过控制过拟合,可以构建更强大或更简洁的模型。
WoBERT的开源发布,为研究者和开发者提供了一个新的工具,以探索词级别的预训练模型在中文NLP中的潜力。通过比较和优化,可以进一步理解不同粒度模型的优劣,推动中文NLP技术的发展。
2019-07-09 上传
2019-04-03 上传
2021-06-23 上传
2021-02-04 上传
2021-06-06 上传
2021-08-15 上传
2021-10-16 上传
2021-07-02 上传
北极象
- 粉丝: 1w+
- 资源: 387
最新资源
- 单片机串口通信仿真与代码实现详解
- LVGL GUI-Guider工具:设计并仿真LVGL界面
- Unity3D魔幻风格游戏UI界面与按钮图标素材详解
- MFC VC++实现串口温度数据显示源代码分析
- JEE培训项目:jee-todolist深度解析
- 74LS138译码器在单片机应用中的实现方法
- Android平台的动物象棋游戏应用开发
- C++系统测试项目:毕业设计与课程实践指南
- WZYAVPlayer:一个适用于iOS的视频播放控件
- ASP实现校园学生信息在线管理系统设计与实践
- 使用node-webkit和AngularJS打造跨平台桌面应用
- C#实现递归绘制圆形的探索
- C++语言项目开发:烟花效果动画实现
- 高效子网掩码计算器:网络工具中的必备应用
- 用Django构建个人博客网站的学习之旅
- SpringBoot微服务搭建与Spring Cloud实践