NLP Subword算法详解：BPE、WordPiece与ULM比较

版权申诉

89 浏览量更新于2024-08-04 收藏 280KB PDF 举报

NLP领域中的Subword算法是近年来提高模型性能的关键技术之一，特别是自BERT在2018年的崛起后，它已成为预训练语言模型的常见组成部分。传统的词分割方法存在处理未知或罕见词汇（OOV）和词缀关系学习的问题。Character embeddings虽然能应对OOV，但粒度过细。Subword算法，如BytePair Encoding (BPE)、WordPiece和ULM，通过更精细的粒度，如字节对或词内切分，解决了这些问题。 BPE是一种数据压缩技术，通过频繁的字节对替换为新字节来减少词汇表大小，如OpenAI GPT-2和Facebook RoBERTa采用此方法。它的优点是可以灵活控制词汇表大小和句子所需token的数量，从而优化模型性能。然而，BPE是基于贪心和确定性的符号替换，无法提供概率性的多片段结果，这是其主要局限性。算法流程包括以下步骤： 1. 准备大量训练数据。 2. 设定期望的子词表大小。 3. 将单词拆分为字符序列，并添加特殊的后缀 "</w>" 表示子词结束。 4. 统计字符对的频率，优先合并高频率的组合，形成新的子词。 5. 重复步骤4，直至达到预设的子词表大小或下一个最高频率的字节对出现频率低于1为止。 WordPiece算法是另一种流行的子词算法，它在BPE的基础上，允许概率性地分割，使得模型可以根据上下文动态决定是否分解一个词。这种方法增加了模型对未知词汇的适应能力。最后，Universal Language Model Fine-tuning (ULMFiT)中的子词方法也值得一提。ULMFiT通过预训练阶段学习广泛的文本表示，然后在下游任务中微调，利用了语言模型的上下文理解能力，为子词分割提供了更丰富的上下文信息。总结来说，BPE、WordPiece和ULM等Subword算法通过改进词汇表处理和上下文感知，有效解决了OOV问题，提升了NLP模型在实际应用中的表现。这些算法的选择取决于具体任务的需求和模型架构，它们都为现代NLP研究和实践带来了显著的进步。

NLP Subword三⼤算法原理：BPE、WordPiece、ULM

2⽉16⽇⼣⼩瑶的卖萌屋

⼀只⼩狐狸带你解锁NLP/ML/DL秘籍

正⽂作者：Luke

正⽂来源：https://zhuanlan.zhihu.com/p/86965595

前⾔

Subword算法如今已经成为了⼀个重要的NLP模型性能提升⽅法。⾃从2018年BERT横空出世横扫NLP界各⼤排⾏榜之后，各

路预训练语⾔模型如同⾬后春笋般涌现，其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对⽐

有很⼤的优势~~

传统词表⽰⽅法⽆法很好的处理未知或罕⻅的词汇（OOV问题）

传统词tokenization⽅法不利于模型学习词缀之前的关系

E.g. 模型学到的“old”, “older”, and “oldest”之间的关系⽆法泛化到“smart”, “smarter”, and “smartest”。

Character embedding作为OOV的解决⽅法粒度太细

Subword粒度在词与字符之间，能够较好的平衡OOV问题

话不多说，和⼩⼣⼀起来看⼀下当下最热最⽕三个subword算法叭o(*￣▽￣*)ブ

Byte Pair Encoding

BPE(字节对)编码或⼆元编码是⼀种简单的数据压缩形式，其中最常⻅的⼀对连续字节数据被替换为该数据中不存在的字节。

后期使⽤时需要⼀个替换表来重建原始数据。OpenAI GPT-2 与Facebook RoBERTa均采⽤此⽅法构建subword vector.

优点

可以有效地平衡词汇表⼤⼩和步数(编码句⼦所需的token数量)。

缺点

基于贪婪和确定的符号替换，不能提供带概率的多个分⽚结果。

算法

1. 准备⾜够⼤的训练语料

2. 确定期望的subword词表⼤⼩

3. 将单词拆分为字符序列并在末尾添加后缀“ </ w>”，统计单词频率。本阶段的subword的粒度是字符。例如，“ low”的频率

为5，那么我们将其改写为“ l o w </ w>”：5

4. 统计每⼀个连续字节对的出现频率，选择最⾼频者合并成新的subword

5. 重复第4步直到达到第2步设定的subword词表⼤⼩或下⼀个最⾼频的字节对出现频率为1

下载后可阅读完整内容，剩余4页未读，立即下载

普通网友

粉丝: 1263
资源:
5619

NLP Subword算法详解：BPE、WordPiece与ULM比较

NLP-Subword三大算法原理：BPE、WordPiece、ULM.rar

构建心灵宽带网：NLP超级沟通模式.pdf

NLP：Deep contextualized word representations.pdf

bilstm算法的路径规划的教学网址

awk命令求2023-05-29 15:22:10.845 2023-05-30 15:12:11.747时间差值

推荐30个以上比较好的中文nlp意图识别模型源码？

推荐30个以上比较好的中文bert系列的模型github源码

推荐30个以上比较好的nlp意图识别模型源码地址？

推荐30个以上比较好的命名实体识别github源码？

给我推荐20个比较流行的nlp预训练模型源码

最新资源