子词模型深入解析：从BPE到FastText

174 浏览量更新于2024-08-29 收藏 606KB PDF 举报

"本次课程主要探讨了语言学中的基本概念，包括音素、词态以及单词的书写方式，并深入介绍了模型在处理语言数据时的角色，特别是子词模型的应用，如Byte Pair Encoding（BPE）和混合字符-词级模型。此外，还提及了FastText作为另一种有效的模型。\n\n音素在音系学中是构成语音的基本单位，如'p'是一种爆破音。词态，即形态学，关注的是单词如何通过词素组合来表达意义，例如'unfortunately'可以分解为否定前缀'un', 词根'fortun(e)', 形容词后缀'ate'和词性后缀'ly'。\n\n在深度学习中，尽管词素级模型并不常见，但字符级别的n-gram模型被广泛使用，甚至可以通过卷积层提取特征。对于不同的书写系统，如英语和中文，其分词方式存在显著差异。英语有明显的空格分隔，而中文则依赖标点符号或上下文进行分词。德语等语言则具有复杂的词汇构造特性。\n\n子词模型，如BPE，是解决词汇多样性问题的一种策略，它通过合并频繁出现的字符对来创建新的子词，降低词汇表大小。而混合字符和词级模型尝试结合字符级的灵活性和单词级的效率，FastText则通过学习词的内部结构来提高模型性能。这些技术对于自然语言处理中的建模和理解至关重要。" 在这次讲座中，讲师首先引入了语言学的基础概念，如音素，它是语言中最小的声音单位，对于理解语音学至关重要。接着，词态（morphology）的概念被讲解，它是研究单词如何由词素组合成的领域。词素是语言中携带意义的最小单位，如在“unfortunately”这个单词中，可以分析出否定前缀、词根、形容词后缀和词性后缀。在深度学习的背景下，模型设计通常需要考虑语言的书写方式和分词问题。对于像英语这样的语言，单词由空格分隔，分词相对简单；而对于中文，由于没有明确的分隔符，分词是一项挑战。德语等其他语言也有其独特性，如强大的构词能力。课程重点介绍了子词模型，这是一种有效应对词汇多样性的方法。Byte Pair Encoding (BPE) 是一种常用的子词模型，通过合并频繁出现的字符对生成新的子词，从而减少词汇表的大小，提高模型训练效率。同时，字符级/词级混合模型结合了字符级模型的灵活性和单词级模型的效率，能够在处理未见过的单词时提供更好的表现。FastText模型则是另一种方法，它不仅考虑整个单词，还考虑单词内的字符组合，增加了模型的泛化能力。这次课程深入浅出地讲解了语言学基础和模型在处理语言数据中的应用，特别关注了如何利用子词模型和混合模型来优化自然语言处理任务的性能。这对于理解和改进自然语言处理系统的建模策略具有重要价值。

lecture12 – Subword model

主要内容主要内容课程内容一些关于语言学的内容(a tiny bit about linguistics)音素(phoneme)词态(morphology)单词的书写(words in

writing system)模型(model)单词级模型(woed-level model)纯字符级模型(pure character level model)子词模型(subword

model)BPE(Byte Pair Encoding)字符级/词级混合模型(hybrid character and word level model)FastText

课程内容课程内容

一些关于语言学的内容一些关于语言学的内容(a tiny bit about linguistics)

音素音素(phoneme)

音系学中假定了声音的组成单元:音素，如下图，列出了几种不同的音素发音，例如第一行的p就是一种爆破音(plosive)。

词态词态(morphology)

一般来说，构成一个单词的词素(morpheme)可以视作一个单词中包含语义的最小单元。

举个例子，单词unfortunatelyunfortunatelyunfortunately，将其拆分为不同词素则有[[un[fortun(e)]ate]]ly][[un[fortun(e)]ate]]ly]

[[un[fortun(e)]ate]]ly]，这样拆分后，可以看到一个完整单词被拆成了有意义的几部分，ununun代表一个否定的前

缀，fortunefortunefortune是单词的词根，ateateate是一个后缀，作形容词时有“具备。。。的”含义，至于lylyly则是一个词性

后缀。

但是，在深度学习领域，很少有词素级的模型，Manning只列出了他本人在13年的一篇文章。

从量级上看，训练模型时，对于词素有另外一种替代方式——就是字符级别的n-gram模型。

对于这样的模型，还可以考虑使用卷积层来提取特征。

单词的书写单词的书写(words in writing system)

单词的书写可以明显体现出不同语言之间的差异，这也给诸如分词之类的任务带来了麻烦。

比如中文与英文，英文天然就带有空格这一分隔符，而中文在书写时只有标点符号会将句子分开，而一个完整句子中，词与词

之间是连在一起书写的。这就需要另想办法进行分词。

此外，还有一些语言也颇有特点，比方说德语，德语的造词能力相当了得。

课件中这个例子就很好:

英文中是一个由四个单词构成的名词短语，而德语中就是一个单词而已。

模型模型(model)

单词级模型单词级模型(woed-level model)

单词级模型算是使用最多的模型了，但是其在应用中，由于人类语言的神奇，还是会存在这样那样的问题。课堂上也列举了一

些常见的问题:

1、词态上的变化、词态上的变化

在不同语言之间，同样的词语可能会有完全不同的形式

2、非常规的形式、非常规的形式

在单词的书写中，会有各种各样的缩写，改写。尤其在社交媒体上，单词的各式变化能反应作者的情绪，但对于计算机而言，

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38706782

粉丝: 2
资源: 929

子词模型深入解析：从BPE到FastText

PyTorch Lecture 02_ Linear Model.mp4

Lecture 8 - Ulrichs model for HR (1).pptx

DSME4070 Lecture 2 Data Model

博弈 课件 lecture 12

Lecture 12.pdf

Optical Fiber Communication Lecture 12

lecture12-140610.pdf

lecture12课件-New1

taiwan财务管理_lecture12(ch12).pptx

winter1516_lecture12.pdf

最新资源

博弈课件 lecture 12