墨尔本大学NLP课程COMP90042笔记：形式语言理论与应用

需积分: 0 7 浏览量更新于2024-06-18 收藏 4.08MB DOCX 举报

NLP COMP90042 是墨尔本大学的一门自然语言处理课程，课程内容涵盖了形式语言理论、有限状态自动机、上下文自由语法等相关主题。学习笔记强调了该课程的核心概念和实际应用。形式语言理论是课程的基础，它关注的是如何通过符号和规则来抽象地描述计算机科学中的语言，这些语言并不局限于语言学，如隐藏马尔可夫模型、n-gram语言模型和循环神经网络等统计模型也属于这一范畴。形式语言理论关注的主要问题是解决“成员资格问题”，即判断一个字符串是否属于特定语言。在课程中，学生被引导去理解语言在形式语言理论中的定义，即语言被视为由有限字母表元素构成的字符串集合。通过这门课程，学生可以掌握以下几个关键技能和概念： 1. **语言类别与计算性质**：课程区分了正则语言和上下文无关语言，前者如正则表达式和有限状态自动机，处理起来相对直观且计算资源有限；后者，上下文无关文法，虽然处理复杂度更高，但能够描述更为复杂的语法结构。 2. **问题解决方法**：课程的核心任务之一是设计算法来确定一个字符串是否属于某一特定语言，这是形式语言理论中的核心问题。 3. **应用价值**：形式语言理论不仅提供了一种分析语言结构的方法，还涉及到语言的评分（评估字符串的接受程度）和转换（将一个字符串转换为另一个字符串），这些都是实际自然语言处理任务中的重要工具。 4. **工具使用**：学生们被推荐使用CoreNLP工具进行实践，这有助于理解和应用理论知识于实际的自然语言处理任务中。 5. **资源准备**：笔记建议使用PDF格式，并将每个小问题写在一页纸上，如果条件允许，还可以利用多支笔或平板电脑辅助学习。通过NLP COMP90042的学习，学生能够深入理解语言的抽象模型，掌握如何运用形式语言理论解决实际问题，并提升他们在自然语言处理领域的技术实力。这门课程不仅限于理论，而是将理论与实践相结合，为未来从事相关研究或开发工作打下坚实基础。

Chomsky normal form

CYK

和

probabilistic CYK

算法上的区别：

1. 需要注意的相同点：填充对角线时， CYK 和 P-CYK 都要存储所有可能的 non-terminals symbol

2. CYK 中：填充 child chart cells 时查看的是存不存在对应的 production rule； P-CYK 中：validity test now looks to see that the

child chart cells have non-zero probability

3. CYK 中记录所有的 symbols； P-CYK 中记录概率分最高的

Limitations of CFG

 Poor Independence Assumptions

在概率上下文无关文法（PCFGs）中，存在着独立性假设的问题，即重写决策是独立进行的，而实际上需要考虑全局结构的相互

依赖关系。

例如，假设有以下两个规则：

NP → DT NN [0.28]：表示名词短语（NP）可以由限定词（DT）和名词（NN）组成，且出现的概率为 0.28。

NP → PRP [0.25]：表示名词短语（NP）可以由代词（PRP）组成，且出现的概率为 0.25。

在 PCFG 中，规则的概率是独立于解析树的其余部分的。也就是说，这些概率仅仅考虑了规则本身的发生概率，而没有考虑到上下文的

差异。

然而，在语言的分析中，往往需要考虑上下文的影响和全局结构的相互依赖关系。例如，在一个句子中，名词短语的选择可能依

赖于前文中出现的词语或句子的整体语义。这样的依赖关系无法用 PCFG 的概率表示出来。

因此，PCFG 在处理上下文相关性和全局结构时存在一定的局限性。为了更准确地表示语言的上下文差异和全局结构，可能需要

使用更复杂的模型或算法

Solution: Parent Conditioning

为了更明确地表示非终结符，可以通过将父节点符号纳入到每个符号中来进行条件化。举例来说，假设有以下两个非终结符：

NP^S：表示名词短语（NP）位于主语位置（左侧）

NP^VP：表示名词短语（NP）位于宾语位置（右侧）

通过引入父节点符号，我们可以在非终结符中包含更多的信息，以表示它们在树结构中的位置和上下文关系。例如，NP^S 明确

表示名词短语作为主语的位置，而 NP^VP 表示名词短语作为宾语的位置。

这种父节点条件化的方法可以更好地捕捉语言结构中的上下文关系和全局依赖性。通过明确指示每个符号的父节点位置，我们可

以在生成解析树时更准确地表示非终结符之间的依赖关系和结构信息。

 Lack of Lexical Conditioning

CFG 在这种情况下存在局限性，因为它没有对词汇进行条件化，无法捕捉到不同词汇在树中的位置和相关性。由于 CFG 只关注语

法规则，而不考虑具体的词汇信息，因此无法正确处理这种附着歧义。

E.g. if pp attach VP; if pp attach NP

Solution: Head Lexicalisation

头部词汇化方法通过将头词汇整合到产生式（productions）中，来表达短语中头部词汇之间的关系。这样做可以捕捉到短语头部

词汇之间的相关性。通过记录每个父节点符号的主要词汇来增加歧义消解的准确性。通过记录头词汇，头部词汇化方法提供了更丰富

的信息，有助于在语法分析过程中准确解析歧义性。

(通常 S 的 headword is action; NP 的 headword is noun; VP 的 headword is verb)

这种方法存在的问题：

然而，头部词汇化会导致语法符号的库存大幅扩展。由于头部词汇化引入了更多的特定规则，许多产生式变得过于具体，这些规

则可能很少出现在训练数据中，导致模型无法很好地学习到它们的统计信息。这可能导致学习过程更加复杂，需要避免稀疏性问题

（ sparsity problems）。因此，在应用头部词汇化方法时，需要权衡增加模型表达能力和产生式稀疏性的问题。

Dependency Grammar

依存语法（Dependency Grammar）提供了一种更简单的方法来描述句子中单词之间的关系。在依存语法中，重点是描述单词之间的头部

（head）和从属成分（dependent）之间的关系。

E.g. (prefer, dobj, flight) 在这个例子中，单词 "prefer" 是整个关系的头部，而单词 "flight" 是它的从属成分，被标记为直接宾语（dobj）。

 解决了 CFG 的什么背景问题(优点)：

依存语法在处理形态丰富且具有相对自由词序的语言方面表现更好。相比之下，上下文无关语法（CFG）需要为短语可能出现的每个位

置单独编写规则。

在形态丰富的语言中，单词的形态变化和词序可能会导致大量的不同短语结构，这给 CFG 带来了挑战。为了覆盖所有可能的短语位置，

需要编写大量的规则，这会增加语法的复杂性和冗余性。

而依存语法通过关注头部与从属关系，更加直接地描述了单词之间的关系。头部和从属关系类似于单词之间的语义关系，这使得依存

剩余43页未读，继续阅读

AllenHao1

粉丝: 2
资源: 5

墨尔本大学NLP课程COMP90042笔记：形式语言理论与应用

NLP课程的笔记与代码

上课笔记.zip

课堂笔记2

COMP90042-Natural-Languge-Processing

自然语言处理学习笔记nlp-tutorial

nlp-notebooks：来自NLP Town的自然语言处理笔记本集

《统计自然语言处理基础》读书笔记

算法/机器学习(Machine Learning)/深度学习(Deep Learning)/自然语言处理(NLP)面试笔记

斯坦福CS224n_自然语言处理与深度学习 笔记

NLP面试注意事项：本项目是作者们根据个人面试和经验总结出的自然语言处理（NLP）面试准备的学习笔记与资料，该资料目前包含自然语言处理各领域的面试题积累

最新资源

斯坦福CS224n_自然语言处理与深度学习笔记