通过引入父节点符号,我们可以在非终结符中包含更多的信息,以表示它们在树结构中的位置和上下文关系。例如,NP^S 明确
表示名词短语作为主语的位置,而 NP^VP 表示名词短语作为宾语的位置。
这种父节点条件化的方法可以更好地捕捉语言结构中的上下文关系和全局依赖性。通过明确指示每个符号的父节点位置,我们可
以在生成解析树时更准确地表示非终结符之间的依赖关系和结构信息。
Lack of Lexical Conditioning
CFG 在这种情况下存在局限性,因为它没有对词汇进行条件化,无法捕捉到不同词汇在树中的位置和相关性。由于 CFG 只关注语
法规则,而不考虑具体的词汇信息,因此无法正确处理这种附着歧义。
E.g. if pp attach VP; if pp attach NP
Solution: Head Lexicalisation
头部词汇化方法通过将头词汇整合到产生式(productions)中,来表达短语中头部词汇之间的关系。这样做可以捕捉到短语头部
词汇之间的相关性。通过记录每个父节点符号的主要词汇来增加歧义消解的准确性。通过记录头词汇,头部词汇化方法提供了更丰富
的信息,有助于在语法分析过程中准确解析歧义性。
(通常 S 的 headword is action; NP 的 headword is noun; VP 的 headword is verb)
这种方法存在的问题:
然而,头部词汇化会导致语法符号的库存大幅扩展。由于头部词汇化引入了更多的特定规则,许多产生式变得过于具体,这些规
则可能很少出现在训练数据中,导致模型无法很好地学习到它们的统计信息。这可能导致学习过程更加复杂,需要避免稀疏性问题
( sparsity problems)。因此,在应用头部词汇化方法时,需要权衡增加模型表达能力和产生式稀疏性的问题。
Dependency Grammar
依存语法(Dependency Grammar)提供了一种更简单的方法来描述句子中单词之间的关系。在依存语法中,重点是描述单词之间的头部
(head)和从属成分(dependent)之间的关系。
E.g. (prefer, dobj, flight) 在这个例子中,单词 "prefer" 是整个关系的头部,而单词 "flight" 是它的从属成分,被标记为直接宾语(dobj)。
解决了 CFG 的什么背景问题(优点):
依存语法在处理形态丰富且具有相对自由词序的语言方面表现更好。相比之下,上下文无关语法(CFG)需要为短语可能出现的每个位
置单独编写规则。
在形态丰富的语言中,单词的形态变化和词序可能会导致大量的不同短语结构,这给 CFG 带来了挑战。为了覆盖所有可能的短语位置,
需要编写大量的规则,这会增加语法的复杂性和冗余性。
而依存语法通过关注头部与从属关系,更加直接地描述了单词之间的关系。头部和从属关系类似于单词之间的语义关系,这使得依存