WordNet的发展与演变：从概念到大规模词库

需积分: 10 43 浏览量更新于2024-07-22 1 收藏 168KB DOC 举报

"本文介绍了WordNet的发展历程，包括其初期的理念、假设以及后续的变化。WordNet是一个重要的知识工程，它的核心思想在于对词汇进行系统性的研究和组织，以便于理解和处理自然语言。" WordNet，一个著名的英语词汇网络，自20世纪80年代初开始萌芽，历经数十年的发展，已经成为自然语言处理领域的重要工具。这个项目最初由George A. Miller等人发起，旨在通过构建一个大规模的词库来捕捉词汇的意义和它们之间的关系。项目初期，WordNet基于三个主要假设：一是“可分离性假设”，认为语言的词汇部分可以独立研究，尽管它与其他语言元素相互作用，但仍可以相对独立地分析。这一观点源于词汇编纂学，指出词汇知识可以通过持续的学习而增长，不同于早期形成的语音和语法知识。二是“模式假设”，即人们不能掌握所有词汇，但可以通过识别词义间的模式和关系来理解和学习新词汇。这一理论在古代哲学和现代语言学中都有体现，尽管实践中将该理论应用于整个词汇库面临挑战。三是“广泛性假设”，认为为了实现类似人类的自然语言处理，计算语言学需要拥有尽可能丰富的词汇知识。这意味着WordNet需要覆盖大量的词汇及其相互关联。在实现方法上，WordNet采用了基于语义成分分析的词汇语义学，将词义分解为更小的概念单元，即义素。然而，确定这些基本概念单元并非易事，直至1985年，尚未能形成完整清晰的义素列表。随着时间的推移，WordNet经历了多次迭代和扩展，不仅增加了更多的词汇条目，还引入了更复杂的语义关系，例如同义词集、反义词、上下位词等。此外，WordNet的影响也超越了英语，启发了其他语言的类似项目，形成了一个多语言的词汇网络体系，进一步推动了全球范围内的自然语言处理研究和应用。 WordNet的发展反映了计算机科学与认知心理学的交叉合作，以及在理解和处理自然语言方面的深入探索。从早期的概念构想到如今广泛应用的工具，WordNet已经成为理解语言结构和意义的关键资源，为人工智能和信息检索等领域提供了强大的支持。

人，圣人）的两个上下位概念之间语义上是非常相似的。这两个上下位概念分别是

{saint，holy man，holy person，angel}，{plaster saint}，而且这两个概念之间的相似性与它

们跟第三个下位概念之间的相似性不同。第三个下位概念是{square shooter，straight arrow}

（正人君子）。

　（十四）知识工程（knowledge engineering）

· WordNet 的诸多应用中，最具雄心壮志的也许是知识工程（见《WordNet》一书第

15，16 章）。

· Harabagiu 和 Moldovan（见《WordNet》一书第 16 章）指出，为常识推理建模需要一

个扩展的知识库，其中包括数量巨大的概念和关系。WordNet 提供了前者，但在关系方面

不足以支持推理。他们的解决方案是对 WordNet 中的注释进行排歧，得到词语之间的更多

关系，从而将 WordNet 中的注释转变为语义网络，其中包含不同词类之间的关系。他们举

了一个例子：在 hungry（饿）和 refrigerator（冰箱）之间存在一个路径，因为这两个标记

词在 food（食物）这个节点上相撞，即通过 food，可以把 hungry 和 refrigerator 联系到一起，

从而用于常识推理。

三 WordNet 中的名词

* 在 WordNet 1.5 版中包含了差不多 80000 名词 -- 60000 词汇化的概念；其中许多都是

collocation（搭配型词）。

* WordNet 跟其他传统词典的差别，主要不是在词义以及覆盖面方面，还是信息的组

织方式的创新方面。

* 传统的词典包括：拼写、发音、屈折变化形式、词源、派生形式、词性、定义以及

不同意义的举例说明、同义词和反义词、特殊用法说明、临时用法等；

* WordNet 不包括发音、派生形态、词源信息、用法说明、图示举例等。WordNet 尽量

使词义之间的关系明晰并易于使用。

* WordNet 中的基础语义关系是 synonymy（同义关系）。同义词集合（synset）构成了

WordNet 的基本建筑单位（building block）。 Ravin（1992）已经开发了一些程序用于从同

义词词林中抽取同义词集合。但 WordNet 的这类工作是手工进行的。

* WordNet 中的同义概念并不是指在任何语境中都具有可替换性。如果以这样的标准

来衡量同义关系，语言中的同义词就少得很了。

* {shot，pellet} 跟 {shot，injection} 之间没有同义关联，尽管两个 synset 中都有 shot。

* 大多数同义词集合（synset）有说明性的注释（explanatory gloss）相伴。这跟传统的

词典情况类似。不过一个 synset 不等于词典中的一个词条。尤其是词典中的一个词条可能

是个多义词（polysemous word），它就会包含多个解释，而一个 synset 只包含一个注释。

1 词汇层级（lexical hierarchy）

{robin ， redbreast} @ -> {animal ， animate_being} @->

{ organism，life_form，living_thing}，

/* @-> 可以读作“is a”或“is a kind of”。 */

剩余35页未读，继续阅读

wwjun10561056

粉丝: 2
资源: 3

WordNet的发展与演变：从概念到大规模词库

WordNet综述

史上最全《知识图谱》2020综述论文（18位作者, 130页pdf，547篇参考文献）.pdf

基于WordNet的多向概念层次结构构建

wordnet构建知识图谱

下载nltk的wordnet模块

Attempted to load corpora/wordnet

wordnet 怎么安装

wordnet.zip

如何下载WordNet

wordnet 中文

最新资源