《哈工大信息检索研究室同义词词林扩展版》说明
一、 英文名称
HIT IR-Lab Tongyici Cilin (Extended)
二、 词表建设
《同义词词林》的第一版和第二版的词表完全一样,收词 53,859 条。其中有
很多的词已经很不常用,成为所谓的罕用词。
参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留
频度不低于 3(小规模语料的统计结果)部分词语,可剔除 14,706 个罕用词和非
常用词。经过这样的处理,《同义词词林》还剩下 39,099 个词条。为了满足自然
语言处理的需要,这样规模的词典显然是少了一些,可以说远远不够。
为了扩充《同义词词林》, 本实验室利用很多词语相关资源,并投入了大量
的人力和物力,完成了一部具有汉语大词表的《 哈工大信息检索研究室同义词词
林扩展版》。 最终的词表包含 77,343 条词语。
二、词分类
《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,, 把 词
汇 分成大、中、小三类,大类有 12 个,中类有 97 个,小类有 1,400 个。每个小
类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段
落)。 每 个 段落中的词语有进一步分成了若干个行,同一行的词语要么词义相同
(有的词义十分接近),要 么 词义有很强的相关性。例如,“大豆”、“ 毛豆”和 “黄
豆”在同一行;“ 西红柿”和“番茄”在 同一行;“ 大家”、“ 大伙儿”、“ 大家伙儿”
在同一行。另外,“将官”、“ 校官”、“ 尉官”在同一行,“雇农”、“ 贫农”、“ 下中
农”、“ 中 农 ”、“ 上 中 农 ”、“ 富农”在同一行, “外商”、“ 官商”、“ 坐 商 ”、“ 私
商 ” 也 在 同一行,这些词不同义,但很相关。为了将词义相关的行和同义的行区
分开,词典《同义词词林》在行的左端加上“* *”作为标记。
小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。
这样,词典《同义词词林》就具备了 5 层结构,见图 1。随着级别的递增,词义
刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,
已经不可再分,可以称为原子词群、原子类或原子节点。不同级别的分类结果可