计算语言学与词典编撰:从理论到实践

需积分: 0 1 下载量 101 浏览量 更新于2024-07-22 收藏 501KB PDF 举报
"这是一份关于计算语言学的讲义,主要探讨了词典在计算语言学中的重要性,包括词典学、计算词典学、词典编撰学以及计算词典编撰学的基本概念。内容还涉及了人读词典与机读词典的区别,以及机读词典的分类,如语法词典、语义词典、双语词典等,并提到了汉语语法信息词典的开发情况。" 计算语言学是一门综合了语言学、计算机科学和信息处理的交叉学科,旨在利用计算机对语言进行形式化建模和分析。在本讲义中,词典作为语言数据的核心载体,被分为两个主要方面:传统词典学,关注词汇信息的理论和描述;计算词典学,则是将这些信息进行形式化建模,适用于计算机处理。 词典编撰学涉及到实际词典的构建,包括手工编纂的词典和利用电子出版技术的计算机词典编撰学。人读词典通常格式自由,数据完整性和一致性较低,且信息非结构化,而机读词典则遵循严格的格式标准,数据质量和一致性更优,信息结构化使得它们更适合计算机处理。 讲义通过金山词霸的例子展示了人读词典的功能,如提供单词的多义项解释、用法示例等。机读词典的分类则根据信息类型和领域,包括语法词典(提供词汇的句法信息)、语义词典(包含词汇的语义关系,如同义词典)、双语词典(用于翻译)以及不同领域的专业词典,如通用词典、术语词典、专名词典等。 此外,北京大学计算语言学研究所开发的汉语语法信息词典,提供了现代汉语的语法特性,为研究和应用提供了宝贵的资源。该词典的详解出版物可供进一步学习和参考,显示出计算语言学在汉语处理领域的实践应用。 这份讲义深入浅出地介绍了计算语言学中词典的相关知识,涵盖了词典的理论、形式化、编撰方法和实际应用,对于理解计算语言学如何利用词典进行自然语言处理具有重要意义。