中文信息处理基础：概念与评测指标解析

需积分: 0 159 浏览量更新于2024-08-05 收藏 1.18MB PDF 举报

"该资源是中文信息处理课程的期末复习资料，主要涵盖了中文信息处理的基本概念、训练集和测试集的划分、评估指标PRF、Topline与Baseline的区别以及封闭测试与开放测试的用途。此外，还提及了汉字处理中的字符编码集，如等长码和变长码的代表GB2312、GBK、UTF-16、UTF-8和GB18030。" 在中文信息处理领域，计算机被用来处理自然语言在多个层次上的信息，包括语素、词、短语、句子、段落和篇章，并涉及图像、声音和文本等多种表现形式。这个过程涵盖了数据的输入、输出、转换、存储、压缩、检索、抽取和提炼。值得注意的是，语言信息处理不仅涉及计算机硬件，更强调使用计算模型来理解和生成自然语言。在实验和模型构建中，训练集、开发集和测试集的划分至关重要。训练集用于训练模型参数，开发集则在实验过程中用于调整和优化模型性能，而测试集则在实验最后用于评价模型的实际效果。例如，如果语料库被分为10份，通常会将1份作为开发集，1份作为测试集，剩下的8份作为训练集。评估模型性能时，通常使用精确率（Precision）、召回率（Recall）和F-measure（调和平均值）这三个关键指标。精确率是正确处理实例数占所有处理实例的比例，召回率则是正确处理实例数占实际应处理实例的比例。F-measure综合考虑了精确率和召回率，一般取b=1，此时F-measure等于精确率和召回率的调和平均值。 Topline是指测试成绩的理想状态，通常用人工处理的结果来衡量，而Baseline则是最低期望值，常由最简单的算法实现。封闭测试用于评估模型对训练数据的拟合程度，可能高估模型性能，因为它容易导致过拟合。相反，开放测试更接近真实情况，因为它使用训练数据去测试未见过的数据，更能反映模型的泛化能力。在汉字处理部分，字符编码集的不同类型对于存储和传输汉字至关重要。等长码如GB2312、GBK和UTF-16，每个字符占用固定数量的字节，而变长码如UTF-8和GB18030根据字符复杂性使用不同长度的字节序列。GB2312编码6763个常用汉字，不包含繁体字；Big5编码则服务于港台地区，支持13053个汉字，主要用于繁体字；GBK编码则是在GB2312基础上扩展，增加了更多汉字和符号。中文信息处理是一门涉及自然语言理解、模型训练和评估、字符编码等多个方面的综合性学科，其理论和实践对于人工智能、机器翻译、信息检索等领域具有深远影响。通过深入学习这些基础知识，可以更好地掌握如何让计算机理解和处理中文信息。

第三章语言的表示形式

1、规则

规则是语言知识的经典表示形式，理性主义的方法通常叫做“基于规则”的方法。一般

形式是 if…，then…，例如：

汉语语音规则：音节 → 声母+韵母+声调

词法规则：noun(复数) → noun(单数)+s

句法规则：S → NP+VP

规则库是用于处理某一类问题的规则的集合，例如词法规则库、句法规则库。

评价指标：

覆盖率：一条规则的条件被满足的次数与全部处理次数之比。

条件被满足，动作就会执行。但动作未必正确。该指标用来表示规则的使用频率，覆盖

率高的规则，表达颗粒度大的知识。

正确率：一条规则获得正确处理结果的次数与该规则的条件被满足的次数之比。

该指标用来表示知识的质量。

好的规则应该是覆盖率和正确率都高

2、知识库

一种是指专家系统设计所应用的规则集合，包含规则所联系的事实及数据，它们的全体

构成知识库。这种知识库是与具体的专家系统有关，不存在知识库的共享问题；另一种是指

具有咨询性质的知识库，这种知识库是共享的，不是一家所独有的。从今后的发展来看，巨

型知识库将会出现，还依赖于硬件及软件条件的发展。下一代计算机所应考虑的重要问题之

一是知识库的设计，以知识库为背景的知识库公共管理系统机构设计。

3、电子词典

电子词典是语言知识的常见表现形式，通常存储于数据库，便于计算机存取。

狭义的“电子词典”专指词语知识库，每条记录是一个词或固定短语，有词性、词类、词

义、读音、词频等字段。

广义的“电子词典”泛指语言知识库，其条目不限于词。包括计算机可读的字典、短语数

据库、语素数据库、语音数据库、地名库、人名库、译名库等等

列举你所知道的几种电子词典：

⚫ 北大：现代汉语语法信息词典：GBK

一部面向语言信息处理的大型电子词典，词典采用数据库文件格式，有总库和各词类分库，

其中动词分库尤为详细，对于现代汉语的自动句法分析有重要价值。

⚫ 梅家驹：同义词词林【中英文双语知识网络。】

⚫ 董振东：知网（Hownet）【突出优点是词义代码，可据此计算词义之间的距离或

相似度。】

知网中的“概念”相当于一个词义，概念是用一种知识描述语言来组织的一组“义原”，

分为事件、实体、属性、属性值、动态角色等类别。

区别：规则库通常存储那些颗粒度较大的语言知识，电子词典通常存储那些颗粒度较小

的语言知识。

ＣＳＤＮ：南浔Ｐｙｅｒ

󰙰󰷅󰷅

󰷅

剩余12页未读，继续阅读

色空空色

粉丝: 217
资源: 330

中文信息处理基础：概念与评测指标解析

Monash FIT5217 自然语言处理 期末复习整理详解（中文版）

大学计算机基础期末知识点整理(1).doc

中文信息处理期末大作业

intitle:数字图像处理期末考试试题

linux期末知识点整理

数字图像处理期末大作业暨课程.rar

软件测试期末重点整理

gzu+数字图像处理期末大作业

山东大学数字图像处理期末考试csdn

java web期末复习_javaweb期末复习知识点整理

最新资源

Monash FIT5217 自然语言处理期末复习整理详解（中文版）