中文NLP处理全流程：从语料获取到词性标注

需积分: 17 7 浏览量更新于2024-09-08 收藏 79KB DOCX 举报

中文自然语言处理（NLP）的完整流程是一项复杂的任务，主要包括五个步骤：获取语料、预处理、特征工程、特征选择和模型训练。让我们深入探讨每个阶段的关键内容。首先，【获取语料】是基础，它是NLP过程中的基石。语料可以来自各种渠道，包括企业内部积累的纸质或电子文本资料，这些经过整理后可以转化为语料库。另一种获取方式是利用国内外的标准开放数据集，例如搜狗语料和人民日报语料，对于个人而言，也可以通过网络爬虫抓取相关数据，尽管抓取过程中需注意版权和隐私问题。【语料预处理】占据了整个流程的大部分工作量，约50%至70%。预处理主要包括数据清洗、分词、词性标注和去停用词四部分。数据清洗是为了剔除噪声，例如去除重复内容、无关标签、HTML代码等，可能需要人工参与或自动化工具辅助。分词是将文本分解为有意义的词语单位，常用的算法有基于字符串匹配、理解、统计和规则的方法，其中歧义识别和新词识别是难点。词性标注则是为每个词语赋予相应的语法类别，如形容词、动词、名词等，有助于后续处理时更好地理解文本的结构和意义。这一步骤对于后续的句法分析、情感分析等NLP任务至关重要。特征工程是指将原始文本转换成机器学习模型能够处理的数值特征，这通常涉及词汇表构建、向量化、以及可能的特征选择，以减少冗余信息，提高模型效率。【特征选择】是精简特征的过程，通过评估特征与目标变量的相关性，保留那些最有影响力的特征，减少计算复杂性和过拟合风险。常见的特征选择方法有过滤法、包裹法和嵌入法。最后，【模型训练】是将处理后的特征输入到机器学习模型中，如传统的统计模型（如朴素贝叶斯、最大熵模型）、深度学习模型（如循环神经网络、Transformer）等，以实现诸如文本分类、情感分析、命名实体识别等NLP任务的预测或分析。中文自言语言处理流程涉及多个细致且相互关联的步骤，每个环节都对最终结果的质量有着重大影响。熟练掌握这一流程不仅需要扎实的技术背景，还需要不断适应新的技术和挑战，尤其是在处理复杂中文文本时，歧义和新词处理是需要特别关注的重点。

中文自然语言处理完整流程

转自：https://blog.csdn.net/dongdouzin/article/details/80814037

1.第一步：获取语料

语料，即语言材料。语料是构成语料库的基本单元。所以简单地使用文本作为替

代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。一个文本

集合成为语料库（Corpus），当有几个这样的文本集合的时候，我们称之为语料库集

合（Corpora）

a) 已有语料：

很多业务部门、公司等组织随着业务发展都会积累有大量的纸质或者电子文本资

料。那么，对于这些资料，在允许的条件下我们稍加整合，把纸质的文本全部电子化

就可以作为我们的语料库。

b) 网上下载、抓取语料：

如果现在个人手里没有数据怎么办呢？这个时候，我们可以选择获取国内外标准

开放数据集，比如国内的中文汉语有搜狗语料、人民日报语料。国外的因为大都是英

文或者外文，这里暂时用不到。也可以选择通过爬虫自己去抓取一些数据，然后来进

行后续内容。

2. 第二步：语料预处理

完整的中文自然语言处理工程应用中，语料预处理大概占到整个 50%~70%工作量。

下面通过数据洗清、分词、词性标注、去停用词四大方面来完成语料的预处理工作。

1) 数据清洗

数据清洗，顾名思义就是在语料中找到我们感兴趣的东西，把不感兴趣的、视为

噪音的内容清洗删除，包括对于原始文本提取标题、摘要、正文等信息，对于爬取的

网页内容，去除广告、标签、HTML、JS 等代码和注释等。

常见的数据清洗方式有：人工去重、对齐、删除和标注等，或者规则提取内容、

正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

2) 分词

中文语料数据为一批短文本或者长文本，比如：句子，文章摘要，段落或者整篇

文章组成的一个集合。一般句子、段落之间的字、词语是连续的，有一定含义。而进

行文本挖掘分析时，希望文本处理的最小单位粒度是词或者词语，所以就需要分词来

将文本全部进行分词。

常见的分词算法有：基于

字符串匹配

、

基于理解

、

基于统计

和

基于规则

的分词方

法。

当前中文分词算法的主要难点有歧义识别和新词识别，比如：“羽毛球拍卖完了”，

可切分为“羽毛球拍卖完了” “羽毛球拍卖完了”，如果不依赖上下文其他的句子，很

难知道如何去理解

3) 词性标注

给每个词或者词语打此类标签，如形容词、动词、名词等。这样做可以让文

本在后面的处理中融入更多有用的语言信息。词性标注是一个经典的序列标注问

题，常见的文本分类就不用关心词性问题，但是类似情感分析、知识推理却是需

要的。

下图是常见的中文词性整理。

下载后可阅读完整内容，剩余3页未读，立即下载

tiki_taka_

粉丝: 27

中文NLP处理全流程：从语料获取到词性标注

做读书笔记的一款好软件

《哈佛家训》读后感

【读书笔记】【图解JVM】

读书笔记2之中文分词流程HanLP

java读书笔记笔记笔记笔记笔记笔记

统计学与R语言实战：读书笔记第六版

java读书笔记

Loadrunner读书笔记

MATLAB读书笔记

hibernate 读书笔记

最新资源