北大计算语言学：汉语分词技术解析

版权申诉

5星 · 超过95%的资源 85 浏览量更新于2024-07-04 2 收藏 130KB PPTX 举报

"北大语言学自然语言处理课程 NLP系列课程 5_汉语分词共34页.pptx" 这篇摘要介绍的是北京大学计算语言学研究所关于自然语言处理（NLP）的一门课程，重点讲解汉语分词这一主题。课程面向所有对NLP感兴趣的学习者，内容深入浅出，适合作为初学者的入门资料或复习材料。课程涵盖了从基础理论到具体技术的多个方面，包括但不限于自然语言处理概论、机器学习与NLP、n元模型、数据平滑技术等，直到汉语分词和后续的模型与分析方法。在汉语分词部分，首先解释了汉语自动切分的概念，即由于汉字书写时词与词之间无明显间隔，因此需要通过计算机程序来识别和分离出词语。以"I’m going to show up at the Conference."为例，对比了英文中的分词问题，指出英文虽然可以通过空格和标点进行分词，但也有特殊情况下需要特殊处理，比如缩写词、连写形式、所有格词尾等。在汉语中，由于缺乏这样的区分标志，分词显得更为复杂。课程提到了汉语分词的重要性，例如在语音合成中，正确的切词有助于确定字的发音；在信息检索中，切词可以提高搜索准确性；在词语计量分析中，如词频统计，有助于理解语言使用习惯。此外，切词是进行句法分析和语义分析的基础，因为词是汉语信息处理的基本单位。课程还介绍了几种常见的汉语分词方法，如基于词表的方法，通过匹配预先建立的词典来确定字串是否成词；以及规则驱动和数据驱动的方法，如字序列标记法，包括最大匹配法（正向和逆向）。最大匹配法在处理输入字符串时，可能会遇到长词优先的问题，可能导致切分歧义。例如，“中游”这个词在不同的上下文中可能有不同的切分结果。切分歧义是汉语分词中的关键挑战，一个字串可能有多种合理的切分方式，如何消除歧义以获得最佳的分词结果是研究的重点。解决这个问题通常需要结合上下文信息和更复杂的模型。这门课程深入探讨了汉语分词的原理、方法及其在NLP中的应用，对于理解和掌握自然语言处理技术，特别是中文处理，有着重要的指导价值。

最大匹配法

•

正向最大匹配法 (MM) 从左向右匹配词

表

•

逆向最大匹配法 (RMM) 从右向左匹配词

表

•

例子

–

输入 : 企业要真正具有用工的自主权

–

MM:企业 / 要 / 真正 / 具有 / 用工 / 的 / 自

主 / 权

–

RMM:

企业 / 要 / 真正 / 具有 / 用工 / 的 / 自 / 主权

剩余33页未读，继续阅读

passionSnail

粉丝: 456
资源: 7220

北大计算语言学：汉语分词技术解析

北大语言学 自然语言处理课程 NLP系列课程 2_机器学习与自然语言处理 共33页.pptx

北大语言学 自然语言处理课程 NLP系列课程 1_自然语言处理概论 共48页.pptx

北大语言学 自然语言处理课程 NLP系列课程 8-最大熵和条件随机场模型 ME&CRF 共48页.pptx

"北大语言学自然语言处理课程NLP系列详解

北大计算语言学：自然语言处理基础课程

"北大语言学 NLP系列课程：PCFG和统计句法分析

优质课件 北京大学研究生课程文本挖掘 文本数据挖掘全套PPT教程（共18页） TextMining01-引言.pptx

优质课件 北京大学研究生课程文本挖掘 文本数据挖掘全套PPT教程（共95页） TextMining02-特征提取.pptx

优质课件 北京大学研究生课程文本挖掘 文本数据挖掘全套PPT教程（共94页） TextMining04-分类.rar

北大语言学 自然语言处理课程 NLP系列课程 9_常见深度学习模型 共49页.pptx

最新资源

北大语言学自然语言处理课程 NLP系列课程 2_机器学习与自然语言处理共33页.pptx

北大语言学自然语言处理课程 NLP系列课程 1_自然语言处理概论共48页.pptx

北大语言学自然语言处理课程 NLP系列课程 8-最大熵和条件随机场模型 ME&CRF 共48页.pptx

优质课件北京大学研究生课程文本挖掘文本数据挖掘全套PPT教程（共18页） TextMining01-引言.pptx

优质课件北京大学研究生课程文本挖掘文本数据挖掘全套PPT教程（共95页） TextMining02-特征提取.pptx

优质课件北京大学研究生课程文本挖掘文本数据挖掘全套PPT教程（共94页） TextMining04-分类.rar

北大语言学自然语言处理课程 NLP系列课程 9_常见深度学习模型共49页.pptx