中文信息抽取关键技术：机器学习与应用探索

5星 · 超过95%的资源需积分: 9 197 浏览量更新于2024-07-31 1 收藏 6.99MB PDF 举报

本篇硕士学位论文《中文信息抽取关键技术研究与实现》由北京邮电大学的杨永贵同学撰写，专注于信号与信息处理专业，其研究背景源自互联网时代海量信息的需求。论文主要探讨了中文信息抽取的关键技术，这是一个重要的自然语言处理领域，旨在从大量非结构化文本中自动化地抽取有用的信息。首先，作者设计并实现了一种自底向上的有监督机器学习算法，这是一种既能够自动提取规则又能适应跨领域应用的方法。这个算法被应用于财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统，结果显示规则提取算法在这些场景中表现出良好效果，证明了信息抽取与移动终端技术的融合潜力，即“信息抽取+短信息”的智能信息服务模式是可行的。其次，论文介绍了隐马尔可夫模型在体育赛事新闻文本抽取中的应用。作者将统计方法与规则相结合，设计实验系统，这显著提高了中文信息抽取的性能。对于体育赛事新闻中的命名实体识别，如赛事名称和比赛结果，作者着重研究并通过基于规则的方法实现了高效识别。此外，论文还探讨了信息抽取在信息内容安全领域的实际应用。针对中文手机垃圾短信过滤问题，作者提出了一种规则和统计相结合的倾向性判断模型。这不仅提升了垃圾短信的过滤效率，还支持了中文短信内容监控实验系统的构建，实验结果显示出该模型的有效性。论文总结部分，作者对所研究的关键技术进行了全面回顾，包括机器学习、命名实体识别和隐马尔可夫模型等，并对未来的研究方向提出了新的思考，可能涉及更深层次的深度学习模型、跨模态信息抽取以及适应不断变化的网络环境下的实时信息抽取等挑战。《中文信息抽取关键技术研究与实现》是一篇实用性和理论性兼具的论文，它不仅深入剖析了中文信息抽取的核心技术，也为相关领域的实际应用提供了有价值的解决方案和新的研究视角。

北京邮电大学硕士研究生学位论文

第一章概述

在最初的信息抽取中，规则语法、上下文无关和自动机技术等应用得较为广

泛。随着语料库的成功构建，特别是Ｗｅｂ页面的迅猛增长，基于统计的技术

和机器学习方法在信息抽取中发挥着越来越重要的作用。可以说，信息抽取

技术已摆脱了狭义的自然语言理解技术的束缚，向着多样化的方向发展。

◆知识获取的进一步自动化。信息抽取面临的主要挑战是系统在领域间的可移

植性问题，这一问题关系着信息抽取技术适用范围的大小。知识的自动获取

就是针对这个问题而提出的，并经历了手工编码、半自动获取和自动获取三

个发展阶段，其中，知识的自动获取己成为信息抽取技术的核心。目前，知

识的获取主要面临三个方面的问题。一是没有提出标准的知识框架。领域之

间所需知识差别很大，通用的知识框架能帮助快速获取这些知识。二是知识

的自动获取范围较窄。目前仅限于规则模式的自动获取，而对于概念层次等

至关重要的内容仍由手工编码完成。三是自动化的程度仍偏低，要求一定的

手工参与。因此，知识获取自动化仍是研究的重点。

１．６本文的基本思路和主要工作

１．６．１

中文信息抽取相比英文信息抽取的难点

中文信息抽取的研究相比英文信息抽取的研究起步较晚，而中文自身的特点也使

中文信息抽取相比英文信息抽取存在特有的难点：

（１）命名实体识别。这是中文相比英文最大的难点所在。命名实体识别在英语

中已经取得了很好的研究成果，然而中文的命名实体识别研究还处在不成熟的阶段。

中文命名实体识别的难点主要表现在Ⅱ１：

①词在汉语中是个模糊的概念，没有明确的定义。即使人理解汉语也会出现边界

歧义的情况，机器处理更加不可避免。分词仍然是中文信息处理的一个难题。边界模

糊不仅存在于非实体词之间，也出现于实体词和非实体词之间。因此对于分词中的错

误，相应地也会造成命名实体识别中的错误。另外在命名实体识别时也会对分词结果

作一些调整，这样命名实体识别和分词相互交叉，使得汉语命名实体识别面临更多的

问题。

②汉语命名实体的生成规律以及结构更加复杂，尤其是缩略语的表示形式具有多

样性，很难提取构成规则，因此不可能将一种识别模型应用于所有的命名实体。

③汉语缺少在命名实体识别中起重要作用的词形变换特征。英语中的这类信息能

９

北京邮电大学硕士研究生学位论文

第一章概述

很好地指出实体的位置和边界，比如英语中的命名实体大都是以大写字母开头，而汉

语并不具备这类显式的特征。

④汉语命名实体也可以包含普通字词。事实上，汉语中除了一些比较特殊的字词

外，几乎所有的中文字本身都可以作为一个词来使用，包括那些常用的人名用字和地

名用字，这给命名实体识别带来了很大的困难。

⑤到目前为止，能用于汉语命名实体识别的开放型语料还很少，因此一方面需要

开发大型命名实体标注语料库，另一方面研究不依赖大型命名实体标注文本库的算法

也具有重要的意义。

（２）句法结构。分析中文句子的结构不能像分析英文句子那样，仅依靠一些语

法公式就能进行，原因在于陋１：

①英语是一种典型的屈折语，即是一种以词形变化作为表示语法关系的主要手段

的语言，其特点是有丰富的词形变化来表示词与词之间的关系，词类与句法成分之问

有相对简单的对应关系。汉语的词类和句法成分之间的关系则是错综复杂的，其根本

特点是同一词类可担任多种句法成分且无形态变化，单纯依靠词类来确定句法成分是

行不通的。汉语句子要表达一个完整的意思，更多取决于词或短语间的语义约束，句

法成分之间的语法约束反而弱化了。

另外，英语中的同形兼类词当以不同的词类作为句法成分时，其形态差别会显现

出来。而汉语中的兼类词是同形兼类词，无论在不在句子中，形态都是一样的，这使

得在词的兼类与词类的多功能之间划一条界限变得很困难。

②汉语句子的构造原则与短语的构造原则基本一致。在“词组为本＂的汉语语法

体系中，通常认为汉语的句子不是由词直接组成，而是由词先组成短语，再由短语实

现句子。英语句子的结构模式是“主语部分＋谓语部分＂，而汉语句子并不限于这种唯

一的模式。各种类型的自由短语都可实现为句子。汉语句式结构的多样性增加了汉语

句法分析的难度。

汉语短语结构的另一个重要特点是各类短语的组成成分又可以是各种类型的短

语，这表现出了汉语句法成分特有的套叠现象。汉语短语担任不同句法成分时形态不

发生任何变化。汉语中的主谓结构不仅可以作更大短语中的宾语、主语和定语（相当

于英语中的宾语从句、主语从旬和定语从句），而且可以做谓语。而英语中每个句子

必须有一个限定形式的谓语动词，而且也只能有一个限定形式的谓语动词（不考虑并

列情况），因此英语中没有“谓语从句＂的概念，而汉语中就有主谓谓语句。可以说，

结构上，汉语的短语可能相当于英语的短语，也可能相当于句子。汉语句法分析的难

度可想而知。

１０

北京邮电大学硕士研究生学位论文

第一章概述

１．６．２中文信息抽取的基本研究思路

中文信息抽取的研究主要是通过对一些英语信息抽取方法和技术的借鉴来实现，

希望通过移植这些方法和技术，达到中文信息抽取的目的。这种研究思路取得了不错

的成果，但汉语本身的特点决定了完全照搬外文信息抽取的方法不足以很好地解决中

文的信息抽取。目前，很多学者都在探索符合中文自身特点的方法和技术，提高中文

信息抽取的质量。

基于规则和基于统计两种信息抽取方式结合使用是中文信息抽取研究的一条重

要思路，通过二者的有效结合，取长补短，并结合中文自身的特点，能实现对中文信

息的较好地抽取。

１．６．３本文的主要工作

本文对中文信息抽取的几个关键技术进行了研究，包括命名实体识别，抽取规则

提取，基于规则、基于统计、规则和统计相结合的信息抽取技术等，并且结合关键技吉。·

术的研究先后设计实现了多个面向不同领域的信息抽取实验系统，作为实验和测试的

平台，包括：

◆用基于规则的方法设计并实现了财经领域公司人事变动的信息抽取实验系

统；

针对特定应用领域可移植的问题，我们研究开发了一个机器学习辅助模块，

，

通过有监督的学习自动提取新主题领域的抽取规则；

·应用上述机器学习模块和基于规则的方法，结合智能移动信息服务的应用背

景，设计并实现了一个面向奥运的移动赛事新闻点播系统，初步探索了“信

息抽取＋短信息＂的智能信息服务模式；

●采用基于统计和基于规则相结合的方法，设计并实现了一个面向体育赛事新

闻的中文信息抽取实验系统；

·此外，还对信息抽取在信息内容安全领域的应用进行了初步探索，初步实现

了对手机短信特定主题特定倾向性的分析。

１．７论文的组织结构

本文共分为五章：

第一章主要介绍了论文的选题背景，对信息抽取进行了概述，指出了中文信息抽

取的难点，给出了本文的基本研究思路和主要工作；

剩余66页未读，继续阅读

skycity0713

粉丝: 36
资源: 47

中文信息抽取关键技术：机器学习与应用探索

Python-cocoNLP中文信息抽取工具包

Web文本信息抽取与挖掘方法.PDF

爬取百度百科中文页面，抽取三元组信息，构建中文知识图谱

论文研究-非结构化信息抽取关键技术研究探讨.pdf

三维地震数据体任意剖面抽取算法及C语言程序实现.pdf

基于云计算面向网络舆情的Deep Web数据抽取关键技术研究.pdf

基于FPGA的CIC抽取滤波器设计与实现.pdf

网页信息自动抽取技术的研究.pdf

论文研究-生物医学领域中的文本信息抽取技术与系统综述.pdf

分布式实时抽取计算框架设计与应用.pdf

最新资源