依赖关系驱动的中文短文本分类效果分析

90 浏览量更新于2024-08-30 收藏 390KB PDF 举报

本文主要探讨了中文文本分类中利用依存关系的有效性。随着自然语言处理技术的发展，尤其是深度学习在NLP领域的广泛应用，依存关系分析作为一种重要的语言结构信息，被越来越多地应用于文本表示和理解任务中，包括短文本分类。短文本分类，如微博、新闻标题等，由于其信息密度高、表述简洁，往往面临特征稀疏性和表达不足的问题，因此如何有效地提取和利用其中的上下文关联显得尤为重要。作者首先提出了中文文本分类中利用依存关系的四个关键问题，这些问题包括：1) 如何从长文本和短文本数据中有效抽取具有依存关系的词对作为特征？2) 依存关系能否作为提高短文本分类性能的有效手段？3) 单独使用依存关系能否提升短文本分类的准确性？4) 如何将依存关系整合到文本分类模型中，以增强短文本的描述能力和分类性能？实验部分，研究者在长文本语料库和两个特定的短文本语料库上进行了实证分析。他们通过抽取词对的依存关系，将其转化为可用于机器学习算法的特征，并将其应用于文本分类模型中。结果显示，依存关系确实能够作为有价值的特征，有助于提升文本分类的精度，特别是在处理短文本时，这表明依存关系捕捉到了句子内部的语法和语义结构，有助于弥补短文本信息的不足。然而，实验也指出，单纯依赖依存关系进行短文本分类并不能显著提高性能，这可能是因为短文本中的词语通常更侧重于核心词汇和主题，而依存关系可能会引入不必要的复杂性。因此，依存关系可以作为一种补充手段，用来扩展短文本的特征空间，帮助提取更多上下文信息，但需与其他特征（如词袋模型或TF-IDF）相结合，以达到最佳效果。这篇研究为中文短文本分类提供了一个新的视角，即利用依存关系来挖掘文本的深层结构，增强文本特征的表达能力。未来的研究可能需要进一步探索如何优化依存关系特征的选择和融合策略，以及如何适应不同类型的短文本数据，以实现更高效和准确的文本分类。

Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ计算机工程与应用　２０１０　！　

中文文本分类中利用依存关系的实验研究　

王鹇，樊兴华　

ＷＡＮＧ　Ｐｅｎｇ，ＦＡＮ　Ｘｉｎｇ—ｈｕａ　

重庆邮电大学计算机科学与技术研究所，重庆４０００６５　

Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｏｎｇｑｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｐｏｓｔ　ａｎｄ　Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｃｈｏｎｇｑｉｎｇ　４Ｏｏ０６５，Ｃｈｉｎａ　

Ｅ—ｍａｉｌ：ｈｍｊｌｙｗｐ２６＠ｇｍａｉＩ．ｃｏｍ　

ＷＡＮＧ　Ｐｅｎｇ，ＦＡＮ　Ｘｉｎｇ—ｈｕａ．Ｓｔｕｄｙ　ｏｎ　Ｃｈｉｎｅｓｅ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ·Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　

ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ，２０１０，４６（３）：１３１－１３３．　

Ａｂｓｔｒａｃｔ：Ｆｏｕｒ　ｋｅｙ　ｉｓｓｕｅｓ　ｏｆ　ｃｌａｓｓｉｆｙｉｎｇ　Ｃｈｉｎｅｓｅ　ｓｈｏｒｔ　ｔｅｘｔ　ｕｓｉｎｇ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　ａｒｅ　ｄｉｓｃｕｓｓｅｄ　ｔｏ　ｕｓｅ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　

ｔｏ　ｃｌａｓｓｉｆｙ　Ｃｈｉｎｅｓｅ　ｓｈｏｒｔ　ｔｅｘｔ　ｅｆｆｅｃｔｉｖｅｌｙ．Ｔｈｉｓ　ｐａｐｅｒ　ｅｘｔｒａｃｔｓ　ｔｈｅ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎｓ　ｂｅｔｗｅｅｎ　ｔｗｏ　ｗｏｒｄｓ　ｉｎ　ａ　ｌｏｎｇ—ｔｅｘｔ　ｃｏｒｐｕｓ　

ａｎｄ　ｔｗｏ　ｓｈｏｒｔ—ｔｅｘｔ　ｅｏｒｐｕｓｅｓ，ａｎｄ　ｕｓｅｓ　ｔｈｅｓｅ　ｗｏｒｄ—ｐａｉｒｓ　ｔｏ　ｃｌａｓｓｉｆｙ　ｔｅｘｔｓ　ｉｎ　ｏｒｄｅｒ　ｔｏ　ａｎａｌｙｚｅ　ｔｈｅ　ｒｏｌｅ　ｏｆ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　ｉｎ　

ｓｈｏｒｔ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔｓ　ｓｈｏｗ　ｔｈａｔ　Ｕｓｉｎｇ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　ｔｏ　ｃｌａｓｓｉｆｙ　ｔｅｘｔｓ　ｃａｎ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｐｅｒｆｏｒ－　

ｍａｎｃｅ；Ｕｓｉｎｇ　ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　ｔｏ　ｃｌａｓｓｉｆｙ　ｓｈｏｒｔ　ｔｅｘｔｓ　ｌｏｎｅｌｙ　ｃａｎ　ｎｏｔ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｐｅｒｆｏｒｍａｎｃｅ；ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ　

ａｓ　ｍｅａｎｓ　ｔｏ　ｅｘｐａｎｄ　ｆｅａｔｕｒｅｓ　ｃａｎ　ｉｎｃｒｅａｓｅ　ｆｅａｔｕｒｅｓ　ａｎｄ　ｅｎｈａｎｃｅ　ｄｅｓｃｒｉｐｔｉｏｎ　ａｂｉｌｉｔｙ　ｏｆ　ｓｈｏｒｔ　ｔｅｘｔ　ｉｎ　ｏｒｄｅｒ　ｔｏ　ｃｌａｓｓ　ｓｈｏｒｔ　ｔｅｘｔｓ　ｅｌ－－　

ｆｅｃｔｉｖｅｌｙ．　

Ｋｅｙ　ｗｏｒｄｓ：ｄｅｐｅｎｄｅｎｃｙ　ｒｅｌａｔｉｏｎ；ｓｈｏｒｔ　ｔｅｘｔ；ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　

摘要：为了利用依存关系进行短文本分类，研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和　

两个短文本语料集上，抽取具有依存关系的词对，并利用这些词对作为特征进行分类实验。实验结果表明：依存关系能够作为有效　

的特征进行文本分类，并能够改善文本分类的性能；单独把依存关系作为特征，不能提高短文本的分类性能；可以利用依存关系作　

为特征扩充的手段，增加短文本的特征，增强短文本的描述能力，进而进行有效的短文本分类。　

关键词：依存关系；短文本；文本分类　

ＤＯＩ：１０．３７７８／ｊ．ｉｓｓｎ．１００２—８３３１．２０１０．０３．０３９　文章编号：１００２—８３３ｌ（２０１０）０３—０１３１－０３　文献标识码：Ａ　中图分类号：ＴＰ１８　

１　引　

短文本分类就是对长度短的文本（通常文本长度小于２００　

字符）进行自动分类，它是手机短信息过滤等现实任务的基础。　

短文本具有文本长度短，所描述概念信号弱的特点，因此，短文　

本分类是一项具有挑战性的任务。　

短文本分类的一种可行途径是利用一些额外的信息来辅　

助分类　，引入额外信息的目的是挖掘短文本所表达的信息　

量，以弥补短文本天生的固有缺陷。而词语间依存关系作为一　

种额外的信息能够表示短文本中词语与词语之间丰富的语义　

信息，利用这些语义信息能够挖掘出短文本所包含的信息量，　

以弥补短文本所描述概念不显著，或者多篇文本间所描述的概　

念区别能力不强的缺点。　

要利用词语间的依存关系必须解决如下四个问题：（１）依　

存关系作为特征如何表达？参考二元例串的定义，利用两个词　

构成的阋对信息来表示依存关系；（２）依存关系是否是一种有　

效的特征；（３）它是否能改善文本分类的性能；（４）它是否有助　

于短文本分类性能的提高。　

为了解决以上四个能否确定在短文本分类中利用依存关　

系的基本问题，首先以文本的句子为单位，抽取句子内词语的　

依存关系，以＜词１：词２＞的词对形式表示依存关系；然后分别　

在３个语料集上，包括１０类长文本语料集，对长文本语料进行　

处理后构成的ｌ０类短文本语料集和４类短文本语料集，分别　

以词语、二元词串和依存关系词对为特征，对上述问题进行实　

验研究。　

２依存分析及其应用　

２．１依存关系的定义　

依存语法是一种使用非常广泛的语法形式，最早是法国语　

言学家特尼埃尔（Ｌ．Ｔｅｓｎｉｅｒｅ）提出的。依存语法认为，词之间的　

关系是有方向的，通常是—个词支配另—个词，或者说，—个词　

基金项Ｉｔ：国家自然科学基金（ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ　ｕｎｄｅｒ　Ｇｒａｎｔ　Ｎｏ．６０７０３０１０）；重庆市自然科学基金（ｔｈｅ　Ｎａｔｕｒａｌ　

Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｏｎｇｑｉｎｇ　Ｐｒｏｖｉｎｃｅ　ｏｆ　Ｃｈｉｎａ　ｕｎｄｅｒ　Ｇｒａｎｔ　Ｎｏ．２００６ＢＢ２３７４）；重庆市教委科学技术研究项目（Ｎｏ．ＫＪ０７０５１９）；教　

育部回国留学人员启动基金（教外司留［２００７］１　１０９号）。　

作者简介：王鹏（１９８３一），男，硕士研究生，主要研究方向为中文信息处理、机器学习；樊兴华（１９７２一），男，博士，教授，主要研究领域包括人工智能、　

自然语言处理、信息检索。　

收稿口期：２００８—０８—０５　修回日期：２００８—１０－２８　

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38695159

粉丝: 5
资源: 942

依赖关系驱动的中文短文本分类效果分析

基于依存分析的开放式中文实体关系抽取方法.pdf

利用三元模型及依存分析查找中文文本错误

文本关系抽取算法研究与实践

stanford nlp依存关系说明

依存句法分析关系抽取

基于深度学习的中文文本csdn

android如何检查依存关系

中文依存句法分析python

StructBERT中文情感分类

基于图神经网络的文本分类方法

最新资源