中文文本同频词统计规律与关键词提取优化

需积分: 21 147 浏览量更新于2024-09-07 收藏 1.13MB PDF 举报

"这篇研究论文探讨了中文文本中同频词的统计规律，并将其应用于关键词提取，以提高提取效率。研究者通过实验基于齐普夫定律推导出适合中文文本的同频词数数学表达式，改进了高频词与低频词的区分公式，减少了TF-IDF值计算中的无效工作，提升了2到7倍的计算效率，同时确保不丢失关键信息。此方法对处理中文低频词问题提供了实用的标准。" 本文主要关注的是中文文本处理中的一个重要问题——同频词的统计规律及其在关键词提取中的应用。同频词是指在文本中出现频率相同的词语，它们在文本信息的提炼和理解中扮演着重要角色。齐普夫定律（Zipf's Law）通常用于描述语言中词汇频率分布的一种幂律关系，即最频繁的词汇出现次数是第二频繁词汇的两倍，第三频繁的三倍，以此类推。研究者针对中文文本的特点，运用这一定律推导出新的数学模型，以更精确地预测不同长度文本中各频次的同频词数量。在此基础上，研究者提出了一种新的中文文本中高频词和低频词的界分公式。这个公式旨在优化关键词提取过程，减少不必要的计算。在关键词提取中，TF-IDF算法常被用来评估一个词对于文档的重要性，其中词频（TF）和逆文档频率（IDF）是关键因素。通过利用同频词的数学表达式，研究者指出在文本长度超过3010词的情况下，频次为1和2的词可以不必参与TF-IDF计算，从而显著提高了计算效率。实验结果表明，这种优化不仅减少了计算负担，而且并未导致关键信息的丢失。此外，解决中文低频词的处理问题一直是学术界的关注点。本研究提出的策略为关键词提取中如何对待低频词提供了实际操作的准则，对于提升中文文本处理的效率和准确性具有重要意义。这项工作由多个基金项目支持，由河北师范大学的研究团队完成，涉及的主要研究方向包括数据挖掘和智能信息处理。关键词：同频词，齐普夫定律，布茨定律（Bozeman's Law，可能指的是与Zipf's Law相关的定律或概念），关键词提取，TF-IDF算法。该研究对理解中文文本的统计特性以及优化信息提取方法具有重要的理论和实践价值。

　　收稿日期：２０１４１１２１；修回日期：２０１５０１０４　　基金项目：国家自然科学基金资助项目（７１２７１０６７）；国家社会科学基金资助项目

（１３ＢＴＹ０１１）；国家社科基金重大项目（１３＆ＺＤ０９１）；河北师范大学数学与信息科学学院硕士基金资助项目（２０１３０１）

　　作者简介：李晓超（１９８６），男，河北永年人，硕士，主要研究方向为数据挖掘、智能信息处理；赵书良（１９６７），男（通信作者），河北献县人，教

授，博导，博士，主要研究方向为数据挖掘、智能信息处理（ｚｈａｏｓｈｕｌｉａｎｇ＠ｓｉｎａ．ｃｏｍ）；罗燕（１９９３），女，河北石家庄人，硕士，主要研究方向为数据挖

掘、智能信息处理；陈敏（１９８８），女，河北衡水人，硕士，主要研究方向为数据挖掘、智能信息处理；柳萌萌（１９８８），女，河北张家口人，硕士，主要研

究方向为数据挖掘、智能信息处理．

中文文本同频词统计规律及在关键词提取中的应用



李晓超

ａ，ｂ，ｃ

，赵书良

ａ，ｂ，ｃ

，罗　燕

ａ，ｂ，ｃ

，陈　敏

ａ，ｂ，ｃ

，柳萌萌

ａ，ｂ，ｃ

（河北师范大学ａ．数学与信息科学学院；ｂ．河北省计算数学与应用重点实验室；ｃ．移动物联网研究院，石家庄

０５００２４）

摘　要：通过大量实验对中文文本中同频词的统计规律进行了研究，利用齐普夫定律推导出了适合中文文本的

同频词数的数学表达式，能更准确地表示出不同长度的文本中各频次的同频词数；借助同频词数的数学表达式，

重新确立了中文文本中高频词和低频词的界分公式，并通过实验验证了该公式能够更好地界分高频词和低频

词。将提出的统计规律应用于中文文本关键词提取，有效提高了关键词提取效率，在文本长度不小于３０１０词的

前提下，频次为

１和频次为２的词不必参与ＴＦＩＤＦ值的计算，可将计算效率提高２～７倍，且没有造成关键词丢

失。解决了学术界关心的如何处理中文低频词的问题，对关键词提取中如何处理低频词提供了可操作标准。

关键词：同频词；齐普夫定律；布茨定律；关键词提取；ＴＦＩＤＦ算法

中图分类号：ＴＰ３９１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０４１００７０６

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０４．０１０

ＳｔａｔｉｓｔｉｃｓｌａｗｏｆｓａｍｅｆｒｅｑｕｅｎｃｙｗｏｒｄｓｉｎＣｈｉｎｅｓｅｔｅｘｔａｎｄ

ｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎ

ＬｉＸｉａｏｃｈａｏ

ａ，ｂ，ｃ

，ＺｈａｏＳｈｕｌｉａｎｇ

ａ，ｂ，ｃ

，ＬｕｏＹａｎ

ａ，ｂ，ｃ

，ＣｈｅｎＭｉｎ

ａ，ｂ，ｃ

，ＬｉｕＭｅｎｇｍｅｎｇ

ａ，ｂ，ｃ

（ａ．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ｂ．ＨｅｂｅｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎａｌＭａｔｈｅｍａｔｉｃｓ＆Ａｐｐｌｉｃａｔｉｏｎｓ，ｃ．ＩｎｓｔｉｔｕｔｅｏｆＭｏｂｉｌｅ

ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ，ＨｅｂｅｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｓｈｉｊｉａｚｈｕａｎｇ０５００２４，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｅｄａｓｔａｔｉｓｔｉｃｓｌａｗｏｎｔｈｅｓａｍｅｆｒｅｑｕｅｎｃｙｗｏｒｄｓｉｎＣｈｉｎｅｓｅｔｅｘｔｂａｓｅｄｏｎａｌａｒｇｅｎｕｍｂｅｒｏｆｅｘｐｅｒｉ

ｍｅｎｔｓ．ＩｔｄｅｄｕｃｅｄｔｈｅｍａｔｈｅｍａｔｉｃａｌｅｘｐｒｅｓｓｉｏｎｏｆｔｈｅｓａｍｅｆｒｅｑｕｅｎｃｙｗｏｒｄｓｂａｓｅｄｏｎＺｉｐｆ

’ｓｌａｗ，ｗｈｉｃｈｃｏｕｌｄｂｅａｐｐｌｉｅｄｔｏ

Ｃｈｉｎｅｓｅｔｅｘｔｂｅｔｔｅｒ．Ｍｏｒｅｏｖｅｒ，ｉｔｒｅｅｓｔａｂｌｉｓｈｅｄｔｈｅｂｏｕｎｄａｒｙｐｏｉｎｔｓｆｏｒｍｕｌａｏｆｈｉｇｈｆｒｅｑｕｅｎｃｙｗｏｒｄｓａｎｄｌｏｗｆｒｅｑｕｅｎｃｙｗｏｒｄｓ，

ａｎｄｔｈｅｎｖｅｒｉｆｉｅｄｉｔｓｃｏｒｒｅｃｔｎｅｓｓ．Ｆｉｎａｌｌｙ，ｉｔａｐｐｌｉｅｄｔｈｅｐｒｏｐｏｓｅｄｓｔａｔｉｓｔｉｃｓｌａｗｔｏｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎ．Ｐｒｅｖｉｏｕｓａｃａｄｅｍｉｃｒｅ

ｓｅａｒｃｈｏｎｈｏｗｔｏｄｅａｌｗｉｔｈｌｏｗｆｒｅｑｕｅｎｃｙｗｏｒｄｓｗａｓｒａｒｅａｎｄｎｏｂｏｄｙｇａｖｅａｃｏｎｃｒｅｔｅｓｏｌｕｔｉｏｎ．Ｔｈｉｓｐａｐｅｒｐｒｏｖｉｄｅｄａｓｔａｎｄａｒｄ

ｍｅｔｈｏｄｏｎｈｏｗｔｏｄｅａｌｗｉｔｈｔｈｅｌｏｗｆｒｅｑｕｅｎｃｙｗｏｒｄｓｉｎｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎ．Ｉｔｎｏｔｅｓｔｈａｔｔｅｘｔｌｅｎｇｔｈｍｕｓｔｂｅ

ｎｏｌｅｓｓｔｈａｎ３０１０ｗｏｒｄｓａｎｄｉｔｃａｎｉｇｎｏｒｅｔｈｅｃａｌｃｕｌａｔｉｏｎｏｆｗｏｒｄｓｏｃｃｕｒｒｉｎｇｏｎｃｅａｎｄｔｗｉｃｅｗｈｅｎｃａｌｃｕｌａｔｉｎｇｔｈｅｖａｌｕｅｏｆＴＦ

ＩＤＦ．Ｔｈｉｓｍｅｔｈｏｄｒａｉｓｅｓｔｈｅｅｆｆｉｃｉｅｎｃｙｂｙ２～７ｔｉｍｅｓｂｕｔｎｏｌｏｓｓｏｆｋｅｙｗｏｒｄｓ．

Ｋｅｙｗｏｒｄｓ：ｓａｍｅｆｒｅｑｕｅｎｃｙｗｏｒｄｓ；Ｚｉｐｆ’ｓｌａｗ；Ｂｏｏｔｈ’ｓｌａｗ；ｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ；ＴＦＩＤＦａｌｇｏｒｉｔｈｍ

０　引言

齐普夫定律是由哈佛大学语言学家Ｚｉｐｆ

［１］

于１９４９年发表

的实验定律。齐普夫定律是一种统计规律，而非理论定律，其

主要内容描述如下：对于一篇包含

Ｎ（Ｎ足够大）个单词的文章

（文集），按这Ｎ个单词在文章中出现的频率ｆ以递减顺序排

列，并依次给予相应的等级序号ｒ（频次最高的单词等级为１，

按频次由高到低等级依次增大，频次为

１的单词等级最高），

则每个单词的等级序号ｒ与相应的频率ｆ的乘积ｆ

ｒ

×ｒ近似等

于一个常数ｃ。齐普夫定律的表达式如下：

ｆ

ｒ

×ｒ＝ｃ（ｃ为常数）（１）

齐普夫定律是文献计量学的重要定律之一，它和洛特卡定

律、布拉德福定律一起被并称为文献计量学的三大定律

［２］

。

齐普夫定律很好地描述了文本中词频的分布规律，目前国内外

已经将该定律应用到了多个领域，如文献计量学、情报学、信息

计量学等。齐普夫定律对于揭示文本词频规律

［３］

、书目信息

特征

［４］

、制定标引原则

［５］

及网站访问者数量

［６］

、城市规模的大

小

［７］

和每个国家公司数量

［８］

的研究提供了理论上的可行性。

齐普夫定律的不足之处在于对出现频次特别高的词和特

别低的词并不能很好地反映分布规律。为了弥补齐普夫定律

的不足，１９６７年，Ｂｏｏｔｈ

［９］

针对英文文章中的低频词进行了研

究，指出了文章中词频为ｎ的词与只出现１次的词的数量之间

存在着这样一种关系，即

Ｉ

ｎ

／Ｉ

１

＝２／ｎ（ｎ＋１）（２）

其中：ｎ表示单词在一个文本中出现的频次，Ｉ

１

表示词频为１

的单词数量，Ｉ

ｎ

表示词频为ｎ的单词数量（Ｉ

ｎ

描述了具有相同

第３３卷第４期

２０１６年４月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．４

Ａｐｒ．２０１６

下载后可阅读完整内容，剩余5页未读，立即下载

普通网友

粉丝: 484
资源:
1万+

中文文本同频词统计规律与关键词提取优化

面向文本挖掘的同频词统计规律及短文本分类方法

同频词统计规律与短文本分类的高效方法

文本抽取算法中的关键词提取技术详解

媒体大数据挖掘与案例实战：文本挖掘关键词提取技术

中文分词算法在文本生成中的应用：让计算机生成流畅的中文文本

利用词法分析实现关键词提取的技巧

中文分词算法在文本可视化中的应用：让文本数据更直观

聚类算法在文本挖掘中的应用

理解文本挖掘中的词频统计

R语言文本分析高级教程：Rwordseq包在实际应用中的深度应用

最新资源