文本挖掘技术概览:聚类、分类与检索

需积分: 0 1 下载量 192 浏览量 更新于2024-10-01 收藏 133KB PDF 举报
"Survey of Text Mining" 是一本关于文本挖掘技术的PDF文章,涵盖了聚类、分类和检索等关键领域,并配有57幅插图。该文由Michael W. Berry编辑,旨在提供一个文本挖掘概念的概述。 在文章中,首先讨论了"Cluster-Preserving Dimension Reduction Methods for Efficient Classification of Text Data",作者Peg Howland和Haesun Park介绍了如何通过降维方法来优化文本数据的分类。他们强调了向量空间模型中的维度减少,并提出了一种基于质心正交基的方法。这种方法与因子分析的方法有关系,能够帮助处理高维文本数据。接着,他们探讨了判别分析及其在文本数据上的扩展,包括广义奇异值分解(GSVD)和判别分析的延伸。他们指出不同Si和S5之间的等价性,并利用正交质心基进行迹优化以提高分类效果。最后,通过文档分类实验验证了这些方法的有效性。 第二部分"Automatic Discovery of Similar Words"由Pierre P. Senellart和Vincent D. Blondel撰写,主要关注从大型语料库中自动发现相似词。他们介绍了如何构建文档向量空间模型,并提出了一个不常用词的词典(thesaurus)。此外,他们详细介绍了SEXTANT系统,这是一个用于识别不常见词汇相似性的系统,它可以从大量文本中学习和识别词义关系。 文章的其他部分可能包括更多关于文本挖掘的技术,如文本聚类算法、情感分析、主题建模、信息检索以及文本预处理等重要概念。这些技术在现代大数据分析、自然语言处理和机器学习应用中起着至关重要的作用。 "Survey of Text Mining" 是一个全面的指南,对于想要深入了解文本挖掘技术和方法的读者来说,是一份宝贵的资源。它不仅提供了理论框架,还通过实例展示了这些技术的实际应用。无论是研究人员、学生还是从业者,都能从中受益,提升自己在文本分析领域的知识和技能。