文本挖掘技术概览：聚类、分类与检索

需积分: 0 192 浏览量更新于2024-10-01 收藏 133KB PDF 举报

"Survey of Text Mining" 是一本关于文本挖掘技术的PDF文章，涵盖了聚类、分类和检索等关键领域，并配有57幅插图。该文由Michael W. Berry编辑，旨在提供一个文本挖掘概念的概述。在文章中，首先讨论了"Cluster-Preserving Dimension Reduction Methods for Efficient Classification of Text Data"，作者Peg Howland和Haesun Park介绍了如何通过降维方法来优化文本数据的分类。他们强调了向量空间模型中的维度减少，并提出了一种基于质心正交基的方法。这种方法与因子分析的方法有关系，能够帮助处理高维文本数据。接着，他们探讨了判别分析及其在文本数据上的扩展，包括广义奇异值分解（GSVD）和判别分析的延伸。他们指出不同Si和S5之间的等价性，并利用正交质心基进行迹优化以提高分类效果。最后，通过文档分类实验验证了这些方法的有效性。第二部分"Automatic Discovery of Similar Words"由Pierre P. Senellart和Vincent D. Blondel撰写，主要关注从大型语料库中自动发现相似词。他们介绍了如何构建文档向量空间模型，并提出了一个不常用词的词典（thesaurus）。此外，他们详细介绍了SEXTANT系统，这是一个用于识别不常见词汇相似性的系统，它可以从大量文本中学习和识别词义关系。文章的其他部分可能包括更多关于文本挖掘的技术，如文本聚类算法、情感分析、主题建模、信息检索以及文本预处理等重要概念。这些技术在现代大数据分析、自然语言处理和机器学习应用中起着至关重要的作用。 "Survey of Text Mining" 是一个全面的指南，对于想要深入了解文本挖掘技术和方法的读者来说，是一份宝贵的资源。它不仅提供了理论框架，还通过实例展示了这些技术的实际应用。无论是研究人员、学生还是从业者，都能从中受益，提升自己在文本分析领域的知识和技能。

milkcoffeewine

粉丝: 0
资源: 1

文本挖掘技术概览：聚类、分类与检索

Survey of Text Mining II Clustering Classification and Retrieval

Survey of Text Mining:Clustering, Classification, and Retrieval, Second Edition

survey of text mining: clustering,classification,and retrieval

Berry_-_Survey.of.Text.Mining_Clustering,.Classification,.and.Retrieval

Mining Text Data - ChengXiang Zhai

Explorative-Survey-of-Papers-in-Energy

moview-review survey影评情感分析综述

Evaluation Methods for Unsupervised Learning: Assessing the Performance of Clustering Algorithms

The Value of Transposing Matrices in Data Analysis: Unearthing Hidden Patterns, Enhancing Analytical...

命令手册 Linux常用命令

最新资源