动态模糊聚类新模型:基于神经网络的文本挖掘研究

需积分: 10 0 下载量 161 浏览量 更新于2024-09-08 收藏 248KB PDF 举报
"一种基于模糊聚类的文本挖掘新方法" 在本文中,研究人员提出了一个创新的动态模糊自组织神经网络模型(TGFCM),该模型特别适用于文本聚类任务。传统的模糊自组织神经网络(Fuzzy C-Means, FCM)通常需要预先设定聚类的数量,这在实际应用中可能不切实际,因为最佳聚类数往往难以确定。为解决这个问题,TGFCM模型借鉴了动态自组织神经网络(TGSOM)的特性,能够自动识别合适的聚类数量。 TGSOM网络是一种自适应调整其结构和权重的神经网络,能够在训练过程中不断演化以适应输入数据的分布。在TGFCM中,研究人员对TGSOM的学习率计算公式进行了改进,以适应模糊聚类的需求。他们将模糊聚类中心作为神经元的权重,这样不仅提高了聚类的准确性,还加快了网络的收敛速度。这一改进对于处理大规模文本数据集时的效率提升尤为关键,因为快速收敛意味着更少的计算资源消耗。 文本聚类是文本挖掘的重要组成部分,它有助于从大量文本中发现隐藏的主题或模式。模糊聚类则允许数据点部分地属于多个类别,这在处理模糊边界或重叠类别的文本数据时非常有用。动态模糊自组织神经网络模型(TGFCM)的引入,为文本聚类提供了一种更为灵活和精确的方法,尤其适合于那些类别界限不明确或类别数量未知的文本数据。 在实际应用中,例如在信息检索、社交媒体分析、新闻主题检测等领域,TGFCM模型可以自动地对文本进行分组,帮助用户快速理解大量文本信息的主题分布,而无需手动设置聚类参数。此外,由于模型的动态性和模糊性,它可以更好地处理语义上的相似性和多样性,从而提高分析结果的准确性和实用性。 作者团队由来自湖南商学院和国防科学技术大学的教授和讲师组成,他们的研究方向涵盖了数据挖掘、计算机软件理论、人工智能、算法优化以及计算机网络和数据库等领域。这篇论文是在2009年发表的,受到了国家自然科学基金和湖南省自然科学基金的支持,展示了该领域的最新研究成果。 TGFCM模型通过结合动态自组织神经网络和模糊聚类的思想,为文本挖掘提供了新的解决方案,解决了预设聚类数的难题,提升了聚类效果和效率,对于理解和探索大规模文本数据集具有重要意义。