双约束半监督下OSS-NMF: 文档聚类的非负矩阵分解新方法

0 下载量 44 浏览量 更新于2024-07-15 收藏 1.1MB PDF 举报
本文探讨了"具有双重约束的半监督文档聚类的非负矩阵分解框架"。非负矩阵分解(Nonnegative Matrix Factorization, NMF)是一种常用的数据分析工具,特别适用于处理非负数据集,如文本中的词频矩阵,因为自然语言文本通常是非负的。在半监督学习环境中,NMF被用来挖掘未标记数据的潜在结构,结合少量的标签信息来提高聚类效果。 本文的主要贡献在于提出了一种新颖的算法——正交半监督非负矩阵分解(OSS-NMF)。该方法将两种类型的约束整合到传统的NMF框架中:一是成对约束,反映了文档之间的领域知识;二是类别知识,源自于单词的预定义分类。通过这种方式,作者将聚类问题转化为寻找目标函数的局部极小值问题,利用对偶优化理论导出了有效的更新规则,设计了一种迭代算法进行协同聚类。 算法的正确性和收敛性得到了理论上的证明,这确保了方法的有效性和稳健性。作者强调,这种双重约束的策略显著提升了在文档聚类任务中的性能,特别是在面临数据标记不足的情况下,OSS-NMF能够更有效地利用有限的标签信息,并挖掘出更精确的文档群组。 实验部分展示了OSS-NMF在实际文档聚类任务中的优越性能,与传统方法相比,它能够在保持非负性、捕捉语义信息的同时,更好地考虑领域专家知识和特征类别信息,从而提高了聚类的精度和解释性。 这篇研究论文在半监督文档聚类领域引入了一个创新的非负矩阵分解框架,通过融合领域知识和类别信息,有效地提高了聚类效果,并展示了其在实际应用中的潜力。对于那些关注文本数据分析、半监督学习和非负矩阵分解的科研人员来说,这篇文章提供了有价值的新思路和技术参考。