不良信息多标签分类:基于标签相似度的改进方法

需积分: 3 0 下载量 139 浏览量 更新于2024-08-13 1 收藏 1012KB PDF 举报
"基于标签相似度的不良信息多标签分类方法 (2016年) - 昆明理工大学的研究团队提出了一种改进的多标签分类方法,着重考虑了标签之间的相关关系,特别适用于不良信息的分类。他们通过计算标签相似度系数和构建综合标签相似度系数矩阵,提升了分类效果。" 在多标签分类问题中,每个样本可能关联多个标签,而这些标签之间往往存在一定的相关性。传统的多标签分类方法,如基于边界(Binary Relevance, BR)算法和基于K近邻(Multi-label K-Nearest Neighbors, ML-KNN)算法,通常忽视了这种标签间的相互作用,导致分类性能受到限制。特别是在不良信息的分类场景下,由于类别之间的关联度极高,传统方法的分类效果往往不尽人意。 针对这一问题,该研究团队提出了基于标签相似度的不良信息多标签分类方法。他们首先对训练数据进行分析,计算各个标签之间的相似度系数,这一步骤有助于揭示标签之间的内在联系。然后,结合预先定义的不良信息层次结构,进一步计算出综合标签相似度系数矩阵,这能更全面地反映标签间的相关性。 在分类过程中,研究者引入了“中心标签”的概念,根据综合标签相似度和中心标签来调整最终的分类结果。在RAkEL(Ranking over All K Labels)算法的基础上,这种方法在投票阶段依据标签相似度重新确定结果标签集合,从而提高了对不良信息的识别精度。 实验结果显示,与传统分类方法相比,该方法在真实数据集上的多标签分类效果显著提升,证明了其在不良信息分类中的优越性。此研究对理解标签相关性在多标签分类中的重要性以及如何利用这种相关性优化分类模型提供了有价值的见解,尤其对于处理高度关联的类别问题有重要的实践意义。 关键词涉及多标签分类、标签之间的相关关系、不良信息、中心标签和标签相似度系数矩阵,表明这是机器学习、自然语言处理和信息检索领域的前沿工作,对于提高信息过滤和内容安全性的技术发展有着积极的推动作用。