不良信息多标签分类：基于标签相似度的改进方法

需积分: 3 139 浏览量更新于2024-08-13 1 收藏 1012KB PDF 举报

"基于标签相似度的不良信息多标签分类方法 (2016年) - 昆明理工大学的研究团队提出了一种改进的多标签分类方法，着重考虑了标签之间的相关关系，特别适用于不良信息的分类。他们通过计算标签相似度系数和构建综合标签相似度系数矩阵，提升了分类效果。" 在多标签分类问题中，每个样本可能关联多个标签，而这些标签之间往往存在一定的相关性。传统的多标签分类方法，如基于边界（Binary Relevance, BR）算法和基于K近邻（Multi-label K-Nearest Neighbors, ML-KNN）算法，通常忽视了这种标签间的相互作用，导致分类性能受到限制。特别是在不良信息的分类场景下，由于类别之间的关联度极高，传统方法的分类效果往往不尽人意。针对这一问题，该研究团队提出了基于标签相似度的不良信息多标签分类方法。他们首先对训练数据进行分析，计算各个标签之间的相似度系数，这一步骤有助于揭示标签之间的内在联系。然后，结合预先定义的不良信息层次结构，进一步计算出综合标签相似度系数矩阵，这能更全面地反映标签间的相关性。在分类过程中，研究者引入了“中心标签”的概念，根据综合标签相似度和中心标签来调整最终的分类结果。在RAkEL（Ranking over All K Labels）算法的基础上，这种方法在投票阶段依据标签相似度重新确定结果标签集合，从而提高了对不良信息的识别精度。实验结果显示，与传统分类方法相比，该方法在真实数据集上的多标签分类效果显著提升，证明了其在不良信息分类中的优越性。此研究对理解标签相关性在多标签分类中的重要性以及如何利用这种相关性优化分类模型提供了有价值的见解，尤其对于处理高度关联的类别问题有重要的实践意义。关键词涉及多标签分类、标签之间的相关关系、不良信息、中心标签和标签相似度系数矩阵，表明这是机器学习、自然语言处理和信息检索领域的前沿工作，对于提高信息过滤和内容安全性的技术发展有着积极的推动作用。

　　收稿日期：２０１４１２１７；修回日期：２０１５０２０３　　基金项目：国家自然科学基金资助项目（８１３６０２３０）；国家科技部科技型中小企业技术创

新基金资助项目（１３Ｃ２６２１５３０５４０４）

　　作者简介：刘卓然（１９８９），男，硕士研究生，主要研究方向为机器学习、自然语言处理；胡杨（１９９１），男，江苏南通人，硕士研究生，主要研究

方向为机器学习、信息检索；刘骊（１９７９），女，讲师，博士，主要研究方向为机器学习、嵌入式技术、计算机图形处理；冯旭鹏（１９８６），男，硕士，主要

研究方向为信息检索；刘利军（１９７８），男，讲师，硕士，主要研究方向为医疗信息服务；黄青松（１９６２），男（通信作者），教授，主要研究方向为智能

信息系统（ｙｎｋｍｈｑｓ＠ｓｉｎａ．ｃｏｍ）．

基于标签相似度的不良信息多标签分类方法



刘卓然

１ａ

，胡　杨

１ａ

，刘　骊

１ａ

，冯旭鹏

１ｂ

，刘利军

１ａ

，黄青松

１ａ，２

（１．昆明理工大学ａ．信息工程与自动化学院；ｂ．教育技术与网络中心，昆明６５０５００；２．云南省计算机技术应用

重点实验室，昆明６５０５００）

摘　要：在多标记分类中，标签与标签之间的相关关系是影响分类效果的一个重要因子。传统的经典多标签分

类方法如ＢＲ算法、ＭＬＫＮＮ算法等，忽略了标签之间的相关关系对实际分类的影响，分类效果一直不能令人满

意；面对类别关联度极高的不良信息的多标签分类，分类效果更是大打折扣。针对上述问题，通过改进经典的多

标签分类算法ＲＡｋＥＬ，首先根据训练文本计算出各标签之间的相似度系数，然后再根据自定义不良信息层次关

系计算出综合标签相似度系数矩阵，最后在

ＲＡｋＥＬ算法投票过程中根据综合标签相似度与中心标签重新确定

最终的结果标签集合。与传统的分类方法在真实的语料库上进行多标签分类效果对比，结果证明，该方法对不

良信息分类具有较好的效果。

关键词：多标签分类；标签之间的相关关系；不良信息；中心标签；标签相似度系数矩阵

中图分类号：ＴＰ３９１．４３　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０４０９８９０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０４．００６

Ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆ

ｂａｄｉｎｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｌａｂｅｌｓｉｍｉｌａｒｉｔｙ

ＬｉｕＺｈｕｏｒａｎ

１ａ

，ＨｕＹａｎｇ

１ａ

，ＬｉｕＬｉ

１ａ

，ＦｅｎｇＸｕｐｅｎｇ

１ｂ

，ＬｉｕＬｉｊｕｎ

１ａ

，ＨｕａｎｇＱｉｎｇｓｏｎｇ

１ａ，２

（１．ａ．ＦａｃｕｌｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ＆Ａｕｔｏｍａｔｉｏｎ，ｂ．ＥｄｕｃａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ＆ＮｅｔｗｏｒｋＣｅｎｔｅｒ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈ

ｎｏｌｏｇｙ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ；２．ＹｕｎｎａｎＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙＡｐｐｌｉｃａｔｉｏｎｓ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｌａｂｅｌｓｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎａｆｆｅｃｔｉｎｇｔｈｅｐｅｒｆｏｒｍ

ａｎｃｅｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｆｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｈａｎｄｌｅｄｅａｃｈｌａｂｅｌｉｎｄｅｐｅｎｄｅｎｔｌｙ，ｉｇｎｏｒｅｄｔｈｅｉｎｆｌｕ

ｅｎｃｅｏｆｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｅｌｓ，ｓｏｔｈａｔｔｈｅｅｆｆｅｃｔｏｆｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗａｓｏｆｔｅｎｎｏｔｓａｔｉｓｆａｃｔｏｒｙ，ｅｓｐｅｃｉａｌｌｙｉｎｔｈｅｓｉｔｕａ

ｔｉｏｎｏｆｄｅａｌｉｎｇｗｉｔｈｔｈｅｂａｄｉｎｆｏｒｍａｔｉｏｎ．Ａｉｍｉｎｇａｔｔｈｅｓｅｐｒｏｂｌｅｍｓａｂｏｖｅ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｅｄａｍｏｄｉｆｉｅｄａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎ

ｔｈｅＲＡ

ｋＥＬ，ａｃｌａｓｓｉｃａｌｇｏｒｉｔｈｍｓｆｏｒｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅａｌｇｏｒｉｔｈｍｆｉｒｓｔｌｙｗｏｒｋｅｄｏｕｔｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｂｅ

ｔｗｅｅｎｌａｂｅｌｓ，ａｎｄｔｈｅｎｃａｌｃｕｌａｔｅｄｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｅｌｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｈｉｅｒａｒｃｈｙｃｈａｒｔｆｏｒｔｈｅｂａｄ

ｉｎｆｏｒｍａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｉｎｔｈｅｖｏｔｉｎｇｐｒｏｃｅｓｓｏｆＲＡｋＥＬ，ｉｔｆｉｇｕｒｅｄｏｕｔｔｈｅｒｅｓｕｌｔｓｅｔｗｉｔｈｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘ．Ｅｘｐｅｒｉ

ｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｔｈｅｒｅａｌｃｏｒｐｕｓｉｎｖｏｌｖｉｎｇｂａｄｉｎｆｏｒｍａｔｉｏｎｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎａｃｈｉｅｖｅｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｃｏｍ

ｐａｒｅｄｔｏｔｒａｄｉｔｉｏｎａｌｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｓ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｌｅｓ；ｂａｄｉｎｆｏｒｍａｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉ

ｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｌｅｓ

０　引言

数据分类是数据挖掘的一个重要研究方向，一直以来，数

据分类问题和方法受到了人们的广泛关注和研究

［１］

。对于多

标签分类问题，目前主要的解决途径分为问题转换和算法适应

两种

［２～４］

。问题转换的基本思想是通过对多标签训练样本进

行处理，将多标签分类问题转换为其他已知的学习问题求解；

算法适应是通过对常用的监督学习算法进行改进，将其直接用

于多标签分类。ＢＲ（ｂｉｎａｒｙｒｅｌｅｖａｎｃｅ）

［２］

方法是将多标记学习

问题转换为若干个独立的二分类学习问题，它把每一个标签的

预测视为一个独立的单分类问题，并为每一个标签训练一个独

立的分类器，用全部的训练数据对每个分类器进行训练。这种

方法简便易行，但忽略了标签之间的相互关系，如果直接将其

运用在不良信息分类上，预测结果也往往难以令人满意。

ＭＬ

ＫＮＮ

［５］

算法以及对其改进的基于粒计算的Ｋ近邻算法

［６］

是一

种简单且非常有效的解决多标签问题的方法，它利用最大化后

验原则来确定待预测样本的标签集。然而，它仅针对每一个独

立标签来统计其在近邻中被包含的数量，忽略了各个标签之间

可能存在的相关性。ＬＰ（ｌａｂｅｌｐｏｗｅｒｓｅｔ）

［１］

方法是一种简单有

效的多标签分类方法，它的基本思想是将训练集中对象所属的

标签集合作为一个新的标签，从而将多标签分类问题转换为一

第３３卷第４期

２０１６年４月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．４

Ａｐｒ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38570406

粉丝: 9
资源: 951

不良信息多标签分类：基于标签相似度的改进方法

基于标签相似度的不良信息多标签分类方法

电信设备-基于相似度的多模态信息分类贡献差异性计算方法.zip

python基于物体相似度推荐

基于用户相似度推荐电影

python基于余弦的相似度进行图像分类

基于语义相似度的地名消歧研究

基于语义相似度的算法有哪些

python余弦相似度文本分类_基于TF-IDF和余弦相似度的文本分类方法

基于相似度的注意力机制的优缺点是什么

基于语义相似度的地名消歧算法有哪些

最新资源