改进RAkEL算法：基于标签相似度的不良信息多标签分类提升

需积分: 31 188 浏览量更新于2024-09-07 收藏 1012KB PDF 举报

在多标签分类领域，本文探讨了一种新颖的方法，即"基于标签相似度的不良信息多标签分类方法"。多标签分类任务中，标签之间的相关性是决定分类准确度的关键因素。传统的分类算法，如BR算法和ML-KNN算法，由于忽视了标签间的这种关联，往往无法充分利用这些信息，导致分类性能不尽如人意，特别是在处理类别间关联度极高的不良信息时，分类效果更为显著下降。作者们针对这一问题，提出了改进RAkEL（Random k-labelsets Ensemble Learning）算法。首先，他们通过分析训练文本，计算出各个标签之间的相似度系数，这一步旨在捕捉标签间的共现和语义关联。接着，他们引入自定义的不良信息层次关系，将这种层次结构融入到标签相似度计算中，从而形成一个综合的标签相似度系数矩阵。在RAkEL的投票决策阶段，这个矩阵被用来调整每个标签的重要性，依据综合标签相似度和中心标签（可能的主导标签）来决定最终的分类结果。这种方法考虑到了标签间的复杂交互，有助于更精确地识别不良信息。实验结果显示，与传统的多标签分类方法相比，该方法在实际语料库上的性能有显著提升，特别是在不良信息的分类上，效果更为显著。这表明，利用标签相似度和自定义层次关系能有效提高分类的精度和鲁棒性，尤其在处理高关联度的不良信息时，能够提供更准确的分类策略。论文还包含了多个研究人员的研究背景和贡献，包括刘卓然、胡杨、刘骊、冯旭鹏、刘利军和黄青松，他们在机器学习、自然语言处理、信息检索等领域有着丰富的研究和实践经验，他们的合作为本文提供了坚实的理论基础和技术支持。这篇研究为多标签分类特别是不良信息分类领域提供了一个新的视角，通过结合标签相似度和层次关系，有望在实际应用中实现更高效的不良信息识别和管理。这对于信息过滤、推荐系统以及网络安全等领域具有重要的实践价值。

　　收稿日期：２０１４１２１７；修回日期：２０１５０２０３　　基金项目：国家自然科学基金资助项目（８１３６０２３０）；国家科技部科技型中小企业技术创

新基金资助项目（１３Ｃ２６２１５３０５４０４）

　　作者简介：刘卓然（１９８９），男，硕士研究生，主要研究方向为机器学习、自然语言处理；胡杨（１９９１），男，江苏南通人，硕士研究生，主要研究

方向为机器学习、信息检索；刘骊（１９７９），女，讲师，博士，主要研究方向为机器学习、嵌入式技术、计算机图形处理；冯旭鹏（１９８６），男，硕士，主要

研究方向为信息检索；刘利军（１９７８），男，讲师，硕士，主要研究方向为医疗信息服务；黄青松（１９６２），男（通信作者），教授，主要研究方向为智能

信息系统（ｙｎｋｍｈｑｓ＠ｓｉｎａ．ｃｏｍ）．

基于标签相似度的不良信息多标签分类方法



刘卓然

１ａ

，胡　杨

１ａ

，刘　骊

１ａ

，冯旭鹏

１ｂ

，刘利军

１ａ

，黄青松

１ａ，２

（１．昆明理工大学ａ．信息工程与自动化学院；ｂ．教育技术与网络中心，昆明６５０５００；２．云南省计算机技术应用

重点实验室，昆明６５０５００）

摘　要：在多标记分类中，标签与标签之间的相关关系是影响分类效果的一个重要因子。传统的经典多标签分

类方法如ＢＲ算法、ＭＬＫＮＮ算法等，忽略了标签之间的相关关系对实际分类的影响，分类效果一直不能令人满

意；面对类别关联度极高的不良信息的多标签分类，分类效果更是大打折扣。针对上述问题，通过改进经典的多

标签分类算法ＲＡｋＥＬ，首先根据训练文本计算出各标签之间的相似度系数，然后再根据自定义不良信息层次关

系计算出综合标签相似度系数矩阵，最后在

ＲＡｋＥＬ算法投票过程中根据综合标签相似度与中心标签重新确定

最终的结果标签集合。与传统的分类方法在真实的语料库上进行多标签分类效果对比，结果证明，该方法对不

良信息分类具有较好的效果。

关键词：多标签分类；标签之间的相关关系；不良信息；中心标签；标签相似度系数矩阵

中图分类号：ＴＰ３９１．４３　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０４０９８９０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０４．００６

Ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆ

ｂａｄｉｎｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｌａｂｅｌｓｉｍｉｌａｒｉｔｙ

ＬｉｕＺｈｕｏｒａｎ

１ａ

，ＨｕＹａｎｇ

１ａ

，ＬｉｕＬｉ

１ａ

，ＦｅｎｇＸｕｐｅｎｇ

１ｂ

，ＬｉｕＬｉｊｕｎ

１ａ

，ＨｕａｎｇＱｉｎｇｓｏｎｇ

１ａ，２

（１．ａ．ＦａｃｕｌｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ＆Ａｕｔｏｍａｔｉｏｎ，ｂ．ＥｄｕｃａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ＆ＮｅｔｗｏｒｋＣｅｎｔｅｒ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈ

ｎｏｌｏｇｙ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ；２．ＹｕｎｎａｎＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙＡｐｐｌｉｃａｔｉｏｎｓ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｌａｂｅｌｓｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎａｆｆｅｃｔｉｎｇｔｈｅｐｅｒｆｏｒｍ

ａｎｃｅｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｆｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｈａｎｄｌｅｄｅａｃｈｌａｂｅｌｉｎｄｅｐｅｎｄｅｎｔｌｙ，ｉｇｎｏｒｅｄｔｈｅｉｎｆｌｕ

ｅｎｃｅｏｆｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｅｌｓ，ｓｏｔｈａｔｔｈｅｅｆｆｅｃｔｏｆｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗａｓｏｆｔｅｎｎｏｔｓａｔｉｓｆａｃｔｏｒｙ，ｅｓｐｅｃｉａｌｌｙｉｎｔｈｅｓｉｔｕａ

ｔｉｏｎｏｆｄｅａｌｉｎｇｗｉｔｈｔｈｅｂａｄｉｎｆｏｒｍａｔｉｏｎ．Ａｉｍｉｎｇａｔｔｈｅｓｅｐｒｏｂｌｅｍｓａｂｏｖｅ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｅｄａｍｏｄｉｆｉｅｄａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎ

ｔｈｅＲＡ

ｋＥＬ，ａｃｌａｓｓｉｃａｌｇｏｒｉｔｈｍｓｆｏｒｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅａｌｇｏｒｉｔｈｍｆｉｒｓｔｌｙｗｏｒｋｅｄｏｕｔｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｂｅ

ｔｗｅｅｎｌａｂｅｌｓ，ａｎｄｔｈｅｎｃａｌｃｕｌａｔｅｄｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｅｌｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｈｉｅｒａｒｃｈｙｃｈａｒｔｆｏｒｔｈｅｂａｄ

ｉｎｆｏｒｍａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｉｎｔｈｅｖｏｔｉｎｇｐｒｏｃｅｓｓｏｆＲＡｋＥＬ，ｉｔｆｉｇｕｒｅｄｏｕｔｔｈｅｒｅｓｕｌｔｓｅｔｗｉｔｈｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘ．Ｅｘｐｅｒｉ

ｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｔｈｅｒｅａｌｃｏｒｐｕｓｉｎｖｏｌｖｉｎｇｂａｄｉｎｆｏｒｍａｔｉｏｎｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎａｃｈｉｅｖｅｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｃｏｍ

ｐａｒｅｄｔｏｔｒａｄｉｔｉｏｎａｌｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｓ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｌｅｓ；ｂａｄｉｎｆｏｒｍａｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉ

ｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｌｅｓ

０　引言

数据分类是数据挖掘的一个重要研究方向，一直以来，数

据分类问题和方法受到了人们的广泛关注和研究

［１］

。对于多

标签分类问题，目前主要的解决途径分为问题转换和算法适应

两种

［２～４］

。问题转换的基本思想是通过对多标签训练样本进

行处理，将多标签分类问题转换为其他已知的学习问题求解；

算法适应是通过对常用的监督学习算法进行改进，将其直接用

于多标签分类。ＢＲ（ｂｉｎａｒｙｒｅｌｅｖａｎｃｅ）

［２］

方法是将多标记学习

问题转换为若干个独立的二分类学习问题，它把每一个标签的

预测视为一个独立的单分类问题，并为每一个标签训练一个独

立的分类器，用全部的训练数据对每个分类器进行训练。这种

方法简便易行，但忽略了标签之间的相互关系，如果直接将其

运用在不良信息分类上，预测结果也往往难以令人满意。

ＭＬ

ＫＮＮ

［５］

算法以及对其改进的基于粒计算的Ｋ近邻算法

［６］

是一

种简单且非常有效的解决多标签问题的方法，它利用最大化后

验原则来确定待预测样本的标签集。然而，它仅针对每一个独

立标签来统计其在近邻中被包含的数量，忽略了各个标签之间

可能存在的相关性。ＬＰ（ｌａｂｅｌｐｏｗｅｒｓｅｔ）

［１］

方法是一种简单有

效的多标签分类方法，它的基本思想是将训练集中对象所属的

标签集合作为一个新的标签，从而将多标签分类问题转换为一

第３３卷第４期

２０１６年４月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．４

Ａｐｒ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840515

粉丝: 448
资源: 1万+

改进RAkEL算法：基于标签相似度的不良信息多标签分类提升

相似度算法;人群标签推荐

movielens数据集如何计算电影相似度

基于人工智能实现数据分类分级的方法

对豆瓣图书top250数据集进行计算相似度矩阵的结果

多标签k近邻算法的原理和流程

chb-mit cnn

请说明文本的多标签分类和多分类的区别，并写出机器翻译任务中评价指标BLUE、ROUGE-n、BERTSCORE的计算公式，并说明公式中符号的意义

基于深度学习的RGBD图像语义分割算法研究损失函数

自然语言处理基于预训练模型的方法

javaweb推荐算法的实现

最新资源