网络环境下的多标签分类：基于种子节点选择的SHDA算法

194 浏览量更新于2024-08-27 收藏 813KB PDF 举报

“基于种子节点选择的网络环境下多标签分类算法研究” 这篇研究论文主要探讨的是在网络环境中如何通过选择特定的种子节点来提高多标签分类的准确性。多标签分类是一种机器学习方法，它在处理那些一个实例可以被分配到多个类别的问题时非常有效，如基因分类、药物发现和文本分类等。传统的多标签分类算法通常会随机选择网络中的节点作为训练集，但这种方法忽略了网络中不同节点的重要性差异。论文作者提出了一个新的算法——SHDA（Nodes Selection of High Degree from Each Affiliation），该算法旨在从网络的各个社团中按照节点的度（连接数量）选择种子节点。度高的节点通常在网络中扮演更重要的角色，因为它们拥有更多的连接，可能携带更多的信息。SHDA算法按比例选取每个社团中度较大的节点，将这些节点合并成种子节点集合，然后使用这些种子节点进行推理，以确定网络中其他未标记节点的标签。在实验部分，作者使用真实数据集验证了SHDA算法的效果，结果显示，通过种子节点作为训练集进行多标签分类，确实可以提高网络环境下的分类准确率。这表明，有选择地考虑节点的重要性对于提高多标签分类性能是至关重要的。此外，论文还提到了社团结构，这是网络分析中的一个重要概念，指的是网络中高度连接的子群。在多标签分类中，考虑社团结构可以帮助捕捉节点之间的局部特性，从而提高分类效果。这篇研究论文的核心贡献在于提出了一种新的种子节点选择策略，即SHDA算法，该策略利用网络的社团结构和节点度信息来优化多标签分类的训练过程，从而提高了分类的准确性。这一方法对于理解和改进网络环境中的多标签分类算法具有重要的理论和实践意义。

第９期

２０１６年９月

电　　子　　学　　报

ＡＣＴＡＥＬＥＣＴＲＯＮＩＣＡＳＩＮＩＣＡ

Ｖｏｌ．４４　Ｎｏ．９

Ｓｅｐ．　２０１６

收稿日期：２０１５０１３０；修回日期：２０１５０５１８；责任编辑：覃怀银

基金项目：国家重点基础研究发展规划（

９７３计划）项目（Ｎｏ．２０１３ＣＢ３２９６０４）；教育部创新团队（Ｎｏ．ＩＲＴ１３０５９）；国家自然科学基金项目（Ｎｏ．

６１２２９３０１，Ｎｏ．６１５０３１１４）

基于种子节点选择的网络环境下

多标签分类算法研究

吴信东

１，２

，赵银凤

１

，李　磊

１

（１．合肥工业大学计算机与信息学院，安徽合肥２３０００９；２．佛蒙特大学计算机科学系，美国伯灵顿ＶＴ０５４０５）

　　摘　要：　多标签分类在基因分类，药物发现和文本分类等实际问题中有着广泛的应用．已存在的多标签分类算

法，通常都是从网络中随机的选取节点作为训练集．然而，在分类算法执行的过程中，网络中不同节点所起的作用不

同

．在给定训练集数目的情况下，选择的训练集不同，分类精度也会不同．所以我们引入了种子节点的概念，标签分类

从种子节点开始，经过不断推理，得到网络中其他所有节点的标签．本文提出了ＳＨＤＡ（ＮｏｄｅｓＳｅｌｅｃｔｉｏｎｏｆＨｉｇｈＤｅｇｒｅｅ

ｆｒｏｍＥａｃｈＡｆｆｉｌｉａｔｉｏｎ）算法，即从网络的每个社团中，按比例的选取度数较大的节点，然后将其合并，处理后得到种子节

点

．真实数据集上的实验表明，将种子节点用作训练集进行多标签分类，能够提升网络环境下多标签分类的准确率．

关键词：　多标签分类；网络；种子节点；推理；社团

中图分类号：　ＴＰ１８１；ＴＰ３９１　　　文献标识码：　Ａ　　　文章编号：　０３７２２１１２（２０１６）０９２０７４０７

电子学报ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｅｊｏｕｒｎａｌ．ｏｒｇ．ｃｎ　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．０３７２２１１２．２０１６．０９．００８

ＭｕｌｔｉｌａｂｅｌＣｌａｓｓｉｆｉｃａｔｉｏｎｉｎＮｅｔｗｏｒｋＥｎｖｉｒｏｎｍｅｎｔｓ

ｖｉａＳｅｅｄＮｏｄｅＳｅｌｅｃｔｉｏｎ

ＷＵＸｉｎｄｏｎｇ

１，２

，ＺＨＡＯＹｉｎｆｅｎｇ

１

，ＬＩＬｅｉ

１

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＨｅｆｅｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈｅｆｅｉ，Ａｎｈｕｉ２３０００９，Ｃｈｉｎａ；

２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＵｎｉｖｅｒｓｉｔｙｏｆＶｅｒｍｏｎｔ，ＢｕｒｌｉｎｇｔｏｎＶＴ０５４０５，ＵＳＡ）

Ａｂｓｔｒａｃｔ：　Ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｗｉｄｅｌｙｕｓｅｄｉｎｇｅｎｅｔｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｄｒｕｇｄｉｓｃｏｖｅｒｙａｎｄｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅ

ｅｘｉｓｔｉｎｇｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｓｕｓｕａｌｌｙｓｅｌｅｃｔｎｏｄｅｓｒａｎｄｏｍｌｙｆｒｏｍｔｈｅｎｅｔｗｏｒｋａｓｔｈｅｉｒｔｒａｉｎｉｎｇｓｅｔ．Ｈｏｗｅｖｅｒ

，

ｄｕｒｉｎｇｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｄｉｆｆｅｒｅｎｔｎｏｄｅｓｈａｖｅｄｉｆｆｅｒｅｎｔｅｆｆｅｃｔｓ．Ｇｉｖｅｎｔｈｅｎｕｍｂｅｒｏｆｎｏｄｅｓｉｎｔｈｅｔｒａｉｎｉｎｇｓｅｔ，ａｄｉｆｆｅｒ

ｅｎｔｔｒａｉｎｉｎｇｓｕｂｓｅｔｃａｎｌｅａｄｔｏｄｉｆｆｅｒｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙ．Ｈｅｎｃｅ，ｗｅｉｎｔｒｏｄｕｃｅｔｈｅｃｏｎｃｅｐｔｏｆｓｅｅｄｎｏｄｅｓ，ｔｈｅｃｌａｓｓｉｆｉ

ｃａｔｉｏｎｐｒｏｃｅｄｕｒｅｓｔａｒｔｓｆｒｏｍｔｈｅｓｅｅｄｎｏｄｅｓ，ａｎｄａｆｔｅｒｃｏｎｔｉｎｕｏｕｓｒｅａｓｏｎｉｎｇ，ｔｈｅｌａｂｅｌｓｏｆｏｔｈｅｒｎｏｄｅｓａｒｅｉｎｆｅｒｒｅｄｉｎｔｈｅｎｅｔ

ｗｏｒｋ．ＷｅｐｒｏｐｏｓｅａｎＳＨＤＡａｌｇｏｒｉｔｈｍ（ＮｏｄｅｓＳｅｌｅｃｔｉｏｎｏｆＨｉｇｈＤｅｇｒｅｅｆｒｏｍＥａｃｈＡｆｆｉｌｉａｔｉｏｎ）ｉｎｗｈｉｃｈｔｈｅｎｏｄｅｓｏｆｈｉｇｈ

ｄｅｇｒｅｅｓｆｒｏｍｅａｃｈａｆｆｉｌｉａｔｉｏｎｂｅｌｏｎｇｉｎｇｔｏｔｈｅｎｅｔｗｏｒｋａｒｅｓｅｌｅｃｔｅｄａｎｄｍｅｒｇｅｄ，ａｎｄａｆｔｅｒｐｒｏｃｅｓｓｉｎｇ，ｔｈｅｓｅｅｄｎｏｄｅｓａｒｅｏｂ

ｔａｉｎｅｄ．Ｅｘｐｅｒｉｍｅｎｔｓｏｎｓｅｖｅｒａｌｒｅａｌｗｏｒｌｄｄａｔａｓｅｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔａｋｉｎｇｓｅｅｄｎｏｄｅｓａｓｔｈｅｔｒａｉｎｉｎｇｓｅｔｔｏｃｌａｓｓｉｆｙｍｕｌｔｉｌａ

ｂｅｌｅｄｄａｔａｃａｎｉｍｐｒｏｖｅｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ．

Ｋｅｙｗｏｒｄｓ：　ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｎｅｔｗｏｒｋ；ｓｅｅｄｎｏｄｅｓ

１　引言

　　目前，多标签分类问题已经取得了广泛关注，并且

在实际问题中有很多应用，比如：基因分类，药物发现和

文本分类

［１］

．已存在的多标签分类算法，通常都是随机

的选取节点作为训练集．然而，在分类算法执行的过程

中，网络中不同节点所起的作用不同．在给定训练集数

目的情况下，选择的训练集不同，分类精度也会不同．所

以随机方法不能有效的利用网络的拓扑结构，导致节

点的标签分类结果不稳定．

本文引入了种子节点的概念，分类从种子节点开始，

通过不断推理，得到网络中其他节点的标签．应该如何选

择种子节点，从而在给定的多标签分类算法下获得较高

的分类精度，是本文所要解决的问题，例如：一个大学的

所有学生组成了一个网络，学生的标签代表他们的兴趣

爱好，如果用一部分学生的标签来预测其他学生的标签，

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38609765

粉丝: 5
资源: 942

网络环境下的多标签分类：基于种子节点选择的SHDA算法

论文研究-基于种子节点选择的重叠社区发现算法.pdf

研究论文-基于节点加权的网络流量测量点选择算法.pdf

lpa---java.rar_LPA_半监督学习_图半监督_标签传播_标签传播算法

随机游走算法

NAMESEA算法：NSGA2优化的网络多标签种子节点选择

利用种子词与表情符号构建情感词典：异构图中的情感分布增强

基于子马尔可夫的图像分割新方法

基于图割理论的MATLAB肝脏分割及3D渲染技术

【分类算法详解】：Python数据标签化艺术的4个关键点

MATLAB数据分类算法：从基础到高级技术

最新资源