多标签分类实验：比较线性回归与Logistic回归等检测技术

需积分: 12 146 浏览量更新于2024-08-13 收藏 587KB PDF 举报

"这篇论文是2012年由刘佳丽和许建华发表在南京师范大学学报(工程技术版)上的，研究主题是多标签分类中的标签检测技术。论文探讨了如何通过不同的标签检测方法来提高多标签分类算法的性能，并对四种通用的标签检测技术进行了实证比较，包括线性回归阈值法、多输出线性回归法、Logistic回归法和离散Bayes规则。实验基于k近邻算法作为基线，在10个基准数据集上进行，结果显示多输出线性回归法在计算效率和分类效果上表现最佳。该研究得到了国家自然科学基金的支持，许建华博士是主要的通信作者。" 本文的重点在于多标签分类问题，这是一种机器学习任务，其中每个实例可以被分配到多个类别，而非传统的二元或单类分类。多标签分类通常涉及两个阶段：首先建立一个标签排序系统，然后通过检测技术来选择相关的标签，以提升整体分类性能。 1. **标签检测技术**：这是多标签分类的核心，它在已排序的标签列表中选择最相关的标签。论文中比较了四种技术： - **线性回归阈值法**：利用线性回归模型预测每个标签的概率，然后设置阈值来决定是否分配该标签。 - **多输出线性回归法**：此方法扩展了线性回归，同时预测所有可能标签的概率，通过优化整个输出空间的性能来提升分类效果。 - **Logistic回归法**：类似地，使用Logistic函数估计每个标签的概率，适合处理概率型输出。 - **离散Bayes规则**：基于贝叶斯定理，计算每个标签的条件概率，以确定实例属于某个标签的可能性。 2. **k近邻算法**：作为基线算法，k近邻法是一种基础且直观的分类方法，根据最近邻的标签分布来预测新实例的标签。 3. **实验设计**：在10个基准数据集上进行实验，这些数据集可能包含了各种领域和复杂性的多标签样本。通过比较不同检测技术在这些数据集上的执行时间和分类准确性，评估了它们的性能。 4. **结果分析**：实验结果显示，多输出线性回归法在计算效率和分类准确度两方面均优于其他方法，因此是多标签分类中推荐采用的技术。 5. **应用价值**：这项研究对于改进多标签分类算法，特别是在需要高效处理大量标签信息的场景下，提供了有价值的指导。这篇论文为多标签分类的标签检测提供了深入的理解和实用的比较，对于机器学习领域的研究者和工程师来说，具有重要的参考价值。

第  卷第  期

 年  月

南京师范大学学报工程技术版

JOURNAL OF NANJING NORMAL UNIVERSITY ENGINEERING AND TECHNOLOGY EDITION

Vol No

Dec

收稿日期

基金项目国家自然科学基金

通讯联系人许建华博士教授研究方向模式识别机器学习和生物信息学Emailxujianhuanjnueducn

多标签分类中标签检测技术的实验比较

刘佳丽许建华

南京师范大学计算机科学与技术学院江苏南京 

摘要当前的部分多标签分类算法本质上由两项分类技术级联而成前一级建立标签排序系统后一级检测

相关标签兼顾进一步改善分类性能本文针对不同标签检测技术开展研究收集并实现  种通用标签检测技

术线性回归阈值法多输出线性回归法Logistic 回归法以及离散 Bayes 规则以 k 近邻算法作为基线算法在 

个基准数据集上进行实验比较实验结果表明从计算时间与分类性能两个方面来说多输出线性回归法是值得

推荐的方法

关键词多标签分类k 近邻法线性回归阈值函数多输出线性回归Logistic 回归离散 Bayes 规则

中图分类号TP文献标志码A文章编号

An Empirical Comparison of Label Detection Techniques for

MultiLabel Classification

Liu JialiXu Jianhua

 School of Computer Science and TechnologyNanjing Normal UniversityNanjing China

AbstractNow some multilabel classification methods cascade two different classification techniques in essenceThe

former is to build a label ranking systemand the latter to detect relevant labels effectively and improve classification per

formance furtherTo compare the different detection techniqueswe collect four general label detection approacheslinear

regression thresholdmultiple output linear regressionlogistic regression and discrete Bayesian methodsWith knearest

neighbor algorithm as a baseline methodwe conduct an extensive experimental comparison on ten benchmark data sets

Our experimental results demonstrate that multiple output linear regression technique is recommendableaccording to

both computational time and classification performance

Key words multilabel classification knearest neighbor algorithm linear regression threshold function multioutput

linear regressionlogistic regressiondiscrete Bayesian rule

传统的两类或者多类单标签分类仅仅需要预测未知样本的一个标签它的一个推广是多标签分

类则需要确定未知样本的一组标签称之为相关标签子集当前多标签分类在图像与视频标注文本

分类基因与蛋白质功能分类音乐情调分类中得到广泛的应用例如一幅海滨拍摄的相片可能会标注为

沙滩大海和蓝天一篇关于刘翔的新闻可能归属时政体育社会新闻栏目近  年来许多学者提出来了

大量的多标签分类算法大体上可以分成四大类基于数据集分解的方法



利用分解手段一对多一

对一和标签幂集将多标签数据集分解成一个或者多个两类或者多类数据子集然后为每一个子集设计

一个子分类器最后组装成一个多标签分类算法其优点是可以利用现有的单标签算法及其开源软件快速

地构造一个多标签分类算法算法扩展方法



扩展现有的多类算法直接处理多标签数据集可以充分

考虑标签相关性但高计算复杂性是这类算法的最大弱点混合方法



在扩展某一个算法的同时采用一

个或者两个分解手段在保持低计算复杂性的基础上尽可能考虑标签相关性集成算法



利用前  类算

法作为基分类器构造集成算法面临的困难仍然是高计算复杂性

对于前  类算法大多是从经典的单标签分类发展而来的其中的部分算法只能产生一个标签排序系



下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38708223

粉丝: 5
资源: 915

多标签分类实验：比较线性回归与Logistic回归等检测技术

深度学习目标检测文档.docx

基于支持向量机的信用卡信誉检测 (2012年)

caffe vs 2012

基于极限学习机的离群值检测

马里奥matlab代码-hankelet:CVPR项目2012

使用深度卷积网络在ImageNet上进行分类任务

RFC中文文档-txt

少量类标签下的概念漂移检测算法研究

2012年KNN半监督学习改进算法：提高分类准确率

2012年果蝇Mef2基因多克隆抗体的高效制备与功能验证

最新资源