没有合适的资源?快使用搜索试试~ 我知道了~
首页超图正则化概念分解:提升数据表示与聚类性能
本文主要探讨了一种新颖的基于超图正则化的概念分解(HRCF)方法,针对传统图模型在处理复杂数据集时,由于无法准确捕捉数据间的多元几何结构这一局限。在传统的数据表示方法中,简单图模型往往只能处理邻域内的局部关系,而忽略了高阶关系对数据整体结构的影响。为了弥补这个不足,HRCF算法引入了超图的概念,通过将具有相似属性的数据子集组合成超边,构建了一种超图模型,能够更好地反映数据间的全局联系。 HRCF的核心在于在概念分解算法中增加了超图正则项。这个正则项的作用是维护数据间的多元几何流形结构,即确保相似的数据点在高维空间中依然保持相近的结构,从而提高算法的鉴别能力。这种设计有助于增强聚类的精度,因为聚类的本质就是寻找数据点之间的内在关联和结构。 作者们在Yale库、USPS库和TDT2库上进行了实验证明,实验结果显示,HRCF算法显著提升了聚类的准确率和归一化互信息(Normalized Mutual Information, NMI),这有力地证实了该算法在数据表示中的有效性和优越性。NMI是一种衡量两个分类结果之间相似度的指标,高值表示两类数据的划分一致性高。 因此,HRCF算法不仅提供了对复杂数据集的一种有效处理方式,还为概念分解和非负矩阵分解等领域提供了新的视角,特别是在处理大规模、高维度数据的聚类任务中,其优势更为明显。这篇论文为我们理解和利用超图模型进行概念分解,以及在实际数据挖掘和机器学习应用中提升性能提供了一种有价值的方法论。
资源详情
资源推荐
第 30 卷 第 8 期
Vol. 30 No. 8
控 制 与 决 策
Control and Decision
2015 年 8 月
Aug. 2015
基于超图正则化的概念分解及在数据表示中的应用
文章编号: 1001-0920 (2015) 08-1399-06 DOI: 10.13195/j.kzyjc.2014.0793
李 雪, 赵春霞, 舒振球, 郭剑辉
(南京理工大学 计算机科学与工程学院,南京 210094)
摘 要: 针对传统图模型的流形学习无法准确表达数据间多元几何结构信息的问题, 提出一种基于超图正则化的概
念分解 (HRCF) 算法. 该算法用一组具有相似属性的数据子集构建超边, 建立数据间高阶关系的超图模型. 通过在概
念分解算法中增加超图正则项, 保持数据间多元几何流形结构, 提高了算法的鉴别性. 在 Yale 库、USPS 库和 TDT2 库
上的实验表明, HRCF 算法明显提高了聚类的准确率和归一化互信息, 验证了算法的有效性.
关键词: 概念分解;流形正则项;非负矩阵分解;聚类
中图分类号: TP391 文献标志码: A
Hyper-graph regularized concept factorization algorithm and its
application to data representation
LI Xue, ZHAO Chun-xia, SHU Zhen-qiu, GUO Jian-hui
(College of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,
China.Correspondent:LI Xue,E-mail:lixue angel@163.com)
Abstract: The manifold learning methods of the simple graph model ignored the high-order relationship between data
points. Therefore, an algorithm, called hyper-graph regularized concept factorization(HRCF) is proposed. HRCF considers
the high-order relationship of samples by constructing the hyper-edge in hyper-graph with a subset of data points sharing with
some attribute. The concept factorization(CF) algorithm can preserve the high-order relationship of the manifold structure,
by adding hyper-graph regulation term in clustering. Thus, the algorithm has more discrimination power. The experimental
results on Yale, USPS and TDT2 database show that the proposed approach provides a better representation and achieves
better clustering results in terms of accuracy and normalized mutual information, and verify the effectiveness of the proposed
method.
Keywords: concept factorization;manifold regularization;non-negative matrix factorization;cluster
0 引引引 言言言
目前, 数据表示已成为信息检索、机器学习、数
据挖掘中的热点研究之一
[1]
. 在实际应用中, 数据通
常是成千上万维的, 传统方法在处理时变得难以实现,
因此, 对高维数据进行低维表示成为数据处理的前提
条件. 用于数据表示的矩阵分解算法包括奇异值分解
(SVD)
[2]
、主成分分析 (PCA)、线性鉴别分析 (LDA)、
非负矩阵分解 (NMF)
[3]
和概念分解 (CF)
[4]
等.
Lee 等
[3]
提出的 NMF 算法基于部分的数据表示,
在不改变原始高维数据结构的前提下, 将一个高维
矩阵分解成两个非负的低秩矩阵的乘积, 由于非负性
的约束, 使得数据包含负值时 NMF 算法受到限制. 鉴
于 NMF 算法无法进行核化, Xu 等
[4]
提出了 CF 算法,
CF 模型的思想是每个聚类可用数据点的线性组合来
表示, 而每个数据点又可以用聚类中心的线性组合表
示. 近年来, Liu 等
[5]
提出了基于局部受限的概念分解
(LC-CF) 算法, 该算法根据局部坐标系编码思想对传
统的 CF 增加一个局部正则化限制. Cai 等
[6]
提出了一
种局部一致性概念分解 (LCCF) 算法, 该算法通过构
造一个传统图模型, 使其在低维表示空间中保持数据
原有的流形结构信息, 但是只考虑两个数据的成对关
系, 无法准确表达数据间的高阶关系.
收稿日期: 2014-05-20;修回日期: 2014-10-14.
基金项目: 国家自然科学基金项目(61272220, 61101197, 90820306) ;中国博士后科学基金项目(2014M551599);江苏
省社会安全图像与视频理解重点实验室基金项目(30920130122006);江苏省普通高校研究生科研创新计划
项目(KYLX 0383).
作者简介: 李雪(1989−), 女, 博士生, 从事图像处理、模式识别的研究;赵春霞(1964−), 女, 教授, 博士生导师, 从事机
器人、人工智能、图像处理与模式识别等研究.
下载后可阅读完整内容,剩余5页未读,立即下载
weixin_38704565
- 粉丝: 6
- 资源: 944
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功