没有合适的资源?快使用搜索试试~ 我知道了~
首页论文研究-分布式并行PCA算法在大样本数据集中的应用 .pdf
论文研究-分布式并行PCA算法在大样本数据集中的应用 .pdf
需积分: 0 153 浏览量
更新于2023-05-19
评论
收藏 702KB PDF 举报
分布式并行PCA算法在大样本数据集中的应用,张涛,王纯,主成分分析(principal components analysis,PCA)是一种被广泛应用的线性降维方法。传统的PCA计算方法都是采用单节点在内存中对数据进行处�
资源详情
资源评论
资源推荐

http://www.paper.edu.cn
- 1 -
中国科技论文在线
分布式并行 PCA 算法在大样本数据集中的
应用
#
张涛
1,2
,王纯
1,2
,李炜
1,2**
基金项目:国家 973 计划项目(No. 2012CB315802);国家自然科学基金(No. 61072057,60902051,61101119);
长江学者和创新团队发展计划资助;国家科技重大专项(No. 2011ZX03002-001-01,移动互联网总体架构
研究);中央高校基本科研业务费专项资金(BUPT2009RC0505)
作者简介:张涛(1987),男,硕士研究生,主要研究方向为分布式计算
通信联系人:王纯(1970),男,高工,主要研究方向为下一代网络,通信软件. E-mail: wangchun@ebupt.com
(1. 北京邮电大学网络与交换技术国家重点实验室,北京 100876; 5
2. 东信北邮信息技术有限公司,北京 100191)
摘要:主成分分析(principal components analysis,PCA)是一种被广泛应用的线性降维方法。
传统的 PCA 计算方法都是采用单节点在内存中对数据进行处理,面对海量的样本数据,这
种处理方式已经很难满足需求。本文提出了一种基于 MapReduce 计算模型的分布式并行10
PCA 计算方法,能够不受样本数量的限制,针对海量样本数据高效的进行计算。在介绍了
分布式 PCA 计算方法之后,对计算性能做了详细的对比实验。最后对一个电子商务网站 2000
多万用户的样本集进行了性能实验。
关键词:主成分分析,分布式,并行计算,大样本
中图分类号:TP391 15
Application of Distributed Parallel PCA Algorithm in Large
Sample data sets
Zhang Tao
1,2
, Wang Chun
1,2
, LI Wei
1,2
(1. State Key Lab of Networking and Switching Technology, Beijing University of Posts and 20
Telecommunications, Beijing 100876,P.R.China;
2. EBUPT Information Technology Co., Ltd. Beijing 100191,P.R.China)
Abstract: Principal component analysis (PCA) is a widely used linear dimension reduction
method. Traditional PCA calculation method uses/applies a single node for data processing in the
memory. While this approach is hard to meet the requirements in face of massive sample data set. 25
This paper presents a distributed parallel computing method of PCA based on MapReduce
computational model, which is not limited by the quantity of samples and is efficient for the
calculation of massive sample data. After the introduction of distributed computing method of
PCA, we made a detailed contrast experiment on the computing performance. Finally, we made a
performance test on more than 20 million sample sets of users from an e-commerce Website. 30
Key words: Principal Components Analysis;parallel computing;distributed;Large sample
0 引言
在数据分析、统计分析中,主成分分析(principal components analysis,PCA)是一种分
析、简化数据集的技术。它是一个正交化线性变换。这个变换把数据变换到一个新的坐标系35
统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在
第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持
数据集中对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样
低阶成分往往能够保留住数据的最重要方面
[1]
。















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0