收稿日期:20140405; 修 回 日 期:20140516 基 金 项 目: 国 家 自 然 科 学 基 金 资 助 项 目 (51277023);吉 林 省 科 技 发 展 计 划 项 目
(20150204084GX);吉林市科技计划项目(201414011)
作者简介:娄建楼(1972),男,副教授,硕导,主要研究方向为云计算、物联网应用、大数据处理等(loujianlou@qq.com);邹伟(1987),男,硕士
研究生,主要研究方向为大数据处理、云计算、分布式计算;王玲(1981),女,硕导,博士,主要研究方向为数据挖掘、云计算、数据流处理、传感器网
络、空间数据库、智能配电网等;曲朝阳(1964),男,教授,硕导,博士,主要研究方向为智能电网与电力信息化、虚拟现实、网络技术等;史春雷
(1988),男,硕士研究生,主要研究方向为数据挖掘、传感器网络、空间数据库.
社交网络大数据下贪婪式实时网站推荐算法
娄建楼,邹 伟,王 玲,曲朝阳,史春雷
(东北电力大学 信息工程学院,吉林 吉林 132012)
摘 要:社交网络每天都会产生结构化、半结构和非结构化的大数据,数据的增长速度超过了对硬件需求的摩
尔定律。在社交网络中还存在各种恶意评价、刷分和刷网站关注度等不良现象,对大数据的分析处理带来了巨
大挑战。为了提高数据的处理效率和网站推荐的准确性,提出了一种在 Hadoop云平台下基于用户的贪婪式实
时近似网站推荐的
RTG算法。算法通过迭代寻优算法找到最合适的用户数量作为网站推荐评价的用户标准,
应用频度近似算法完成对网站的推荐,通过实验证明了方法的效率和有效性。
关键词:社交网络大数据;Hadoop;网站推荐;实时
中图分类号:TP301.6;TP181 文献标志码:A 文章编号:10013695(2015)05136104
doi:10.3969/j.issn.10013695.2015.05.020
Userbasedgreedyrealtimewebsitesrecommendation
algorithmforbigdatainsocialnetwork
LOUJianlou,ZOUWei,WANGLing,QUZhaoyang,SHIChunlei
(CollegeofInformationEngineering,NortheastDianliUniversity,JilinJilin132012,China)
Abstract:Thesocialnetworkwillproducebigdataofstructured,semistructuredandunstructuredeveryday,andthegrowth
ofthedataexceedsthedemandforhardwareofMoore’slaw.Especiallytherearesomebadphenomenonsuchasvariousmali
ciousevaluation,orgettingpointsandattentionbyunfairmeans,whichisachallengeforbigdataofprocessingandanalyzing.
Inordertoimprovetheaccuracyofthedataprocessingefficiencyandwebsiterecommendation,thispaperproposedanew
methodthatnamedRTGalgorithmtosolvethisprobleminaHadoopcloudplatform.Itfoundthemostsuitablenumberofus
ersastheevaluationofuserstandardofthewebsitesrecommendationapplyingiterativeoptimizationalgorithmasthefirststep
,
andthenthefrequencyapproximationalgorithmcompletedtherecommendationofwebsitesbytheexperimentalanalysisofreal
datasets,atlasttheexperimentprovestheefficiencyandeffectivenessofthemethod.
Keywords:socialnetworkbigdata;Hadoop;websitesrecommendation;realtime
据中国互联网信息中心 CNNIC发布报告显示,截至 2013
年 6月底,我国网民规模达 5.91亿,其中手机网民规模达 4.64
亿,较 2012年底增加 4379万人,占比提升至 78.5%。随着互
联网、移动互联网、物联网和云计算的不断发展,数据正以前所
未有的速度在不断地增长和累积,大数据时代已经来到
[1]
。
一些新兴的互联网公司大规模地收集数据,利用新技术判断客
户的行为趋向,为其提供相应的服务,获取了巨大的价值。那
些缺少数据资产和缺少强大的数据分析能力的公司无疑将处
于颠覆的边缘。而有些公司数十年如一日的坚持积累当时被
视做“废料”的数据,如今已演化为数据资产,凭借着这些数据
资产,公司在相关行业将极具竞争力。为了对这些数据资产重
新进行优化配置,让其产生其隐藏的巨大价值,就要求必须实
时处理分析这些已有的大数据并产生大数据。
就社交网络而言(如
Ebay、新浪、Facebook等),每天都会
有许多的点击流量,会产生结构化、半结构化和非结构化的海
量数据。社交网络用户行为数据中包含许多噪声数据和可以
忽略的数据,如恶意评价、刷分和刷网站关注度等。为了提高
社交网络数据分析的效率,可以采取分析用户实名制的信息,
从中过滤掉游客(没有实名注册的用户)产生的数据,再通过
分析关注度高的用户以进一步减少数据的处理量。具体的数
据流如图
1所示。
!
相关技术
针对社交网络产生的大数据如何处理,如何通过这些数据
产生价值,需要使用大数据处理技术和推荐技术来进行分析。
!
!
大数据处理技术
MapReduce是现在最受关注的大数据处理技术,但 Map
Reduce编程模式也有自身的缺陷,如迭代和数据的交互困难。
通常分布式算法都包含有迭代过程,并且在数据内部存在一定
的依赖关系。在原始的 MapReduce中,只能通过多趟的外部
链式调用 MapReduce作业
[2,3]
来支持迭代和数据交互。针对
MapReduce编程模式的缺陷,HaLoop
[4]
把迭代的过程放到 Map
第 32卷第 5期
2015年 5月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.32No.5
May 2015