本资源主要探讨的是大数据存储与处理中的一个重要领域——数据流挖掘,特别是在海量、实时数据处理场景下的技术挑战和解决方案。课程由陈一帅教授提供,链接为<http://netcomm.bjtu.edu.cn/?page_id=397>,课程内容围绕数据流模型、系统设计以及实际应用展开。 首先,数据流模型是针对大数据流数据的特点提出的,它强调数据的不断流动和不可预测的到达速率。这种模型的特点包括无限性、非平稳性和不可预知的处理需求。由于大数据系统面临存储和处理能力的限制,特别是NSA(美国棱镜门)事件后,如何在有限存储条件下实现实时处理成为关键问题。 在处理大数据流时,主要涉及几种策略: 1. **抽样**(Sampling):分为固定比率抽样(例如1 in 10的比例)和固定大小抽样(如保持一定数量s的元素)。搜索引擎中的应用场景是判断用户搜索请求中有多少重复的查询,通过随机取样降低存储压力,比如10%的样本中统计重复搜索的占比。 2. **过滤**(Filtering):通过白名单过滤,只保留特定属性的元素,如统计某些热门item的频率或特定查询的数量,以及评估用户访问的均匀性。 3. **计数**:如窗口内计数,用于统计不同元素(如查询关键字、网页、话题等)的出现次数,以及计算它们的流行度,这在Google、Yahoo和微博等平台中被用来发现最热门的内容。 4. **在线学习模型**:区分固定查询(如历史最高温度,事先定义)和Ad-hoc查询(即临时查询,根据已存储内容响应)。在线学习模型允许系统在有限资源下处理这类变化中的查询。 5. **特征提取**:通过计算各阶矩(如方差、均值等)来分析元素的分布和流行程度,帮助解决如最流行查询关键字、最热门页面等应用问题。 6. **数据统计问题**:在大数据环境下,即使是最简单的统计问题也需要新颖的方法,例如针对流数据的处理,以适应数据流的特性。 在实际应用中,数据流挖掘技术被广泛应用于搜索引擎、社交媒体分析、传感器网络、电话记录分析、网络安全(如检测DDoS攻击)以及网络流量优化等领域,通过抽样和过滤策略,有效地处理大规模数据流,确保实时性和效率。 总结来说,该资源深入剖析了大数据存储与处理中数据流挖掘的关键概念和技术,为理解和解决实际场景中的实时数据分析提供了理论基础和实用策略。
- 粉丝: 118
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新型矿用本安直流稳压电源设计:双重保护电路
- 煤矿掘进工作面安全因素研究:结构方程模型
- 利用同位素位移探测原子内部新型力
- 钻锚机钻臂动力学仿真分析与优化
- 钻孔成像技术在巷道松动圈检测与支护设计中的应用
- 极化与非极化ep碰撞中J/ψ的Sivers与cos2φ效应:理论分析与COMPASS验证
- 新疆矿区1200m深孔钻探关键技术与实践
- 建筑行业事故预防:综合动态事故致因理论的应用
- 北斗卫星监测系统在电网塔形实时监控中的应用
- 煤层气羽状水平井数值模拟:交替隐式算法的应用
- 开放字符串T对偶与双空间坐标变换
- 煤矿瓦斯抽采半径测定新方法——瓦斯储量法
- 大倾角大采高工作面设备稳定与安全控制关键技术
- 超标违规背景下的热波动影响分析
- 中国煤矿选煤设计进展与挑战:历史、现状与未来发展
- 反演技术与RBF神经网络在移动机器人控制中的应用