从单租户Hadoop到Apache Spark的3000个租户转型
"这篇文档是关于从单一租户的Hadoop到Apache Spark中3000个租户的转型过程,主要聚焦于IBM Watson Analytics for Social Media的应用与架构演变。在2016年的SparkSummit Europe上,Ruben Pulido和Behar Veliqi分享了这一主题,讨论了旧有的架构、向多租户转变的思考过程、新的架构设计以及实施过程中学到的经验教训。" 在IBM Watson Analytics for Social Media中,这是一个专为云端商业用户设计的数据分析解决方案,它允许用户收集和分析社交媒体的内容,以便了解品牌、产品、服务以及社会问题等如何被公众感知。该服务是Watson Analytics的一部分,结合了Cognos BI、Text Analytics、Big Insights和DB2等技术,提供从端到端的流程编排。 以前的架构是一个单一租户的“大数据”ETL批处理管道。所有数据都存储在HDFS中,经过内部组件分析后再次存储回HDFS,并加载到DB2中。这种架构适用于处理大规模一次性数据导入,但并不适合处理持续流入的“细流”式数据,即社交媒体数据的实时或近乎实时分析。 随着对社交媒体数据处理效率的需求增加,IBM意识到需要转向流处理技术,因为流处理能够高效地处理不断到来的数据流。因此,他们开始了向多租户架构的转变,这旨在提高系统的可扩展性和资源利用率,同时满足不同客户对于其特定社交媒体数据流的分析需求。 新的架构设计可能包括使用Apache Spark来实现分布式计算,因为它在处理实时数据流方面表现出色,支持快速迭代和交互式查询。Spark的弹性分布式数据集(RDD)和DataFrame API使得处理大量数据变得更加高效,而Spark Streaming组件则能够处理连续的数据馈送,适应社交媒体数据的特性。 在这个转变过程中,IBM可能遇到了如数据隔离、安全性、性能优化以及资源调度等挑战。他们学到的教训可能涉及如何有效地管理和分配资源,确保多租户环境中的数据安全,以及如何调整和优化Spark集群以应对不同工作负载的需求。 总而言之,这个演讲揭示了大数据分析领域从传统的批量处理向实时分析的演进,以及在云环境中构建可扩展、多租户系统的关键考虑因素和技术挑战。
![](https://csdnimg.cn/release/download_crawler_static/88275991/bg8.jpg)
![](https://csdnimg.cn/release/download_crawler_static/88275991/bg9.jpg)
剩余41页未读,继续阅读
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/28105908048e4518a28a3457cdef3389_weixin_40191861.jpg!1)
- 粉丝: 69
- 资源: 1万+
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 构建智慧路灯大数据平台:物联网与节能解决方案
- 智慧开发区建设:探索创新解决方案
- SQL查询实践:员工、商品与销售数据分析
- 2022智慧酒店解决方案:提升服务效率与体验
- 2022年智慧景区信息化整体解决方案:打造数字化旅游新时代
- 2022智慧景区建设:大数据驱动的5A级管理与服务升级
- 2022智慧教育综合方案:迈向2.0时代的创新路径与实施策略
- 2022智慧教育:构建区域教育云,赋能学习新时代
- 2022智慧教室解决方案:融合技术提升教学新时代
- 构建智慧机场:2022年全面信息化解决方案
- 2022智慧机场建设:大数据与物联网引领的生态转型与客户体验升级
- 智慧机场2022安防解决方案:打造高效指挥与全面监控系统
- 2022智慧化工园区一体化管理与运营解决方案
- 2022智慧河长管理系统:科技助力水环境治理
- 伪随机相位编码雷达仿真及FFT增益分析
- 2022智慧管廊建设:工业化与智能化解决方案
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)