Pinterest的大数据转型:构建基于AWS和Hadoop的自服务平台
60 浏览量
更新于2024-08-28
收藏 334KB PDF 举报
"使用AWS及Hadoop,Pinterest的自服务平台打造历程
Pinterest在构建其大数据平台时,选择了亚马逊网络服务(AWS)和Apache Hadoop作为核心组件。这一决策背后的主要原因是这两个技术的可扩展性和灵活性,它们能够应对Pinterest不断增长的数据处理需求。Pinterest的系统中包含了超过300亿个Pins,这需要一个强大的平台来管理和分析如此庞大的数据。
在描述中提到,Pinterest每天处理20TB的新数据,并在Amazon S3中存储约10TB的数据。Hadoop被用来处理这些数据,用于功能如RelatedPins(相关Pins)、GuidedSearch(引导式搜索)以及图像处理,确保用户能够获取最新且最相关的Pins内容。此外,Hadoop也用于执行大量的数据分析任务,帮助 Pinterest评估和理解用户行为的变化。
为了加速大数据应用的开发,Pinterest决定将单一的Hadoop集群转变为一个通用的自服务平台。这一转变旨在解决Hadoop的原始设计中缺乏云服务和易用性的问题。通过引入多租户隔离,确保不同应用程序可以在不影响彼此的情况下运行。同时,平台需要具备弹性,能够在需求高峰时快速扩展,并在不需要时缩容,而不会导致服务中断或数据丢失。多集群支持也被视为必要,以满足隐私、安全和成本分摊的需求。
在构建自服务平台的过程中,Pinterest考虑了多种解决方案,这些解决方案可能包括Hadoop的管理和部署工具,如YARN、Kerberos等,以及AWS的服务如EMR(Elastic Map Reduce),它提供了对Hadoop集群的自动化管理和扩展能力。选择这些工具和策略的目标是创建一个既能够满足技术团队需求,又能为非技术用户提供便捷服务的平台。
通过这种方式,Pinterest成功地将原本静态的大数据基础设施转变为一个动态、响应迅速的自服务平台,从而更好地服务于其用户和内部开发团队,推动了业务的增长和创新。这个过程展示了如何结合开源技术与云计算服务,以适应大数据时代不断变化的挑战。
2021-01-31 上传
点击了解资源详情
2021-05-18 上传
2021-05-17 上传
2021-05-03 上传
2022-07-06 上传
2022-07-06 上传
点击了解资源详情
weixin_38594266
- 粉丝: 4
- 资源: 907
最新资源
- motif-mark:盒式外显子基序可视化
- android-group,java小项目源码,自动售货机软件源码java
- 5de970ee89108da0b7e19eafd4beaaad:应用程序 ID 11155
- dumi
- Machine-Learning-NCF-class:应用机器学习班
- Merge Balls-crx插件
- DOM-Document-Object-Model,java项目源码下载,java免签
- YOLO_V1
- empresa-presentacion-sencilla-1:监控摄像机系统公司,警报器等
- UP
- 利用紫金桥软件完成现场工艺流程图的绘制.zip
- 实现文字的整体变色效果
- test-sample-for-tutorial
- UofI_eyelink_file_analizers
- learning:只是用于学习新事物的小型一次性项目的存储库
- tarena,java获取网页源码,网上教学系统源码java