大视频时代:大数据云上处理与EMR实践

需积分: 5 0 下载量 176 浏览量 更新于2024-06-21 收藏 1.64MB PDF 举报
"藏经阁-大视频背景下的大数据云上历程.pdf" 本文主要探讨了在大视频背景下,大数据在云上的发展历程和技术应用。作者卢圣刚,一位大数据技术专家,通过具体的案例分析,深入浅出地介绍了大数据在熊猫直播数据中心的应用及选择阿里云EMR(Elastic MapReduce)的原因。 首先,对大数据进行了概述,强调了数据的智能处理、序列化、集成、访问和存储的重要性。在熊猫直播这个案例中,大数据的需求体现在以下几个方面:需要处理的数据维度多样,包括日期、平台、版本区等多个层面;数据量庞大,达到累计PB级别且每日新增数十TB;同时,需要处理大量的离线计算任务和临时查询需求。 为了满足这些需求,熊猫直播数据中心采用了特定的架构,包括MySQL、MongoDB、redis、HDFS等多种数据存储和处理技术。随着时间的发展,架构也经历了演变,最终选择了阿里云的EMR服务。 EMR是建立在阿里云ECS(Elastic Compute Service)基础上的半托管开源大数据软件栈,它包含了众多的大数据处理组件,如HDFS、YARN、MapReduce、TEZ、Spark、Hive、Pig、Hue、Zeppelin等。这种选择的原因在于EMR提供了以下优势: 1. 弹性动态伸缩:基于ECS,EMR可以快速地扩展或缩小Hadoop集群规模,以应对业务量的变化。 2. 灵活软件栈选择:用户可以根据需要快速部署各种开源大数据服务,如HBase、Kafka、Impala、Flink等。 3. 数据存储成本低:使用如d1机型的本地盘,降低成本,同时OSS(Object Storage Service)提供经济实惠的冷数据存储方案。 4. 运维便捷:EMR提供了Web UI和OpenAPI,简化了运维工作,降低了管理复杂性。 大视频背景下的大数据应用在熊猫直播数据中心展示了大数据处理的强大能力,而阿里云EMR作为云计算解决方案,为这种大规模的数据处理提供了高效的、可扩展的、低成本的平台,是应对大数据挑战的有效工具。