阿里搜索计算平台：基于Hadoop的大数据处理与YARN改进

版权申诉

172 浏览量更新于2024-07-03 收藏 1.06MB PDF 举报

"本次分享主要围绕基于Hadoop的阿里搜索计算平台展开，由一淘搜索技术部的任春德（瓦力）进行介绍，涵盖了计算平台的架构、支撑的搜索业务、计算模型以及未来的发展方向。分享内容来自一个21页的PDF文件，涉及到Hadoop、HBase、YARN等多个关键技术组件。" 在大数据技术领域，Hadoop是一个核心的开源框架，它为企业提供了处理海量数据的能力。在"基于Hadoop的阿里搜索计算平台"中，Hadoop作为基础架构，被用于构建大规模的数据处理系统。该平台结合了Hadoop的分布式文件系统HDFS（Hadoop Distributed File System）和NoSQL数据库HBase，构成了一个强大的存储和计算体系，大约由400个节点组成，并随着时间的推移不断升级，从Hadoop-0.20.2到Hadoop-2.2，经历了HDFS-2.0、MR-1.0到YARN的演变。 YARN（Yet Another Resource Negotiator）是Hadoop 2.x引入的重要组件，它将原本Hadoop中的资源管理和计算任务调度分离，实现了集群资源的统一管理和调度。这使得在YARN平台上可以运行多种计算框架，如MapReduce、iStream和Spark，提高了资源利用率和系统的灵活性。 HBase是一个基于Hadoop的分布式列式存储系统，适合处理大规模结构化数据。在阿里搜索计算平台中，HBase用于存储全网商品库等重要数据，通过Dump+Build框架进行数据处理，同时利用iStreamService和DumpJob进行数据抓取和索引构建。此外，还使用了HQueue进行增量更新事件的处理，配合Coprocessor实现实时计算。 iStream是阿里搜索团队开发的流计算引擎，它运行在YARN之上，与MapReduce和Spark等计算模型并存，提供了一种统一的实时计算解决方案。iStream支持处理各种增量和实时流式数据，应用场景广泛，类似于Twitter的Storm、Yahoo的S4和LinkedIn的Samza。搜索业务方面，该平台支撑了包括Tmall、Taobao、B2B在内的集团内外多个搜索服务，例如如意淘搜索业务。通过全量和增量XML文件，以及索引文件的定期更新，确保搜索结果的准确性和时效性。总结来说，这个分享揭示了阿里如何利用Hadoop及其生态系统构建高效、灵活的搜索计算平台，通过持续的技术迭代和创新，实现了对海量数据的快速处理和实时响应，为用户提供优质的搜索体验。

计算平台架构

HDFS 2

HBase

YARN

Zookeeper

Hue

Thrift

Phoenix

OpenTSDB

MapReduce

iStream

Hive

Spark

Oozie

WebHDFS & HttpFS & libHDFS & NFS3

PIG

Ganglia & Monitor

Other

HistoryServer & HStats

剩余20页未读，继续阅读

passionSnail

粉丝: 456
资源: 7362

阿里搜索计算平台：基于Hadoop的大数据处理与YARN改进

大数据技术分享 Hadoop技术分享 Hadoop在反作弊中的应用 案例分享：应用MR计算用户相似度 共31页.pdf

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf

大数据技术分享 Hadoop技术分享 阿里HBase在搜索领域的设计与实践 共28页.pdf

大数据技术分享 大数据处理技术 阿里实时数据计算平台Garuda原理与实践 共33页.pdf

大数据技术之Hadoop3.x-视频教程网盘链接提取码下载 .txt

阿里巴巴大数据智能技术.zip

01.夜校培训二期-飞天大数据平台产品体系和通用技术方案分享.pdf

Hadoop开发者入门专刊.pdf

阿里大数据之路：阿里巴巴大数据实践-339页.zip

大数据技术原理与应用 林子雨版 课后习题答案.pdf

最新资源

大数据技术分享 Hadoop技术分享 Hadoop在反作弊中的应用案例分享：应用MR计算用户相似度共31页.pdf

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf

大数据技术分享 Hadoop技术分享阿里HBase在搜索领域的设计与实践共28页.pdf

大数据技术分享大数据处理技术阿里实时数据计算平台Garuda原理与实践共33页.pdf

大数据技术原理与应用林子雨版课后习题答案.pdf