阿里搜索计算平台：Hadoop与YARN的演进

阿里搜索

Hadoop

需积分: 9 135 浏览量更新于2024-07-18 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"阿里技术沙龙-基于Hadoop的阿里搜索计算平台，由一淘搜索技术部的任春德（瓦力）分享，涵盖了Hadoop计算平台架构、搜索业务、计算模型以及YARN的改进等内容，旨在探讨如何利用Hadoop技术构建大规模的搜索计算平台。" 阿里搜索计算平台是基于Hadoop构建的，由大约400个节点组成，经历了从Hadoop-0.20.2到Hadoop-2.2的版本升级，其中包括HDFS-2.0、MR-1.0以及YARN的引入。平台采用了HDFS作为分布式文件系统，HBase作为大规模数据存储，YARN负责集群资源管理和调度，Zookeeper用于协调服务，还有Hue提供用户界面，Thrift用于不同语言间通信，Phoenix提供SQL接口，OpenTSDB处理时序数据，MapReduce处理批量计算任务，iStream支持实时流计算，Hive提供数据分析，Oozie管理工作流，WebHDFS、HttpFS、libHDFS和NFS3提供了多种访问HDFS的方式，PIG用于大数据处理，Ganglia和Monitor进行监控，HistoryServer和HStats记录作业历史。平台支撑了包括Tmall、Taobao、主站B2B、etao、OpenSearch和OpenCrawl在内的多个搜索业务，其中以HBase为核心的全网商品库是一个重要的应用实例。通过Dump+Build框架，数据从XML文件中抽取，经过iStreamService和DumpJob处理，生成IndexBuildJob，然后通过HQueueXML文件进行索引构建，最终服务于iSearch搜索引擎。计算模型方面，除了传统的MapReduce模型，阿里搜索团队还开发了iStream，这是一个运行在YARN上的流计算引擎，它能够与MapReduce、Spark等并行计算框架统一调度，提供了一种统一的集群解决方案，支持增量和实时流式数据处理。这使得平台在功能和应用场景上可以与Twitter的Storm、Yahoo的S4和LinkedIn的Samza等实时计算框架相媲美。未来发展方向可能包括优化YARN以提升资源利用率，扩展计算模型以适应更多类型的数据处理需求，增强系统的稳定性和可扩展性，以及进一步推动搜索业务的智能化和个性化。此外，随着大数据技术的不断发展，可能会引入更多的先进技术，如机器学习、人工智能等，以提升搜索结果的准确性和用户体验。

资源详情

资源推荐

计算平台架构

HDFS 2

HBase

YARN

Zookeeper

Hue

Thrift

Phoenix

OpenTSDB

MapReduce

iStream

Hive

Spark

Oozie

WebHDFS & HttpFS & libHDFS & NFS3

PIG

Ganglia & Monitor

Other

HistoryServer & HStats

剩余20页未读，继续阅读

fanjd1989

粉丝: 0
资源: 2

阿里搜索计算平台：Hadoop与YARN的演进

hadoop插件apache-hadoop-3.1.0-winutils-master.zip

hadoop-common-2.6.0-bin-master.zip

hadoop jar hadoop-mapreduce-examples-3.2.4.jar pi 2 4

hadoop jar ~/hadoop2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount hdfs://10.0.2.15:9000/words.txt hdfs://10.0.2.15:9000/out JAR does not exist or is not a normal file: /home/datasci/hadoop2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar

hadoop fs -put /home/datasci/words.txt /home/datasci/下载/hadoop-2.10.0/name-data put: `/home/datasci/下载/hadoop-2.10.0/name-data': No such file or directory: `hdfs://10.0.2.15:9000/home/datasci/下载/hadoop-2.10.0/name-data'

scp -r /home/hadoop/azkaban/azkaban-exec root@slave01:/home/hadoop/azkaban/azkaban-exec

Unresolved dependency: 'org.apache.hadoop:hadoop-MapReduce-client-core:jar:2.7.7'

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 10 100用这个方法生成小数点后5位数

hadoop-mapreduce-client-core

flink-shaded-hadoop-2-uber-2.7.5-10.0.jar

hadoop-mapreduce-client-common-2.6.0-cdh6.4.4.jar 下载

怎么下载hadoop-eclipse-plugin-3.3.1，

hadoop-eclipse-plugin-2.7.4-jar

Not a valid JAR: /home/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar

hadoop-eclipse-plugin-3.3.0

hadoop-eclipse-plugin-2.10

wget --no-check-certificate https://repo.huaweicloud.com/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz是什么意思

如何在ubuntu解压hadoop-mapreduce-examples-2.10.0-sources.jar

<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-core</artifactId> <version>3.2.1</version> </dependency>

最新资源