Python操作Hadoop框架对比与使用教程

需积分: 0 192 浏览量更新于2024-09-02 1 收藏 247KB PDF 举报

"Hadoop中的Python框架使用指南，包括Hadoop流、mrjob、dumbo、hadoopy和pydoop的介绍和比较，通过转化谷歌图书N-元数据进行性能测试" 在Hadoop生态系统中，尽管Java是主要的编程语言，但Python因其简洁和强大的科学计算能力而深受许多开发者喜爱。为了使Python用户能更好地利用Hadoop进行大数据处理，出现了多个Python框架。本指南将重点介绍以下几个框架： 1. **Hadoop流(Streaming)**: 这是Hadoop自带的一个功能，允许使用任何可执行程序（如Python脚本）作为MapReduce任务的Mapper和Reducer。它通过标准输入和输出进行数据交互，适合处理文本数据，且速度较快，透明度高。 2. **mrjob**: mrjob是一个Python库，简化了在本地、Hadoop或Amazon EMR上运行MapReduce作业的过程。它提供了丰富的配置选项和自动化处理，但相对于Hadoop流，可能会有性能上的损失。 3. **dumbo**: dumbo是一个轻量级的Python库，用于编写和运行Hadoop MapReduce作业。它的设计目的是简化Hadoop的使用，支持更复杂的任务，但执行效率相比Hadoop流较低。 4. **hadoopy**: 这是一个简单的Python接口，用于读取和写入HDFS文件以及运行MapReduce作业。hadoopy提供了一种更Pythonic的方式来操作Hadoop，但可能不如其他框架全面。 5. **pydoop**: pydoop是Python对Hadoop的完整绑定，提供了访问Hadoop API的直接方式，包括MapReduce、HDFS和HBase等。pydoop允许开发者直接在Python中编写Mapper和Reducer，性能接近原生Java，适合复杂的Hadoop任务。在性能测试中，作者选择了谷歌图书N-元数据集作为实验数据，目标是计算相邻词汇组合的出现频率。通过不同框架运行这个任务，可以对比它们的性能和功能。这种测试方法揭示了不同框架在处理特定问题时的优劣。总结来说，选择合适的Python框架取决于具体需求。如果追求速度和简单性，Hadoop流可能是最佳选择；若需要在Amazon EMR上快速部署，mrjob是个好工具；对于更复杂的任务和更好的Python集成，dumbo和pydoop则更具优势。理解这些框架的特性和适用场景，可以帮助开发者更有效地利用Hadoop处理Python脚本。

Hadoop中的中的Python框架的使用指南框架的使用指南

主要介绍了Hadoop中的Python框架的使用指南,Hadoop一般使用复杂的Java操作,但通过该框架使得Python脚本操作Hadoop成为了可能,需要的朋友可

以参考下

最近，我加入了Cloudera，在这之前，我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但

Apache Hadoop的生态系统大部分都是用Java来实现的，也是为Java准备的，这让我很恼火。所以，我的头等大事变成了寻找一些Python可以用的Hadoop框架。

在这篇文章里，我会把我个人对这些框架的一些无关科学的看法写下来，这些框架包括:

Hadoop流

mrjob

dumbo

hadoopy

pydoop

其它

最终，在我的看来，Hadoop的数据流(streaming)是最快也是最透明的选项，而且最适合于文本处理。mrjob最适合于在Amazon EMR上快速工作，但是会有显著的性能

损失。dumbo 对于大多数复杂的工作都很方便(对象作为键名(key))，但是仍然比数据流(streaming)要慢。

请继续往下阅读，以了解实现细节，性能以及功能的比较。

一个有趣的问题一个有趣的问题

为了测试不同的框架，我们不会做“统计词数”的实验，转而去转化谷歌图书N-元数据。 N-元代表一个n个词构成的元组。这个n-元数据集提供了谷歌图书文集中以年份分

组的所有1-，2-，3-，4-，5-元记录的统计数目。在这个n-元数据集中的每行记录都由三个域构成：n-元，年份，观测次数。(您能够在http://books.google.com/ngrams

取得数据)。

我们希望去汇总数据以观测统计任何一对相互临近的词组合所出现的次数，并以年份分组。实验结果将使我们能够判断出是否有词组合在某一年中比正常情况出现的更

为频繁。如果统计时，有两个词在四个词的距离内出现过，那么我们定义两个词是“临近”的。或等价地，如果两个词在2-，3-或者5-元记录中出现过，那么我们也定义它

们是”临近“的。一次，实验的最终产物会包含一个2-元记录，年份和统计次数。

有一个微妙的地方必须强调。n-元数据集中每个数据的值都是通过整个谷歌图书语料库来计算的。从原理上来说，给定一个5-元数据集，我可以通过简单地聚合正确的n-

元来计算出4-元、3-元和2-元数据集。例如，当5-元数据集包含

(the, cat, in, the, hat) 1999 20

(the, cat, is, on, youtube) 1999 13

(how, are, you, doing, today) 1986 5000

时，我们可以将它聚合为2-元数据集以得出如下记录

(the, cat) 1999 33 // 也就是, 20 + 13

然而，实际应用中，只有在整个语料库中出现了40次以上的n元组才会被统计进来。所以，如果某个5元组达不到40次的阈值，那么Google也提供组成这个5元组的2元组

数据，这其中有一些或许能够达到阈值。出于这个原因，我们用相邻词的二元数据，隔一个词的三元组，隔两个词的四元组，以此类推。换句话说，与给定二元组相

比，三元组多的只是最外层的词。除了对可能的稀疏n元数据更敏感，只用n元组最外层的词还有助于避免重复计算。总的来说，我们将在2元、3元、4元和5元数据集上

进行计算。

MapReduce的伪代码来实现这个解决方案类似这样：

def map(record):

(ngram, year, count) = unpack(record)

// 确保word1为字典第一个字

(word1, word2) = sorted(ngram[first], ngram[last])

key = (word1, word2, year)

emit(key, count)

def reduce(key, values):

emit(key, sum(values))

硬件硬件

这些MapReduce组件在一个大约20GB的随机数据子集上执行。完整的数据集涵盖1500个文件；我们用这个脚本选取一个随机子集。文件名保持完整，这一点相当重

要，因为文件名确定了数据块的n-元中n的值。

Hadoop集群包含5个使用CentOS 6.2 x64的虚拟节点，每个都有4个CPU，10GB RAM，100GB硬盘容量，并且运行CDH4。集群每次能够执行20个并行运算，每个组

件能够执行10个减速器。

集群上运行的软件版本如下：

Hadoop:2.0.0-cdh4.1.2

Python:2.6.6

mrjob:0.4-dev

dumbo:0.21.36

hadoopy:0.6.0

pydoop:0.7(PyPI)库中包含最新版本

java:1.6

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38704284

粉丝: 3
资源: 987

Python操作Hadoop框架对比与使用教程

Hadoop和Spark初学者指南：基础安装与实践应用 0基础！！易懂！！.html

Hadoop与Python结合实战指南

Ubuntu集群下的Apache Hadoop 2.6.0 Python安装配置指南

使用Python操作Hadoop实战指南

Python与Hadoop深度探索：实战指南

Python与Hadoop结合实现MapReduce作业指南

大数据入门必备：Hadoop、Python与Jupyter Notebook

毕业设计项目，使用scrapy框架和hadoop生态圈框架实现的招聘信息大数据处理.zip

微软Azure云计算平台与Hadoop框架实践指南

使用Hadoop MapReduce处理大数据实战指南

最新资源