大数据导论课程报告-李响：虚拟机与Hadoop配置及WordCount测试

需积分: 0 47 浏览量更新于2024-08-05 收藏 422KB PDF 举报

"该资源是一份关于大数据导论课程的测试报告，由李响同学完成。报告涵盖了测试环境、应用说明、研究目的等多个方面。在测试环境中，详细列出了CPU配置、虚拟机设置、Hadoop和Java的版本信息，以及数据集的特性。测试应用是WordCount程序，用于统计大数据集中的英文字符频率。报告还探讨了研究目的和实际意义，以及遇到的问题和挑战。" 报告中详细介绍了测试环境的各个组成部分： 1. **CPU配置**：使用的CPU为Intel(R) Core(TM) i5-7200U，主频2.50GHz，具有4个核心，每个核心有512KB的二级缓存和3072KB的三级缓存，数据宽度为64bit。这种配置能够提供良好的计算性能，适合处理大数据计算任务。 2. **虚拟机配置**：使用VMware 14.0.0虚拟机软件，搭载Ubuntu 18.04.1操作系统。虚拟机分配了2GB内存、20GB硬盘空间，并设置了1个处理器核心，网络适配器采用NAT模式。这样的配置可以模拟多节点环境，用于Hadoop集群的运行。 3. **Hadoop和Java配置**：使用Hadoop 2.9.1版本，安装路径为/usr/local/hadoop，配合Java jdk1.8.0_211，Java运行环境为Java(TM) SE Runtime Environment (build 1.8.0_211-b12)和JavaHotSpot(TM) 64-Bit Server VM (build 25.211-b12, mixed mode)。这个组合确保了Hadoop框架的正常运行。 4. **数据集特征**：报告中的数据集是一个NLP的word2vector数据集，大约100MB，包含17万个英文单词。这种规模的数据集对于测试分布式计算性能和WordCount程序的有效性很有代表性。 5. **测试应用说明**：测试应用是WordCount程序，它的主要任务是对大数据集中的英文字符进行频率统计，体现了Hadoop的并行处理和分布式存储能力。WordCount不仅易于上手，而且有广泛的实际应用场景，如文本分析、信息检索等。 6. **研究目的和意义**：选择WordCount作为研究对象，一方面是因为其简单易懂，便于初学者快速理解Hadoop的工作原理；另一方面，它对输入文本无特殊要求，可适应多种文本处理需求；此外，WordCount在实际中有诸多应用，如搜索引擎的索引构建、文档相似度分析等。报告中没有提供具体的测试结果、问题挑战的细节，以及角色分工和心得体会，这些可能是后续部分的内容，但在此摘要中并未给出。

课程报告

课程名称：大数据导论

专业班级： CS1802

学号： U201814531

姓名：李响

指导教师：肖江

报告日期： 2019. 5

计算机科学与技术学院

下载后可阅读完整内容，剩余5页未读，立即下载

三更寒天

粉丝: 900
资源: 326

大数据导论课程报告-李响：虚拟机与Hadoop配置及WordCount测试

"CS1802-U201814531-李响1 实验报告：简单组合电路设计

计算机科学与技术专业数据结构实验报告-李响

数据结构实验报告：线性表、链表、二叉树、图的实现

CS1802-U201814531 李响-11

CS1802-U201814531 李响-31

CS1802-U201814531 李响-41

CS1802-U201814531 李响-21

CS1802-U201814531-李响-第1次作业1

CS1802-U201814531-李响-第3次作业1

CS1802-U201814531-李响-第4次作业1

最新资源