南京大学大数据处理实验：Hadoop安装与倒排索引

下载需积分: 0 | PDF格式 | 302KB | 更新于2024-08-04 | 146 浏览量 | 举报

"这是一份关于南京大学计算机科学与技术系2017年秋季学期课程实验与课程设计的要求说明，由黄宜华和顾荣主讲，得到了Google(北京)与Intel公司中国大学合作部精品课程计划资助。课程主题为深入理解大数据-大数据处理与编程实践。实验内容涉及Hadoop的伪分布式安装、WordCount程序运行以及倒排索引的实现。实验报告的提交也有明确的规定和格式要求。" 在本次课程中，学生们将接触到以下几个关键知识点： 1. **Hadoop系统**：学生们需要在自己的本地计算机上安装并运行伪分布式Hadoop系统。Hadoop是一个开源的分布式计算框架，它允许在廉价硬件集群上处理大规模数据。伪分布式模式是在单台机器上模拟多节点集群环境，是学习和测试Hadoop功能的常用方式。 2. **WordCount程序**：Hadoop的WordCount程序是入门示例，用于统计文本中的单词频率。学生需要找到一组英文网页数据，运行这个程序并分析输出结果。这有助于理解MapReduce的基本工作流程，Map阶段将数据分片并进行预处理，Reduce阶段则对Map阶段的结果进行聚合。 3. **MapReduce**：MapReduce是一种编程模型，用于大规模数据集的并行计算。在WordCount实验中，Map函数负责拆分输入数据并生成键值对，Reduce函数则负责汇总这些键值对。学生需要理解如何在实际应用中使用MapReduce解决问题。 4. **倒排索引**：这是一种用于快速查找文档中特定词汇的数据结构。在实验2中，学生需要实现带词频属性的倒排索引，并计算每个词语的平均提及次数。这涉及到对大量文本数据的高效处理，以及在MapReduce作业中同时完成多个计算任务。 5. **实验报告**：实验报告是评估学生理解和应用知识的重要依据。报告应包括系统安装情况、实验数据说明、作业运行状态、实验结果分析、实验体会以及源代码和运行结果。这要求学生不仅要掌握技术操作，还要具备分析和总结能力。 6. **文件提交**：实验报告需按照指定格式命名并上传到指定FTP服务器，这锻炼了学生的文档管理和网络协作技能。通过这些实验和设计任务，学生将深入理解大数据处理的核心概念，掌握Hadoop及其MapReduce模型的应用，以及如何利用这些工具解决实际问题，同时培养他们的独立思考和报告撰写能力。