南京大学大数据处理实验:Hadoop安装与倒排索引

需积分: 0 0 下载量 137 浏览量 更新于2024-08-04 收藏 302KB PDF 举报
"这是一份关于南京大学计算机科学与技术系2017年秋季学期课程实验与课程设计的要求说明,由黄宜华和顾荣主讲,得到了Google(北京)与Intel公司中国大学合作部精品课程计划资助。课程主题为深入理解大数据-大数据处理与编程实践。实验内容涉及Hadoop的伪分布式安装、WordCount程序运行以及倒排索引的实现。实验报告的提交也有明确的规定和格式要求。" 在本次课程中,学生们将接触到以下几个关键知识点: 1. **Hadoop系统**:学生们需要在自己的本地计算机上安装并运行伪分布式Hadoop系统。Hadoop是一个开源的分布式计算框架,它允许在廉价硬件集群上处理大规模数据。伪分布式模式是在单台机器上模拟多节点集群环境,是学习和测试Hadoop功能的常用方式。 2. **WordCount程序**:Hadoop的WordCount程序是入门示例,用于统计文本中的单词频率。学生需要找到一组英文网页数据,运行这个程序并分析输出结果。这有助于理解MapReduce的基本工作流程,Map阶段将数据分片并进行预处理,Reduce阶段则对Map阶段的结果进行聚合。 3. **MapReduce**:MapReduce是一种编程模型,用于大规模数据集的并行计算。在WordCount实验中,Map函数负责拆分输入数据并生成键值对,Reduce函数则负责汇总这些键值对。学生需要理解如何在实际应用中使用MapReduce解决问题。 4. **倒排索引**:这是一种用于快速查找文档中特定词汇的数据结构。在实验2中,学生需要实现带词频属性的倒排索引,并计算每个词语的平均提及次数。这涉及到对大量文本数据的高效处理,以及在MapReduce作业中同时完成多个计算任务。 5. **实验报告**:实验报告是评估学生理解和应用知识的重要依据。报告应包括系统安装情况、实验数据说明、作业运行状态、实验结果分析、实验体会以及源代码和运行结果。这要求学生不仅要掌握技术操作,还要具备分析和总结能力。 6. **文件提交**:实验报告需按照指定格式命名并上传到指定FTP服务器,这锻炼了学生的文档管理和网络协作技能。 通过这些实验和设计任务,学生将深入理解大数据处理的核心概念,掌握Hadoop及其MapReduce模型的应用,以及如何利用这些工具解决实际问题,同时培养他们的独立思考和报告撰写能力。