一、实验内容西瓜数据集（watermelon.txt）各个特征的含义如下：数据集的每一行由3个数值组成，前2个数字用\t分隔，后2个数字用空格分隔。对于数据集文件watermelon.txt，请编写MapReduce程序，同时采用密度和含糖率数据作为特征，设类别数为2，利用 K-Means 聚类方法通过多次迭代对数据进行聚类。输出聚类结果，包括数据点信息与对应簇序号，并观察输出结果是否正确； 9. 使用Python将聚类结果表示在二维平面上。写出完整代码

时间: 2023-11-22 16:55:44 浏览: 292

由于题目中要求使用MapReduce编写K-Means算法，这里给出使用Hadoop Streaming实现的代码。 1. Mapper mapper读入每行数据，将密度和含糖率作为特征，输出键值对（簇序号，数据点信息）。 ```python #!/usr/bin/env python import sys # 读入聚类中心 centers = [] with open('centers.txt', 'r') as f: for line in f: center = line.strip().split('\t') centers.append((float(center[0]), float(center[1]))) # mapper for line in sys.stdin: data = line.strip().split('\t') x = float(data[0]) y = float(data[1]) min_dist = float('inf') cluster = -1 for i in range(len(centers)): center_x, center_y = centers[i] dist = (x - center_x) ** 2 + (y - center_y) ** 2 if dist < min_dist: min_dist = dist cluster = i print('{}\t{} {} {}'.format(cluster, x, y, data[2])) ``` 2. Reducer reducer读入每个簇的数据点信息，计算新的聚类中心，并输出键值对（新的簇序号，数据点信息）。 ```python #!/usr/bin/env python import sys # reducer cluster_dict = {} for line in sys.stdin: data = line.strip().split('\t') cluster = int(data[0]) x = float(data[1]) y = float(data[2]) info = data[3] if cluster not in cluster_dict: cluster_dict[cluster] = [(x, y)] else: cluster_dict[cluster].append((x, y)) for cluster in cluster_dict: center_x = sum([point[0] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) center_y = sum([point[1] for point in cluster_dict[cluster]]) / len(cluster_dict[cluster]) print('{}\t{} {}\t{}'.format(cluster, center_x, center_y, len(cluster_dict[cluster]))) for point in cluster_dict[cluster]: print('{}\t{} {} {}'.format(cluster, point[0], point[1], info)) ``` 3. Driver driver程序用于多次迭代运行MapReduce程序，并将最终的聚类结果写入文件。 ```python #!/usr/bin/env python import os import shutil # 删除旧的输出目录 if os.path.exists('output'): shutil.rmtree('output') # 第一次迭代 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter0 \ -mapper "python mapper.py" \ -reducer "python reducer.py"') # 迭代次数 iter_num = 10 # 迭代 for i in range(1, iter_num+1): # 更新聚类中心 os.system('hadoop fs -cat output/iter{}/part* > centers.txt'.format(i-1)) # 运行MapReduce程序 os.system('hadoop jar /path/to/hadoop-streaming.jar \ -D mapreduce.job.reduces=2 \ -files mapper.py,reducer.py,centers.txt \ -input /path/to/watermelon.txt \ -output output/iter{} \ -mapper "python mapper.py" \ -reducer "python reducer.py"'.format(i)) # 输出最终聚类结果 os.system('hadoop fs -cat output/iter{}/part* > result.txt'.format(iter_num)) ``` 4. 可视化使用matplotlib库将聚类结果表示在二维平面上。 ```python import matplotlib.pyplot as plt x1, y1 = [], [] x2, y2 = [], [] with open('result.txt', 'r') as f: for line in f: data = line.strip().split('\t') x = float(data[1]) y = float(data[2]) cluster = int(data[0]) if cluster == 0: x1.append(x) y1.append(y) else: x2.append(x) y2.append(y) plt.scatter(x1, y1, s=50, c='r', marker='o', label='cluster1') plt.scatter(x2, y2, s=50, c='b', marker='o', label='cluster2') plt.legend() plt.show() ``` 完整代码：

阅读全文

相关推荐

西瓜数据集VOC格式详细介绍及使用说明

YOLO水果目标检测数据集：10000+张图片，多模型适用

Python利用ID3算法实现西瓜数据集决策树可视化教程

西瓜数据集3.0-数据集

机器学习西瓜数据集4.0

18000张蔬菜水果图片的26分类数据集

VOC+YOLO格式水果检测数据集8479张6类

YOLO算法-城市电杆数据集-496张图像带标签-电杆.zip

(177406840)JAVA图书管理系统毕业设计(源代码+论文).rar

(35734838)信号与系统实验一实验报告

YOLO算法-椅子检测故障数据集-300张图像带标签.zip

基于小程序的新冠抗原自测平台小程序源代码（java+小程序+mysql+LW）.zip

YOLO算法-俯视视角草原绵羊检测数据集-4133张图像带标签-羊.zip

(171674830)PYQT5+openCV项目实战：微循环仪图片、视频记录和人工对比软件源码

新建 文本文档.docx

hw06.zip

最新推荐

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析

C#怎么把图片存入名为当前日期的文件夹里

Deno Express：模仿Node.js Express的Deno Web服务器解决方案

关系数据表示学习

新建文本文档.docx