没有合适的资源?快使用搜索试试~ 我知道了~
首页python可视化实现KNN算法
简介 这里通过python的绘图工具Matplotlib包可视化实现机器学习中的KNN算法。 需要提前安装python的Numpy和Matplotlib包。 KNN–最近邻分类算法,算法逻辑比较简单,思路如下: 1.设一待分类数据iData,先计算其到已标记数据集中每个数据的距离,例如欧拉距离sqrt((x1-x2)^2+(y1-y2)^2); 2.然后根据离iData最近的k个数据的分类,出现次数最多的类别定为iData的分类。 KNN——最近邻算法python代码 代码实现: import numpy as np import matplotlib as mpl import
资源详情
资源评论
资源推荐

python可视化实现可视化实现KNN算法算法
简介简介
这里通过python的绘图工具Matplotlib包可视化实现机器学习中的KNN算法。
需要提前安装python的Numpy和Matplotlib包。
KNN–最近邻分类算法,算法逻辑比较简单,思路如下:
1.设一待分类数据iData,先计算其到已标记数据集中每个数据的距离,例如欧拉距离sqrt((x1-x2)^2+(y1-y2)^2);
2.然后根据离iData最近的k个数据的分类,出现次数最多的类别定为iData的分类。
KNN——最近邻算法最近邻算法python代码代码
代码实现:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
def KNNClassify(labelData,predData,k): #数据集包含分类属性
#labelData 是已经标记分类的数据集
#predData 未分类的待预测数据集
labShape = labelData.shape
for i in range(predData.shape[0]): #以predData的每行数据进行遍历
iData = predData[i] iDset = np.tile(iData,(labShape[0],1)) #将iData重复,扩展成与labelData同形的矩阵
#这里用欧拉距离sqrt((x1-x2)^2+(y1-y2)^2)
diff = iDset[...,:-1] - labelData[...,:-1] diff = diff**2
distance = np.sum(diff,axis=1)
distance = distance ** 0.5 #开根号
sortedIND = np.argsort(distance) #排序,以序号返回。
classCount = { }
for j in range(k): #计算距离最近的前k个标记数据的类别
voteLabel = labelData[sortedIND[j],-1] classCount[voteLabel] = classCount.get(voteLabel,0)+1
maxcls = max(classCount,key=classCount.get) #类别最多的,返回键名(类别名)
predData[i][...,-1] = maxcls
return predData
为了测试这个算法,需要现成的已分类数据集,由于手动输入很有限,数据量少,耗时。作为学习我们这里用代码模拟生成数
据来进行测试。下面是生成已分类数据集的代码:
生成模拟数据的函数生成模拟数据的函数
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
#模拟生成分类数据
#目标是产生二维坐标中的几堆数据集,每堆为一个类
#函数逻辑:
#将x轴分段,每个段设一个中心的,所有的中心点用cores存储。
#设置每个数据中心点core的类别,由中心点在一定范围内随机产生数据,并将这些数据设为和core一样的类别
#所以每类的数据会简单的被X轴的每段大致分开
def makeKNNData(colnum,clsnum,nums,cores = []):
#colnum单个数据拥有特征数量(包括数据的分类);
# clsnum表示共有多少种分类;
# nums是一个元组,表示每个类别希望产生多少数据样本,如colnum为5,nums为[56, 69, 60, 92, 95];
#cores非必要参数,手动给出只是用于测试,cores提供每类的中心点,以中心点为依据产生该类数据。
dataSet = np.zeros((sum(nums),colnum)) #初始化数据集,用于存放随后生成的所有数据
n=0 #记录生成数据的下标
step = 20/clsnum #假定X坐标轴只显示0~20的范围,step为X轴分段后的段长
for j in range(clsnum): #循环生成各个类数据
try:

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0