没有合适的资源?快使用搜索试试~ 我知道了~
首页python实现kNN算法识别手写体数字的示例代码
1。总体概要 kNN算法已经在上一篇博客中说明。对于要处理手写体数字,需要处理的点主要包括: (1)图片的预处理:将png,jpg等格式的图片转换成文本数据,本博客的思想是,利用图片的rgb16进制编码(255,255,255)为白色,(0,0,0)为黑色,获取图片大小后,逐个像素进行判断分析,当此像素为空白时,在文本数据中使用0来替换,反之使用1来替换。 from PIL import Image '''将图片转换成文档,使用0,1分别替代空白和数字''' pic = Image.open('/Users/wangxingfan/Desktop/1.png') path = open(
资源详情
资源推荐
python实现实现kNN算法识别手写体数字的示例代码算法识别手写体数字的示例代码
1。总体概要。总体概要
kNN算法已经在上一篇博客中说明。对于要处理手写体数字,需要处理的点主要包括:
(1)图片的预处理:将png,jpg等格式的图片转换成文本数据,本博客的思想是,利用图片的rgb16进制编码
(255,255,255)为白色,(0,0,0)为黑色,获取图片大小后,逐个像素进行判断分析,当此像素为空白时,在文本数
据中使用0来替换,反之使用1来替换。
from PIL import Image
'''将图片转换成文档,使用0,1分别替代空白和数字'''
pic = Image.open('/Users/wangxingfan/Desktop/1.png')
path = open('/Users/wangxingfan/Desktop/1.txt','a')
width = pic.size[0] height = pic.size[1] for i in range(0,width):
for j in range(0,height):
c_RGB = pic.getpixel((i,j))#获取该像素所对应的RGB值
if c_RGB[0]+c_RGB[1]+c_RGB[2]>0:#白色
path.write('0')
elif c_RGB[0]+c_RGB[1]+c_RGB[2]==0:#黑色
path.write('1')
else:
pass
path.write('\n')
path.close()
(2)训练集的构建。首先想到的是将(1)中图片处理后的文本数据构建成list形式,所以训练集将是二维数组,形
如[[1,0,1,1,0,,,,,0,1],[0,1,1,1,10,,,,],[0,0,1,0,,,],,,,,]所以我们构建函数处理训练集数据。
2。代码。代码
简单的总结这个算法,就是将测试数据向量化,逐个和同样向量化的训练数据进行kNN运算,求的最短距离出现最多的分类就
是我们要的分类。建立训练集的过程就是将文件数据向量化的过程。
#!/user/bin/env python
#-*- coding:utf-8 -*-
from os import listdir#获取文件目录下所有文件
'''
from PIL import Image
#将图片转换成文档,使用0,1分别替代空白和数字
pic = Image.open('/Users/wangxingfan/Desktop/1.png')
path = open('/Users/wangxingfan/Desktop/1.txt','a')
width = pic.size[0] height = pic.size[1] for i in range(0,width):
for j in range(0,height):
c_RGB = pic.getpixel((i,j))#获取该像素所对应的RGB值
if c_RGB[0]+c_RGB[1]+c_RGB[2]>0:#白色
path.write('0')
elif c_RGB[0]+c_RGB[1]+c_RGB[2]==0:#黑色
path.write('1')
else:
pass
path.write('\n')
path.close()
'''
import numpy as np
import operator as opt
def kNN(dataSet, labels, testData, k):
'''首先明确列表不能想加减,dataSet是数组形式,而对于下面的test函数,testData只是一列,相当于列表,所以在进行加减
时,需要将其转换为数组,我们使用np下的tile函数来实现'''
testDatasize = dataSet.shape[0]#获取dataSet的总行数
dataSet = dataSet.astype('float64')#不进行转换则报错
testData1 = np.tile(testData,(testDatasize,1))#使用tile函数返回多个重复构成的数组
testData1 = testData1.astype('float64')
distSquareMat = (dataSet - testData1) ** 2 # 计算差值的平方
distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和,axis=0则按列计算
distances = distSquareSums ** 0.5 # 开根号,得出每个样本到测试点的距离
sortedIndices = distances.argsort() # 排序,得到排序后的下标
indices = sortedIndices[:k] # 取最小的k个
labelCount = {} # 存储每个label的出现次数,出现次数最多的就是我们要选择的类别
for i in indices:
label = labels[i] labelCount[label] = labelCount.get(label, 0) + 1 # 次数加一,使用字典的get方法,第一次出现时默认值是0
sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # 对label出现的次数从大到小进行排序
weixin_38711149
- 粉丝: 4
- 资源: 902
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功