Python手写数字识别：图片处理详解

189 浏览量更新于2024-08-28 1 收藏 147KB PDF 举报

本文主要介绍如何使用Python进行手写数字识别，通过图片读入与处理，包括图片的灰度化、去噪、裁剪、拉伸等步骤，最终将图片转化为1×10000大小的向量，用于机器学习训练。在Python实现识别手写数字的过程中，首要任务是读取图片。`skimage.io.imread`函数被用于读取图片，并且通过`as_grey=True`参数将彩色图片转换为灰度图。这样做的好处是减少数据维度，同时简化处理过程，因为灰度图像只需要一个通道表示像素亮度。接着，图片背景去噪是一个重要的步骤，通常使用阈值处理来实现。代码中设置了一个灰度阈值`color=100/255`，当像素值超过这个阈值时，将其设为1，否则设为0，从而实现二值化。这样做可以消除图片中的非数字区域，保留手写数字的轮廓。在二值化处理后，为了进一步聚焦于手写数字，需要进行图片切割，找到包含手写数字的最小矩阵。这个过程可能涉及到边缘检测和连通组件分析，以确定数字的精确边界。然后，图片可能需要进行拉伸或压缩，使其尺寸标准化为100×100。这一步可以通过插值等方法实现，确保每个处理过的图片具有相同的大小，便于后续的模型训练。最后，为了构建训练数据集，图片会被展平为1×10000的向量。这种格式使得图片的数据可以直接输入到机器学习模型中，如神经网络，进行特征学习和分类。整个过程中，`numpy`库用于数组操作，`os`库用于文件操作，而`skimage`库提供了丰富的图像处理工具。这些基本操作是图像识别和机器学习项目的基础，对于理解计算机视觉和深度学习算法至关重要。在实际应用中，这个处理流程可能还会包括预处理步骤，如直方图均衡化以增强图像对比度，或者使用更复杂的图像增强技术来增加训练数据的多样性。此外，实际的手写数字识别系统可能使用如MNIST这样的预处理数据集，而非从头开始读取原始图片。完成这些步骤后，就可以利用机器学习模型（如SVM、神经网络等）进行训练和预测，实现手写数字的自动识别。

Python实现识别手写数字实现识别手写数字 Python图片读入与处理图片读入与处理

写在前面写在前面

在上一篇文章Python徒手实现手写数字识别—大纲中，我们已经讲过了我们想要写的全部思路，所以我们不再说全部的思

路。

我这一次将图片的读入与处理的代码写了一下，和大纲写的过程一样，这一段代码分为以下几个部分：

读入图片；

将图片读取为灰度值矩阵；

图片背景去噪；

切割图片，得到手写数字的最小矩阵；

拉伸/压缩图片，得到标准大小为100×100大小矩阵；

将图片拉为1×10000大小向量，存入训练矩阵中。

所以下面将会对这几个函数进行详解。

代码分析代码分析

基础内容基础内容

首先我们现在最前面定义基础变量

import os

from skimage import io

import numpy as np

##Essential vavriable 基础变量

#Standard size 标准大小

N = 100

#Gray threshold 灰度阈值

color = 100/255

其中标准大小指的是我们在最后经过切割、拉伸后得到的图片的尺寸为NxN。灰度阈值指的是在某个点上的灰度超过阈值后则

变为1.

接下来是这图像处理的一部分的主函数

filenames = os.listdir(r"./num/")

pic = GetTrainPicture(filenames)

其中filenames得到在num目录下所有文件的名称组成的列表。pic则是通过函数GetTrainPicture得到所有训练图像向量的矩

阵。这一篇文章主要就是围绕这个函数进行讲解。

GetTrainPicture函数函数

GetTrainPicture函数内容如下

#Read and save train picture 读取训练图片并保存

def GetTrainPicture(files):

Picture = np.zeros([len(files), N**2+1])

#loop all pictures 循环所有图片文件

for i, item in enumerate(files):

#Read the picture and turn RGB to grey 读取这个图片并转为灰度值

img = io.imread('./num/'+item, as_grey = True)

#Clear the noise 清除噪音

img[img>color] = 1

#Cut the picture and get the picture of handwritten number

#将图片进行切割，得到有手写数字的的图像

img = CutPicture(img)

#Stretch the picture and get the standard size 100x100

#将图片进行拉伸，得到标准大小100x100

img = StretchPicture(img).reshape(N**2)

#Save the picture to the matrix 将图片存入矩阵

Picture[i, 0:N**2] = img

#Save picture's name to the matrix 将图片的名字存入矩阵

Picture[i, N**2] = float(item[0])

return Picture

可以看出这个函数的信息量非常大，基本上今天做的所有步骤我都把封装到一个个函数里面了，所以这里我们可以看到图片处

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38637998

粉丝: 10
资源: 916

Python手写数字识别：图片处理详解

python实现识别手写数字 python图像识别算法

详解PyTorch手写数字识别(MNIST数据集)

python实现简单的文字识别

Python实现识别手写数字 简易图片存储管理系统

StupidMachine:Python 中的机器学习 - 使用 Scikit Learn 的 KNN 算法识别手写数字

Python卷积神经网络实现MNIST手写数字识别教程

用python准备一张手写数字图片并上传至平台

bpnn算法实现手写数字识别，要求使用mnist数据集，使用Python语言，不用keras,TensorFlow等框架

最新资源

Python实现识别手写数字简易图片存储管理系统