Python无框架实现手写数字CNN识别:详细教程与代码

9 下载量 195 浏览量 更新于2024-08-29 1 收藏 172KB PDF 举报
本篇文章主要介绍了如何使用Python不依赖框架实现一个卷积神经网络(Convolutional Neural Network, CNN)来识别手写数字。作者通过详细的网络结构设计和代码示例,展示了如何构建一个基本的CNN模型用于MNIST数据集的手写数字识别任务。 首先,网络结构被精心设计,分为两个卷积层和两个池化层。具体来说: 1. **第一个卷积层**:输入尺寸为28x28的单通道图像,使用5x5大小的滤波器进行卷积,配置有6个滤波器,步长设为1,没有填充(即不补零),这使得输出尺寸变为24x24,深度为6。 2. **第一个池化层**:对24x24的6通道数据进行2x2的降采样操作,步长同样为2,输出尺寸为12x12,深度保持为6。 3. **第二个卷积层**:输入尺寸调整为12x12的6通道数据,采用5x5滤波器,12个滤波器,同样步长为1且无填充,输出尺寸为8x8,深度提升到12。 4. **第二个池化层**:对8x8的12通道数据进行同样操作,得到4x4的输出,深度保持为12,总共有192个像素。 接下来,经过两次卷积和池化后,数据被送入**第一个全连接层**。这个全连接层有192个输入节点,10个输出节点,对应10个手写数字类别。为了增加非线性,它使用了softmax激活函数,并在前一层应用双曲正切(Tanh)激活函数。 文章还提到了使用的数据集是MNIST,这是一个广泛用于手写数字识别任务的标准数据集,包括训练集和测试集。训练过程中,作者可能还展示了**混淆矩阵**和**损失曲线**,用于评估模型性能和优化过程中的学习效果。 最终,该模型在100个测试样本上的准确率达到95%,表明了其在识别手写数字方面的有效性。整个过程不依赖于任何预设的深度学习框架,通过自定义的全连接神经网络类和手写数据加载器实现了这一目标。 总结起来,这篇文章向读者展示了如何使用Python的基础编程和卷积神经网络原理,实现了一个自定义的、无需框架支持的手写数字识别系统。这对于理解CNN的基本结构和实践编程实现具有很高的价值。
4266 浏览量
利用tensorflow实现的卷积神经网络来进行MNIST手写数字图像的分类。 #导入numpy模块 import numpy as np #导入tensorflow模块,程序使用tensorflow来实现卷积神经网络 import tensorflow as tf #下载mnist数据集,并从mnist_data目录中读取数据 from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets('mnist_data',one_hot=True) #(1)这里的“mnist_data” 是和当前文件相同目录下的一个文件夹。自己先手工建立这个文件夹,然后从https://yann.lecun.com/exdb/mnist/ 下载所需的4个文件(即该网址中第三段“Four files are available on this site:”后面的四个文件),并放到目录MNIST_data下即可。 #(2)MNIST数据集是手写数字字符的数据集。每个样本都是一张28*28像素的灰度手写数字图片。 #(3)one_hot表示独热编码,其值被设为true。在分类问题的数据集标注时,如何不采用独热编码的方式, 类别通常就是一个符号而已,比如说是9。但如果采用独热编码的方式,则每个类表示为一个列表list,共计有10个数值,但只有一个为1,其余均为0。例如,“9”的独热编码可以为[00000 00001]. #定义输入数据x和输出y的形状。函数tf.placeholder的目的是定义输入,可以理解为采用占位符进行占位。 #None这个位置的参数在这里被用于表示样本的个数,而由于样本个数此时具体是多少还无法确定,所以这设为None。而每个输入样本的特征数目是确定的,即为28*28。 input_x = tf.placeholder(tf.float32,[None,28*28])/255 #因为每个像素的取值范围是 0~255 output_y = tf.placeholder(tf.int32,[None,10]) #10表示10个类别 #输入层的输入数据input_x被reshape成四维数据,其中第一维的数据代表了图片数量 input_x_images = tf.reshape(input_x,[-1,28,28,1]) test_x = mnist.test.images[:3000] #读取测试集图片的特征,读取3000个图片 test_y = mnist.test.labels[:3000] #读取测试集图片的标签。就是这3000个图片所对应的标签