写一个基于pyotrch的手写字母识别系统,要求有详细注释,使用gpu进行训练,可以测试模型
时间: 2023-12-10 15:42:09 浏览: 80
好的,让我来为您编写一个基于PyTorch的手写字母识别系统。
首先,我们需要准备数据集。本例中,我们将使用MNIST数据集,其中包含 0 到 9 的手写数字,每张图片的大小为 28x28 像素。我们将使用 PyTorch 的 DataLoader 和 Dataset 类加载和处理数据。
```python
import torch
import torchvision
import torchvision.transforms as transforms
# 定义数据预处理函数,将图片转换为张量并进行标准化
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5,), (0.5,))])
# 加载 MNIST 数据集
trainset = torchvision.datasets.MNIST(root='./data', train=True,
download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False,
download=True, transform=transform)
# 使用 DataLoader 类加载和处理数据
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=64,
shuffle=False, num_workers=2)
```
接下来,我们将定义我们的模型。在本例中,我们将使用一个简单的卷积神经网络(CNN)来实现手写字母识别。CNN旨在捕捉输入图像的局部特征,并将其转换为更高级别的特征,以便进行分类。
```python
import torch.nn as nn
import torch.nn.functional as F
# 定义 CNN 模型
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 32, 3, 1)
self.conv2 = nn.Conv2d(32, 64, 3, 1)
self.dropout1 = nn.Dropout2d(0.25)
self.dropout2 = nn.Dropout2d(0.5)
self.fc1 = nn.Linear(9216, 128)
self.fc2 = nn.Linear(128, 10)
def forward(self, x):
x = self.conv1(x)
x = F.relu(x)
x = self.conv2(x)
x = F.relu(x)
x = F.max_pool2d(x, 2)
x = self.dropout1(x)
x = torch.flatten(x, 1)
x = self.fc1(x)
x = F.relu(x)
x = self.dropout2(x)
x = self.fc2(x)
output = F.log_softmax(x, dim=1)
return output
# 实例化模型并将其移动到 GPU 上(如果有的话)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
net = Net().to(device)
```
现在我们已经准备好训练模型了。我们将使用交叉熵损失函数和随机梯度下降优化器进行训练,并在每个 epoch 后计算模型在测试集上的准确率。
```python
import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
# 定义训练函数
def train(net, trainloader, criterion, optimizer, device, num_epochs):
for epoch in range(num_epochs): # 多次遍历数据集
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
# 获取输入数据并将其移动到 GPU 上(如果有的话)
inputs, labels = data[0].to(device), data[1].to(device)
# 将梯度清零
optimizer.zero_grad()
# 前向传播、反向传播、优化参数
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
# 打印统计信息
running_loss += loss.item()
if i % 200 == 199: # 每 200 批次打印一次
print('[%d, %5d] loss: %.3f' %
(epoch + 1, i + 1, running_loss / 200))
running_loss = 0.0
# 在测试集上计算准确率
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data[0].to(device), data[1].to(device)
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Epoch %d Test Accuracy: %d %%' % (epoch + 1, 100 * correct / total))
# 训练模型
train(net, trainloader, criterion, optimizer, device, num_epochs=5)
```
在训练完模型之后,我们可以使用测试集来评估模型的性能。
```python
# 在测试集上计算准确率
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data[0].to(device), data[1].to(device)
outputs = net(images)
_, predicted = torch.max(outputs.data, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('Test Accuracy: %d %%' % (100 * correct / total))
```
现在我们已经完成了一个基于 PyTorch 的手写字母识别系统。您可以通过调整超参数和训练更长时间来改进模型的性能。
阅读全文