使用PyTorch实现CIFAR-10图像分类：完整代码与深度解析

作者：c4t2025.10.12 00:42浏览量：162

简介：本文提供基于PyTorch的CIFAR-10图像分类完整实现，包含数据加载、模型构建、训练与评估全流程代码，每行代码均附详细注释，适合初学者快速掌握深度学习图像分类技术。

使用PyTorch实现CIFAR-10图像分类：完整代码与深度解析

一、引言

图像分类是计算机视觉领域的核心任务之一，PyTorch作为主流深度学习框架，以其动态计算图和简洁API深受研究者青睐。本文将通过CIFAR-10数据集（包含10类32x32彩色图像）的分类任务，系统演示如何使用PyTorch实现完整的图像分类流程。内容涵盖数据预处理、模型构建、训练循环、评估指标等关键环节，所有代码均附详细注释。

二、环境准备

首先需要安装必要的Python库：

pip install torch torchvision matplotlib numpy

torch: PyTorch核心库
torchvision: 提供计算机视觉相关工具和数据集
matplotlib: 用于可视化训练过程
numpy: 数值计算基础库

三、完整代码实现

1. 数据加载与预处理

import torch
import torchvision
import torchvision.transforms as transforms
# 定义数据预处理流程
transform = transforms.Compose([
    transforms.ToTensor(),  # 将PIL图像或numpy数组转为Tensor，并缩放到[0,1]
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 标准化到[-1,1]
])
# 加载训练集
trainset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=True,
    download=True, 
    transform=transform
)
trainloader = torch.utils.data.DataLoader(
    trainset, 
    batch_size=32,  # 每批加载32个样本
    shuffle=True,   # 打乱数据顺序
    num_workers=2   # 使用2个子进程加载数据
)
# 加载测试集
testset = torchvision.datasets.CIFAR10(
    root='./data', 
    train=False,
    download=True, 
    transform=transform
)
testloader = torch.utils.data.DataLoader(
    testset, 
    batch_size=32,
    shuffle=False, 
    num_workers=2
)
# 类别名称
classes = ('plane', 'car', 'bird', 'cat', 'deer', 
           'dog', 'frog', 'horse', 'ship', 'truck')

关键点说明：

transforms.Compose将多个预处理操作组合
Normalize使用均值(0.5,0.5,0.5)和标准差(0.5,0.5,0.5)将像素值从[0,1]映射到[-1,1]
DataLoader的shuffle=True确保训练时每个epoch数据顺序不同

2. 模型定义

import torch.nn as nn
import torch.nn.functional as F
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # 卷积层1：输入通道3(RGB)，输出通道32，3x3卷积核
        self.conv1 = nn.Conv2d(3, 32, 3, padding=1)
        # 卷积层2：输入通道32，输出通道64，3x3卷积核
        self.conv2 = nn.Conv2d(32, 64, 3, padding=1)
        # 最大池化层：2x2窗口，步长2
        self.pool = nn.MaxPool2d(2, 2)
        # 全连接层1：输入64*8*8(经过两次池化后尺寸)，输出128
        self.fc1 = nn.Linear(64 * 8 * 8, 128)
        # 全连接层2：输入128，输出10(类别数)
        self.fc2 = nn.Linear(128, 10)
        # Dropout层：防止过拟合，训练时以0.2概率丢弃神经元
        self.dropout = nn.Dropout(0.2)
    def forward(self, x):
        # 第一次卷积+ReLU激活+池化
        x = self.pool(F.relu(self.conv1(x)))  # [batch,32,16,16]
        # 第二次卷积+ReLU激活+池化
        x = self.pool(F.relu(self.conv2(x)))  # [batch,64,8,8]
        # 展平特征图
        x = x.view(-1, 64 * 8 * 8)  # [batch,4096]
        # 全连接层+ReLU激活+Dropout
        x = self.dropout(F.relu(self.fc1(x)))  # [batch,128]
        # 输出层
        x = self.fc2(x)  # [batch,10]
        return x
# 初始化模型
model = CNN()

模型架构解析：

输入尺寸：3x32x32（CIFAR-10图像尺寸）
特征提取：
- 两次卷积（32→64通道）+ReLU激活+2x2最大池化
- 每次池化后尺寸减半（32→16→8）
分类器：
- 展平后接128维全连接层
- Dropout防止过拟合
- 最终输出10维logits

3. 训练配置

import torch.optim as optim
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器
# 设备配置（使用GPU如果可用）
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.to(device)

优化器选择：

Adam结合了动量法和RMSProp的优点，适合大多数场景
学习率0.001是经验值，可根据训练情况调整

4. 训练循环

def train_model(model, trainloader, criterion, optimizer, epochs=10):
    for epoch in range(epochs):
        running_loss = 0.0
        correct = 0
        total = 0
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data[0].to(device), data[1].to(device)
            # 梯度清零
            optimizer.zero_grad()
            # 前向传播
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            # 反向传播+优化
            loss.backward()
            optimizer.step()
            # 统计信息
            running_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
            # 每200个batch打印一次统计
            if i % 200 == 199:
                print(f'Epoch {epoch+1}, Batch {i+1}, '
                      f'Loss: {running_loss/200:.3f}, '
                      f'Acc: {100*correct/total:.2f}%')
                running_loss = 0.0
        # 每个epoch结束后打印验证准确率
        val_acc = validate_model(model, testloader)
        print(f'Epoch {epoch+1} completed. Val Acc: {val_acc:.2f}%')
def validate_model(model, testloader):
    correct = 0
    total = 0
    with torch.no_grad():  # 禁用梯度计算
        for data in testloader:
            images, labels = data[0].to(device), data[1].to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    return 100 * correct / total
# 启动训练
train_model(model, trainloader, criterion, optimizer, epochs=10)

训练技巧：

每个batch前调用optimizer.zero_grad()清除累积梯度
使用torch.no_grad()上下文管理器进行验证，节省内存
定期打印训练损失和准确率，监控训练过程

5. 模型评估与可视化

import matplotlib.pyplot as plt
# 可视化部分测试样本
def imshow(img):
    img = img / 2 + 0.5  # 反归一化
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()
# 获取一个batch的测试数据
dataiter = iter(testloader)
images, labels = next(dataiter)
images, labels = images.to(device), labels.to(device)
# 显示图像及预测结果
outputs = model(images)
_, predicted = torch.max(outputs, 1)
imshow(torchvision.utils.make_grid(images[:4]))
print('GroundTruth: ', ' '.join(f'{classes[labels[j]]}' for j in range(4)))
print('Predicted: ', ' '.join(f'{classes[predicted[j]]}' for j in range(4)))
# 最终评估
final_acc = validate_model(model, testloader)
print(f'Final Test Accuracy: {final_acc:.2f}%')

四、进阶优化建议

数据增强：在transform中添加随机裁剪、水平翻转等操作提升模型泛化能力

transform_train = transforms.Compose([
 transforms.RandomHorizontalFlip(),
 transforms.RandomCrop(32, padding=4),
 transforms.ToTensor(),
 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

学习率调度：使用torch.optim.lr_scheduler动态调整学习率

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)
# 在每个epoch后调用scheduler.step()

模型保存：保存最佳模型权重

best_acc = 0.0
for epoch in range(10):
 # ...训练代码...
 val_acc = validate_model(model, testloader)
 if val_acc > best_acc:
     best_acc = val_acc
     torch.save(model.state_dict(), 'best_model.pth')

五、总结

本文完整实现了基于PyTorch的CIFAR-10图像分类系统，包含：

数据加载与标准化预处理
自定义CNN模型构建（含卷积层、池化层、全连接层）
训练循环实现（含损失计算、反向传播、参数更新）
模型评估与可视化方法

通过实践，读者可以掌握PyTorch进行图像分类的核心流程，并理解各组件的作用。实际项目中，可进一步尝试更复杂的模型架构（如ResNet）、更大的数据集（如ImageNet）或分布式训练等高级技术。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

使用PyTorch实现CIFAR-10图像分类：完整代码与深度解析

使用PyTorch实现CIFAR-10图像分类：完整代码与深度解析

一、引言

二、环境准备

三、完整代码实现

1. 数据加载与预处理

2. 模型定义

3. 训练配置

4. 训练循环

5. 模型评估与可视化

四、进阶优化建议

五、总结

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者