从零开始：Python语音识别实战（附完整代码）

作者：狼烟四起2025.10.12 07:51浏览量：32

简介：本文通过Python实现语音识别系统，详细讲解音频处理、特征提取、模型训练全流程，提供可复用的代码与优化方案。

Python语音识别实战：从理论到代码实现

语音识别技术作为人机交互的核心环节，已广泛应用于智能客服、语音助手、实时翻译等领域。本文将通过Python实现一个完整的语音识别系统，涵盖音频采集、预处理、特征提取、模型训练与解码的全流程，并提供可复用的代码框架。

一、语音识别技术基础

1.1 语音识别原理

语音识别系统主要由前端处理和后端解码两部分构成：

前端处理：包括音频采集、预加重、分帧、加窗、特征提取（MFCC/FBANK）
后端解码：基于声学模型、语言模型和发音词典的联合解码

现代语音识别系统多采用端到端架构（如Transformer），但传统混合系统（DNN-HMM）仍是理解技术原理的重要基础。

1.2 Python生态工具链

Python在语音处理领域拥有完善的工具链：

音频处理：librosa、pydub
特征提取：python_speech_features
深度学习：TensorFlow/PyTorch
解码器：CTC解码、WFST解码

二、实战环境搭建

2.1 基础环境配置

# 创建虚拟环境
python -m venv asr_env
source asr_env/bin/activate  # Linux/Mac
asr_env\Scripts\activate     # Windows
# 安装基础依赖
pip install numpy scipy matplotlib librosa python_speech_features

2.2 深度学习框架选择

推荐使用PyTorch实现端到端模型：

import torch
print(torch.__version__)  # 验证安装

三、音频处理实战

3.1 音频采集与存储

使用sounddevice库实现实时录音：

import sounddevice as sd
import numpy as np
def record_audio(duration=5, fs=16000):
    print("开始录音...")
    recording = sd.rec(int(duration * fs), samplerate=fs, channels=1, dtype='float32')
    sd.wait()  # 等待录音完成
    return recording.flatten()
# 保存为WAV文件
from scipy.io.wavfile import write
def save_wav(data, fs, filename):
    scaled = np.int16(data * 32767)
    write(filename, fs, scaled)
# 使用示例
audio_data = record_audio()
save_wav(audio_data, 16000, "test.wav")

3.2 预处理关键步骤

import librosa
def preprocess_audio(file_path):
    # 加载音频
    y, sr = librosa.load(file_path, sr=16000)
    # 预加重（提升高频）
    y = librosa.effects.preemphasis(y)
    # 分帧加窗（帧长25ms，步长10ms）
    frame_length = int(0.025 * sr)
    hop_length = int(0.01 * sr)
    frames = librosa.util.frame(y, frame_length=frame_length, hop_length=hop_length)
    # 汉明窗
    window = np.hamming(frame_length)
    windowed_frames = frames * window
    return windowed_frames, sr

四、特征提取实现

4.1 MFCC特征提取

import python_speech_features as psf
def extract_mfcc(audio_path, nfft=512, winlen=0.025, winstep=0.01):
    (rate, sig) = librosa.load(audio_path, sr=16000)
    mfcc = psf.mfcc(
        sig, 
        samplerate=rate,
        winlen=winlen,
        winstep=winstep,
        numcep=13,
        nfilt=26,
        nfft=nfft,
        preemph=0.97,
        ceplifter=22,
        appendEnergy=False
    )
    # 添加动态特征（一阶二阶差分）
    mfcc_delta = psf.delta(mfcc, 2)
    mfcc_delta2 = psf.delta(mfcc_delta, 2)
    features = np.concatenate([mfcc, mfcc_delta, mfcc_delta2], axis=1)
    return features
# 使用示例
features = extract_mfcc("test.wav")
print(f"提取特征维度：{features.shape}")

4.2 FBANK特征提取

def extract_fbank(audio_path):
    y, sr = librosa.load(audio_path, sr=16000)
    # 计算功率谱
    stft = librosa.stft(y, n_fft=512, hop_length=160)
    power_spec = np.abs(stft) ** 2
    # 梅尔滤波器组
    n_mels = 40
    mel_basis = librosa.filters.mel(sr=sr, n_fft=512, n_mels=n_mels)
    fbank = np.dot(mel_basis, power_spec)
    # 对数变换
    fbank = np.log1p(fbank)
    return fbank.T  # 转置为(时间帧, 特征维)

五、端到端模型实现

5.1 简单CTC模型架构

import torch.nn as nn
import torch.nn.functional as F
class SimpleASR(nn.Module):
    def __init__(self, input_dim, num_classes):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
        self.rnn = nn.LSTM(64*40, 256, bidirectional=True, batch_first=True)
        self.fc = nn.Linear(512, num_classes)
    def forward(self, x):
        # x: (batch, 1, n_frames, n_mels)
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        # 调整维度 (batch, n_frames, 64*40)
        x = x.permute(0, 2, 1, 3).contiguous()
        x = x.view(x.size(0), x.size(1), -1)
        # RNN处理
        x, _ = self.rnn(x)
        # 输出层
        x = self.fc(x)
        return x
# 模型参数
input_dim = 40  # FBANK特征维数
num_classes = 28 + 1  # 26字母+空格+CTC空白符
model = SimpleASR(input_dim, num_classes)
print(model)

5.2 数据准备与训练

from torch.utils.data import Dataset, DataLoader
class AudioDataset(Dataset):
    def __init__(self, features, labels):
        self.features = features
        self.labels = labels
    def __len__(self):
        return len(self.features)
    def __getitem__(self, idx):
        # 添加通道维度 (1, n_frames, n_mels)
        feature = self.features[idx].T[np.newaxis, :, :]
        label = self.labels[idx]
        return torch.FloatTensor(feature), torch.LongTensor(label)
# 假设已有features和labels
# dataset = AudioDataset(features, labels)
# dataloader = DataLoader(dataset, batch_size=32, shuffle=True)
# 简单训练循环示例
def train_model(model, dataloader, epochs=10):
    criterion = nn.CTCLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    for epoch in range(epochs):
        for inputs, targets in dataloader:
            optimizer.zero_grad()
            # 前向传播
            outputs = model(inputs)  # (batch, seq_len, num_classes)
            # 准备CTC输入
            input_lengths = torch.full((inputs.size(0),), outputs.size(1), dtype=torch.long)
            target_lengths = torch.tensor([len(t) for t in targets], dtype=torch.long)
            # 计算损失
            loss = criterion(outputs.log_softmax(2), targets, input_lengths, target_lengths)
            # 反向传播
            loss.backward()
            optimizer.step()
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

六、解码与评估

6.1 贪心解码实现

def greedy_decode(logits):
    # logits: (n_frames, num_classes)
    max_indices = np.argmax(logits, axis=1)
    # 移除重复和空白符
    decoded = []
    prev = None
    for idx in max_indices:
        if idx != 0 and idx != prev:  # 0是CTC空白符
            decoded.append(idx)
        prev = idx
    return decoded
# 示例使用
# logits = model(input_tensor).detach().numpy()
# decoded = greedy_decode(logits[-1])  # 取最后一个时间步

6.2 词错误率计算

def calculate_wer(ref, hyp):
    # 使用动态规划计算编辑距离
    d = np.zeros((len(ref)+1, len(hyp)+1), dtype=np.int32)
    for i in range(len(ref)+1):
        d[i, 0] = i
    for j in range(len(hyp)+1):
        d[0, j] = j
    for i in range(1, len(ref)+1):
        for j in range(1, len(hyp)+1):
            if ref[i-1] == hyp[j-1]:
                d[i,j] = d[i-1,j-1]
            else:
                substitution = d[i-1,j-1] + 1
                insertion = d[i,j-1] + 1
                deletion = d[i-1,j] + 1
                d[i,j] = min(substitution, insertion, deletion)
    wer = d[len(ref), len(hyp)] / len(ref)
    return wer

七、实战优化建议

数据增强：
- 添加背景噪声
- 速度扰动（±20%）
- 音量调整（±6dB）
模型优化：
- 使用更深的CNN架构（如ResNet）
- 添加注意力机制
- 采用Transformer架构
解码优化：
- 实现束搜索（Beam Search）
- 集成语言模型（N-gram或神经语言模型）
- 使用WFST进行图解码

八、完整项目结构建议

asr_project/
├── data/                # 音频数据
│   ├── train/
│   └── test/
├── features/            # 提取的特征
├── models/              # 训练好的模型
├── utils/
│   ├── audio_processing.py
│   ├── features.py
│   └── decoder.py
├── train.py             # 训练脚本
├── decode.py            # 解码脚本
└── requirements.txt     # 依赖文件

九、总结与展望

本文实现了从音频采集到语音识别的完整流程，涵盖了传统特征提取方法和端到端建模技术。实际项目中，建议：

使用专业语音数据集（如LibriSpeech）
采用更先进的模型架构（如Conformer）
实现分布式训练和模型压缩
部署为Web服务或移动端应用

后续文章将深入讲解：

语音识别中的语言模型集成
基于Transformer的端到端模型实现
模型压缩与加速技术
实时语音识别系统实现

通过系统学习和实践，读者可以逐步掌握工业级语音识别系统的开发能力。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜