20行代码实现图片文字批量提取：Python+OCR全流程解析

作者：菠萝爱吃肉2025.10.11 17:19浏览量：58

简介：本文通过20行Python代码演示如何批量提取图片中的文字，结合Pillow和pytesseract库实现高效OCR处理，涵盖环境配置、代码实现、优化技巧及实际应用场景。

一、技术背景与核心工具

在数字化办公场景中，批量提取图片中的文字（OCR技术）已成为提升效率的关键需求。传统手动录入方式耗时且易出错，而自动化OCR方案可实现每秒处理数十张图片，准确率达95%以上（基于清晰图片）。本文采用Python生态中的两个核心库：

Pillow（PIL）：图像处理库，负责图片的格式转换、尺寸调整等预处理操作
pytesseract：Tesseract OCR的Python封装，支持100+种语言的文字识别

Tesseract由Google维护，是开源社区最成熟的OCR引擎之一，其4.x版本通过LSTM神经网络显著提升了复杂场景下的识别能力。

二、20行核心代码实现

import os
from PIL import Image
import pytesseract
def batch_ocr(image_folder, output_file):
    """批量识别图片文字并保存结果
    :param image_folder: 图片目录路径
    :param output_file: 输出文本文件路径
    """
    results = []
    # 遍历目录下所有图片文件
    for filename in os.listdir(image_folder):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp')):
            try:
                img_path = os.path.join(image_folder, filename)
                # 打开图片并转换为灰度图（提升识别率）
                img = Image.open(img_path).convert('L')
                # 执行OCR识别（中文需指定lang='chi_sim'）
                text = pytesseract.image_to_string(img, lang='chi_sim+eng')
                results.append(f"=== {filename} ===\n{text}\n")
            except Exception as e:
                results.append(f"Error processing {filename}: {str(e)}\n")
    # 将结果写入文件
    with open(output_file, 'w', encoding='utf-8') as f:
        f.writelines(results)
    print(f"识别完成，结果已保存至 {output_file}")
# 使用示例
if __name__ == "__main__":
    batch_ocr("input_images", "output_text.txt")

三、代码深度解析与优化

文件遍历机制
通过os.listdir()获取目录下所有文件，配合endswith()筛选图片格式。建议扩展支持.tiff等格式时，修改元组为('.png', '.jpg', '.jpeg', '.bmp', '.tiff')。
图像预处理优化
- 灰度转换：convert('L')将彩色图转为灰度图，减少颜色干扰
- 二值化处理（进阶优化）：
```
img = img.point(lambda x: 0 if x < 140 else 255)  # 阈值140可根据实际调整
```
- 尺寸调整：对于小字体图片，可先放大再识别：
```
img = img.resize((img.width*2, img.height*2), Image.ANTIALIAS)
```
多语言支持
lang参数支持多语言混合识别，常用语言代码：
- 简体中文：chi_sim
- 繁体中文：chi_tra
- 英文：eng
- 混合识别：chi_sim+eng
错误处理机制
当前代码捕获所有异常并记录错误信息，实际生产环境中可细分异常类型（如文件损坏、权限不足等）。

四、环境配置全指南

Python环境要求
- Python 3.6+
- 依赖库安装：
```
pip install pillow pytesseract
```
Tesseract OCR安装
- Windows：下载安装包UB Mannheim
- MacOS：brew install tesseract
- Linux：sudo apt install tesseract-ocr（基础版）
  安装中文包：sudo apt install tesseract-ocr-chi-sim

路径配置
若Tesseract未加入系统PATH，需在代码中指定路径：

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

五、实际应用场景与扩展

批量处理发票/合同
结合正则表达式提取关键信息：

import re
text = pytesseract.image_to_string(img)
amounts = re.findall(r'金额[:：]?\s*(\d+\.?\d*)', text)

自动化报表生成
将识别结果转为Excel：

import pandas as pd
df = pd.DataFrame({'文件名': [r.split('===')[1].strip() for r in results if '===' in r],
                   '内容': [r.split('\n')[1] for r in results if '===' in r]})
df.to_excel('output.xlsx', index=False)

性能优化方案
- 多线程处理：使用concurrent.futures加速大批量图片
- GPU加速：Tesseract 5.0+支持GPU加速（需编译CUDA版本）
- 分布式处理：结合Celery实现跨机器任务分发

六、常见问题解决方案

识别准确率低
- 检查图片清晰度（建议300dpi以上）
- 调整预处理参数（二值化阈值、放大倍数）
- 使用特定场景训练数据（如手写体需单独训练模型）
中文识别乱码
- 确认已安装中文语言包（chi_sim.traineddata）
- 检查lang参数是否正确设置

大文件处理超时

分块处理超大图片：

from PIL import ImageOps
box = (0, 0, 1000, 1000)  # 裁剪区域
region = img.crop(box)

七、进阶开发建议

容器化部署
使用Docker封装OCR服务：

FROM python:3.9
RUN apt update && apt install -y tesseract-ocr tesseract-ocr-chi-sim
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . /app
WORKDIR /app
CMD ["python", "ocr_service.py"]

API服务化
使用FastAPI构建REST接口：

from fastapi import FastAPI, UploadFile, File
@app.post("/ocr")
async def ocr_endpoint(file: UploadFile = File(...)):
    img = Image.open(await file.read())
    text = pytesseract.image_to_string(img)
    return {"text": text}

企业级解决方案
对于千万级图片处理需求，建议：
- 使用Spark进行分布式处理
- 集成Elasticsearch实现全文检索
- 部署监控系统（Prometheus+Grafana）

本文提供的20行核心代码已覆盖基础功能，实际开发中可根据需求扩展异常处理、日志记录、进度显示等模块。通过合理配置预处理参数和语言模型，该方案在标准办公场景下可达到90%以上的准确率，显著提升文档数字化效率。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

20行代码实现图片文字批量提取：Python+OCR全流程解析

一、技术背景与核心工具

二、20行核心代码实现

三、代码深度解析与优化

四、环境配置全指南

五、实际应用场景与扩展

六、常见问题解决方案

七、进阶开发建议

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者