Python自动化截图与OCR文字识别：从屏幕捕获到文本保存的全流程实现

作者：有好多问题2025.10.11 19:25浏览量：219

简介：本文详细介绍如何使用Python实现屏幕截图，调用OCR接口识别文字内容，并将结果保存为文本文件。涵盖Pillow截图、PaddleOCR/Tesseract OCR调用及文件操作，提供完整代码示例与优化建议。

Python自动化截图与OCR 文字识别：从屏幕捕获到文本保存的全流程实现

一、技术背景与需求分析

在数字化转型背景下，企业常需处理大量纸质文档或屏幕显示的非结构化文本数据。传统手动录入方式效率低下且易出错，而自动化截图与OCR（光学字符识别）技术的结合，可实现从屏幕图像到可编辑文本的高效转换。本文将详细介绍如何使用Python完成以下核心功能：

屏幕区域截图或全屏截图
调用OCR接口识别图像中的文字
将识别结果保存为TXT/JSON等格式文件

该方案适用于发票信息提取、网页内容存档、代码片段识别等场景，尤其适合需要批量处理屏幕显示文本的办公自动化场景。

二、技术选型与工具准备

2.1 截图工具选择

Python中实现截图主要有以下方案：

Pillow库：轻量级图像处理库，支持全屏/区域截图
PyAutoGUI：跨平台GUI自动化工具，包含截图功能
mss库：高性能截图工具，支持多显示器

推荐使用Pillow（PIL）库，其安装简单且兼容性好：

pip install pillow

2.2 OCR引擎对比

主流OCR方案对比：
| 方案 | 准确率 | 响应速度 | 部署复杂度 | 适用场景 |
|——————|————|—————|——————|————————————|
| Tesseract | 中 | 快 | 低 | 英文/简单中文识别 |
| PaddleOCR | 高 | 中 | 中 | 中英文混合/复杂排版 |
| 百度OCR API| 极高 | 慢 | 高 | 企业级高精度需求 |

本文以PaddleOCR为例（需安装）：

pip install paddleocr paddlepaddle

三、完整实现流程

3.1 屏幕截图实现

from PIL import ImageGrab
import time
def capture_screen(save_path="screenshot.png", bbox=None):
    """
    执行屏幕截图
    :param save_path: 保存路径
    :param bbox: 截图区域 (x1,y1,x2,y2)，None表示全屏
    """
    try:
        # 添加1秒延迟避免截图时遮挡
        time.sleep(1)
        if bbox:
            img = ImageGrab.grab(bbox=bbox)
        else:
            img = ImageGrab.grab()
        img.save(save_path)
        print(f"截图已保存至: {save_path}")
        return save_path
    except Exception as e:
        print(f"截图失败: {str(e)}")
        return None

3.2 OCR文字识别实现

使用PaddleOCR进行中英文混合识别：

from paddleocr import PaddleOCR
def ocr_recognition(image_path, lang="ch"):
    """
    调用PaddleOCR识别图像文字
    :param image_path: 图像路径
    :param lang: 识别语言 ('ch'中文, 'en'英文)
    :return: 识别结果列表 [(坐标, (文字, 置信度)), ...]
    """
    try:
        ocr = PaddleOCR(use_angle_cls=True, lang=lang)
        result = ocr.ocr(image_path, cls=True)
        # 提取识别文本
        text_results = []
        for line in result:
            for word_info in line:
                text = word_info[1][0]
                confidence = word_info[1][1]
                text_results.append((text, confidence))
        print(f"识别完成，共提取{len(text_results)}段文字")
        return text_results
    except Exception as e:
        print(f"OCR识别失败: {str(e)}")
        return []

3.3 结果保存实现

将识别结果保存为结构化文件：

import json
from datetime import datetime
def save_results(results, output_dir="output"):
    """
    保存识别结果
    :param results: 识别结果列表
    :param output_dir: 输出目录
    """
    try:
        import os
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        # 生成带时间戳的文件名
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        txt_path = os.path.join(output_dir, f"ocr_result_{timestamp}.txt")
        json_path = os.path.join(output_dir, f"ocr_result_{timestamp}.json")
        # 保存为TXT文件
        with open(txt_path, 'w', encoding='utf-8') as f:
            for text, conf in results:
                f.write(f"{text}\n")
        # 保存为JSON文件（含置信度）
        json_data = [{"text": text, "confidence": float(conf)} for text, conf in results]
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(json_data, f, ensure_ascii=False, indent=2)
        print(f"结果已保存至:\n{txt_path}\n{json_path}")
    except Exception as e:
        print(f"保存结果失败: {str(e)}")

3.4 完整流程整合

def main():
    # 1. 执行截图（示例：截取左上角(100,100)到右下角(500,500)的区域）
    screenshot_path = capture_screen(bbox=(100, 100, 500, 500))
    if not screenshot_path:
        return
    # 2. 调用OCR识别
    ocr_results = ocr_recognition(screenshot_path)
    if not ocr_results:
        return
    # 3. 保存结果
    save_results(ocr_results)
if __name__ == "__main__":
    main()

四、性能优化与实用建议

4.1 识别准确率提升技巧

图像预处理：

使用OpenCV进行二值化处理：

import cv2
def preprocess_image(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    _, binary = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY)
    cv2.imwrite("preprocessed.png", binary)
    return "preprocessed.png"

语言模型选择：
- 中英文混合内容使用lang="ch"
- 纯英文内容使用lang="en"可提升速度
区域聚焦识别：
- 对固定布局的文档，可先定位关键区域再识别

4.2 批量处理实现

import os
def batch_process(image_dir, output_dir):
    """
    批量处理目录下的所有图片
    """
    for filename in os.listdir(image_dir):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            img_path = os.path.join(image_dir, filename)
            results = ocr_recognition(img_path)
            save_results(results, output_dir)

4.3 异常处理增强

添加重试机制和日志记录：

import logging
from tenacity import retry, stop_after_attempt, wait_exponential
logging.basicConfig(filename='ocr.log', level=logging.INFO)
@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def robust_ocr(image_path):
    try:
        return ocr_recognition(image_path)
    except Exception as e:
        logging.error(f"OCR尝试失败: {str(e)}")
        raise

五、部署与扩展方案

5.1 打包为可执行文件

使用PyInstaller打包为独立程序：

pip install pyinstaller
pyinstaller --onefile --windowed ocr_script.py

5.2 定时任务集成

在Linux系统下设置cron定时任务：

# 每天10点执行截图OCR
0 10 * * * /usr/bin/python3 /path/to/ocr_script.py

5.3 云服务扩展

对于大规模处理需求，可考虑：

使用AWS Lambda/GCP Functions实现无服务器架构
部署PaddleOCR服务化接口
结合S3存储实现图片上传-识别-结果返回的完整流程

六、常见问题解决方案

截图空白问题：
- 检查是否在截图前隐藏了弹窗
- 尝试使用PyAutoGUI.screenshot()替代
中文识别率低：
- 确保使用lang="ch"参数
- 下载中文模型包：paddleocr --image_dir ./ --use_gpu false --lang ch
性能瓶颈优化：
- 对大图进行分块处理
- 使用GPU加速（需安装GPU版PaddlePaddle）

七、总结与展望

本文实现的Python自动化方案，通过组合Pillow截图和PaddleOCR识别技术，构建了完整的屏幕文本提取流程。实际应用中可根据需求调整：

添加GUI界面（如使用PyQt）
集成到RPA流程中
开发浏览器插件实现网页内容识别

未来随着多模态大模型的发展，OCR技术将向更高精度、更广语言支持的方向演进。建议开发者关注PaddleOCR等开源项目的更新，及时引入新技术提升识别效果。

完整代码与示例文件已上传至GitHub仓库：[示例链接]，欢迎交流优化建议。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Python自动化截图与OCR文字识别：从屏幕捕获到文本保存的全流程实现

Python自动化截图与OCR 文字识别：从屏幕捕获到文本保存的全流程实现

一、技术背景与需求分析

二、技术选型与工具准备

2.1 截图工具选择

2.2 OCR引擎对比

三、完整实现流程

3.1 屏幕截图实现

3.2 OCR文字识别实现

3.3 结果保存实现

3.4 完整流程整合

四、性能优化与实用建议

4.1 识别准确率提升技巧

4.2 批量处理实现

4.3 异常处理增强

五、部署与扩展方案

5.1 打包为可执行文件

5.2 定时任务集成

5.3 云服务扩展

六、常见问题解决方案

七、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者