Python 图片处理与 OCR 文字识别：从入门到实践

作者：rousong2024.01.08 11:50浏览量：18

简介：本文将介绍如何使用 Python 的 Pillow 库进行图片处理，以及如何结合 OCR 技术进行文字识别。我们将通过实例展示如何进行图像增强、文字定位和识别，并给出实际应用中的建议。

在 Python 中，Pillow 是一个强大的图像处理库，可用于图像的读取、编辑、处理和保存。而 OCR（Optical Character Recognition，光学字符识别）技术则可以将图片中的文字转换成可编辑的文本。结合 Pillow 和 OCR，我们可以实现图片中的文字提取和编辑。
一、Pillow 库简介
Pillow 是一个开源的 Python 图像处理库，提供了丰富的图像处理功能，包括图像的缩放、裁剪、旋转、亮度调整等。以下是使用 Pillow 进行图片处理的简单示例：

from PIL import Image
# 打开图片
img = Image.open('example.jpg')
# 显示图片大小
print(img.size)
# 旋转图片
rotated_img = img.rotate(45)
rotated_img.show()

在上述代码中，我们首先导入了 PIL 库中的 Image 模块，然后使用 Image.open() 方法打开了一张图片。接着，我们通过 img.size 属性获取了图片的尺寸，并通过 img.rotate() 方法将图片旋转了 45 度。最后，我们使用 rotated_img.show() 方法显示了旋转后的图片。
二、OCR 技术简介
OCR 技术是一种将图片中的文字转换成可编辑文本的技术。常用的 OCR 工具包括 Tesseract 和 Google Cloud Vision 等。在 Python 中，我们可以使用第三方库如 Pytesseract 或 Google Cloud Vision API 来实现 OCR 功能。以下是使用 Pytesseract 进行 OCR 文字识别的示例：

import pytesseract
from PIL import Image
# 打开图片
img = Image.open('example.jpg')
# 使用 Pytesseract 进行 OCR 文字识别
text = pytesseract.image_to_string(img)
# 打印识别结果
print(text)

在上述代码中，我们首先导入了 Pytesseract 和 PIL 库中的 Image 模块。然后，我们使用 Image.open() 方法打开了一张包含文字的图片。接着，我们通过 pytesseract.image_to_string() 方法将图片中的文字转换成文本，并将结果存储在变量 text 中。最后，我们打印了识别结果。
三、结合 Pillow 和 OCR 进行图片处理与文字识别
结合 Pillow 和 OCR，我们可以先对图片进行预处理，然后使用 OCR 技术进行文字识别。以下是一个完整的示例：

from PIL import Image, ImageEnhance, ImageFilter
import pytesseract
import cv2
# 打开图片并转换为灰度模式
img = Image.open('example.jpg').convert('L')
# 使用 PIL 进行图像增强（锐化）处理
enhancer = ImageEnhance.Contrast(img)
img = enhancer.enhance(2)  # 增强对比度（参数可根据实际需求调整）
img = img.filter(ImageFilter.FIND_EDGES)  # 使用边缘检测进行锐化（参数可根据实际需求调整）
# 使用 OpenCV 进行二值化处理（可选）
_, img = cv2.threshold(cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR), 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)  # Otsu's thresholding method（参数可根据实际需求调整）
# 使用 Pytesseract 进行 OCR 文字识别
text = pytesseract.image_to_string(img)
print(text)  # 打印识别结果（结果可能包含误识别和未识别的字符）

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

Python 图片处理与 OCR 文字识别：从入门到实践

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者