OCR识别技术：图像预处理与透视变换

需积分: 49 46 浏览量更新于2024-09-06 1 收藏 21KB DOCX 举报

"图像处理与OCR识别的Python实现" 在这个图像处理案例中，主要涉及了以下几个关键知识点： 1. 图像尺寸预处理：通过`resize`函数调整图像的高度至500像素，同时保持原始宽高比。这有助于后续处理步骤的标准化。 2. 灰度化与边缘检测：使用`cv.cvtColor`将彩色图像转换为灰度图像，再通过`cv.GaussianBlur`应用高斯滤波以平滑图像，减少噪声。之后，使用`cv.Canny`进行边缘检测，找出图像中的边界。 3. 轮廓检测与筛选：通过`cv.findContours`寻找边缘检测后的图像中的轮廓，并按照面积排序。选择面积最大的前5个轮廓，以找到可能包含文本的区域。使用`cv.approxPolyDP`来近似轮廓，去除不规则形状，保留四边形轮廓，这通常代表文本框。 4. 坐标变换：通过`order_point`函数重新排序轮廓坐标，使其变为顺时针方向。接着，计算四边形的宽度和高度，创建目标坐标`dst`，并使用`cv.getPerspectiveTransform`计算透视变换矩阵`M`。最后，使用`cv.warpPerspective`应用透视变换，将原图像变形为四边形。 5. OCR识别：在对图像进行透视变换后，将其转换为灰度图像，并进行二值化处理，以增强文字对比度。使用`cv.threshold`实现这一过程。然后，通过`pytesseract.image_to_string`对二值化图像进行OCR识别，将图像中的文本转化为字符串。整个流程概括起来就是：首先读取图像，调整尺寸，然后进行灰度化、边缘检测和轮廓识别，选取合适的轮廓进行坐标变换，完成透视矫正，最后对处理后的图像进行OCR识别，提取出图像中的文字。代码中使用了OpenCV库进行图像处理，包括图像读取、转换、边缘检测、轮廓查找和透视变换等操作，以及PyTesseract库进行OCR识别。这些都是在Python中进行图像处理和光学字符识别的基本步骤。

项目细节：

首先载入源图像，并进行尺寸预处理。

载入源图像 image 并作拷贝为 org，将 image 按原始 h,w 的比例大小设置为高度为 500

的图像。

进行边缘检测和轮廓检测

在灰度化->边缘检测->轮廓检测后，将轮廓按轮廓的面积进行排序（注意这里默认是顺序

的即从小到大，我们需要从大到小排序，所以 reverse = True），取面积最大的前 5 个轮廓，

并用多边形逼近（cv.approxPolyDP）的方法将轮廓近似出来，因为检测的轮廓有圆形有长

矩形，我们需要的检测的目标轮廓是四边形（类似于矩形）。所以我们经过筛选得到我们

需要的四边形的坐标。

坐标的透视变换

由多边形逼近轮廓的方法得到的坐标是每个轮廓逆时钟方向的各个顶点的坐标，

而我们想要顺时针方向的各个顶点的坐标，所以需要先对轮廓坐标重新排序。

接着需要求出四边形轮廓的高和宽，来创建一个 dst 数组：该数组为

[[0,0],[width-1,0],[width-1,height-1],

[0,height-1]

。将四边形轮廓坐标和 dst 输入到

cv.getPerspectiveTransform

函数里，得到透视变换的 M 矩阵。接着将用 M 矩阵对原图像做透视变化，其中

得出的 warped 的大小为（width，height），这样透视变换就做完了。

简单点说：首先读取两个坐标数组，计算变换矩阵；然后根据变换矩阵对原图进行透视变

换，并输出到目标画布，

下载后可阅读完整内容，剩余6页未读，立即下载

希楠

粉丝: 2
资源: 23

OCR识别技术：图像预处理与透视变换

OCR技术在文本图像处理中的应用研究

文本侦测与识别：图像处理与人工智能应用案例

OpenCV与Python实现卡片数字OCR识别案例

案例@文本侦测与识别.zip

基于百度UI界面的OCR识别.rar

计算机视觉opencv（python版）实战项目源码-文档扫描OCR识别.zip

OCR文字识别.zip

android OCR文字识别.zip

ocr.tar.gz_OCR_图书识别_图像识别_封面识别

xsz识别OCR识别技术.rar

最新资源