拉普拉斯文本检测算法详解与实现

需积分: 0 103 浏览量更新于2024-08-04 收藏 1.27MB DOCX 举报

"这篇资源主要讨论了一种基于拉普拉斯算子的多方向文本检测算法，该算法在视频中检测文字。算法的核心步骤包括图像预处理、使用自定义的频域拉普拉斯滤波和计算最大差分(MD)图。尽管算法在理论上表现优秀，但在实际实现时会遇到误警率高的问题。" 算法详细步骤如下： 1. **图像预处理**：首先，应用理想低通滤波器来平滑图像，减少噪声。滤波器的模糊范围设定为填充后宽度的0.8倍。这一步骤有助于消除高频噪声，但可能会使图像细节变得模糊。 2. **频域拉普拉斯滤波**：利用自定义的拉普拉斯滤波器在频域中进行操作，因为拉普拉斯算子能敏感地捕捉图像的二阶导数变化，适合检测低对比度的文字。然而，这种敏感性也可能导致过高的误警率。 - 自定义滤波器的实现包括四个辅助函数： - `paddesize.m`：根据图像尺寸进行填充，以便适应滤波需求。 - `dftuv.m`：生成填充后图像对应的离散傅立叶变换U、V坐标网格。 - `lpfilter.m`：生成理想、巴特沃斯或高斯低通滤波器，这里选择理想滤波器，因为其参数设置简单。 - `dftfilt.m`：执行频域滤波，将图像与通过`lpfilter.m`得到的滤波器相乘。 3. **计算MD图**：在经过滤波的图像基础上，算法计算MD图。对于图像中的每个像素，选取一个1×N的窗口（N=21），计算窗口内像素的灰度最大值和最小值之差，得到的差值即为MD值。遍历所有像素，形成MD图。MD图能够突出显示灰度变化较大的区域，有利于识别文本区域。尽管该算法在理论上和实验中表现出色，但在实际应用中，由于拉普拉斯算子的敏感性和骨架分割过程，误警率可能非常高。因此，优化这些步骤对于提高算法性能至关重要。在评估算法时，需要对不同滤波器类型和参数进行实验，以找到最佳配置，同时可能还需要对骨架化方法进行改进，以降低误警率。

算法说明

我们参考的论文是 2011 年发表在 PAMI 上的一片论文：A Laplacian Approach to

Multi-Oriented Text Detection in video. 作者这篇论文引用比较高，从作者的测得的数据

来看也确实不错。

但是当我们按作者的算法一步步实现起来的时候才发现，作者隐藏了太多的细

节。单纯的把论文里所说的步骤重现远远达不到作者所说的那么好的结果，尤其是极

高的误警率。

下面是算法的详细步骤说明，可以结合 text_detect.m 中的代码注释来看（整个过

程在灰度图像上进行处理）：

1. 文字检测

a.采用理想低通滤波器进行平滑噪声，模糊范围是填充后宽度的 0.8 倍。

b.然后在频域使用拉普拉斯，这里使用拉普拉斯是因为它作为一个二阶微分算子，

相比于一阶微分算子对细节更加敏感，这样可以检测到许多低对比度的文字。但这个

也是一把双刃剑，就是因为拉普拉斯的过于敏感，使得检测结果有超高的误警率，不

过高误警率除了这部分造成的原因外，后面的骨架分割也是一个重要原因。

MATLAB 没有自带的频域拉普拉斯滤波函数(只有空域)，所以我们参考《数字图

像处理 MATLAB 版》自己写了一个。这里我们使用的函数是：paddesize.m，，

dftuv.m，lpfilter.m， dftfilt.m。

paddesize.m 接受图像大小参数，进行图像填充。

dftuv.m 接受填充后图像的大小作为参数，产生离散 U，V 的网格数据。

lpfilter.m 产生低通滤波算子，可以选择理想，巴特沃斯，高斯低通滤波。作者采

用理想低通滤波的理由是：参数比较简单。但实际上个人觉得采用别的滤波参数也没

有更复杂。至于实现效果，我们测试了一几幅图片，看不出有什么差距，不过这么小

的测试量也许不能代表什么。所以我们还是选择了作者的给出的方法。

dftfilt.m 进行频域滤波，这个函数接受两个参数，一个是图片，一个是滤波算子，

将通过 lpfilter.m 得到的低通滤波算子和拉普拉斯算子进行乘积作为第二个参数进行滤

波，就可以得到滤波后的图像。如下所示：

c.在上面结果的基础上，计算 MD 图，所谓 MD 图，就是对于图像中的每一个像素

取一个 1×N(作者取 N=21)的小窗口，求这个窗口的像素灰度的最大值和最小值，然后

作差，就得到了该像素的 MD 值，对每一个像素进行遍历，就得到了 MD 图。如下所

示：

下载后可阅读完整内容，剩余6页未读，立即下载

普通网友

粉丝: 18
资源:
314

拉普拉斯文本检测算法详解与实现

算法概要设计说明书范例

silan_mems_手环算法说明书(加速度计)_v1.0.pdf

国密算法(国家商用密码算法简介).pdf

给一个哈夫曼编码问题程序的整体框架和流程图或是算法说明等等。

I 算法、F1算法、F2算法、F5算法等常见数据仓库拉链算法的说明及主要适用场景

请帮我写出代码的算法说明

河北科技大学心理咨询管理系统的算法说明

数据分布检测算法l1检测算法 和l2检测算法

sharc dsp音效算法说明文档

可以帮我写一个代码的算法说明吗

最新资源

数据分布检测算法l1检测算法和l2检测算法