基于模型的二值文档图像压缩

42 浏览量更新于2023-10-16 收藏 12.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159840基于模型的迭代恢复与字典学习的二值文档图像压缩0Yandong Guo 1 � Cheng Lu 2 Jan P. Allebach 3 Charles A. Bouman 301 微软研究院 2 索尼电子公司 3 普渡大学西拉法叶分校0yandong.guo@microsoft.com, cheng.lu@am.sony.com, { allebach, bouman } @purdue.edu0摘要0观察到的（例如扫描的）二值文档图像中固有的噪声会降低图像质量，并通过破坏图像的重复模式和增加熵来损害压缩比。在本文中，我们设计了一个在贝叶斯框架下具有字典学习的代价函数。最小化我们的代价函数会产生一个比观察到的噪声图像质量更好的恢复图像，并产生一个用于表示和编码图像的字典。恢复后，我们使用这个字典（来自同一代价函数）按照JBIG2标准的符号-字典框架对恢复的图像进行编码，采用无损模式。对各种文档图像的实验结果表明，与观察到的图像相比，我们的方法改善了图像质量，同时提高了压缩比。对于带有合成噪声的测试图像，我们的方法将翻转像素的数量减少了48.2%，压缩比提高了36.36%，与最佳编码方法相比。对于带有真实噪声的测试图像，我们的方法在图像质量方面有视觉上的改善，并在压缩比方面比最先进的方法提高了28.27%。01. 引言0几十年来，改善二值文档图像的质量和减小图像大小一直是追求的两个目标。文档图像的高压缩比主要依赖于文档图像中重复模式中嵌入的信息冗余，以及一种智能的方式来利用这种模式重复性。不幸的是，当文档图像通过扫描或其他成像设备获得时，噪声是不可避免的。这种固有噪声破坏了模式重复性，增加了熵，从而降低了压缩比。如图1(b)所示，尽管在原始图像中字母“l”具有相同的字体和字号，但在观察到的图像中它们看起来不同。笔画在观察到的图像中失去了平滑的边界。在大多数情况下，只有观察到的噪声图像是可用的。图4和7中展示了更多的例子。传统上，有两种选项来压缩这些观察到的图像。在第一种选项中，人们将观察到的图像编码为原样（无损模式）。在这种情况下，压缩图像的质量等于观察到的图像的质量，而其中的大部分比特用于存储噪声。第二种选项是有损模式，它倾向于具有较高的压缩比，但通常会使图像质量变差，甚至引入语义错误。0� 这项研究工作是在普渡大学攻读博士学位期间由Yandong Guo和ChengLu完成的。0(a)未知的原始图像0(b)输入：噪声观察0(c)我们的方法恢复的图像0图1.用于文档图像的成像和压缩流程。在图的底部区域，我们放大文档图像以可视化两个字符“l”的细节。如子图(b)所示，我们系统的输入不可避免地包含了成像设备（扫描仪、相机等）引入的噪声。我们的方法恢复了输入的噪声图像并对恢复的图像进行压缩。如子图(c)所示，我们的方法成功地去除了噪声并保持／恢复了非常细微的细节（一像素宽度的笔画）。此外，我们在第5节中提出，与对观察到的图像进行编码相比，编码我们恢复的图像在合成噪声设置中提高了36.36%的压缩比，在真实噪声设置中提高了28.27%的压缩比。0压缩比。如图1(b)所示，尽管在原始图像中字母“l”具有相同的字体和字号，但在观察到的图像中它们看起来不同。笔画在观察到的图像中失去了平滑的边界。在大多数情况下，只有观察到的噪声图像是可用的。图4和7中展示了更多的例子。传统上，有两种选项来压缩这些观察到的图像。在第一种选项中，人们将观察到的图像编码为原样（无损模式）。在这种情况下，压缩图像的质量等于观察到的图像的质量，而其中的大部分比特用于存储噪声。第二种选项是有损模式，它倾向于具有较高的压缩比，但通常会使图像质量变差，甚至引入语义错误。59850文档图像。在本文中，我们从不同的角度解决了上述问题。我们提出了一种恢复方法来提高观察到的有噪声图像的质量，并同时提高压缩比（与直接编码观察到的图像相比）。我们的直觉是，在我们的图像恢复过程中，观察到的有噪声文档图像的模式重复自然恢复，而这种模式重复有利于压缩比。我们的方法可以总结为两个步骤。首先，我们通过在贝叶斯框架中最小化成本函数（Eq.1）来恢复图像。其次，在恢复之后，我们使用相同的字典进行恢复，以编码恢复的文档图像。我们的成本函数是似然项和先验项的总和。0{ˆx, ˆD} = argmin x, D {-log p(y|x) - log p(x|D) - log p(D)}.0(1) 似然项 -log p(y|x)用于模拟典型的成像流程（从未知的无噪声图像x到观察到的有噪声图像y），而先验项（成本的其余部分）旨在鼓励图像x由有限大小的字典D稀疏表示。我们从观察到的噪声图像中全局学习这个字典，并利用字典中嵌入的非局部信息来提高图像质量并恢复文档图像中的重复模式。具体而言，我们在条件熵估计（CEE）空间中学习字典[16]，并利用CEE计算先验项中的稀疏表示成本-logp(x|D)。先前的研究[16]表明，与欧几里得空间相比，二进制信号的分布在CEE空间中更好地建模，并且CEE空间在评估与相关字典条目关联的图像块中包含的信息量方面具有显著优势。恢复之后，我们首先使用在成本函数中估计的字典ˆD进行编码，然后使用该字典作为参考来编码恢复的图像ˆx。我们的编码遵循JBIG2无损编码标准[4]。由于我们的稀疏表示成本-logp(x|D)是通过估计给定字典的图像中的信息熵来计算的，并且我们在恢复和压缩中使用相同的字典，因此我们在先验项中具有近似编码图像所需位数的能力。因此，最小化预处理步骤中的成本函数不仅可以提高图像质量，还可以在满足约束-logp(y|x)的情况下数值上减少近似的文件大小。据我们所知，这是首次在恢复和压缩中共享相同的字典。0我们使用合成噪声和真实噪声的测试图像进行实验。实验结果表明，我们恢复的图像质量比观察到的图像更高，并且编码恢复的图像与直接编码输入观察到的图像相比生成了更高的压缩比。我们的论文贡献总结如下。0•我们设计了一个成本函数，用于模拟图像恢复，并近似计算编码图像所需的位数。最小化这个成本函数同时提高了观察到的（例如，扫描的）文档图像的质量，并提高了压缩比。0•我们在条件熵空间中学习字典，其中二进制信号的分布更好地建模[16]。0•根据我们的了解，这是第一次在恢复和压缩中使用相同的字典。0• 我们的比特流符合JBIG2标准。0本文的结构如下。在第2节中，我们回顾了一些最相关的工作。在第3节中，我们描述了我们的数学模型，包括成像和先验学习。在第4节中，介绍了优化我们模型的方法。第5节展示了使用合成和真实噪声的测试图像的实验结果。02. 相关工作0由于我们尚未看到有关优化恢复质量和压缩比的研究成果，我们分别回顾压缩和恢复方法。02.1. JBIG2编码0在使用公式1对图像进行预处理后，我们使用JBIG2压缩标准中定义的符号字典框架对恢复后的图像进行编码，采用无损模式。JBIG2压缩标准由联合双色图像专家组[4]开发，可以产生比之前的标准（如T.4、T.6和T.82[1, 2, 3, 22,5]）更高的压缩比。通过符号字典框架，典型的JBIG2编码器首先将文档图像分割成重复的连通组件，称为符号。然后，编码器将学习到的字典条目作为位流的一部分进行编码，然后使用字典条目作为参考对图像进行编码[15, 21, 8, 20,34]。在无损模式下，图像块与相关字典条目之间的所有差异都进行熵编码。传统的JBIG2无损编码器压缩观察到的噪声图像。在这种情况下，固有的噪声会增加图像的熵，并在对文档图像进行编码时消耗额外的位数。相反，我们的方法压缩恢复后的图像，以产生更好的质量和更高的压缩比。虽然所有传统的JBIG2编码器都压缩观察到的图像，但一些编码器通过更好的字典学习实现更高的压缩。字典学习通常包括两个关键任务：构建字典和为给定的图像块（符号）选择最佳字典条目。这两个任务可以交替或同时进行。在JBIG2中广泛使用的不相似度度量包括汉明距离（称为XOR[19]）和加权汉明距离（称为WXOR[29,14]）。加权汉明距离是通过符号位图和字典条目位图之间的差异的加权求和来计算的。Zhang、Danskin和Yong还提出了一种基于交叉熵的不相似度度量，该度量以具有特定权重的WXOR实现[39,40]。XOR的计算成本最低，而WXOR和交叉熵方法更广泛使用，因为它们对聚集错误更敏感，并且可以实现更低的替换错误[14, 13]。如今，使用条件概率估计评估符号与字典条目之间的不相似度在[31, 16,17]中显示出巨大潜力。基于OCR的方法需要大量的训练，并且对字体和/或语言类型非常敏感，因此超出了本文的讨论范围。对于字典构建，已经提出了各种方法。这些方法通常根据不相似度度量将符号聚类成组，使用K均值聚类或最小生成树[34, 36,35]。在每个组内，使用一个字典条目来表示该组的所有符号。需要注意的是，JBIG2标准还提供了一种有损选项。与JPEG或典型的视频编码中“有损”的典型定义不同，有损JBIG2是指用其相关的字典条目替换图像符号。由于以下两种潜在的质量降低类型，有损选项使用起来非常危险。第一种类型称为替换错误，当符号被具有不同语义含义的字典条目替换时发生。例如，字母“c”很容易被字母“o”替换，特别是在低分辨率的扫描条件下。尽管已经提出了许多方法（包括[29,14]）来控制替换错误，但我们还没有看到任何一种方法声称具有零错误率。第二种质量降低类型发生在符号被具有相同语义含义但质量较低的字典条目替换时。然而，目前还没有59860噪声会增加图像的熵，并在对文档图像进行编码时消耗额外的位数。相反，我们的方法压缩恢复后的图像，以产生更好的质量和更高的压缩比。虽然所有传统的JBIG2编码器都压缩观察到的图像，但一些编码器通过更好的字典学习实现更高的压缩。字典学习通常包括两个关键任务：构建字典和为给定的图像块（符号）选择最佳字典条目。这两个任务可以交替或同时进行。在JBIG2中广泛使用的不相似度度量包括汉明距离（称为XOR[19]）和加权汉明距离（称为WXOR[29,14]）。加权汉明距离是通过符号位图和字典条目位图之间的差异的加权求和来计算的。Zhang、Danskin和Yong还提出了一种基于交叉熵的不相似度度量，该度量以具有特定权重的WXOR实现[39,40]。XOR的计算成本最低，而WXOR和交叉熵方法更广泛使用，因为它们对聚集错误更敏感，并且可以实现更低的替换错误[14,13]。如今，使用条件概率估计评估符号与字典条目之间的不相似度在[31, 16,17]中显示出巨大潜力。基于OCR的方法需要大量的训练，并且对字体和/或语言类型非常敏感，因此超出了本文的讨论范围。对于字典构建，已经提出了各种方法。这些方法通常根据不相似度度量将符号聚类成组，使用K均值聚类或最小生成树[34, 36,35]。在每个组内，使用一个字典条目来表示该组的所有符号。需要注意的是，JBIG2标准还提供了一种有损选项。与JPEG或典型的视频编码中“有损”的典型定义不同，有损JBIG2是指用其相关的字典条目替换图像符号。由于以下两种潜在的质量降低类型，有损选项使用起来非常危险。第一种类型称为替换错误，当符号被具有不同语义含义的字典条目替换时发生。例如，字母“c”很容易被字母“o”替换，特别是在低分辨率的扫描条件下。尽管已经提出了许多方法（包括[29,14]）来控制替换错误，但我们还没有看到任何一种方法声称具有零错误率。第二种质量降低类型发生在符号被具有相同语义含义但质量较低的字典条目替换时。然而，目前还没有0在这个领域已经付出了很多努力，以确保字典条目的质量优于要替换的符号。由于这些原因，本文不考虑JBIG2编码器的有损模式。02.2.图像恢复0文献[26]从滤波的角度提供了非常全面的综述。在所有这些方法中，基于模型的具有马尔可夫随机场（MRF）先验的重建/恢复方法[18,12,6]提供了非常强大的结果。此外，利用非局部信息的最新方法在恢复灰度/彩色图像方面取得了领先的性能，例如[42,37,7,24,9,10,11,25]，并在各种重建应用中取得了有希望的结果，例如[32,41,33,23]。需要额外的工作将这些为灰度图像恢复设计的方法转化为我们的问题。一个主要原因是二值文档图像中的失真具有不同的模式，无法很好地近似为高斯分布（大多数恢复工作中的隐含假设）。需要更好地利用二值文档图像的非局部信息。此外，上述任何恢复方法都不是为了提高压缩比而设计的。我们通过优化一个代价函数来解决这些问题，该代价函数同时考虑了图像质量和压缩比。03.统计模型0设x∈{0,1}K表示未知无噪声图像，向量y∈{0,1}K表示观察图像，我们通过最小化公式1中的代价函数来获得恢复的图像进行编码。公式1中每个项的详细信息将在下面的子节中介绍。03.1.似然项的前向模型0给定无失真的未知图像x∈{0,1}K，观察图像y∈{0,1}K具有以下的似然分布，0p(y|x)=�0kp(yk|x)（2）0其中，0p(yk|x)=1-|yk-µk|（3）0µ=A x（4）0术语|yk-µk|是yk-µk的绝对值。在上述方程中，公式（4）基于打印和扫描的低通假设，因为这些过程的分辨率有限。我们使用矩阵A∈�K×K来构建这个低通滤波器，其中每一行执行一个低通滤波操作。p(y|x) =�k�1 − |yk −�lAk,lxl|�(8)− log p(x|D) − p(D) ∝ −�ilog p(Bix|df(i); φ)−�jlog p(dj) .(9)p(si|dj; φ) =�sp (si(r)|c(si, dj, r); φ) ,(11)59870将矩阵A作用于图像x，得到中间图像µ∈[0,1]K。我们将矩阵A约束为稀疏矩阵，以实现低计算成本，并将矩阵A约束为循环矩阵，以实现对图像x的均匀滤波。此外，我们提出对矩阵A的每一行施加以下约束，以确保滤波不引入能量变化。�0lAk,l=1。（5）0公式（3）描述了第k个像素yk的条件概率分布。由于像素yk的值只能是1或0，我们可以将公式（3）表示为如下形式，0p(yk=1|µk)=µk（6）0p(yk=0|µk)=1-µk（7）0上述公式（6）和（7）表明公式（3）是一个有效的概率分布。此外，公式（6）和（7）展示了我们设计似然函数的直觉：如果中间图像中的像素µk的值接近1，我们有更大的机会得到yk=1；而如果像素µk的值接近0，我们有更大的机会得到yk=0。根据公式（4）中的两个低通滤波模型和公式（6）和（7）中的量化描述，我们基于每个像素在观察图像y中的条件独立分布的假设，建立了公式（2）中的似然函数，给定潜在图像x。0在这里，出于简单性和模型的普遍性考虑，我们假设像素yk的概率分布仅由像素值µk决定。对于特定的量化算法，例如误差扩散，我们可以相应地更新似然函数。03.2. 具有字典学习的先验模型0我们将公式（1）中的先验项设计如下，0在第一个求和项中，术语p(Bix | df(i);φ)是第i个符号在字典条目df(i)∈D给定φ参数化的条件概率。矩阵Bi是用于提取图像中第i个补丁（称为第i个符号）的运算符，j =f(i)表示将每个单独的符号Bix映射到其对应的字典条目。0对应的字典条目dj∈D。为了简化符号，我们定义si = Bix。0第二个求和项是字典大小的惩罚项。我们的先验设计有两个含义。一个是用于恢复：鼓励图像由具有有限大小的字典表示。另一个是近似编码图像所需的位数。具体来说，引入变量φ来参数化条件概率p(si | dj;φ)。我们不计算图像批次与相关字典条目之间的欧氏距离作为条件概率的对数，因为文档二进制图像中的失真通常不符合独立同分布的高斯分布假设（这是使用欧氏距离的先决条件）。直观地说，使用φ来参数化条件概率的好处是，我们可以对罕见的失真模式赋予更大的权重，而对常见的失真模式赋予较小的权重，通过对φ进行严格的优化过程。不同失真模式的不同权重引入了对给定相关字典条目的符号需要编码的信息量的良好近似[16,17]。这种良好的近似有利于字典条目的选择和构建，最终有利于恢复和压缩。第5节中的更详细的实验结果进一步证明了在估计φ方面的压缩和恢复的优势。我们简要回顾一下如何建模条件概率p(si | dj; φ)。条件概率p(si | dj;φ)的形式可能非常复杂，因为si和dj都是高维随机变量。这使得参数向量φ包含了太多要估计的元素。为了解决这个问题，我们将p(si | dj;φ)建模为一系列简单概率密度函数的乘积。0其中术语p(s i (r) | c(s i, d j, r); φ)是第r个符号像素s i(r)在其参考上下文c(s i, d j,r)的条件概率，其定义如图2所示。图2以图形方式说明了参考上下文的结构示例。如图所示，参考上下文c(s i, d j,r)是一个10维二进制向量，由s i中s i(r)的4个因果邻域像素和d j中d j(r)的6个非因果邻域像素组成。式（11）中的分解基于这样的假设：给定其参考上下文c(s i, d j, r)，符号像素s i(r)在其之前（按光栅顺序）的符号上是条件独立的。59880(a) 符号的邻居0(b) 字典条目的邻居0图2. s i ( r ) 的 4 个因果邻域像素和 d j ( r ) 的 6个非因果邻域像素。请注意，这不是我们唯一可以使用的邻域系统。我们选择了在JBIG2标准中也使用的邻域系统，但是以不同的方式估计条件概率，如第4节所述。0除了其4个因果邻居之外，s i ( r )的所有邻域像素都是条件独立的。这种条件独立性设计使得我们的分解与现有的分解/因子化方法在推断复杂分布方面不同[28, 27,30]。根据公式(11)中的分解，我们进一步启发性地假设对于给定的文档图像，p ( s i ( r ) | c ( s i , d j , r ); φ )中的自然参数 φ 完全由参考上下文 c ( s i , d j , r )决定。由于符号像素是二进制的，我们将其在给定特定参考上下文下的条件分布建模为伯努利分布，如下所示：0p ( s i ( r ) | c ( s i , d j , r ); φ ) = φ 1 − s i ( r ) c (1 − φ c ) s i ( r ) , (12)0其中变量 φ c表示伯努利分布的自然参数，并完全由参考上下文向量 c =c ( s i , d j , r ) 的值确定。总共，这个参考上下文 c ( s i ,d j , r ) 可能有 2^10种不同的值，我们在图2中的10位邻域系统中有 2^10个参数需要估计。0φ = [ φ 1 , φ 2 , . . . , φ 1024 ] T (13)04. 优化0根据公式(2)、(3)和(4)中的似然分布以及公式(9)中的先验分布，我们得到要优化的代价函数，如下所示：0{ ˆ x , ˆ D , ˆ f, ˆ φ } = argmx , D ,f, φ − �0k log(1 − | y k −0l A k,l x l |)0− �0i log p ( B i x | d f ( i ) ; − �0j log p ( d j ) (14)0我们提出使用交替优化策略。首先，我们通过以下方式初始化未知图像 x：0x ← y. (15)0MBIR DL 编码 ( y ) {0/ � 初始化 � /0ˆ x ← y0{ ˆ D (0) , ˆ f (0) } ← XOR-OP (ˆ x)0重复使用 ( 19 ) 更新 ˆ φ 更新 ˆ D , ˆ f 使用 ( 20 )更新 ˆ x 使用 ( 25 ) 直到收敛或达到最大迭代次数0使用JBIG2进行无损编码 ˆ x0返回 JBIG2 比特流0图3.我们的方法称为基于模型的迭代恢复与字典学习(MBIR-DL-编码)的伪代码。首先，作为初始步骤，我们用观察到的图像 y初始化未知图像x。然后，我们重复参数估计、字典构建和图像恢复多次，直到收敛。在收敛后，我们使用JBIG2无损选项对恢复的图像 ˆ x 进行编码。0然后，我们交替更新字典 D、映射 f、参数 φ 和未知图像x。我们的方法的整体结构如图3所示，详细信息在以下子节中提供。04.1. 字典学习0在初始阶段，我们从当前图像估计 ˆ x (0) 中学习临时字典 ˆD 和映射 ˆ f。在字典学习过程中，我们首先估计参数 φ，0ˆ φ = argmin φ �0i log p ( B i ˆ x | ˆ d ˆ f ( i ) ; φ ) − log p φ ( φ ) , (16)0在这个分布中，我们假设 φ中的所有元素是独立且同分布的，遵循 Beta 分布。0pφ(φ) = ˆ0c Beta(φ^c | a, b), (17)0Beta(φ^c | a, b) =0Γ(a)Γ(b)φ^(a-1)c(1-φ^c)b-1. (18)0我们设置a = b =2。根据公式（11）和（12），以及先验项（17）和（18），我们将公式（16）更新为以下公式（19），从而得到+(19)̸̸59890ˆφ的高效计算。0ˆφ = argmaxφ0ˆNˆ0i=10ˆ0r[1 - ˆsi(r)]logφ^c(ˆsi, ˆd ˆf(i), r)0Nˆ0i=10ˆ0rˆsi(r)log[1 - φ^c(ˆsi, ˆd ˆf(i),r)]0+ˆ0clogφ^c(1 -φ^c)0ˆ0在估计条件概率参数ˆφ固定后，我们使用以下公式构建字典ˆD和映射ˆf，0{ˆD, ˆf} ← argminD,f 0ilog p(Biˆx | df(i); ˆφ)0−ˆ0jlog p(dj) (20)0我们将这个优化问题视为熵空间中的聚类问题，并使用无监督的贪婪凝聚聚类方法来构建字典和映射。04.2. 图像恢复0在本节中，我们介绍了使用固定的字典ˆD和映射ˆf来恢复图像的方法。0ˆx ← argminx -ˆ0klog(1 - |yk - ˆ0lAk,lxl|)0−ˆ0ilog p(Bix | ˆd ˆf(i); ˆφ) (21)0由于公式（21）的复杂性，我们设计了一种迭代恢复方法。在每一步中，我们只更新未知图像x的一个像素，并保持其余像素不变。我们用˜xu表示新的图像，其中第u个像素将被更新。似然项（21）的值变化简化为0∆1 = -log0ˆ0{k | Ak,u ≠ 0} (1 - ∥yk -0lAk,l˜xul∥)0ˆ0{k | Ak,u ≠ 0} (1 - ∥yk -0lAk,lxl∥) (22)0注意，只有A中第u个元素非零的行需要进行评估。随着图像的更新，先验项的值变化为0∆2 = -ˆ0ilog p(Bi˜xu | ˆd ˆf(i);ˆφ)0+ˆ0ilog p(Bix | ˆd ˆf(i); ˆφ), (23)0这是一个高效计算，因为只需要考虑包含更新像素˜xu的符号。假设si(u)(r)是包含第i(u)个符号的符号，0更新的第u个像素，改变的像素具有索引r，我们可以依靠公式（11）对公式（23）进行简化，0∆2 = log p(˜si(u)(r) | c(˜si(u), ˆd ˆf(i), r);ˆφ0−log p( si(u)(r) | c(si(u), ˆd ˆf(i), r); ˆφ), (24)0根据上述讨论，我们可以更新第u个像素为ˆxu = argminxu∈ {0, 1} ∆1 + ∆2. (25)0如图3所示，我们重复参数估计、字典构建和图像恢复的过程，直到收敛或达到预定义的最大迭代次数，以保证计算时间。收敛后，我们使用JBIG2无损选项对恢复的图像进行编码。在优化过程中，方程（1）的值保证在不断减小。由于缺乏凸性，我们无法保证全局最优解，但实验结果表明我们得到的局部最优解是有希望的。05. 实验结果0在本节中，我们介绍了所有用于比较的方法，并列出了我们使用的所有参数值。我们使用合成噪声和真实噪声进行实验，以评估我们的方法在图像质量和压缩比方面的性能。05.1. 比较方法0我们在本文中调查了四种尖端方法。所有这些方法都遵循JBIG2中无损模式下的符号-字典框架。前两种方法对观察图像（输入）进行编码而不进行恢复。这两种方法之间的主要区别在于它们构建编码字典的方式：一种方法基于加权异或相似度测量（WXOR-Lossless）[29,14]学习字典，而另一种方法称为CEE-Lossless，基于条件熵估计[16]学习字典。另外两种方法对从观察图像估计得到的恢复图像进行编码。其中一种是我们在本文中提出的方法，称为基于模型的迭代恢复与字典学习（MBIR-DL）。在我们的MBIR-DL方法中，我们将方程（4）中的矩阵A固定为具有σ2r =0.2的高斯滤波器，并在恢复后应用JBIG2无损模式。为了强调MBIR-DL中使用的字典的好处，我们将MBIR-DL中的字典先验替换为标准的马尔可夫随机场（MRF）。p(xk) ∝ exp−�{l,k}∈C|xk − xl|.(26)e =�k|ˆxk − xk| ,(27)59900方法恢复编码字典0WXOR-Lossless 否 WXOR [29, 14]0CEE-Lossless 否 CEE [16]0MBIR-MRF 是的，MRF先验 CEE [16]0MBIR-DL 是的，字典先验 CEE [16]0表1.比较方法。前两种方法（WXOR-Lossless和CEE-Lossless）将输入的观察图像按原样进行编码。另外两种方法将从观察图像估计得到的恢复图像进行编码。我们的方法MBIR-DL使用字典先验恢复观察图像，而MBIR-MRF使用马尔可夫随机场作为先验。在编码方面，所有这些方法都遵循JBIG2中无损模式下的符号-字典框架。WXOR-Lossless方法使用基于加权异或（WXOR）相似度测量学习的字典进行图像编码。其余三种方法使用相同的方法（条件熵估计（CEE）[16]）构建编码字典。0对于使用8像素邻域系统的二进制信号，如方程（26）所定义，0我们将此方法称为MBIR-MRF。在恢复后，MBIR-MRF使用与MBIR-DL相同的方式对恢复图像进行编码。这些方法在表1中总结。05.2. 合成噪声0我们通过合成噪声生成测试图像，以便能够使用完全对齐、无噪声的参考图像评估恢复图像的质量。设 x表示参考图像（无噪声），ˆ x表示从观察到的有噪声图像估计得到的恢复图像，我们将 x和 ˆ x 之间不同像素的总数作为我们的质量度量，定义为0其中 k是像素索引。请注意，对于具有固有真实噪声的扫描图像，要获得完全对齐、无噪声的参考图像（即使原始文档pdf可用）非常困难。05.2.1 数据生成0我们从网络上获取无噪声参考图像 x。首先，我们下载了知名教授的简历pdf文件。1然后，我们将它们转换为二进制图像。0由于空间限制，我们将测试数据和更详细的实验结果发布在补充材料中。0（a）原始图像0（b）噪声0（c）MBIR-MRF0（d）MBIR-DL0（e）原始图像0（f）噪声0（g）MBIR-MRF0（h）MBIR-DL0图4.使用MBIR-DL和MBIR-MRF获得的恢复结果的可视化。我们在这里重新列出了图1（a）中字母“l”的示例，以便比较MBIR-MRF和MBIR-DL。0文档图像的分辨率为3240×2550。总共有114个主要包含文本的二值文档图像。0为了合成成像过程中引入的噪声，我们对每个测试图像应用了高斯低通滤波器，对应于方程（4）中的A。请注意，许多商业产品的固件中都实现了类似的高斯滤波器，例如多功能打印机（MFP）。我们遵循了方程（3）中的相同噪声模型生成扫描图像y。由于不同的σ值导致不同的模糊级别并引入不同程度的失真，在我们的实验中，我们应用了3×3大小的高斯滤波器，σ2分别为0.1、0.12、0.14和0.16，以模拟成像过程中不同水平的噪声。然后我们得到了4组具有不同噪声水平的噪声图像。05.2.2 与无恢复压缩比较0我们将我们的方法与[29,14]中的WXOR无损和[16]中的CEE无损进行比较。WXOR无损和CEE无损都直接使用JBIG2无损模式对观察到的图像进行编码。它们压缩后的图像质量与观察到的图像完全相同。相反，我们的MBIR-DL方法（参数固定）在不同噪声水平的测试图像上始终提高图像质量，如图5所示。0此外，我们的MBIR-DL方法在图像压缩比方面也一直优于CEE无损和WXOR无损。这是因为MBIR-DL恢复了观察到的图像并恢复了图案的重复性。请注意，与WXOR无损相比，CEE无损方法产生了更小的文件大小，因为在条件熵空间中学习的字典更好地表示了二值图像。0.10.110.120.130.140.150.1600.511.522.53x 104σ2 0.10.120.140.161020304050σ2 0.10.110.120.130.140.150.1600.511.522.53x 104σ2 0.10.120.140.161020304050σ2 Lossless-TIFF53.7 KB19.37XOR-Lossless35.4 KB29.36CEE-Lossless27.8 KB37.40MBIR-MRF27.3 KB38.08MBIR-DL21.5 KB48.01(c) MBIR-DL59910MBIR−DL WXOR和CEE无损0（a）错误像素数量 e0文件大小（kB）0MBIR−DLWXOR−LosslessCEE−Lossless0（b）文件大小0图5.我们的MBIR-DL与WXOR无损和CEE无损的比较。WXOR无损和CEE无损不改变输入图像的像素值，它们具有相同的质量。我们的MBIR-DL改善了图像质量并减小了比特流的文件大小。请注意，更多的噪声（较大的σ2）通常会增加文件大小。0MBIR−DLMBIR−MRF0（a）错误像素计数 e0文件大小（kB）0MBIR−DLMBIR−MRF0（b）文件大小0图6. MBIR-DL方法在图像质量和压缩比方面优于MBIR-MRF。05.2.3 MBIR-DL与MBIR-MRF的比较0为了展示在MBIR-DL恢复中使用字典的好处，我们将MBIR-DL与MBIR-MRF进行比较。如5.1所述，两种方法之间唯一的区别在于MBIR-MRF使用马尔可夫随机场（MRF）作为先验，而MBIR-DL使用字典作为先验。如图6所示，我们的MBIR-DL方法在恢复质量和压缩比方面优于MBIR-MRF。在图4中，我们通过放大测试图像来可视化恢复结果的比较。请注意，子图（d）是一个非常典型的情况，我们的MBIR-DL可以通过使用非局部信息恢复左边字母“l”的左上角非常锐利的部分。然而，没有使用非局部信息，MBIR-MRF无法恢复这种仅有一个像素宽度的细节。此外，最后一行的子图表明，我们的MBIR-DL可以从严重失真中恢复图像，尽管还不完美。05.3. 真实噪声0为了评估我们的MBIR-DL方法在实际应用场景中的性能，我们扫描了41个二进制文档图像。噪声来自成像设备，比合成噪声更复杂。我们的所有0方法文件大小（KB）压缩比0表2.使用不同方法对带有真实噪声的扫描测试图像进行编码的比特流文件大小0(a) 原始图像0(b) 扫描图像0图7. 使用MBIR-DL恢复的图像的可视化0本小节中的测试图像以300dpi扫描，并且大小为3275×2525像素。这些测试图像主要包含文本，但其中一些还包含线条、表格和通用图形元素，但没有半色调。这些测试图像中的文本具有不同的字体和字号。如表2所示，MBIR-DL在所有竞争对手中实现了最高的压缩比。由于没有参考图像，我们使用非参考度量来评估图像质量。使用[38]中专门为二进制文档图像定义的非参考度量，我们证明我们恢复的图像的视觉质量提高了5.1％。我们放大了测试图像的样本区域以获得更好的可视化效果，如图7所示。此外，我们使用tesseract-OCR和人工视觉检查验证了压缩图像中每个符号。在MBIR-DL压缩图像中没有发现替代错误。06. 结论0我们提出了一种基于模型的迭代恢复与字典学习方法，以解决图像质量和压缩比的联合优化问题。通过减少在成像过程中引入的不可避免的噪声，包括打印、扫描和量化过程中引入的噪声，我们的方法可以显著提高图像质量和压缩比，与直接对观察到的图像进行编码相比。对于具有合成失真的测试图像，我们的方法将翻转像素的数量减少了48.2％，压缩比提高了36.36％，相对于最先进的方法。对于具有真实失真的测试图像，我们的方法在压缩比方面比最先进的压缩方法提高了28.27％。59920参考文献0[1] 文档传输的Group 3传真设备标准化. CCITT推荐T.4 , 1980. 20[2] Group 4传真设备的传真编码方案和编码控制函数.CCITT推荐T.6 , 1984. 20[3] 渐进式双色图像压缩. CCITT推荐T.82 , 1993. 20[4] JBIG2最终草案国际标准. ISO/IEC JTC1/SC29/WG1N1545 ,Dec. 1999. 2 , 50[5] R. B. Arps and T. K. Truong.国际无损压缩静态图像标准的比较. IEEE会议论文集 ,82:889–899, 1994. 20[6] C. A. Bouman and K. D. Sauer.使用坐标下降优化的统计层析成像的统一方法. IEEE图像处理期刊 ,5(3):480–492, 1996. 30[7] A. Buades, B. Coll, and J.-M. Morel.一种用于图像去噪的非局部算法. InIEEE计算机视觉与模式识别会议论文集 , pages 60–65, 2005. 30[8] C. Constantinescu and R. Arps.用于无损文本图像压缩的快速残差编码. InIEEE数据压缩会议(DCC) , pages 397–406, 1997. 20[9] K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian.基于稀疏3D变换域协作滤波的图像恢复. In SPIE电子成像会议 ,2008. 30[10] M. Elad 和 M. Aharon.通过学习字典和稀疏表示进行图像去噪. 在IEEE计算机学会计算机视觉和模式识别会议上 , pages 17–22,2006. 30[11] M. Elad 和 M. Aharon.通过学习字典上的稀疏和冗余表示进行图像去噪.IEEE图像处理期刊 , 15(12):3736–3745, 2006. 30[12] M. A. Figueiredo, J. M. Bioucas-Dias, 和 R. D. Nowak.基于小波的图像恢复的主导-最小化算法. IEEE图像处理期刊 ,16(12):2980–2991, 2007年12月. 30[13] M. Figuera. 用于光栅文档图像压缩的内存高效算法. 博士论文,Purdue大学, West Lafayette, IN, USA, 2008. 30[14] M. Figuera, J. Yi, 和 C. A. Bouman.JBIG2二进制图像压缩的新方法. 在 SPIE 6493, 彩色成像XII:处理、印刷和应用 , page 649305, 2007. 3 , 6 , 70[15] O. Fumitaka, R. William, A. Ronald, 和 C. Corneliu. JBIG2 -终极的双色图像编码标准. 在 IEEE国际图像处理会议上 , pages140–143, 2000. 20[16] Y. Guo, D. Depalov, P. Bauer, B. Bradburn, J. P. Allebach,和 C. A. Bouman.使用条件熵为基础的字典设计和索引的二进制图像压缩. 在 SPIE8652, 彩色成像XIII: 显示、处理、印刷和应用 , volume 8652,page 865208, 2013. 2 , 3 ,

下载后可阅读完整内容，剩余1页未读，立即下载