没有合适的资源?快使用搜索试试~ 我知道了~
59110一种用于空间变形鲁棒场景文本图像超分辨率的文本注意力网络0Jianqi Ma 1 Zhetong Liang 2 Lei Zhang 101 香港理工大学;2 OPPO研究0{ csjma, cslzhang } @comp.polyu.edu.hk, zhetongliang@163.com0摘要0场景文本图像超分辨率旨在提高低分辨率图像中文本的分辨率和可读性。尽管深度卷积神经网络(CNN)取得了显著的改进,但对于空间变形的文本,特别是旋转和弯曲形状的文本,仍然难以重建高分辨率图像。这是因为当前基于CNN的方法采用了基于局部性的操作,对于变形引起的变化不起作用。在本文中,我们提出了一种基于CNN的文本注意力网络(TATT)来解决这个问题。文本的语义首先由文本识别模块提取为文本先验信息。然后,我们设计了一种新颖的基于变换器的模块,利用全局注意机制,对文本先验的语义指导进行文本重建过程。此外,我们提出了一种文本结构一致性损失,通过对常规和变形文本的重建施加结构一致性来改善视觉外观。在基准TextZoom数据集上的实验证明,所提出的TATT不仅在PSNR/SSIM指标方面取得了最先进的性能,而且在下游文本识别任务中显著提高了识别准确性,特别是对于多方向和弯曲形状的文本实例。代码可在https://github.com/mjq11302010044/TATT找到。01. 引言0图像中的文本是我们日常生活中重要的信息来源,可以被提取和解释用于不同的目的。然而,场景文本图像在成像过程中经常遇到各种质量退化,导致低分辨率和模糊的结构。这个问题严重影响了下游高级识别任务的性能,包括场景文本检测、光学字符识别(OCR)和场景文本识别。因此,有必要0R:PRPS餐厅 / P:17.52 / S:0.63090R:餐厅 / P:17.56 / S:0.67740R:餐厅 / P:18.39 / S:0.68370R:餐厅 / P:19.42 / S:0.76350R:餐厅0R:SHORE / P:15.22 / S:0.55430R:SHORE0BicubicTSRNTPGSROursHR0R:SHORE / P:23.45 / S:0.75710R:S M ORE / P:22.21 / S:0.74710R:SHORE / P:21.41 / S:0.66640图1.不同模型在旋转和弯曲形状的文本图像上的超分辨率恢复。'R','P'和'S'分别代表识别、PSNR和SSIM结果。红色字符表示缺失或错误。0为了提高场景文本图像的分辨率和视觉质量,过去几年中已经开发了许多场景文本图像超分辨率(STISR)方法,其中深度学习方法取得了显著的进展。通过使用一组退化和原始文本图像对的数据集,可以训练深度卷积神经网络(CNN)来超分辨率文本图像。CNN具有强大的表达能力,可以从数据中学习各种先验知识,并展现出很强的性能。最近的一项进展是TPGSR模型,该模型首先识别文本的语义作为先验信息,然后用于指导文本重建过程。凭借高级先验信息,TPGSR可以恢复具有引人注目视觉质量的语义正确的文本图像。尽管取得了很大的进展,但是许多基于CNN的方法仍然难以处理空间变形的文本图像,包括旋转和弯曲形状的文本图像。图1中展示了两个例子,左图中的文本具有旋转,右图中的文本具有弯曲形状。可以看到,当前的代表性方法,包括2.2. Scene Text Image Super Resolution (STISR)59120使用TSRN [35]和TPGSR[22]等方法,会产生带有语义不正确字符的模糊文本。这是因为当前工作中的架构主要采用基于局部的卷积等操作,无法有效捕捉由变形引起的大范围位置变化。特别是,TPGSR模型采用了一种简单的方法来利用文本先验:它仅通过卷积将文本先验与图像特征合并。这种安排只能让文本先验在一个小的局部范围内与图像特征进行交互,限制了文本先验对文本重建过程的影响。基于这一观察,应该采用一些基于全局的操作(例如注意力)来捕捉文本图像中的长距离相关性,以获得更好的STISR性能。在本文中,我们提出了一种新颖的架构,称为文本注意网络(TATT),用于空间变形鲁棒的文本超分辨率。类似于TPGSR,我们首先使用文本识别模块将字符语义识别为文本先验(TP)。然后,我们设计了一个基于Transformer的模块,称为TP解释器,以在文本先验和图像特征之间进行全局交互。具体而言,TP解释器在文本先验和图像特征之间进行交叉注意力操作,以捕捉它们之间的长距离相关性。图1中可以看到,我们的方法恢复的字符在视觉质量和语义正确性方面都表现出更好的效果。总的来说,我们的贡献可以总结如下:0•我们提出了一种新颖的方法,通过使用CNN和Transformer将文本先验与空间变形的文本图像对齐,以实现更好的SR恢复。0•我们提出了一种文本结构一致性损失,以增强从空间变形的低分辨率文本图像中恢复文本结构的鲁棒性。0•我们提出的模型不仅在TextZoom数据集上在各种评估指标上取得了最先进的性能,而且在恢复方向扭曲和曲线形状的低分辨率文本图像方面也表现出了出色的泛化性能。02. 相关工作02.1. 单图像超分辨率0单图像超分辨率(SISR)旨在从给定的低分辨率(LR)输入图像恢复高分辨率(HR)图像。传统方法为此任务设计手工制作的图像先验,包括统计先验[11],自相似先验[24]和稀疏性先验[40]。最近的基于深度学习的方法训练0卷积神经网络(CNN)用于解决SISR任务并取得了领先的性能。开创性的工作SRCNN[8]采用三层CNN学习SR恢复。随后,更复杂的CNN架构被开发用于提升SISR性能,例如残差块[19],拉普拉斯金字塔[17],稠密连接[44]和通道注意机制[43]。最近,生成对抗网络已被应用于SISR,以实现逼真的结果[5, 18, 37]。0与一般用于自然场景图像的SISR不同,STISR专注于场景文本图像。它旨在不仅增加文本图像的分辨率,还重建语义正确的文本,以使下游的识别任务受益。早期的方法直接采用了SISR的CNN架构来进行STISR任务。在[9]中,Dong等人将SRCNN[8]扩展到文本图像,并在ICDAR2015竞赛[27]中获得了最佳性能。PlugNet[25]采用可插拔的超分辨率单元来处理特征域中的低分辨率图像。TextSR[36]利用文本感知损失生成所需的高分辨率图像,以改善文本识别。为了解决STISR在现实场景中的问题,Wang等人[35]构建了一个名为TextZoom的现实世界STISR图像数据集,其中低分辨率和高分辨率文本图像对从现实世界的SISR数据集[2,42]中裁剪而来。他们还提出了TSRN[35],使用顺序残差块来利用内部特征中的语义信息。SCGAN[39]采用多类GAN损失来监督STISR模型,以获得更具感知友好性的人脸和文本图像。此外,Quan等人[29]提出了一种级联模型,用于在高频域和图像域中协同恢复模糊的文本图像。Chen等人[4]和Zhao等人[45]通过自我关注图像特征和通道关注来增强网络块结构,以提高STISR性能。02.3. 场景文本识别0场景文本识别旨在从输入图像中提取文本内容。一些早期的方法倾向于先识别每个字符,然后解释整个单词[12,14],而其他一些方法则将文本图像视为整体进行单词级分类[13]。将文本识别视为图像到序列的问题,CRNN[31]提取图像特征并使用循环神经网络建模语义信息。它通过CTC[10]损失进行训练,以对齐预测序列和目标序列。最近,基于注意力的方法在提取文本方面取得了很大的进展,能够克服文本图像形状变化的鲁棒性[6,7]。尽管最近的方法取得了很好的性能,但在低分辨率图像中仍然很难识别文本。59130× 50TPGB0TPG0TP解释器0文本先验0图像特征0像素0洗牌0CONV0SR图像0TPGBs0LR图像0TP映射0SRB0图像特征0图像特征0TP映射0图像特征0图2. 我们提出的STISR的TATT网络架构。TPGB、TPG和SRB分别代表文本先验引导块、TP生成器和顺序循环块,⊕表示逐元素相加。0因此,本文旨在解决高分辨率文本图像恢复以提高识别效果的问题。03. 方法论03.1. 总体架构0我们的TATT网络的流程如图2所示。它以低分辨率(LR)文本图像Y ∈ Rh × w ×3作为输入,经过以下两个路径处理。在第一个路径中,将输入图像送入TP生成器(TPG)以预测识别概率序列作为文本先验fp(类似于[22])。这个过程可以表示为fP =TPG(Y)。fP ∈ Rl×|A|是一个由大小为|A|的分类概率向量组成的长度为l的序列。A表示字符集,由‘0’到‘9’、‘a’到‘z’和一个空白类(共37个字符)组成。第二个路径通过一个9×9的卷积层从输入的LR图像Y中提取图像特征fI ∈ Rh × w ×c(我们将这个过程表示为fI =Conv(Y))。然后,将文本先验fP和图像特征fI传递给TP解释器TPI(∙)以计算一个TP映射fTM ∈ Rh × w ×c,表示为fTM = TPI(fP,fI)。TP解释器计算文本先验fP和图像特征fI之间的相关性,并将语义指导分配给空间域中相应位置,以指导最终的SR文本恢复。得到的TP映射fTM是一个调制映射,可以用来增强图像特征的特定语义部分。最后,将TP映射fTM和图像特征fI传递到重建模块。该模块包括5个文本先验引导块(TPGBs),逐步融合fTM和fI,以及一个最终的像素洗牌层来增加分辨率。这5个TPGBs首先通过逐元素相加合并fTM和fI,然后通过顺序循环块[35]重建高分辨率图像特征。该模块的输出是超分辨率(SR)文本图像。03.2. TP解释器0在提出的架构中,关键部分在于TP解释器(TPI)的设计。TP解释器旨在将文本先验fP解释到图像特征fI,以便在图像特征域中将语义指导的影响施加到相关的空间位置。一种直观的想法是将fP放大到fI的形状,然后通过卷积将它们合并。由于卷积操作的有效范围较小,fP的语义无法分配给fI中的远距离空间位置,特别是在空间变形文本的情况下。因此,我们转而设计了一种基于Transformer的TP解释器,具有注意机制,以强化文本先验fP和图像特征fI之间的全局相关性。如图3所示,所提出的TP解释器由编码器部分和解码器部分组成。编码器通过对fP中每个字符的语义进行相关性计算来对文本先验fP进行编码,并输出上下文增强特征fE。解码器在fE和fI之间进行交叉注意力以解释语义信息到图像特征。编码器。编码器将文本先验fP作为输入,并将其投影到C个通道以匹配图像特征通道。由于输入文本先验在编码器中并行处理,模型不知道TP中的语义顺序。因此,在将其输入编码器之前,我们通过逐元素方式将固定位置编码(FPE)添加到fP中来编码位置。请注意,我们在本文中采用正弦位置编码[34]作为我们的FPE。在编码位置后,将文本先验传递到编码器模块。编码器具有多头自注意力(MSA)层和前馈网络(FFN)层[34]。在当前层和前一层之间部署了跳跃连接以实现残差学习。MSA层在文本先验fP中的语义元素之间进行全局相关性计算,从而产生一个上下文增强的TP特征fE ∈ Rl × c,供后续计算使用。由于...59140展平0RPE0解码器0图像特征0文本先验0编码器FPE0重塑0MSA LN LN0TP映射0LN MCA0FFN0FFN0投影0TP解释器0图3.TP解释器的架构。'MSA','LN','MCA'和'FFN'分别表示多头自注意力,层归一化,多头交叉注意力和前馈网络层,而'FPE'和'RPE'则是固定位置编码和递归位置编码。 ⊕ 表示逐元素相加。0由于空间限制,省略了MSA和FFN的描述。有关详细信息,请参阅[34]。解码器。解码器模块接受来自编码器模块fE和图像特征fI的输出,执行全局交叉注意力。与编码器中的设置类似,我们首先向fI添加位置编码以融入位置信息。我们设计了一种递归位置编码(RPE),以更好地编码水平方向上图像特征的顺序依赖性中包含的偏差,并更好地帮助模型在后续的交叉注意力中查找文本语义特征。在RPE中,我们保持与图像特征形状相同的可学习参数,并在水平方向上编码顺序依赖性,以帮助模型更好地学习相邻的上下文。有关更多详细信息,请参见补充文件。将位置编码的图像特征表示为f'I,将编码器输出fE传递给解码器模块进行相关计算。我们使用多头交叉注意力(MCA)层处理这两个输入,该层在fE和f'I之间执行交叉注意力操作。首先,将fE和f'I的特征在通道维度上分为n个子组。然后,在第i个组的fE和f'I上执行交叉注意力操作CAi:0CAi(fEi,f'Ii)= SM((f'Ii Wαi)(fEi Wβi)T0√ dk)(fEi Wγi)(1)0n分别表示fE和f'I的第i个组。Wαi∈Rcn×dk,Wβi∈Rcn×dk和Wγi∈Rcn×dk是线性投影的参数。SM表示Softmax操作。我们使用通道级联⊙(∙)和线性投影Wo处理结果CAi(i∈{0,1,...,n−1}),如下所述:0MCA = ⊙(CA0,CA1,...,CAn-1)Wo(2)0MCA的输出经过FFN进行特征细化,然后进行重塑以获得TP映射fTM。0通过使用MCA操作,文本先验fE可以通过将语义域中的每个元素与空间域中的位置相关联,有效地与图像特征f'I进行交互。因此,空间域中的语义有意义的区域在TP映射fTM中得到加强,可以用于调制图像特征以进行语义特定的文本重建。03.3. 文本结构一致性损失0尽管提出的TATT网络可以获得良好的性能,但重建的文本图像仍需要一些改进以提高视觉效果。这是因为对于CNN模型来说,代表变形文本特征的表示与代表常规文本特征的表示有些困难,重建的文本图像具有较弱的字符结构和相对较低的对比度。为了解决这个问题,我们模拟了变形文本图像,并设计了一个文本结构一致性(TSC)损失来训练提出的TATT网络。我们考虑最小化三个图像之间的距离,即SR文本图像的变形版本DF(Y),变形的LR文本图像的SR版本F(DY)和变形的真实图像D(X),其中D表示随机变形。通过增加这三个项目之间的相似性,我们可以鼓励CNN模型在遇到空间变形时减少性能下降。提出的TSC损失首先衡量了上述三元组之间的结构相似性。为此,我们将结构相似性指数测量(SSIM)[38]扩展为三元组SSIM(TSSIM),如下所述:0TSSIM(x, y, z) = (µxµy + µyµz + µxµz + C1)(σxy +σyz + σxz + C2)0(µ2x + µ2y + µ2z + C1)(σ2x + σ2y + σ2z + C2)0(3)其中µx、µy、µz和σx、σy、σz分别表示三元组x、y和z的均值和标准差。σxy、σyz和σxz分别表示(x,y)、(y, z)和(x,z)之间的相关系数。C1和C2是小常数,以避免除以接近零的值时的不稳定性。推导过程在附加文件中。最后,TSC损失L T SC 用于衡量D F(Y)、F(DY)和DX之间的相互结构差异:01 在本文中,我们考虑旋转、剪切和调整大小。standard deviation of the triplet x, y and z, respectively.σxy, σyz and σxz denote the correlation coefficients be-tween (x, y), (y, z) and (x, z), respectively. C1 and C2 aresmall constants to avoid instability for dividing values closeto zero. The derivation is in the supplementary file.Lastly, TSC loss LT SC is designed to measure the mu-tual structure difference among DF(Y ), F(DY ) and DX:591501 − TSSIM(D F(Y), F(DY), DX) (4)03.4. 总体损失函数0在训练中,整体损失函数包括超分辨率损失LSR、文本先验损失L T P和提出的TSC损失L T SC。SR损失LSR衡量了我们的SR输出F(Y)与真实HR图像X之间的差异。我们采用L2范数进行计算。TP损失衡量了从LR图像中提取的文本先验与真实文本先验之间的L1范数和KL散度。加上TSC损失L T SC,整体损失函数描述如下:0L = L SR + αL T P + βL T SC (5)0其中α和β是平衡参数。04. 实验04.1. 实现细节0TATT在单个RTX 3090GPU上进行训练和测试。我们采用Adam[16]优化器以批量大小64来训练模型。训练持续500个epochs,学习率为10−3。我们的模型的输入图像宽度为64,高度为16,输出为2×SR结果。我们将(5)中的α和β分别设置为1和0.1(见附加文件进行消融实验)。L TSC中的变形操作D通过在[-10,10]度的范围内应用随机旋转、剪切和宽高比来实现。MSA和MCA层的头数都设置为4(遵循[3]中的最佳设置)。图像特征通道c、MSA、MCA和FFN计算中的dk的数量都设置为64。TATT的模型总大小为14.9M。训练时,TPG使用从[1]中得到的预训练权重进行初始化,而其他部分则随机初始化。测试时,TATT将占用6.5GB的GPU内存,批量大小为50。04.2. 数据集0TextZoom。TextZoom[35]拥有21,740个LR-HR文本图像对,通过改变相机的焦距在真实场景中收集,其中17,367个样本用于训练。其余样本根据相机的焦距分为三个子集进行测试。0即易(1,619个样本)、中等(1,411个样本)和困难(1,343个样本)。TextZoom提供了文本标签。此外,我们还采用ICDAR2015 [15]、CUTE80 [30]和SVTP[28]来评估我们的模型在恢复空间变形的LR文本图像方面的鲁棒性。ICDAR2015有2,077个用于测试的场景文本图像。大多数文本图像都遭受低质量和透视畸变的影响,使得识别极具挑战性。CUTE80也是在野外收集的。测试集共有288个样本。SVTP中的样本大多是弯曲形状的文本。测试集的总大小为649。除了在原始样本上评估我们的模型外,我们还降低图像质量以测试模型对于不可预测的恶劣条件的泛化能力。04.3. 割除研究0在本节中,我们研究了TP解释器、TSC损失函数以及位置编码的影响。本节中的所有评估都是在真实世界的STISR数据集TextZoom[35]上进行的。文本识别由CRNN[31]执行。SR恢复中TP解释器的影响。由于我们的TP解释器旨在提供更好的TP与图像特征之间的对齐,并使用文本语义来引导SR恢复,我们将其与其他引导策略进行比较,例如,首先使用反卷积层[22]或像素洗牌将TP上采样以与图像特征匹配,然后使用逐元素相加或SFT层[37]进行融合引导。结果如表1所示。可以看出,所提出的TP解释器获得了最高的PSNR/SSIM,这也表明了最佳的SR性能。就SR文本图像识别而言,可以看出使用像素洗牌和反卷积策略提供了较差的引导(46.2%和49.8%)。将它们与SFT层结合使用没有稳定的改进(47.9%和48.6%)。这是因为竞争策略都没有在文本语义和图像特征之间进行全局相关性,导致SR恢复的语义引导较差。相反,我们的TP解释器可以获得良好的语义上下文和准确的文本区域对齐。因此,它加强了图像特征的引导,并将文本识别结果提高到52.6%。这验证了使用TP解释器是利用TP语义进行SR恢复的有效方法。图4显示了一些视觉比较。可以看出,使用TP解释器的设置可以得到具有正确语义的最高质量的SR文本图像。为了展示TP解释器如何提供全局上下文,我们可视化了由我们的MCA(在图1中的SM层的输出)提供的注意力热力图。可以看出,对应前景字符的区域具有最高的权重(突出显示)。这证明了TP解释器在图像特征中找到语义的能力。邻域中的其他突出区域也证明了TP解释器可以意识到邻近上下文,这可以为最终的SR恢复提供更好的引导。使用TSC损失进行训练的影响。为了验证TSC损失在细化文本结构方面的有效性,我们比较了使用和不使用TSC损失训练的4个模型的结果,包括非TP基础的TSRN [35],TBSRN [4],基于TP的TPGSR[22]和TATT。从表2的结果可以看出,当采用我们的TSC损失时,所有模型都取得了性能提升(TSRN为4.3%,TBSRN为1.3%,TPGSR为0.8%,TATT为1.0%)。值得注意的是,尽管TBSRN[4]被认为对多方向文本具有鲁棒性,但仍可以通过我们的TSC损失进行改进,这表明使用TSC损失进行训练可以提高对各种空间变形的字符结构重建的鲁棒性。RPE的有效性。我们评估了循环位置编码在学习文本先验引导中的影响。我们使用固定位置编码(FPE)、可学习位置编码[3]和02 SFT层将图像特征的语义与通道级仿射变换相结合。StrategyavgPSNRSSIMPS + A46.2%20.580.7683PS + S [37]47.9%20.720.7560D [23] + A50.6%21.100.7819D [23] + S [37]49.6%20.870.7783TPI52.6%21.520.7930ASPSDTPIText: ENFORCEDFigure 4. SR recovery by different guiding strategies.TheMAY19MCA (the outputs from the SM layer in (1)) in Fig. 5.One can see that the region of the corresponding fore-ground character has the highest weight (highlighted). Itthus proves that the ability of TP Interpreter in finding se-mantics in image features. Some other highlighted regionsin the neighborhood also demonstrate that the TP Interpretercan be aware of the neighboring context, which can providebetter guidance for final SR recovery.Impact of training with TSC loss. To validate the effec-tiveness of the TSC loss in refining text structure, we com-pare the results of 4 models trained with and without theTSC loss, including non-TP based TSRN [35], TBSRN [4],TP based TPGSR [22] and TATT. From the results in Tab. 2,one can see that all models lead to a performance gain (4.3%for TSRN, 1.3% for TBSRN, 0.8% for TPGSR, and 1.0%for TATT) in SR text recognition when adopting our TSCloss. Notably, though TBSRN [4] is claimed to be robustfor multi-oriented text, it can still be improved with ourTSC loss, indicating that training with the TSC loss can im-prove the robustness of reconstructing the character struc-ture against various spatial deformations.Effectiveness of the RPE. We evaluate the impact of re-current positional encoding in learning text prior guidance.We deploy different combinations of fixed positional encod-ing (FPE), learnable positional encoding [3] and the pro-TSRN [35]×52.5%38.2%31.4%41.4%✓58.0%43.2%33.4%45.7%TBSRN [4]×59.6%47.1%35.3%48.1%✓60.8%49.6%36.1%49.4%TPGSR [22]×61.0%49.9%36.7%49.8%✓62.0%49.8%37.4%50.6%FPEFPE50.5%FPELPE50.8%FPERPE52.6%59160无TP 41.4% 21.42 0.76900表1.用于将TP序列与图像特征进行对齐和引导的模块。D和PS分别指对齐操作Deconvolution和Pixel-Shuffle。A和S分别指通过逐元素相加和SFT层[37]进行引导融合操作。TPI是TP解释器。0双三次插值0图5. 前景字符的注意力热力图。0方法 L TSC 简单 中等 困难 平均0我们的 × 62.1% 52.1% 37.8% 51.6%0表2. 具有和不具有TSC损失的模型的TextZoom结果。0方法 编码器 解码器 平均0我们的0表3.TextZoom上不同位置编码消融的SR文本图像识别结果。Enc和Dec分别指TP解释器的编码器和解码器。0在编码器和解码器模块中引入了位置编码(RPE),并比较了SR文本图像上相应的文本识别结果。从表3中可以看出,在解码器中使用LPE或FPE显示出有限的性能,因为它们在学习顺序信息方面较弱。通过在解码器中采用RPE,SR识别率提高了1.8%,表明RPE有助于文本顺序语义学习。04.4. 与最先进方法的比较0TextZoom上的结果。我们在真实世界的STISR数据集TextZoom [ 35]上进行实验,将提出的TATT网络与最先进的SISR模型(包括SRCNN [ 8 ]、SRResNet [ 18 ]和HAN [ 26])以及STISR模型(包括TSRN [ 35 ]、TPGSR [ 22]、PCAN [ 45 ]和TBSRN [ 4])进行比较。对于TPGSR,我们比较了其两个模型,即1阶段和3阶段(TPGSR-3)。评估指标为SSIM/PSNR和文本识别准确率。比较结果如表4和表5所示。可以看出,我们的模型在L TSC的训练下,整体性能在PSNR(21.52)和SSIM(0.7930)方面表现最佳。这验证了我们的方法在提高图像质量方面的优越性。至于SR文本识别,我们的方法在所有设置下都使用了ASTER [ 32 ]和CRNN [ 31]的文本识别模型,实现了新的最先进准确率。它甚至仅使用了一个阶段就超过了3阶段模型TPGSR-3。我们还测试了三种最具竞争力的STISR方法的推理速度,即TBSRN(982fps)、TPGSR(1,085 fps)和我们的TATT模型(960fps)。TATT与TPGSR和TBSRN的速度相当,而在使用ASTER作为识别器的SR图像文本识别方面,它们的准确率分别提高了2.7%和3.6%。为了进一步研究空间上的性能。PSNRSSIMSRResNet [18]L2+Ltv+Lp24.3618,8819.2921.030.86810.64060.69110.7403HAN [26]L223.3019.0220.1620.950.86910.65370.73870.7596TSRN [35]L2+LGP25.0718.8619.7121.420.88970.66760.73020.7690TBSRN [22]LPOS+LCON23.4619.1719.6820.910.87290.64550.74520.7603PCAN [45]L2+LEG24.5719.1420.2621.490.88300.67810.74750.7752TPGSR [22]L2+LTP23.7318.6820.0620.970.88050.67380.74400.7719TPGSR-3 [22]L2+LTP24.3518.7319.9321.180.88600.67840.75070.7774TATTL2+LTP+LTSC24.7219.0220.3121.520.90060.69110.77030.7930ASTER [32]MORAN [21]CRNN [31]59170方法 损失 简单 中等 困难 平均 简单 中等 困难 平均0双三次 × 22.35 18.98 19.39 20.35 0.7884 0.6254 0.6592 0.69610表4. 竞争的SISR和STISR方法的PSNR/SSIM指数。' -3 '表示[ 22 ]中的多阶段设置。0方法 损失 简单 中等 困难 平均 简单 中等 困难 平均 简单 中等 困难 平均0双三次 × 64.7% 42.4% 31.2% 47.2% 60.6% 37.9% 30.8% 44.1% 36.4% 21.1% 21.1% 26.8%0SRCNN [8] L2 69.4% 43.4% 32.2% 49.5% 63.2% 39.0% 30.2% 45.3% 38.7% 21.6% 20.9% 27.7% SRResNet [18] L2 + Ltv + Lp 69.4% 47.3% 34.3%51.3% 60.7% 42.9% 32.6% 46.3% 39.7% 27.6% 22.7% 30.6% HAN [26] L2 71.1% 52.8% 39.0% 55.3% 67.4% 48.5% 35.4% 51.5% 51.6% 35.8%29.0% 39.6% TSRN [35] L2 + LGP 75.1% 56.3% 40.1% 58.3% 70.1% 53.3% 37.9% 54.8% 52.5% 38.2% 31.4% 41.4% TBSRN [22] LPOS + LCON75.7% 59.9% 41.6% 60.0% 74.1% 57.0% 40.8% 58.4% 59.6% 47.1% 35.3% 48.1% PCAN [45] L2 + LEG 77.5% 60.7% 43.1% 61.5% 73.7% 57.6%41.0% 58.5% 59.6% 45.4% 34.8% 47.4% TPGSR [22] L2 + LTP 77.0% 60.9% 42.4% 60.9% 72.2% 57.8% 41.3% 57.8% 61.0% 49.9% 36.7% 49.8%TPGSR-3 [22] L2 + LTP 78.9% 62.7% 44.5% 62.8% 74.9% 60.5% 44.1% 60.5% 63.1% 52.0% 38.6% 51.8% TATT L2 + LTP + LTSC 78.9% 63.4%45.4% 63.6% 72.5% 60.2% 43.1% 59.5% 62.6% 53.4% 39.8% 52.6%0HR - 94.2% 87.7% 76.2% 86.6% 91.2% 85.3% 74.2% 84.1% 76.4% 75.1% 64.6% 72.4%0表5. 竞争的SISR和STISR方法的SR文本识别。'-3'表示[22]中的多阶段设置。0方法 AS [32] MO [21] CR [31] PSNR SSIM0Bicubic [35] 36.1% 32.2% 19.5% 19.68 0.6658 TSRN [35] 46.6%43.8% 35.2% 19.70 0.7157 TBSRN [4] 48.5% 45.1% 37.3% 19.100.7066 TPGSR [23] 46.6% 45.3% 40.2% 19.79 0.7293 Ours 51.7%47.3% 43.8% 20.20 0.75350HR 80.8% 75.7% 68.8% - -0表6.在TextZoom中选择的空间形变样本上评估竞争的STISR模型,评估指标为识别率、PSNR和SSIM。'AS','MO'和'CR'分别指ASTER[32],MORAN [21]和CRNN [31]。0对于形变文本图像,我们从TextZoom测试集中手动选择了804个旋转和曲线形状的样本来评估比较模型。表6中的结果表明,我们的TATT模型获得了最佳性能,并且在遇到空间形变文本时,与TPGSR和TBSRN等模型相比的平均差距变得更大。我们还在图6中可视化了TextZoom的常规样本和空间形变样本的恢复结果。没有TP引导的情况下,TSRN和TBSRN的恢复结果远远不可读,视觉上也无法接受。相比之下,我们的TATT网络在恢复所有情况下的文本语义方面要好得多,超过了所有竞争对手。通过TSC损失,我们的模型进一步提升了视觉质量。0超分辨率解决方案 AS [32] MO [21] CR [31]0O0Bicubic 38.1% 29.1% 18.1%0TSRN [35] 41.5% 33.8% 26.6%0TBSRN [4] 46.8% 45.3% 38.3%0TPGSR [22] 53.1% 52.3% 42.5%0Ours 53.4% 59.1% 47.2%0CO0Bicubic 33.2% 28.1% 23.6%0TSRN [35] 46.4% 42.1% 29.1%0TBSRN [4] 45.5% 44.7% 31.9%0TPGSR [22] 48.3% 52.8% 38.3%0Ours 54.7% 54.0% 45.1%0GN0Bicubic 29.4% 25.8% 7.5%0TSRN [35] 31.3% 27.5% 11.5%0TBSRN [4] 40.2% 33.4% 15.8%0TPGSR [22] 35.7% 31.7% 18.1%0Ours 43.0% 33.4% 21.1%0GB0Bicubic 27.0% 22.3% 5.5%0TSRN [35] 39.2% 35.8% 20.4%0TBSRN [4] 42.6% 42.8% 20.8%0TPGSR [22] 45.9% 43.8% 29.6%0Ours 47.4% 43.8% 35.7%0使用不同的STISR模型作为超分辨率解决方案对降级进行影响的表7。'O','CO','GB'和'GN'分别指原始图像和对比度、高斯模糊和高斯噪声的图像降级。'AS','MO'和'CR'分别指ASTER[32],MORAN [21]和CRNN [31]。019961896919961996918969199659180california0c o f err ia0california0california0california0califor a ia0c b ifornia01 n 9690shapes0s dir s0shapes0shapes0shape o0shape r0shapes0porvu la il0formulas0formulas0formulas0formulas0formula dl0formula bl0rose0rose0p ose0p ose0rose0w ose0w os l0fortif
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功