没有合适的资源?快使用搜索试试~ 我知道了~
半色调图像的恢复与细节保留
14000可逆二值模式夏梦涵1,3胡文博1刘雪婷2黄天钦1,3*1香港中文大学2明爱高等教育3中国科学@ cse.cuhk.edu.hktliu@cihe.edu.hk摘要现有的半色调算法在对二值点阵图像进行抖动处理时,往往会丢失图像的颜色和细节,从而很难恢复图像的原始信息。为了免除在未来的恢复麻烦,我们提出了一种新的半调技术,将彩色图像转换为二进制半调与完整的恢复到原始版本。其关键思想是隐式地将那些先前丢弃的信息嵌入到半色调图案中。因此,半色调图案不仅用于再现图像色调,保持蓝噪声随机性,而且还表示颜色信息和精细细节。为此,我们利用两个协作卷积神经网络(CNN)在非平凡的自监督公式下学习抖动方案。为了解决CNN的扁平化退化问题,我们提出了一种新的噪声激励块(NIB),可以作为一个通用的CNN插件来提升性能。最后,我们量身定制了一个指导意识的训练计划,以确保收敛方向的监管。我们从多个方面对可逆半色调进行了评价,证明了我们方法的有效性。1. 介绍半色调通常用于印刷行业[44],以再现具有有限颜色的色调,例如。黑色和白色,出于成本考虑。在此过程中,原始图像的颜色和精细细节都不可避免地丢失。这使得原件几乎不可能从这些降解的半色调中恢复。即使是最先进的逆半色调方法[48,16]也只能恢复近似的灰度版本,因为颜色通常在半色调之前被丢弃。显然,解决这个难题需要一个前瞻性的半色调技术,保留必要的信息恢复。本文首次尝试探索这一新问题。传统的半色调方法分布半色调网点*通讯作者。(a)(b)(c)(d)图1.观察结果:David(a)(b)(c)的半色调变体呈现类似的视觉质量,但是具有不同的二进制图案,如在(d)中可视化的叠加RGB图像。它表明了调整模式以用于其他用途的可能性。主要用于色调再现,并且我们观察到,该目标仍然允许在期望的二进制模式方面的某些扰动,如图1所示。它表明了利用这种自由度进行附加使用的可能性,即。嵌入潜在缺失的颜色信息和精细细节。从形式上讲,这带来了一个新的概念,即。可逆半色调,其将彩色图像转换为具有原始彩色版本的可恢复性的半色调。受可逆灰度[47]的启发,我们采用可逆生成模型来制定我们的问题。然而,产生优质半色调比脱色更具挑战性。首先,使用空间共享内核的卷积神经网络(CNN)不是半色调的原生网络,它会遭受非线性退化(如第 3.1节所述)。图3举例说明了CNN未能在这些平坦区域中引入空间变化。第二,它是不平凡的,以实现复杂的视觉模拟和准确的信息嵌入,通过优化超过1位像素。此外,离散的二进制模式构成的挑战,以捕捉其属性,通过一般的像素方式的度量。为了解决平坦性退化问题,我们提出了一种噪声诱导块(NIB),它将空间变化引入特征空间,但仍然通过与CNN一起训练来保留信息完整性。事实上,NIB是一个与模型无关的插件,因此适用于其他相关的应用程序(参见4.3节)。我们发现,用NIB来装备抖动网络打破了平坦性退化的障碍,使抖动成为可能14001常值图像重要的是,此功能使我们能够通过对恒定灰度半色调的低频惩罚来制定蓝噪声轮廓。为了实现二进制半色调,我们在抖动网络上附加了一个二进制门,该二进制门采用梯度传播技巧来允许量化训练。该模型是端到端训练的,具有高度混合的目标,其被公式化为四个损失项:二值化损失、蓝噪声损失、半色调一致性损失和可逆性损失。事实上,这些部分冲突的损失项使训练复杂化,特别是在二进制门的代理梯度不准确的情况下。我们的引导意识培训计划可以规避这些挑战。对比评估和消融研究说明了我们提出的方法的优点,和应用探索告诉我们提出的噪声感应块的一般可用性。该文件有助于:• 可逆半色调的创新思想,为现有的半色调应用提供了一个全新的功能。它从源头上解决了逆半调问题。• 一个模型不可知的插件,噪声激励块,解决CNN的平坦性退化。它在图像合成任务中具有普遍适用性。• 提出了一种有效的离散半色调模式度量方法,并在相关方向进行了探索。漫画画面处理。2. 相关作品2.1. 数字半色调在过去的半个世纪中,已经提出了许多数字半色调技术,包括有序抖动[3,44],误差扩散[10],点扩散[21]和直接二进制搜索(DBS)[37]。上述经典方法的主要目标是在引入最少视觉伪影的情况下保留原始图像的局部色调。为了避免引入额外的图案,希望半色调图像具有蓝噪声属性[32]。为了实现这一点,进一步提出了几种技术,例如蓝噪声掩模[33],模式优化[12,26,2],可变阈值[34,55]和递归平铺策略[22]。不幸的是,蓝噪声算法通常会过度模糊精细细节-S.为了在追求蓝噪声特性的同时更好地保留精细结构,已经提出了几种方法来生成由边缘增强引导的半色调图案。测试技术[8,14,23,27]。与边缘增强技术不同,Pang et al.[35]进一步提出优化结构相似性和色调相似性以捕获人类视觉敏感的结构。然而,虽然数字半色调长期以来一直是针对半色调技术的广泛探索的主题。研究人员发现,现有方法中没有一种考虑可逆性,即恢复原始版本的能力。2.2. 逆半调逆半色调技术在过去的三十年中得到了广泛的研究,主要是由于需要从传统的印刷介质中恢复图像。一种简单的方法是使用定制的滤波器[17,46]对半色调图像进行滤波。为了更好地恢复高频细节,Kite et al.[20]提出在误差扩散图像上利用基于梯度的空间变化滤波。为了满足先验信息的要求,一些工作提出将灰度重建问题表示为凸集投影(POCS)。Yue和Chen [53]提出通过基于跳场神经网络[13]的优化模型来逆半色调。Xiong etal.[50]提出了通过边缘检测从原始图像中分离出半调噪声,并基于过完备小波展开重建原始图像的方法。Mese和Vaidyanathan [31]进一步提出利用预先计算的查找表(LUT)进行灰度恢复,这大大提高了效率和有效性。从那时起,已经提出了基于多个字典学习的变体[24,25,39,40,11]。最近,已经提出了深度学习方法[16,48]来解决逆半色调,并实现最先进的性能。然而,逆半色调本质上是不适定的,并且只能“猜测”粗略的灰度版本。相反,我们的可逆半色调实现了确定性的恢复过程,从而可以实现更高的精度。2.3. 可逆发电可逆生成的思想主要研究在数据隐藏领域,例如。隐藏图像中的版权文本或水印[29,52,56]。后来,研究人员试图将图像隐藏到另一个图像中,例如将彩色通道隐藏到其灰度版本中[7,51],或者将立体图像的一个视图隐藏到另一个视图中[41,42]。最近,通过使用深度卷积神经网络,已经取得了显着的改进。特别地,Xiaet al. [47]提出了将彩色图像转换为可逆灰度图像,该图像稍后可以经由编码和解码框架被反转回其彩色版本采用类似的框架来从具有紧凑编码的细节的高分辨率输入生成可逆的低分辨率图像[28]。我们的可逆半色调可以归入这一工作流,通过新颖的技术设计解决更具挑战性的 问 题 。 作 为 这 种技 术 的 另 一 行 , 可 逆 神 经 网 络(INN)[15,19,4,49]用显式可逆运算来制定网络架构。然而,与基于编码和解码的可逆模型[47]相比,这种强约束不可避免地限制了模型能力,并使训练变得棘手。14002≡···۷输入颜色图2.系统概述。给定彩色图像输入Ic,抖动网络生成双色调半色调图像Oh,其可以通过恢复网络反转回原始彩色版本Oc。特别地,抖动网络配备有噪声激励块(NIB)和二进制门,以便实现针对任意输入的二进制半色调。3. 可逆半色调图案我们的目标是学习可逆的二进制模式对半色调彩色图像,这是需要提供视觉愉悦和嵌入恢复必要的信息,在同一时间。图2显示了概览图。3.1. 网络架构我们采用U形结构的抖动- ING网络和恢复网络。这两个网络共享一个类似的结构,包含三个降尺度块,三个高尺度块,四个残差块和两个卷积块。补充资料中提供了详细的结构参数。请注意,我们采用U-Net作为网络骨干,只是因为它扩大了接收域,其他合格的CNN架构也可以工作。此外,我们提出了两个关键的设计抖动网络,即。噪声激励块和二进制门,这使得CNN能够正确地建模半色调。噪声激励块。我们发现,典型的CNN由具有偏置项和激活函数的卷积层组成,当输入平坦时,无法将空间变化引入输出。我们称这种现象为平坦性退化,这是由具有空间共享内核的卷积范式引起的。形式上,恒定信号s(x)c和任意核函数k(x)的卷积定义为另一个恒定信号s~(y) =cμ(k(x)), 其中μ()取平均值。因此,给定一个平坦的输入X,CNN的操作退化为缩放操作Y=αX,而不管CNN参数如何。图3示出了这样的示例。因此,平坦度退化阻碍了CNN抖动恒定灰度,这可能会禁用蓝噪声轮廓的制定(在第3.2节中介绍),因为蓝噪声轮廓主要是在恒定灰度上测量的[43,34]。为 了避 免平 坦性 退化 , 我们 提出 了噪 声激 励 块(NIB),它可以用作CNN的模型不可知插件。其关键思想是将空间变化引入特征表示,但不会污染原始输入信息的完整性。 为了简单起见,利用高斯噪声图作为加性(a) 输入(b)中间特征图(c)半色调图3. CNN半色调的可视化。由于可扩展性退化,典型的CNN不能在可扩展区域中产生空间变化(上行);配备NIB的 CNN可以有效地解决限制(下行)。学习特征空间中的变化代理:f1(Ic)+f2(N),其中f1和f2都是单卷积层,N是动态采样的高斯噪声图。配备了NIB,我们的抖动网络没有平坦度退化,因此可以生成二进制半色调平坦区域,如图3所示的可视化结果。在实践中,NIB在两个方面为我们的抖动模型带来了优势(i)它允许我们通过对抖动恒定灰度的低频约束来制定蓝噪声分布;(ii)它甚至在一般情况下促进性能(见表3),因为噪声随机性有利于抖动处理以集中于图案分布而不是单独的像素值。重要的是,作为解决平坦度退化的通用解决方案,我们提出的NIB在其他相关应用中也具有明显的优势,这将在第4.3节中进行探讨。二进制门另一个抖动的特殊设计网络是二进制门B(),其将网络输出O~h量化为严格二进制图像Oh=B(O~h)。我们显式地采用二进制门,因为软非二进制门惩罚对微小偏差不敏感,即接近0或接近1值的像素,当存储为1比特位图时,其易受量化的影响,从而损害恢复精度。然而,应该注意的是,存在一个障碍,即二进制门是不可微的。为了实现联合训练,我们在计算梯度时对二进制化使用直通估计器[5]。笔尖+ۼ半色调网络۽可逆半色调恢复网络۽恢复颜色14003Ⓢ·我C|| ·||{·}·LSCCCc·3.2. 损失函数我们的网络是用等式中定义的损失函数训练的1,由半色调一致性损失LC、蓝噪声损失LN、二值化损失LB和可逆性损失LV组成。L=ω1LC+ω2LN+ω3LB+LV,(1)其中超参数ω1= 0。6,ω2= 0。3,ω3=0.1 是根据经验设定的。(a)(b)(c)3.2.1半色调一致性损失以确保生成的半色调在视觉上类似于输入,我们优化音调和结构相似性,如[35]所因此,我们的半色调一致性损失L(d) 输入灰度(e) (b)和(c)公式为:LC=lT+σlS,(2)图4.半色调一致性损失和蓝噪声损失的影响。(a)无符合性损失和蓝噪声损失;(b)无蓝噪声损失;(c)全部损失。其中,音调损耗I T和结构损耗I T与系数σ = 0组合。02经验具体地,给定颜色输入Ic和生成的对于半色调Oh,色调损失IT被公式化为:I T= E I∈I{||G(Oh)− G(Il)}||2}、⑶其中DCT()表示离散余弦变换(DCT),表示逐元素乘积,并且M表示低频分量设置为1并且其他设置为0的常数二进制掩码。具体而言,我们认为第一个3。8%的低频DCT系数作为目标成分其中Il是原始输入Im的亮度通道图4(a)、(b)表现出视觉上令人讨厌的条纹图案,而图4(a)、(b)表现出视觉上令人讨厌的条纹图案。年龄CIc. G(·)表示具有11×11核的高斯滤波器相比之下,另外采用蓝噪声损耗有效地解决了这个问题(c)。尺寸2表示L2范数(MSE)。EIc∈I表示在训练数据集中的所有输入图像Ic上的平均算子因此,结构损失IS测量Oh与原始图像Il的亮度通道之间的结构相似性指数度量(SSIM)[45]:iS=EI∈ I{||SSIM(0h,11)||1}、⑷3.2.2蓝噪声损失传统上通常需要蓝噪声特性-所有半色调算法[43],以避免注入额外的图案。虽然SSIM已被证明是有用的,3.2.3二值化损失虽然二进制门显式地将抖动网络输出二进制化,但它依赖于粗略的梯度估计器来实现梯度传播。然而,直通估计器简单地使用单位梯度,这实际上使得在后向传播中忽略二值化操作B()。为了保证训练的稳定性,我们鼓励B()的输入值尽可能接近0或1,其被公式化为二值化损失L_B:L=E{||min{|O~−C|}||},(6)实现蓝噪声属性[35],我们发现单独采用SSIM作为损失项不足以执行BIc∈Ih d1d={ 0, 1}蓝噪声特性相反,我们在损失函数中设计了一个显式的蓝噪声损失来抑制潜在的模式伪影。由于人类视觉系统对低频信号更为敏感,因此基本思想是在抖动的恒定灰度上惩罚低频分量。因此,我们准备了一组恒定值的彩色图像,并将它们包含在我们的训练数据集中。在从这些恒定值图像生成的半色调图像上用公式表示蓝噪声损失N,如LN=EIc∈S{||(DCT(Oh)−DCT(Ic))M||第1页,(五)最小化,结果表明它工作得很好。图-14004其中,0~h是在所述半色调处理之前获得的伪半色调图像。二进制门Cd是具有与O ~ h相同大小的常值矩阵,其中所有元素都等于d,| · |是逐元素绝对运算符,min{·}是逐元素绝对运算符。最小运算符,以及||·||1表示L1范数。 在实验中,丢弃LB将使训练崩溃。3.2.4可逆性损失虽然上述三个损失调节半色调的视觉质量,但可逆性损失L确保了恢复的半色调质量。14005·×V×Ic∈ICC 2CC2图6显示了高训练效率。只有284.54.03.53.02.52.0x-3初始化培训图5.不同训练方案下的半色调输出。(a)(b)从头开始联合培训;(c)130次无制导损失的热身训练;(d)误差扩散;(e)28个时期的热身训练,失去指导。(f)两阶段培训。图像尽可能类似于输入,以像素级(通过逐像素MSE测量)和感知级(通过VGG特征的MSE测量)表示:102030405060708090100 110 120 130迭代(epoch)图6.半色调视觉损失对热身训练的迭代,具有和不具有指导损失LG。半色调图案测量。受感知损失[54]的启发,我们提出在连续特征域中测量半色调图案差异。具体地说,它是由一个预先训练的逆半色调网络F(在补充材料中详细说明)建模的,它显示出捕捉半色调图案的良好灵敏度。因此,我们制定引导损失LG为LG=EIc∈ I{||F(Oh)−F(Ih)||2}, ⑶然后,我们用组合L=E{||O−I||+λ||(O)−||},(7)损耗:LG+ω1LC+ω2LB+ω2LN。 中的红色曲线其中Ψ()表示来自预训练的VGG-19网络[38]的conv4 4层的特征图,其经验地表示图像的感知特征 权重λ=2。010−4是经验设定的,以平衡的magni,研究两个领域之间的在联合训练中,可逆性损失将梯度传播到抖动网络E和恢复网络D。3.3. 培训计划为了学习所需的半色调图案,抖动和恢复网络通过最小化等式中的损失函数来联合训练。1.然而,从零开始训练整个模型容易陷入局部极小,因为具有挑战性的优化目标。图5(b)示出了半色调的失效。为避免这个问题,我们建议采用两阶段的培训计划。在第一阶段,我们的目标是单独预热抖动网络,以便它可以产生视觉上令人愉快半色调图像。为了稳定训练,暂时移除二进制门。不幸的是,这种松弛仍然不能保证令人满意的半色调(图5(d)),并且它甚至与缓慢收敛相关联,如图6(绿色曲线)所示。为了提升训练,我们提出明确地提供参考半色调图像Ih以指导训练。为了简单起见,采用经典误差扩散[34]作为参考。然而,直接测量预测的半色调与参考之间的逐像素差异不起作用,因为每像素检查永远不能捕获二进制半色调图案的固有特征。时代,它能够生成视觉上体面的结果,如图5(e)所示。无论如何,在收敛之前不需要训练它,因为视觉上良好的半色调只是终端目标的一部分。在第二阶段中,我们丢弃制导损失并在等式中的全损失下联合训练整个模型。1,用于另外的115个时期。图5(f)显示了最终结果。与ADAM求解器[18],需要143个epoch来完成整 个 训 练 。 在 这 两 个 阶 段 中 , 我 们 利 用 ReduceL-RonPlateau学习率调度器来管理学习率,该学习率被设置为0。0001,然后当训练损失停止减少时减半。4. 实验结果数据集。我们的训练数据集是从公开可用的VOC2012数据集[9]中收集的。数据集中有17,125个我们随机选取其中的13,758张图像进行训练,并保留其余的3,367张图像作为测试数据集进行定量评估。所有这些图像的大小为256 256通过裁剪和调整大小。对半色调质量进行了评价,的可恢复精度,为此,我们使用使用默认超参数训练的相同模型(在等式中定义)。①的人。源代码和训练模型可在以下位置获得:http-s:github.com/MenghanXia/ReversibleHalftoning4.1. 半色调质量目视符合性。我们测量的视觉一致性的半色调输入的音调和结构。((((((不损失ce一个guidH机智nginiTraSSloNCEIda顾W/OG雷尼一致性蓝噪声损失1400634.532 /0.4548表1.根据PSNR和SSIM对半色调图像进行评估。较高的PSNR/SSIM指示较好的质量。方法PSNR SSIM是说Stddev是说Stddev奥斯特罗莫霍夫法41.7281.12350.10070.0690结构感知半调21.8032.25700.03400.0500我们的(灰度输入)33.2620.62060.15940.0888我们的(彩色输入)32.8610.78990.15730.0877原始图像Ostromoukhov方法结构感知半调我们的方法半色调傅立叶振幅 径向平均剖面图8.等灰度(灰度=0.8)半色调的光谱分析。Ostromoukhov方法(上);结构感知半色调(中);我们的方法(底部)。图7.臂结构清晰。每个半色调图像的PSNR/SSIM被注释以供参考。按照[35]中的实践,通过高斯滤波半色调和输入的高斯滤波亮度通道之间的PSNR来测量色调一致性,并且通过半色调和输入的亮度通道之间的SSIM来测量结构一致性。由于现有的半色调方法只能抖动灰度图像,我们在3367张灰度图像(从我们的测试数据集脱色)上进行了实验。两种生成高质量半色调的经典半色调方法被选为我们的竞争对手,Ostromoukhov方法[34]和结构感知半色调方法[35]。在我们的实验中,结构感知半色调方法与默认参数一起用于定量评估,同时提供逐个调整的结果用于视觉比较。统计数据列于表1中。其中,我们的方法在声调相似度(PSRN)和结构相似度(SSIM)方面取得了最好的综合性能。图7示出了用于视觉比较的示例。此外,我们的方法也取得了良好的效果,彩色图像抖动。蓝噪声配置文件。通常情况下,半色调方法的蓝噪声特性进行了分析,其产生的半色调的恒定灰度图像。具体来说,我们计算傅立叶振幅谱和径向平均功率谱[35]。傅立叶振幅谱表示频率分量的振幅,其中较低频率分量预期在蓝噪声分布中具有较低振幅。径向平均功率er谱可视化了1D中的蓝噪声特性。如图8所示,所有三个结果都实现了一定程度的蓝噪声特性。Ostromoukhov方法和结构感知半色调的性能略好于我们的方法,因为它们只针对半色调质量,而不考虑可逆性。实际上,我们的方法是用蓝噪声特性来换取恢复精度,因为颜色信息和蓝噪声都在竞争半色调网点的分布。4.2. 恢复精度我们将我们的方法与最先进的逆半色调方法PRL-Net[48]进行比较,该方法从误差扩散半色调中恢复灰度。无论如何,这种比较可能不是很合适,因为PRL-Net的输入是错误扩散的半色调,而我们的恢复网络的输入是信息编码的可逆半色调。由于PRL-Net只能恢复灰度图像,因此我们准备了3,367个灰度图像(从我们的测试数据集脱色)进行比较,并另外评估了我们从相关的可逆半色调恢复彩色版本的方法。表2给出了PSNR和SSIM的统计数据,我们的方法在这两个指标上都优于PRL-Net。数值优势并不显著,因为主要差异在于PSRN捕获的精细细节不太敏感,而视觉质量很重要。图9示出了一个具有低分辨率的丰富细节的挑战性示例。PRL-Net无法恢复精细的外观细节和文本字符。相比之下,我们的方法不仅恢复了精细的细节和文本,34.239 /0.587233.877 /0.49651400726.454 /0.847927.117 /0.8774表2.通过PSNR、SSIM对复原图像进行评价。只有我们的方法才能恢复颜色。数据集方法PSNR SSIM是说Stddev是说Stddev灰度PRL网络29.6933.47320.87960.0564我们30.3863.03810.90770.0395颜色我们28.1302.65070.85920.0470(a) 反半色调(b)我们恢复的灰度表3.噪声激励阻滞(NIB)的消融分析统计颜色测试数据集。类别变体PSNR SSIM平均标准差平均标准差半色调我们的/NIB31.915 1.81850.1514 零点八二七我们33.734 0.60780.1702 零点零九零六恢复我们的/NIB27.743 2.27950.8667 0.0420我们29.112 2.97050.8826 0.0430(c) 我们恢复的颜色(d) 地面实况可逆半色调恢复图像错误映射图10.模型之间的性能比较图9.逆半色调与我们的了红色箭头指向有问题的重建。当原始输入是彩色版本时,也恢复原始颜色。当PRL-Net [48]必须“猜测”丢失的信息时,我们的优势来自可逆半色调中的编码信息事实上,逆半色调技术可以用于从彩色半色调恢复彩色图像,即,逆半色调技术可以用于从彩色半色调恢复彩色图像。频道频道然而,作为二进制半色调的简单扩展,彩色半色调需要三个通道来存储图案,因此具有受限的应用场景,在此将不讨论。4.3. 噪声激励块适用于可逆半色调。如第3.1节所述,我们提出的噪声激励块(NIB)使抖动网络能够为恒定输入生成二进制半色调。图8展示了其在抖动恒定灰度图像中的有效性。为了进一步分析效果,我们对抖动网络的NIB进行了消融研究。注意,当不使用NIB时,不能应用蓝噪声损失,因为它是在抖动的恒定灰度上制定的。关于这一点,我们有意地去除了所有模型变体中的蓝噪声损失,以避免引起其他因素。颜色测试数据集的定量结果列于表3中。有趣的是,统计数据表明,装备NIB的抖动网络,提高了半色调生成和彩色图像恢复。这可能是因为NIB引入的随机性有利于抖动过程,即。聚焦于图案分布而不是单个像素值。在(顶行)和配备有NIB的(底行)。颜色编码的误差图将相对于地面实况的偏差此外,CNN在平滑区域中也部分地退化,这阻碍了期望的半色调图案的生成。图10示出了验证该假设的示例。应用于生成模型。 作为解决平坦度下降的通用解决方案,我们的噪声激励模块(NIB)在两个相关应用中进行了评估,这些应用需要从平坦输入中产生空间变化。首先,我们将NIB应用于彩色图像编码[47],通过将颜色信息表示为不可感知的纹理模式,将彩色图像编码为其灰度版本。显然,如果输入图像包含一些常值区域,则由于平坦度退化而不能正确地生成颜色编码的纹理图案,从而影响颜色恢复。图11显示了一个示例,证明NIB可以有效地解决这个限制。DIV2K数据集[1]的定量评价见表4。此外,我们进一步应用NIB从语义布局改进图像合成[36]。尽管所采用的CNN模型具有噪声输入以及语义布局,但是语义布局仍然用平坦性降级来挑战卷积层,因为噪声仅用作初始化结果,而不是像NIB那样处理平坦性降级。图12示出了比较结果,示出了配备NIB的模型在合成具有尖锐细节的更逼真的纹理方面表现出不可比拟的优势。这反映在基准城市景观[6]的FID[30]显著下降,如表4所示。它不会提高间接分割精度s-25.707 /0.856114008由IG××表4. 定量评价应用NIB的国家的最先进的模型,可逆灰度和语义图像合成分别。方法PSRN SSIM[47] 38.411 0.9765IG+NIB 39.314 0.9811方法mIOU Accu FID SPADE [36] 62.3%81.9%71.8SPADE+NIB 61.9% 81.8% 54.6(a) 无操作(b) 翻转 (c)部分去除(d)随机噪声(a)颜色输入 (b)灰度(c) 修复的色块(d) IG+NIB灰度图13.可逆二值模式的鲁棒性研究。从具有不同干扰的半色调变体(顶行)恢复彩色图像随机噪声是10%的脉冲噪声,比高斯噪声更具破坏性在打印和扫描方案中,图11.将我们的NIB应用于IG [47]以进行彩色图像编码。从编码的灰度解码色块(a) 输入语义布局(b)SPADE(c)SPADE +NIB(d)潜在的地面实况图12。将我们的NIB应用于SPADE [36]以进行语义图像合成。红色箭头指向不真实的模糊。因为NIB有利于空间变化生成,同时对像素对准具有可忽略的影响。4.4. 讨论可逆半色调具有高的恢复性,因为必要的信息是通过学习的二进制模式嵌入到原始的彩色版本。因此,对半色调图案的外部干扰可能影响其可逆性潜力。为了探索鲁棒性,我们将几种典型的干扰应用于生成的半色调,包括翻转、部分去除和随机脉冲噪声。图13显示了定性比较。由于信息嵌入图案对翻转敏感,因此恢复的彩色图像(b)显示纹理伪影和不正确的颜色。不同的是,它显示出对部分去除(b)和随机噪声(c)的相对良好的耐受性,这表明在现实世界应用中使用的良好潜力。这一点,部分是因为,补充材料。在我们当前的公式中,信息嵌入和蓝噪声要求都在竞争半色调点的分布,这意味着必须进行权衡。 因此,要提高整体性能需要更大的解决空间.扩大表示空间的一种可能的解决方案,即使用大分辨率来生成可逆半色调,例如,半色调分辨率可以是2,4倍甚至更大倍的投入尺寸这个方向提供了有前途的潜力,介绍更多的要求,可逆半色调,如半色调风格,这将是一个有趣的未来的工作。5. 结论我们提出了概念新颖的可逆半色调技术,它提供了高可重复性以及最先进的视觉质量。作为一个更强的选择,它是直接适用于传统的半色调应用,但节省了潜在的麻烦,跟踪不适定的逆半色调。为了实现这一目标,我们提出了噪声激励块(NIB)来解决CNN的平坦性退化,这不仅大大提高了我们的抖动性能,而且在其他相关应用中也发现了令人印象深刻的实用程序。此外,蓝噪声损失被公式化为恒定灰度的低频约束,这有效地保证了半色调图案的视觉愉悦度。为了处理棘手的优化环境,我们提出在两个阶段中调整不同损失项的优先级。大量的实验验证了我们方法的优势,我们期望可逆半调方法和关键技术设计能够激发后续工作。鸣谢:这项目是深圳市科技计划(编号:JCYJ20180507182410327)和香港中文大学直接资助项目研究2020/2021。14009引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率:数据集和研究。在IEEE计算机视觉和模式识别研讨会(CVPRW)上,2017年。[2] 法尔汉岛Baqai和Jan P. Allebach使用分析和随机打印机模型通过直接二进制搜索进行IEEE Transactions onImage Processing(TIP),12(1):1[3] 布莱斯·E.拜耳连续色调图像二级再现的最佳方法在IEEE国际通信会议,1973年。[4] 放 大 图 片 作 者 : Jens Behrmann , Will Grathwohl ,Ricky T. Q. Chen , DavidDu venaud , andJoürn-HenrikJacobsen.可逆残差网络。在国际机器学习会议(ICML),2019年。[5] Yoshua Bengio、NicholasLe' onard和Aaron C.考维尔通过用于条件计算的随机神经元估计或传播梯度预印本arXiv:1308.3432,2013。[6] Marius Cordts,Mohamed Omran ,Sebastian Ramos ,Tim-oBuckfeld , MarkusEnzweiler , RodrigoBenenson , Uwe Franke , Stefan Roth , and BerntSchiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议(CVPR),2016年。[7] 里卡多湖de Queiroz和Karen M.布劳恩颜色到灰色和背部:颜色嵌入到纹理灰色图像。IEEE Transactions onImage Processing(TIP),15(6):1464[8] 作者声明:Dr.诺克斯具有边缘增强的误差扩散算法Journal of the Optical Society of America A,8(12):1844[9] Mark Everingham,SM Ali Eslami,Luc Van Gool,Christopher KI Williams,John Winn,and AndrewZisserman.pascal可视化对象类的挑战2012(voc2012)结果。http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html,2012年。[10] Robert W.弗洛伊德一种空间灰度自适应算法。信息显示社会,1976年。[11] Pedro Garcia Freitas,Myle` ne C.Q. Farias,and Alete'iaP.F.Arau' jo. 经由耦合的字典训练来增强逆半色调。SignalProcessing:Image Communications,49:1[12] Robert Geist,Robert Reynolds,and Darrell Suggs.一个马尔可夫数字半调框架ACM Transactions on Graphics(TOG),12(2):136[13] John J.霍普菲尔德。神经网络和物理系统与新兴的集体计算能力。一九八二年[14] Byong-Won Hwang、Tae-Ha Kang和Tae-Seung Lee。改进了基于一阶梯度成形滤波器的边缘增强误差扩散算法。2004年工业、工程和其他应用智能系统[15] 放 大 图 片 作 者 : Jo¨ n-HenrikJacobsen , ArnoldW. M.Smeulders和E-douard Oyallon 。i-revnet :深度可逆网络。InIn-国际学习表征会议(ICLR),2018年。[16] 金泰勋和朴相日半色调图像的深度上下文感知去筛选和 重 新 筛 选 。 ACM Trans- actions on Graphics(TOG),37(4):48,2018.[17] Yeong-Taeg Kim,R.阿尔塞·贡萨洛和格拉博夫斯基·尼古拉。使用二进制置换滤波器的逆半色调。IEEETransactions on Image Processing(TIP),4(9):1296-1311,1995。[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本:1511.06349,2014。[19] Diederik P. Kingma和Prafulla Dhariwal。Glow:具有可逆 1x1 卷 积 的 生 成 流 在 神 经 信 息 处 理 系 统 年 会(NeurIPS),2018年。[20] Thomas D.Kite , Damera-Venkata Niranjan , L.EvansBrian和C.博维克·艾伦一种高质量、快速的误差扩散半调逆半调算法。IEEEInternational Conference on ImageProcessing(ICIP),1998年。[21] Donald E. 克 努 特 网 点 扩 散 法 数 字 半 色 调 。 ACMTransactions on Graphics(TOG),6(4):245[22] Johannes Kopf,Daniel Cohen-Or,Oliver Deussen,andDani Lischinski. 递 归 王 瓷 砖 的 实 时 蓝 噪 声 。 ACMTransactions on Graphics(TOG),25(3):509[23] Nae-Joung Kwak 、Soung-Pil Ryu 和Jae-Hyeong Ahn 。使 用 人 类 视 觉 特 性 的 边 缘 增 强 误 差 扩 散 半 色 调IEEEInternational Conference on Hybrid InformationTechnology,2006。[24] Jia-Hong Lee,Hong-Jie Wu,and Mei-Yi Wu.一种逆半调的可逆数据隐藏方案。信号处理和多媒体应用国际会议(SIGMAP),2009年。[25] Jia-Hong Lee,Mei-Yi Wu,and Hong-Jie Wu.一种新的使用可逆数据隐藏的半调图像逆半调方法。EURASIPJournal on Advances in Signal Processing- ing,2010:89,2010.[26] Pingshan Li和Jan P. Allebach色调相关误差扩散。IEEETransactions on Image Processing(TIP),13(2):201[27] 李 欣 。 边 缘 定 向 误 差 扩 散 半 色 调 。 IEEE Sign-nalProcessing Letter,13(11):688[28] 李月、刘东、李厚强、李丽、朱离、凤舞。学习卷积神经网络的图像压缩分辨率。IEEE Transactions onImage Processing(TIP),28(3):1092[29] Ting Luo , Gangyi Jiang , Mei Yu , Feng Shao , andZongju Peng. 基于视差的立体图像可逆数据隐藏。IEEEInternationalConferenceonImageProcessing(ICIP),2014。[30] Thomas Unterthiner Bernhard Nessler Martin Heusel ,Hubert Ramsauer and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,2017年。[31] Murat Mese和Palghat P.Vaidyanathan 逆半调之查表法IEEE Transactions on Image Processing ( TIP ) , 10(10):156614010[32] 唐 山 口 米 切 尔 在 低 采 样 密 度 下 生 成 抗 锯 齿 图 像ACMTransactions on Graphics(TOG),1987年。[33] 作者声明:Dr.帕克使用蓝噪声掩模的数字半色调技术。JOSA A,9(11):1920[34] 维克多·奥斯特罗莫霍夫一个简单有效的误差扩散算法。ACM SIGGRAPH,2001年。[35] Wai-Man Pang,Yingge Qu,Tien-Tsin Wong,DanielCohen- Or,and Pheng-Ann Heng.结构感知半色调。ACM Transactions on Graphics(TOG),27(3):89,2008。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功