没有合适的资源?快使用搜索试试~ 我知道了~
1学习观察:近似人类感知阈值检测超阈值图像变换Alan Dolhasz,Carlo Harvey,Ian Williams数字媒体技术实验室,伯明翰城市大学{alan.dolhasz,carlo.harvey,ian.williams}@https://github.com/dmt-lab/learning-to-observe bcu.ac.uk摘要计算机视觉中的许多任务通常相对于人类感知进行校准和评估。在本文中,我们提出了直接近似的感知功能完成视觉检测任务的人类观察员。具体来说,我们提出了一种新的方法来学习检测图像变换可见人类观察者通过近似的感知阈值。为了做到这一点,我们进行了一个主观的两个选择的强迫选择研究,以估计感知阈值的人类观察者检测图像中的局部曝光偏移。然后,我们利用变换等变表示学习,以克服有限的感知数据的问题然后使用此表示来训练能够检测局部阈上曝光偏移(图像合成中常见的失真)的密集卷积在这种情况下,我们的模型可以近似感知阈值,平均误差为0.1148曝光停止之间的empendum和预测阈值。它也可以被训练来检测一系列不同的局部变换。1. 介绍人类观察者是图像内容的目标观众,因此是图像质量的最终评判者,图像质量通常是参考人类的意见以及人类可感知的各种局部和全局失真和不一致性来测量的。这些失真可能是图像采集、压缩、传输、合成和后处理的副作用。理解和建模人类如何检测和处理失真以获得主观质量分数是图像质量评估(IQA)研究的基础。在对人类视觉系统(HVS)对某些类型的失真的敏感性进行建模方面,已经进行了许多尝试,主要用于IQA [13,8,24,54,16,23]和显着性建模中的应用[51,55,29,19],其中相关和感知的检测-图1.我们的模型的性能说明了三个输入图像和11个级别的曝光转换。左列示出了具有应用的曝光变换的输入图像以及以log 2标度表示的该变换的幅度。中间列显示来自我们的主观实验的基础事实,最右边的列显示我们的模型的输出,其中红色和绿色区域指示检测到的负和正阈上暴露变换,而蓝色区域指示没有阈上变换。超阈特征是近似人类性能的关键。然而,这些方法中的许多方法在其普遍性、效率或可移植性方面受到限制。基于信号保真度[45]、统计测量[46]和深度学习模型[7,50]的替代方法也被开发出来,作为解决这些限制的一种方法。人体对物理刺激的敏感性是用47974798心理物理学[17],并经常使用心理计量学函数表示,该函数将观察者的表现描述为刺激强度的函数[2]。这种方法在简单刺激时是有效的,但难以推广到更复杂的刺激,如自然图像。这在很大程度上是由于自然图像组中的大量变化以及测量观察者在足够多的图像和刺激强度上的表现所需的相应试验次数在主观图像评估中,质量分数可以看作是对输入图像应用观察者函数的结果。该功能可以概括为可见失真的检测、其隐式池化以及映射到给定质量标度上的点[20]。这进一步受到任务,图像内容和注意力分配的影响最近的工作在使用深度卷积神经网络(DCNN)[7,50]在IQA的背景下近似整个过程方面取得了重大进展然而,这些方法大多局限于公共IQA数据集中可用的一组固定的低水平、全球分布的伪影,例如包含5种失真类型的LIVE [47],或包含24种类型和5个幅度水平的TID 2013这限制了可通用性,特别是对于可能的失真的类型和数量显著变化的应用,或者其中失真是上下文相关的并且仅存在于图像的局部区域中的应用,诸如图像合成。由于需要人类观察者,创建这样的数据集是一个昂贵且耗时的过程。这种观察者功能的近似-检测任意类型的可见不一致性-将允许在与IQA相关的许多领域中应用,包括复合质量评估、操纵检测和图像恢复。在这项工作中,我们提出了一种基于DCNN的方法来近似这个观察者函数,并验证我们的方法相对于一个特定的局部失真常见的图像复合材料-局部曝光不一致的图像区域所占用的对象。我们通过学习受这种失真影响的图像与经验心理测量函数上的对应点之间的映射来实现这一点,该函数是相对于这种失真类型估计的。将图像失真视为变换允许使用无监督方法来学习相关特征。我们的方法可以应用于一系列的问题,在这些问题中,人类可见的失真需要在图像中进行定位我们的贡献是:• 基于感知数据和非监督预训练的局部图像变换效果检测新方法• 使用该方法训练的模型可检测局部外展位移• 一个图像数据集与相应的经验主观感知阈值从我们的实验2. 相关工作2.1. 人类感知HVS对图像中的各种失真和不一致性表现出不同程度的敏感性,容易检测到一些[5],而完全忽略其他[36,9]。图像的低级别属性中的不一致性检测在很大程度上取决于HVS的基本特征,例如对比敏感度[2]、亮度自适应和掩蔽[38]。这些特征描述了即时背景(如背景亮度、空间频率和纹理存在的差异)如何影响不同图像伪影的可见性例如,与纹理背景相比,在无纹理背景上更容易注意到噪声或量化等失真观察者可靠地注意到差异所需的刺激变化量JND已被广泛用于在模糊检测[48]、视觉属性差异[60]、感知度量[63]或3D模型属性相似性[12]等任务中对人类视觉敏感度进行建模。观察者的敏感度进一步受到视觉注意力分配的调节[35,30],特别是对于局部失真,例如图像合成中的失真[14]。2.2. 心理测量功能评估图像质量的观察者基于视觉证据进行判断,例如可见伪影或失真[52]。人类在检测和辨别任务中的表现通常使用心理测量函数进行建模[49,44,21,53,34]。心理测量函数描述了观察者表现与独立变量之间它被定义为n(x;θ)=γ+(1−γ)f(x;α,β)(1)其中θ是指参数集:γ(猜测率)定义了对应于机会性能的函数的下限,而f(x;α,β)定义了由α-其位置和β-其斜率参数化的S形函数。给定刺激x的观察者表现由表示为y=θ(x;θ)的θ的输出表示。因此,感知函数的阈值可以定义为刺激水平x t,它产生特定的刺激检测概率yt,使得xt=n−1(yt)。在实践中,通常使用自适应采样程序(如QUEST [56])来估计心理测量功能,该程序通过对处于阈值的最高概率的刺激进行采样来限制所需试验的数量。47992.3. 显著性语义分割我们的工作涉及到显着的对象检测(SOD)和语义分割(SS),这两个都试图分配类成员的个别像素的基础上,当地的上下文信息。SS为输入图像的每个像素分配单个语义对象类[31]。SOD旨在分割图像中最显著的对象,基于其基于图像的低级别特征,通常根据人类表现进行衡量[6]。图像到图像神经网络已成为这些领域的流行工具,支持许多最先进的CNN架构,如全卷积网络(FCN)[11],U网[42],对抗方法,如Pix2Pix [18]及其许多变体。这些方法强调了多尺度特征的重要性[25],以及通过扩张卷积和跳跃连接保持空间分辨率[61,10]。2.4. 无监督半监督学习监督学习方法(如第2.3节中的方法)需要大量的标记数据,这可能需要大量的时间工作。对于感知受限的任务,由于需要更大的观察者样本和更多的复制,这种开销成倍增加,与Likert风格的主观意见研究相似。相反,无监督学习技术不需要手动标记的数据来学习。因此,这种范例对于我们的应用是有吸引力的,因为我们可以利用未标记的数据来学习描述给定变换的特征,然后使用较小的标记感知数据集来微调这些特征以获得经验感知数据。一些方法,如表示学习[3],通过使用自动编码器(AE)和生成对抗网络(GAN)放松了对标记数据的要求。AE通过尝试通过特征瓶颈重建数据来学习数据的压缩表示。由AE学习的表示倾向于对它们所基于的数据的显著特征进行编码,这反过来可以充当监督任务的任务特定特征提取器[1]。另一方面,GAN采用对抗训练机制,其中生成器和训练器被联合训练。例如,生成器的任务可以是生成足够逼真的图像,使得图像处理器将其分类为真实的。反过来,图像处理器的任务是将生成的图像与真实图像分离[40]。Zhang等人(2019)表明,监督分类器的性能可以通过使用自动编码转换范例来提高。他们提出学习变换等变表示(TER),它对应用于输入的变换进行编码[62]。这减少了对数据增强的需要,并迫使编码器学习输入数据的更好的表示,其很好地编码视觉结构,不改变输入的变换。我们采用这种方法来检测图像中的局部变换,这构成了我们提出的方法的基础。3. 方法在本节中,我们将详细阐述我们提出的方法,并详细说明我们的模型设计和原理。我们总结了我们的方法,包括将扭曲公式化为转换,使用经验感知阈值作为决策边界,收集经验心理测量数据,训练数据集准备以及我们训练过程的两个阶段3.1. 变形为变形许多影响图像质量的失真可以被视为应用于原始未损坏图像的变换,作为某些过程(如传输、合成或压缩)的副作用。这在概念上类似于去噪自动编码器背后的直觉[4]。去噪自动编码器学习训练数据集中的低维流形。他们还隐式地学习一个函数,该函数将受腐败过程影响并位于未被腐败的图像的流形附近的腐败图像I**投射回该流形上这种概念化允许通过应用各种变换从一小组未失真图像生成大量训练数据。我们专注于一个单一的转换:局部暴露会发生变化。这对应于通过常数对亮度进行缩放,该常数应用于图像I内的对应于对象的区域并且由二进制掩模M定义。这是在感知均匀Lab颜色空间的亮度通道上执行的[41]。 我们的选择动机如下:观察者在检测这种低水平的图像失真方面是可靠的[15];曝光失真表示图像合成中存在的常见不匹配,这是我们研究的一个激励应用[59];这种类型的变换在计算上应用起来是廉价的,允许训练效率的增益。3.2. 作为决策边界的知觉界限在图像失真的情况下,假设观看条件受控,心理测量函数可以被看作是观察者对输入数据的范围。给定未处理的图像I、对象掩模M、观察者函数O和I_x,I_x是由局部变换T(I,M,x)产生的I的损坏的版本,可以将增强心理测量函数解释为将观察者函数应用于I_x的所有值的结果。因此,观察者函数O表示由观察者执行的感知过程,其映射输入刺激,在心理测量函数上,因此,检测图像中的阈上变换可以被定义为应用观察者模型来分类每个变换4800基于超阈值变换的影响的存在,对像素进行预处理。这需要a)描述观察者相对于变换和特定图像刺激的幅度的表现的心理度量函数,b)关于场景和其中的对象的出现的上下文信息,从该上下文信息可以导出关于局部失真的存在的信息,以及c)与训练数据中的变换等变的适当特征表示因此,我们的问题可以被定义为图像的逐像素分类,其中每个像素被分配三个类别c中的一个,其判定边界由针对给定图像估计的两个心理度量函数的阈值xt-和xt+定义,关于生成刺激I的变换的参数x:2000年,如果x xt+,则c=0.12002年,否则(二)基于采样值,使用不同曝光偏移量对年龄I进行曝光养木b)向观察者显示的示例刺激。c)观察者正确识别了x =0时的I和I。8. d)观察员的反应这里,x t是检测概率超过阈值t(设置为0)的变换参数的值。75,对应于2AFC任务中的JND。 这 是完美(100%)和偶然(50%)之间的中点2AFC任务)性能[57]。当我们为每幅图像捕获两个心理测量函数时,一个对应于降低像素强度(xt-),一个对应于增加像素强度(xt+),它们的两个阈值将参数空间x分成三个区域(图2)。第2d段)。3.3. 心理测量功能估计为了估计关于我们的变换的图像方面的经验心理测量函数,我们设计了一个2AFC研究,使用具有分割对象的自然图像的数据集,其中分割由二进制掩码定义。按照[15]的方法,我们系统地将具有不同x值的变换应用于分割对象。我们以随机顺序并排显示原始图像(I)和变换后的图像(I),并要求观察者正确识别I我们对x的多个值重复这一过程,并将Weibull心理测量函数拟合到每个观察者为了提取阈值,我们分别估计了与负和正曝光偏移的性能水平yt相对应的参数值xt−和xt+然后,我们在所有观看同一图像的观察者中自举平均我们将在本节的其余部分详细介绍此过程的各个阶段。3.3.1实验设计所有实验均在受控实验室条件下进行,遵循ITU BT-500规范[20]。我们使用Apple Cinema HD 23添加到其先前响应中,用于不同的采样值,X.用橙色虚线表示的符号xt−和xt−表示进行心理测量函数拟合后阈值的位置。显示校准装置。观察员位于距离显示器65 cm处。为了减轻视觉搜索对任务的混淆影响,特别是当图像之间的差异最小时,我们通过显示与对象对应的二进制掩码来明确指示图像中的变换区域,如下[14]。为了最大限度地减少实验试验的数量,我们利用QUEST自适应采样程序[56],使用PsychoPy 2库[37]的实现。3.3.2观察者刺激我们招募了N=120名天真的观察者,平均年龄为31岁(SD=11。85),其中44名女性,并随机分配到20组。观察者在参加实验前要接受视力正常的检查.我们的stim- uli数据集由300个8位图像和相应的对象掩码组成,从LabelMe [43]和SUN [58]数据集随机采样。然后,这些图像均匀地分布在观察者组中。每组查看数据集中的15个独特图像。3.3.3任务实验程序在实验会话中,每个观察者对其分配的图像样本中的15个基本图像中的每一个执行重复的2AFC试验,观察每个基本图像的至少20个不同的变化。观察者首先使用校准图像完成20次试验,结果被丢弃。4801在每次试验中,观察者看到2个图像:原始图像I和原始图像的变换版本Ix,即曝光量变换T(I,M,x)的结果。X.还显示分割掩模M,其指示目标对象。这些图像同时显示,并在屏幕上保持5秒钟。I和I′的顺序在每次试验中是随机的。指示观察者通过点击相应的按钮来正确地指示I。在每个响应之后,通过QUEST过程[56]对x的新值进行采样,并且该过程重复20次。3.3.4感知阈值估计对于每一幅图像组合,我们收集具有相应刺激强度x的二进制响应y。我们使用PsychoPy库[37]将Weibull累积分布函数拟合到此数据,由下式给出:−(kx)β将包含局部曝光偏移的图像映射到指示它们的逐像素幅度的掩模。为了实现这一点,我们开发了一个基于VGG16的AET模型我们首先将VGG16转换为完全卷积网络[31]。由于上下文和多尺度信息对我们的任务的重要性,我们附加了多尺度扩展,如[26]中所提出的。这将跳过连接引入模型,在VGG16中的每个最大池化层之后获取输出,并在连接所有分支的输出之前将每个输出通过一个额外的卷积分支每个分支由3个卷积块组成。第一块包含一个3×3,128通道卷积层,步长设置取决于输入的规模对于来自前4个最大池化层的输入,这分别是4、2、1、1,因为所有多尺度分支输出相同分辨率的特征图该层之后是批处理规范化层和ReLU激活。以下两个块包含步长为1的1×1卷积层,和y=1−(1−γ)et.Σ1(三)128和3个通道。他们每个人都遵循通过批量标准化和ReLU激活。以输出相同分辨率的掩模到输入图像,我们添加一个k=−log1−α1 −γβ(4)卷积解码器到我们的模型中的多尺度级联层的输出。它由3个街区组成,每个街区其中x是刺激强度,y是正确反应的比例,γ是偶然预期的性能水平,对于2AFC任务等于0.5,α是定义阈值的性能水平(设置为0.75,对应于2AFC的 JND),β是函数的斜率,t是阈值。一旦我们提取了该函数的阈值,我们就将该图像的观察者之间的阈值合并,并使用1000个自举样本自举这些阈值的平均值。我们得到两个广义感知阈值:x t−和x t+。3.4. 变换等变表示学习(AET)虽然对象分类器,如在ImageNet上训练的模型,旨在实现对象亮度变化的不变性,但我们的任务明确使用这些特征来为输出像素分配因此,使用对象分类器/检测器的迁移学习不适合解决我们的小数据集的过拟合问题相反,我们建议首先以无监督的方式学习特定于任务的TER,采用Zhang等人的AET方法。[62],他们通过训练来预测描述两个输入之间的变换的变换参数来编码TER。类似地,我们希望编码一个对特定变换类型不变的表示:局部暴露会发生变化。3.4.1网络架构我们可以训练卷积自动编码器来预测应用于输入的局部曝光偏移的参数,包含一个2倍上采样图层的块,后面是两个卷积层、批量归一化层和ReLU层的集合。块中的第一个卷积使用3×3内核,而第二个使用1×1内核。有关详细概述,请参见图3。使用这种架构,我们设计了一个AET模型,该模型在两个图像之间共享网络的权重,放,我和我x(图。4). 两个输入的动作是级联并馈送到最终卷积层。由于我们的变换可以由单个标量表示,因此我们的AET的最后一层是具有线性激活的3×3卷积层,其输出分辨率等于输入图像的掩码,其中单个值表示预测的前每个像素的相移通过这种方式,我们可以训练我们的模型来近似应用于输入图像的像素变换3.4.2训练数据生成为了以无监督的方式训练AET,我们学习输入图像Im和输出掩码Y=xM之间的映射,其对应用于输入的变换的参数进行 I包含应用的曝光偏移在由M定义的区域内。Y中的每个像素包含应用于对应像素的曝光偏移X以I为单位的ing像素。这是x,其中M=1,其他地方为0(Fig. 4). 在训练过程中,我们动态采样图像I 和 来 自 MSCOCO 数 据 集 的 对 应 掩 码 M[28]。 由 于MSCOCO中的一些图像包含多个遮罩,我们随机选择其中一个遮罩,前提是其面积较大4802图3.感知阈值学习任务中使用的基于VGG16的卷积自动编码器的架构该网络基于VGG16的FCN适配。有关架构的详细描述,请参见第3.4节。输入图像的像素。图4.无监督AET架构由基于VGG16的卷积自动编码器组成,两个然后,两个输入的激活被级联并馈送到具有单通道输出的最终卷积层。输出掩码对每个像素的变换参数进行编码。超过1%。然后,我们通过对变换参数x进行采样并在转换到Lab色彩空间之后缩放I的亮度IL=2xILM+IL(1−M)(5)其中x是从基2对数均匀分布跨度(log2(0. 1),log2(10)),IL是从RGB转换到Lab色彩空间之后的原始图像I的亮度通道,M是阿尔法掩模,并且λ是阿达玛乘积。我们将处理后的图像的像素值裁剪到范围(0。0,1。0),转换回RGB,重新缩放为0。0均值和单位方差,将图像重新整形为(224,224,3),并将I和I_A 两者馈送到控制器的两个输入端AET(如图)4 ). 该网络的输出是一个掩码Y,它近似于每个点处的变换参数。3.4.3AET:目标优化器细节我们使用Adam优化器训练我们的模型[22]。我们使用所有参数的默认值,除了使用余弦退火计划控制的学习率[32]。 中的最小和最大学习速率退火时间表分别设置为1 e-6和1 e-4。学习率在这些值之间循环超过5epoch,之后最大学习率降低到其值的90%,并且重复该循环1。5倍的时代。我们训练AET 90个历元,最小化Y和Y之间的均方误差(MSE)损失。We使用具有最低验证误差的模型作为感知阈值分类器的骨干。3.5. 感知阈值分类器(PTC)3.5.1PTC:网络架构为了检测图像中的感知阈上变换,我们利用第3.4节中描述的预训练AET架构,提取图3所示的编码器和解码器,并将解码器的最终单通道卷积层替换为丢失概率为75%的空间丢失层,然后是具有softmax激活的3.5.2PTC:培训数据生成使用在我们的实验中获得的阈值,我们设计了一种数据生成方法,该方法动态地将随机曝光变换应用于我们的2AFC中使用的图像4803实验并基于变换的参数x是否超过为给定图像估计的两个经验阈值之一来生成相应的分类当x超过阈值时,受该阈上变换影响的任何像素被指定为c=0(负阈上曝光偏移)或c=1(正阈上曝光偏移),遵循等式2。对应于c=2的目标图像的最后一个通道在概念上类似于语义分割模型中的背景它表示不属于任何前景类的像素。在我们的例子中,这些像素不受阈上变换的影响。我们使用90%-10%的训练/验证分割。目标掩码的形状是(224,224,3),每个类包含一个通道。在训练过程中 , 我 们 使 用 了 一 个 数 据 生 成 器 , 以 确 保 每 个minibatch中的均衡类分布。具体来说,对于每个批次,我们从三个随机分布中对x进行采样,这些分布的范围由给定图像的视觉阈值定义:(0. 1),xt−),如果xxt+<$[xt−,xt+],否则(六)观察实际阈值和目标对象区域然而,我们注意到,我们的结果中最高的感知阈值是在具有非常小的物体的图像中观察到的。在c=2的分布是对数均匀的,而类0和类1的分布是指数分布,分别偏向于接近阈值xt-和xt+的x值。这三个X值然后被用于创建三个经处理的图像和对应的目标掩模Y,每个类别一个。对于较大的批量大小,我们只需为每个类采样多个图像。为了提高泛化能力,我们应用图像增强,限制缩放,旋转和裁剪,以便不影响相对像素强度。我们以50%的概率执行水平和垂直翻转,以及在110-150%的范围内以50%的概率执行随机缩放和裁剪。4.1.1PTC:目标优化器详情我们遵循第3.4.3节中的优化方法,并进行了微小更改。首先,我们选择一个损失函数appropriate像素分类与不平衡的数据集。在我们数据集中的大多数图像中,背景类比任何一个阈上类占据更多的像素,我们通过使用焦点损失减少简单分类示例对损失的贡献来处理这种不平衡我们还尝试冻结主干网络的不同部分,以最大限度地提高通用性。我们用12的批量训练我们的模型,直到收敛,当400个epoch的验证损失没有改善时,使用早期停止停止训练为了进行评估,我们选择了最大化验证平均交叉-联合测量的模型。在测试后的讨论中,观察者报告选择物体的特定部分来告知他们的决定,这些通常是目标物体边界附近的高对比度区域。4.2. 感知阈值学习由于以前的工作没有解决感知阈值近似的问题,我们不能将我们的模型的性能与现有的解决方案进行比较。相反,为了评估我们的方法的有效性,我们执行5重交叉验证,报告我们验证集的预测阈值和真实阈值之间的平均MSE。我们首先开发了一种心理测量学启发的方法来找到我们模型这是通过计算软F1得分为两个阈上类之间的地面真实掩模和模型预测的x值范围,并放置一个阈值时,F1得分点图5.我们实验4804图6.说明如何使用预测和地面实况(此处未显示)掩码之间的F1分数变化来估计模型顶行显示输入图像,中间行显示模型预测softmax概率,红色表示检测到的负偏移(类别0),绿色表示正偏移(类别1),蓝色表示无偏移。最下面一行显示类0和1的类方面的F1分数更多的例子可以在补充材料中找到。图7.示例a)由原始图像中的闪光灯或聚光灯照明导致的过度曝光b)原始过度曝光绿色)和手动应用的曝光不足(红色)都由我们的模型检测c)显示手动应用变为非零。在我们的实验中,我们使用F1 = 0。1,请参见图6,了解作为曝光偏移函数的软F1分数补充材料中有更多直观的例子为了评估AET学习的特征的相关性,我们对一系列微调制度进行了分析实验结果见表1。总的来说,我们的结果表明,采用AET和多尺度扩展的好处,特别是考虑到通过冻结整个编码器和只微调解码器提供的性能提高当预训练阶段被省略或当预训练模型的所有层都被允许进行微调时,模型5. 结论、局限性和未来工作我们提出了一种新的方法来检测局部阈上图像变换的基础上近似的功能执行的观察者。这是通过训练完全卷积图像分类器并使用基于对应于JND的经验感知阈值的数据生成方案来我们发现,我们的模型产生的阈值分布近似的经验阈值分布从我们的实验。我们表1.交叉验证结果:地面实况阈值和模型预测之间的平均均方验证误差在曝光停止中给出。最右侧两列显示了正和负曝光偏移的单个误差每一行中的错误是冻结预先训练的AET骨干的渐进部分的结果。还证实,采用无监督的AET方法比直接在没有预训练的经验数据上进行训练的误差更低。我们的方法可以应用于一系列的局部失真或变换,如颜色偏移,模糊,混叠或子采样,只要它们可以通过变换和掩码表示。除了手动应用的转换之外,我们的模型还检测验证集中预先存在的过度暴露(参见图7)。我们的研究结果受到我们研究中使用的图像的8位动态范围和与个体观察者相关的固有偏差的限制。然而,他们表明,使用CNN架构和AET无监督预训练策略是检测图像中局部变换的有效方法。虽然需要进一步详细的研究和细粒度的优化,以最大限度地提高per-turbine,我们的方法是有效的近似感知阈值相对于局部图像变换。我们目前正在对我们的方法进行扩展研究,针对不同的骨干架构,培训制度和优化策略。我们还打算将我们的方法作为自动复合材料质量改进的第一阶段冻结到图层MSE两者MSExt−MSExt+无需冻3.96903.57164.3664区块1池0.30280.26180.3442区块2池0.20980.21880.2000区块3池0.18950.16330.2161区块4池0.23500.20250.2681区块5池0.13350.16240.1046concatenate0.11480.13070.09784805引用[1] 皮埃尔·巴尔迪自动编码器、无监督学习和深度架构。在ICML研讨会上关于无监督和迁移学习的论文集,第37-49页,2012年[2] 彼得·巴顿。人眼的对比敏感度及其对图像质量的影响,第21卷。Spie光学工程出版社,华盛顿州贝灵汉,1999年。[3] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角 。IEEE Transactions on PatternAnalysis and Machine Intelligence,35(8):1798[4] Yoshua Bengio Ian Goodfellow和Aaron Courville深度学习,第1卷。Citeseer,2017.[5] 欧文·比德曼,罗伯特·梅扎诺特,扬·拉宾诺维茨.场景感知:检测和判断对象发生关系违反。认知心理学,14(2):143[6] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著 对 象 检 测 : 基 准 。 IEEE transactions on imageprocessing,24(12):5706[7] SebastianBosse,DominiqueManiry,Klaus-RobertMüller,Thomas Wiegand,and Wojciech Samek.用于无参考和全参考图像质量评估的深度神经网络。IEEE Transactions on Image Processing,27(1):206[8] 安德鲁·P·布拉德利一种小波可见差分预测器。IEEETransactions on Image Processing,8(5):717[9] 帕特里克·卡瓦纳作为神经科学家的艺术家。Nature,434(7031):301,2005.[10] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv:1412.7062,2014。[11] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[12] 伊万·克莱朱和迪特马尔·索普3d模型的阈上感知度量评估在2006年第三届图形和可视化应用感知集,第41-44页[13] 斯科特·J·戴利可见差异预测因子:用于评估图像保真度的算法。在人类视觉,视觉处理和数字显示III,第1666卷,第215.国际光学与光子学学会,1992年。[14] Alan Dolhasz,Maite Frutos-Pascual,and Ian Williams.[海报]复合现实主义:客体知识和不匹配特征类型对观察者注视和主观质量的影响。在2017年IEEE混合和增强现实国际研讨会(ISMAR-Adjunct)上,第9- 14页。IEEE,2017年。[15] Alan Dolhasz,Ian Williams,and Maite Frutos-Pascual.测量观察者对合成物中物景视差的反应。2016年IEEE国际研讨会Mixed and Augmented Reality(ISMAR-Adjunct),第13-18页。IEEE,2016.[16] Jaroslav Dusek和Karel Roub 'ık。用于图像质量评估的人类视觉系统新模型的测试。2003年第七届信号处理及其应 用国 际 研 讨会 。 诉 讼, 第2 卷 ,第 621- 622 页 。IEEE,2003年。[17] 古斯塔夫·特奥多尔·费希纳,戴维斯·H·豪斯,埃德温·加里格·无聊. 心理物理学基础,第1卷。霍尔特,莱因哈特和温斯顿纽约,1966年。[18] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR,2017年。[19] Laurent Itti,Christof Koch,and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE模式分析机器智能学报,(11):1254[20] ITU-R BT.建议500-11,电视图像质量的主观评估方法”。国际电信联盟,技术。 Rep,2002.[21] Jeffrey P Johnson , Elizabeth A Krupinski , MichelleYan , Hans Roehrig , Anna R Graham , and Ronald SWeinstein.使用视觉识别模型检测虚拟病理图像中的压缩 伪 影 。 IEEE transactions on medical imaging , 30(2):306[22] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[23] Elizabeth A Krupinski,Jeffrey Johnson,Hans Roehrig,John Nafziger,Jiahua Fan,and Jeffery Lubin.用人类视觉系统模型预测观察者对crt与lcd显示图像的表现。Journal of Digital Imaging,17(4):258[24] 赖永凯和郭杰基于haar小波的压缩图像质量测量方法。视觉传播与图像表征杂志,11(1):17[25] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。在IEEE计算机视觉和模式识别会议论文集,第5455-5463页[26] 李冠斌、余益州。用于显著对象检测的对比度导向深度神 经 网 络 。 IEEE transactions on neural networks andlearning systems,29(12):6038-6051,2018。[27] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年[28] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[29] Weisi Lin和C-C Jay Kuo。感知视觉质量指标:一个调查 。 JournalofVisualCommunicationandImageRepresentation,22(4):2974806[30] Hantao Liu和Ingrid Heynderickx。客观图像质量评估中的视觉注意力:基于眼球追踪数据。IEEE Transactionson Circuits and Systems for Video Technology,21(7):971[31] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页[32] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:Stochas-tic 梯 度 下 降 与 热 重 启 。 arXiv 预 印 本 arXiv :1608.03983,2016。[33] Anush K Moorthy和Alan C Bovik。用于图像质量评估的感知显著空间池技术人类视觉和电子成像XIV,第7240卷,第724012页。国际光学与光子学会,2009年[34] Alexandre Ninassi , Patrick Le Callet , and FlorentAutrusseau.使用感知数据隐藏的伪无参考图像质量度量。人类视觉和电子成像XI,第6057卷,第6057页。国际光学与光子学学会,2006年。[35] Alexandre Ninassi、Olivier Le Meur、Patrick Le Callet和Dominique Barba。你注视图像的位置会影响你对质量的感知吗?将视觉注意力应用于图像质量度量。2007年IEEE图像处理国际会议,第2卷,第IIIEEE,2007年。[36] 尤里·奥斯特洛夫斯基帕特里克·卡瓦纳和帕万·辛哈感知场景中的照明不一致。Perception,34(11):1301[37] Jonathan Peirce , Jeremy R Gray , Sol Simpson ,MichaelMacAskill, RichardHochenberger ,HiroyukiSogo,Erik Kastman,and Jonas Kristoffer Lindeløv.心理学2:行为实验变得容易。行为研究方法,51(1):195[38] 伊莱·贝利复杂图像中的对比度。JOSA A,7(10):2032[39] Nikolay Ponomarenko , Oleg Ieiev , Vladimir Lukin ,Karen Egiazarian , Lina Jin , Jaakko Astola , BenoitVozel,Kacem Chehdi,Marco Carli,Federica Battisti,et al.彩色图像数据库tid2013:特殊性和初步结果。欧洲视 觉 信 息 处 理 研 讨 会 ( EUVIP ) , 第 106-111 页 。IEEE,2013。[40] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 彩虹rain bow point鼠标指针压缩包使用指南
- C#开发的C++作业自动批改系统
- Java实战项目:城市公交查询系统及部署教程
- 深入掌握Spring Boot基础技巧与实践
- 基于SSM+Mysql的校园通讯录信息管理系统毕业设计源码
- 精选简历模板分享:简约大气,适用于应届生与在校生
- 个性化Windows桌面:自制图标大全指南
- 51单片机超声波测距项目源码解析
- 掌握SpringBoot实战:深度学习笔记解析
- 掌握Java基础语法的关键知识点
- SSM+mysql邮件管理系统毕业设计源码免费下载
- wkhtmltox下载困难?找到正确的安装包攻略
- Python全栈开发项目资源包 - 功能复刻与开发支持
- 即时消息分发系统架构设计:以tio为基础
- 基于SSM框架和MySQL的在线书城项目源码
- 认知OFDM技术在802.11标准中的项目实践
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功