没有合适的资源?快使用搜索试试~ 我知道了~
减少视觉干扰的深度显著性先验
19851减少视觉干扰的深度显著性先验Kfir Aberman何俊峰Yossi Gandelsman Inbar Mosseri David E.雅各布斯Kai Kohlhoff Yael Pritch谷歌研究迈克尔·鲁宾斯坦(a) 学习深度卷积算子(Camou卷积)输入(图像+蒙版)输入显著性图输出输出显著性图(b) GAN运算符(语义编辑)(c) 扭曲操作符(图像修复)(d) 重新着色操作员(协调)输入输出输入输出输入输出图1. 给定输入图像和要编辑的区域的掩码(顶行,左),我们的方法通过视觉显著性预测模型反向传播以求解图像,使得感兴趣区域中的显著性水平被修改(顶行,右)。 我们探索A一组可微分算子,其参数都由显着性模型指导,从而产生各种效果,例如(a)隐藏(b)语义编辑(c)修复,以及(d)颜色协调。摘要仅使用一个经过训练的模型来预测人们在哪里看图像,并且没有额外的训练数据,我们可以产生一系列强大的编辑效果,以减少图像中的给定一个图像和一个指定编辑区域的掩模,我们通过一个最先进的显着性模型来反向传播,以参数化一个可微编辑算子,从而减少掩模区域内的显着性我们演示了几个操作符,包括:一个包围操作符,它学习应用一个颜色变换,将干扰项包围并混合到它们的周围;扭曲算子,其扭曲不太显著的图像区域以覆盖干扰物,逐渐将对象折叠成它们自身并有效地移除它们(类似于修复的效果);GAN算子,其使用语义优先级来用可信的、不太显著的替代物完全替换图像区域。由此产生的效果与对人类视觉系统的认知研究一致由于颜色不匹配是显著的,因此颜色匹配算子学习使对象的颜色与其周围环境协调以降低其显著性)。重要的是,所有的效果都是在零触发学习场景下,仅通过预训练的显著性模型的指导,而没有效果的监督数据。我们在各种自然图像上呈现结果,并进行感知研究,以评估和验证原始图像和我们编辑的结果之间观众的眼睛注视的变化。项目网页:https://deep-saliency-prior.github.io/1. 介绍研究和模拟人类的注意力--在深度学习时代,在眼睛注视数据上训练的显着性模型现在能够高精度地预测人类的视觉然而,尽管研究界迄今为止一直专注于开发预测人们看向何处的模型,但几乎没有注意到利用这种最近的深度显着性模型中嵌入的知识来实际驱动和指导图像和视频的编辑最近的一些尝试[15,34]集中在设计用于对图像进行最小修改的微妙效果19852因此限制了他们对视觉注意力进行有意义的改变的能力在本文中,我们利用深度显着性模型来驱动戏剧性但仍然逼真的编辑,这可以显着改变观察者对图像中不同区域的注意力。这样的能力可以具有重要的应用,例如在摄影中,其中我们拍摄的图片通常包含分散我们想要描绘的主要对象的对象,或者在视频会议中,其中房间或办公室的背景中的杂乱可能分散参与呼叫的主要发言者的注意我们问:使用可区分的显着性模型作为指导,什么类型的编辑效果可以实现?在实际观看图像时,这些效果会如何影响观众我们在这篇论文中的重点是减少注意力以减少视觉分心,但我们也证明了一些结果,增 加 注 意 力 吸 引 到 图 像 区 域 在 第 4 节 ( 图 4 ) 。(六)。为此,我们开发了一个优化框架,用于使用可区分的预测显着性模型来引导图像中的视觉注意力。我们的方法采用了最先进的深度显着性模型[22],在大规模显着性数据上进行了预训练[24]。给定一个输入图像和一个干扰项掩码,我们通过显着性模型反向传播-然而,在这样的框架中,适当的算子的空间不是无限的。问题在于显着性预测器-与许多深度学习模型一样,显着性预测器的参数空间是稀疏的,如果以无约束的方式产生分布外样本,则容易失败(图2)。使用精心选择的运营商和先验,我们表明,自然和逼真的编辑可以通过梯度下降实现一个单一的目标函数。我们用几种可微算子进行了实验:两种标准的图像编辑操作(其参数通过显着性模型学习),即卷积和图像扭曲(移位);以及两种学习的算子(我们没有明确定义编辑操作),即多层卷积滤波器和生成模型(GAN)。通过这些操作符,我们的框架能够产生各种强大的效果,包括隐藏、修复、伪装、对象编辑或插入以及面部属性编辑(图1)。重要的是,所有这些效果都是由单一的、预先训练的显着性模型驱动的,没有任何额外的监督或训练。请注意,我们的目标不是与产生每种效果的专用方法竞争,而是展示如何在单个框架内,通过嵌入在深度显着性模型中的知识来指导多个编辑操作。我们在各种自然图像上展示了我们的方法,并进行了感知研究,以验证原始图像和我们编辑的结果之间的真实人类眼睛注视的我们的实验和用户研究表明,所产生的图像编辑:a)有效地减少了对指定区域的视觉注意力,b)保持良好的(a) 输入(b)(a)(c)对抗性示例(d)(c)的图2.显着性模型的对抗性示例。给定具有预测的显著性(b)的输入图像(a),将加性噪声应用于图像并优化以降低先前显著的图像区域的显著性然而,输出(c)仍然表现出显著区域,这些区域被模型(d)解释为非显著区域图像的整体真实性,以及c)与之前提出的2. 相关工作视觉注意力和显著性预测模型关于人类视觉注意力的现有研究已经证明,我们的注意力被视觉显著刺激所吸引,即,在颜色、强度、大小、空间频率、方向、形状等方面与周围环境充分不同的区域[12,20,42,43]。此外,研究表明,人类的视觉注意力被特定的物体所吸引,如面孔,文本[5]和情绪引发刺激[1,10],这些对我们的生存很重要。显着性预测模型[19,21,22,28最近的作品[19,22,29,30,36]利用了深度神经网络的力量,并且经常在大规模凝视数据集上进行训练/微调[2,24]。关于显着性预测模型的更全面的综述可以在[1,12]中找到显着性驱动的图像操作显着性预测模型已应用于各种应用,如图像/视频压缩[35],质量评估[47],可视化[4]和图像字幕[9]。具体来说,显着性模型被证明有助于图像编辑任务[16,17,44],例如,提高对比度[17],改善[44]和增强细节[16]。有一些早期的作品使用显着性模型来引导人类注意力[18,32,33],然而,他们要么不使用深度显着性模型,要么只使用它作为额外的输入。直到最近,一些方法[7,15,34]建议使用19853OS图例说明:- 固定- 可训练联系我们≡≡≡×∥· ∥◦∈. Σ¨。Σ¨·输入(图像+遮罩)输出显著性图和Lsim.I,II−I图3.我们的框架。给定输入图像I、感兴趣区域掩模M和算子O Orecolor,Owarp,OGAN,. . . .我们的方法生成的图像具有高保真度的输入图像外的掩模(Lsim),并减少显着性内(Lsal)。目标显著性通常被选择为T=0。使用反向传播在损失函数中建立深度显著性预测模型,以帮助重新定位视觉注意力。Gatys等人[15] Chenet al.[7]使用神经网络,该神经网络接收图像和目标显著性图,并生成满足该图图像。但这两种方法都严格限制了其偏离原始内容的区域,造成了细微而狭窄的效果。最近,Jiang等人。[23]提出了一种基于GAN的图像翻译方法,通过对象移除和插入来操纵显着性Mejjati等人[34]提出了一种神经网络来预测一组参数,这些参数通过预定义的算子应用于图像,模仿专业编辑应用于图像的微妙变化,以便在保持原始图像保真度的同时重新定位注意力。虽然他们的方法旨在只对图像进行细微的更改,但我们的输出效果更加多样化和戏剧性,以修复,伪装和语义操作效果的形式,对观众此外,虽然双方[23]和[34]需要一个大的数据集来训练他们的网络,我们的方法在零射击设置下工作,即不需要额外的数据。3. 方法给定输入图像I和感兴趣区域M,我们的目标是操纵I的内容,使得对区域M的注意力被修改,同时在其他区域中保持对原始图像的高保真度我们的方法是遵循显着性预测模型的指导[22]1,该模型经过预训练,可以根据显着性数据[24]识别吸引注意力的区域。形式上,我们寻求找到一个解决了以下优化问题图像处理器argminLsal. βI+βLsim. 第1001章:我,我,(1)哪里具有显著性模型S(),其预测空间图(每个[0,1]范围内的像素值),以及目标显著性图T.并表示L2范数和Hadamard产品分别。我们通常使用T0来降低感兴趣区域内的显著性。然而,T可以是任意图,因此可以增加显著性(例如,通过设置T1)或设置为[0,1]范围内的特定值,如我们在论文和补充材料(SM)中的示例中所示由于现有的显着性模型是在自然图像上训练的,因此由Eq.(1)可以容易地收敛到例如,如果将加性噪声应用于M内的像素并利用T0进行优化,则输出可能表现出显著性。被模型解释为非显著的区域,如如图2所示。为了防止收敛到salien c-y模型的空区域,我们通过在方程中代入εI=O θ(I)来约束ε I的解空间。其中Oθ是一个预定义的可微算子,具有一组用作优化变量的参数θ受约束的目标函数可以写为arg minLsal(Oθ(I))+βLsim(Oθ(I),I)+γΓ(θ),(2)其中Γ(·)是具有权重γ的正则化。通过使用特定算子施加的约束保证了被操纵的图像保持在显著性模型的有效输入域内,其中显著性模型的预测能力是有用的。接下来,我们将展示不同的算子Oθ如何产生不同的效果,手工制作或学习,符合认知感知原则[12,43]。请注意,本文中给出的结果是通过梯度下降优化实现的,但是,一旦在规模上进行训练,该框架可以转换为每个操作员的前馈网络,就像在其他领域中所做的那样,例如图像风格转换[14,25]。重新着色我们首先针对我们的目的解决重新着色任务,即,保持感兴趣区域的亮度这里,Oθ是一个重新着色算子,它对输入图像的“ab”通道应用每像素仿射变换该映射用包含B B仿射变换的网格θRB×B ×6遵循Bilateral Guided Upsampling [6]的思想,我们在两个可微步骤中将映射应用于图像在第一步中,我们通过用像素的'ab'值查询网格来为例如,具有色度值(a,b)的像素,其位于2Lsal ~我 =MS(I)− T1我们使用[22]的显着性预测模型,在SM pdf中进行了微小的第(i,j)个仓,产生以下仿射变换T(a,b)=w0(a,b)θ(i,j)+w1(a,b)θ(i+1,j)+w2(a,b)θ(i,j+ 1)+ w3(a,b)θ(i+1,j+ 1),~我θ19854(3)19855.Σ。 Σ∈∈联系我们∥∇ ∥ ∇∇∥∇ ∥L联系我们→W迭代0(输入)迭代20迭代100迭代200图4.显著性驱动的图像变形。我们的优化框架通过用附近的像素覆盖来逐渐去除分散注意力的物体。纹理失配导致高显著性,因此,显著性模型引导翘曲算子朝向区域的无缝完成。其中w i(a,b),i0,1,2,3是双线性权重,由bin内(a,b)的相对位置决定,并且T(a,b)∈R6是可以重新整形为旋转AR2×2和平移bR2部分的仿射变换。提取的转换应用于pi x el通过a′b′=abA+b,其中(a′,b′)是输出色度值。 为了鼓励颜色变化是分段平滑的,我们以各向同性总变差(TV)损失的形式添加平滑项,r(θ)=aθ1+bθ 1,其中a和b表示颜色变化的梯度。分别相对于色度轴a和b的网格Warping接下来我们找到一个2D warping字段,该字段在应用于图像后修改目标区域的显着性。这里Oθ是一个扭曲算子,由一组稀疏的控制点θ表示,这些控制点均匀地分布在图像网格上每个控制点包含指示其到对应源像素的位移的2D坐标通过将低分辨率网格θ上采样到全图像尺寸(双线性插值)来实现扭曲,以获得上采样的扭曲场W,然后将W应用于源图像。每个像素的输出值计算如下:I(w(i,j)I(i,j+1)+w(i,j)I(i+1,j+1),(四)(a) 输入图像(b)背景颜色自适应。 (c)我们的方法图5.与一个简单的适应背景颜色的方法进行比较(a)输入图像,我们希望减少后面的标志/帖子的显着(b)当用周围像素的主导色度值替换色度通道时的结果(通过平移来均衡平均亮度水平(c)使用深度卷积算子的结果。明确的自我监督。背景的不自然完成,或纹理的不匹配,被显着性模型解释为吸引注意力的区域(图4)。我们使用未经训练的深度卷积神经网络作为图像到图像运算器。该网络由5个卷积层和非线性(ReLU)组成,其中θ表示卷积核的权重。由于深度网络可能代表一个大的功能集,因此该模型可以很容易地收敛到域外示例中。因此,sim在将解保持在模型的有效区域中方面在前几十次迭代中,网络权重被优化为仅重建原始图像(身份映射),然后添加显着性目标。 可以看出,网络学会了伪装突出的物体,并将它们与背景混合[8]。另一个有趣的见解是,网络选择适应与背景相关联的区域的颜色,即使在感兴趣区域附近呈现多个区域(包括前景对象或主题)。虽然网络在单个图像上进行了优化(类似于[13,40]),但在许多示例中训练的显着性模型更喜欢背景颜色而不是较低的显着性,并指导网络传输背景区域的颜色。为了证明这一点,我们计算了一个朴素的基线,它将周围像素的颜色适应标记区域。彩色通道被最占主导地位的2周围像素的3个色度值,以及亮度-其中(i,j)=W(i,j)+(i,j),并且wi,i0,1,2,3是由(i,j)在仓内的相对位置指示的双线性权重。由于算子的可区分性这个链,使计算的最佳翘曲场w.r.t(2).另外,为了使从掩模的外部区域翘曲的像素能够更好地传播到掩模的内部区域中,在每次迭代中,输入图像由翘曲的图像WP1更新。I. 类似的平滑项,添加到重新着色算子的一个被应用于扭曲场。我们的研究结果表明,扭曲算子倾向于删除对象,因为它解决了无监督设置下的图像修复问题,即用自然完成的背景替换前景对象,而不Ness被转换为使得其平均值等于周围像素的平均亮度。如图5所示,这种朴素的方法不能区分前景和背景像素值,而我们的方法可以简单地依赖于显著性模型的指导StyleGAN作为自然图像先验我们可以进一步将解空间约束到可以以语义感知的方式填充感兴趣区域的自然图像块的集合。由于这个要求太过笼统,我们引入了一个特定于域的(例如,人脸,塔楼,教堂)预训练的StyleGAN生成器空间[26],它能够从学习的潜在分布中生成高质量的图像,并将θ定义为空间中的潜在向量[26]。与以前的方法类似,我们在19856W投入增加关注图6. StyleGAN显著性增加。对于每个图像对,输出图像(右)是通过学习潜在空间中的方向来实现的找到的方向在语义上是有意义的和自然的(添加胡子和突出的圆顶)。潜在空间[38],但在我们的情况下,编辑是由显着性模型驱动的4. 结果和实验一个画廊展示了我们的结果与不同的操作者在第二。图3示出了图7。更多结果可以在SM html中找到(第2)。注意,显著性模型引导操作者减轻颜色、强度、纹理(空间频率)、形状等的失配,感兴趣区域与其周围环境之间的关系,与现有的认知感知和人类视觉注意力研究一致[12,20,42,43]。为了评估我们的方法,我们收集了800张图像,并要求专业摄影师标记那些将注意力从主要主题上转移开并降低视觉体验的区域。这些区域由边界框标记,然后使用实例分割模块[39]提取掩模。为了进一步清理数据,手动微调了15%的对于特定领域的GAN方法,我们使 用FFHQ 数据 集[26]中的 图像作为 面部,使 用LSUN数据集[46]中的图像作为教堂和塔楼。我们的框架在TensorFlow中实现,并且使用Adam优化器[27]使用(2)中的损失项优化运算符关于超参数的更多细节2.3)。对于本文中的所有结果,我们使用EML-Net [22]的变体作为指导显着性模型,该模型被广泛评估并被认为是最先进的[2,22,36]。怎么-给我一张照片,=G(wo),由a我们的框架并不局限于特定的模型,发电机G0用一个潜在的代码w0∈ W,我们初始化θ任何差分显著性模型都可以适合我们的管道。在θ0=w0,并对t(2)进行优化。为了避免分布外的结果,输出图像被限制为位于空 间 中,使得I=G(θ)。优化将潜在代码引导到保持感兴趣区域之外的任何地方的图像的细节的方向,但是以影响显著性的语义上有意义的例如,为了减少包含细粒度细节(弧,极点和窗口)的结构的显着性,显着性模型引导网络通过树覆盖结构此外该模型可以删除面部配件,如眼镜和关闭一个人的眼睛(图7),这符合认知感知原则[10]。虽然增加区域的显著性是一个约束较少的问题,可以用上述手工制作的算子以各种方式解决(例如,“重新着色”可以将区域的颜色修改为闪亮和不自然,并且扭曲可以导致不自然的例如,显着性模型可以引导网络添加面部细节,如胡子,以增加嘴部区域的显着性,并添加突出的几何结构,如教堂的圆顶(图10)。(六)。我们展示了语义编辑示例,这些示例应用于纯粹生成的图像,以及使用GAN反演技术从真实图像重建的示例[45]。2.4)HTML(第二。第2、3段)。SM html(第二节)7),我们展示了由不同显着性模型驱动的结果[36]。另一个细微差别是,EML-Net(和大多数显着性模型一样)是在自然图像上训练和评估的,而我们使用它来提供编辑内容的显着性预测。为了保证,我们还进行了额外的实验来评估显着性模型在预测我们编辑的图像上的注意力方面的准确性,在标准显着性评估指标:AUC-Judd,NSS,SIM和KLD中几乎没有变化(与自然,未经编辑的这些实验和结果也在SM pdf中详细给出(第2.2.5.对于有兴趣的读者。我们还演示了我们的方法可以应用于视频会议电话,旨在减少背景杂波,可能会分散从主要发言人。为了将我们的方法应用于视频,我们手动分割预测显着性高于阈值(t= 0)的区域。第十五章)在单个帧中(假设整个帧中的背景是静态的视频)。对于每个干扰区域,我们应用不同的算子,并自动选择在该区域内产生最低显著性值的算子,并将每个干扰项参数应用于所有帧中的相应区域。SM中的视频显示了原始视频的代表性,标准背景模糊效果,以及与背景模糊相结合的效果。我们的方法选择使用扭曲操作符对一些区域进行修补,而其他区域则被隐藏或隐藏。虽然背景模糊仍然包括背景中占主导地位的彩色斑点,但我们的方法进一步减少了分散注意力的区域19857输入放大预测输入显著性结果放大预测结果图7.减少视觉干扰的其他结果,由几个操作符的显着性模型指导。在每个示例中,感兴趣区域标记在显著性图(红色边框)的顶部。更多结果可在SM html(第2)。GAN深转换翘曲重新着色19858|−|||图8.在我们的感知研究中测量的真实眼睛注视显着性图的例子,涉及20个主题和31个图像。顶行:每一对显示一个原始图像(左)与一个感兴趣的区域(红色边框)和我们的结果(右)。底行:研究参与者的相应平均眼睛注视图。同时保持主体环境的整体评估眼睛注视的变化为了评估我们的方法应用于图像的眼睛注视的变化,我们进行了一项用户研究,该研究使用智能手机的前置摄像头和专用应用程序以高精度跟踪20名受试者的眼睛注视,如[41]所述。受试者被要求看31张图片,一次一张,每张图片展示5秒,然后休息1秒。[2]为了确保他们的感知是公正的,每个受试者要么接触原始图像,要么接触修改后的图像,但不是同时接触两者。 我们计算了遵循凝视/显著性研究中的共同过程的每个图像的显著性图[31]。图图8示出了两个示例(原始的和编辑的)及其平均凝视图。可以看出,通过我们的方法,受试者的注视显著性在所选区域(红框)内降低。此外,我们计算区域内的平均显着值,并计算每个歌剧下所有图像的平均值于r. 平均折减M(Sg(I))Sg(I)/MSg(I)其中Sg是注视显著性,(按效应)报告于表1(一).显然,我们的效果成功地降低了操纵后的平均显着性,表明我们的方法如预期的那样引导人类注意力我们还在表1(b)中示出了另外两个注视度量的变化:掩模内的连续注视持续时间,以及第一次注视与掩模区域相交。这些指标表明,在编辑后,用户花更少的时间查看分散注意力的区域,并且需要更长的时间才能注意到分散注意力的区域。 在SM pdf中(第3),我们使用配对样本T检验表明每个注视度量的变化具有统计学显著性2我们的研究获得了我们组织内部监督小组的批准,遵循严格的机构政策。所有参与者都提供了明确和知情的同意参加研究,并可以在任何时候选择退出研究(数据被删除)而不会受到任何惩罚。重新着色Warp ConvNet GAN-43.1%-92.9%-53.3%-34.8%(a)掩蔽区域内的平均注视显著性降低持续时间(ms)首次注视(ms)注视显著性215.5 4111.2编辑116.3(-46%) 4502.4(+9。0.08(-60%)(b) 原始图像和编辑图像之间的凝视度量变化。表1.使用真实眼睛注视跟踪从感知研究中提取的注视度量。真实感修改图像显著性并不能保证输出图像是真实的。因此,我们要求32名用户判断给定的图像在他们看来是否自然。每个用户看到16个任意图像,其中4个是原始图像,12个是编辑图像。85%的用户标记了原始图像作为现实的,而78%的人认为我们的产出是现实的,这意味着我们的方法很好地保留了现实主义。我们将我们的方法与以前的注意力重定向方法(WSR[44],SDIM [33]和[34])使用Mechrez等人的分心物衰减数据集。[37]。每种方法都针对具有不同限制属性的注意力重定向(例如,Mechrez等人[33]仅限于重用同一图像的颜色和纹理,并且[34]试图保持对原始图像的高保真度),因此直接的并排比较并不简单。为了使比较公平,我们选择了我们的深度卷积算子,该算子经过优化,也可以保持掩码内的相似性,如第3节所述。表2总结了每种方法的掩蔽区域内的平均显着性下降,图9描绘了一些代表性结果。我们的研究结果表明,无论是定性(颜色和纹理更好地与背景混合)和定 量 显 着 性 下 降 更 多 结 果 显 示 在 SM html 中 ( 第(五)。自从“看这里!”[34]是与我们最相关的方法(两种方法都是图像编辑操作员的输出参数),但通过严格的设置将输出效果限制为细微,我们进行了用户研究,以了解用户喜欢什么样的效果来减少显着性。32用户被要求看16张带有标记区域的图像,感兴趣的,连同两个输出,我们的(各种效果)和“看这里!",并被问到:你喜欢哪一个?”表3(b)报告了用户在我们的方法和[34]。我们的结果收到了明确的偏好,每一个效果,表明用户一般喜欢更积极的效果,以消除干扰的目的更微妙图10在视觉上将我们的效果与(more在SM html Sec中。表3(a)报告了我们的每个效果和“看这里!"的显著性降低的百分比(与原始图像相比)。我们的方法能够更大程度地减少显着性,19859[33]第四十四话:我的世界[34]第34话图9.与Mechrez数据集上以前的注意力重定向方法的比较[37]。结果看这里![34]是用作者的代码生成的在SM html中的更多信息(第(五)。输入Ours(变形)Ours(深卷积)Ours(变形)图10.与“看这里!”的比较[34]。在SM html中的更多信息(第(六)。在表3中,我们与[34]在用户研究中发现的显着性图和用户偏好的有效变化进行了[33]第四十四话:一个人的世界 [34]第34话-1238%-29。80%-21。51%-40。百分之七十一表2.通过我们的方法和以前的注意力重定向方法实现了注意力减少的定量结果“看这里!",正如我们设计的更戏剧化的效果所预期的那样。5. 讨论和结论我们引入了一个新的框架,该框架利用训练用于预测人类眼睛注视的显着性模型的能力,来指导一系列编辑效果(例如,图像修复、图像修补、伪装、语义对象和属性编辑),这些技术对图像中的视觉注意力产生有意义的变化。这是在没有任何额外的训练数据或直接监督的情况下完成的。我们的方法的一个明显的局限性是,一些效果,如伪装和伪装,需要准确的面具。然而,正如我们在SM html中所显示的那样(第二节)。8),可以使用最先进的工具(例如分割[39])来降低注释掩码所需的实验水平,同时在大多数情况下保持结果的伦理考量。我们的技术专注于世界积极的用例和应用程序。通过显着性模型引导图像中的视觉注意力具有多种有益且有影响力的用途,例如从照片和视频通话中移除干扰物,或引起对海报或标志的特定区域的注意,以重新着色Warp ConvNet-43.1%-92.9%-53.3%-25.8%”preferred重新着色经纱ConvNet看这里百分之三十一点三百分之九点四百分之十八点八我们百分之六十二点五百分之八十四点四百分之七十五”Roughly6.3%6.3%6.3%表3.我们的效果与“看这里!”[34]。上图:平均预测显着性的减少。底部:用户研究结果。我们在图中显示了与[34]的代表性定性比较10个,SM中有更多。提高其内容的可读性和理解,仅举几例。然而,我们承认滥用的可能性,因为使用生成模型来编辑图像。我们强调负责任地采取行动和拥有合成内容的重要性为此,我们在分享使用这些技术合成或修改的图像或其他材料时会特别小心最后,我们还认为,必须对生成的内容进行深思熟虑和道德规范我们在工作中遵循这些致谢我们感谢Jon Barron、Phillip Isola、Tali Dekel、Dilip Krishnan和Bill Freeman提供的宝贵反馈,感谢Ethan Steinberg、Zhoude Liu、Nachiappan Valliappan和Na Dai对显着性模型的贡献以及对Gaze用户研究应用的帮助。19860引用[1] 阿里·博尔吉深度学习时代的显着性预测:成功和局限性。IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。2[2] ZoyaBylinskii , TilkeJudd , AliBorji , LaurentItti ,Fre'doDurand,Aude Oliva和Antonio Torralba。MIT显着性基准。http://saliency.mit.edu,2012年。二、五[3] 卓娅·拜林斯基、蒂尔克·贾德、奥德·奥利瓦、安东尼奥·托拉尔巴和弗雷·多·杜尔。关于显着性模型,不同的评 估 指 标 告 诉 我 们 什 么 IEEE Transactions on PatternAnalysis and Machine Intelligence,41(3):740-757,2018。5[4] Zoya Bylinskii、Nam Wook Kim、Peter学习图形设计和数据可视化的视觉重要性第30届ACM用户界面软件和技术研讨会论文集,第57-69页,2017年2[5] Moran Cerf,E Paxon Frady,and Christof Koch.面孔和文字吸引凝视独立的任务:实验数据和计算机模型。视觉杂志,9(12):102[6] Jiawen Chen , Andrew Adams , Neal Wadhwa , andSamuel W Hasinoff.双边引导上采样。ACM Transactionson Graphics(TOG),35(6):1-8,2016. 3[7] Yen-Chung Chen , Keng-Jui Chang , Yu Chiang FrankWang,Yi-Hsuan Tsai,and Wei-Chen Chiu.引导你的眼睛:学习在显著性指导下的图像处理。参加第30届英国机器视觉会议,BMVC 2019,2019。二、三[8] 朱洪国、许伟新、尼洛伊·J·米特拉、丹尼尔·科恩-奥尔、黄天钦、李同义伪装图像。ACM事务处理图表,29(4):51-1,2010. 4[9] Marcella Cornia,Lorenzo Baraldi,Giuseppe Serra,andRita Cucchiara. 更加关注显著性:图像字幕的显著性和上 下 文 注 意 。 ACM Transactions on MultimediaComputing,Communications,andApplications(TOMM),14(2):1-21,2018. 2[10] Shaojing Fan , Zhiqi Shen , Ming Jiang , Bryan LKoenig,Juan Xu,Mohan S Kankanhalli,and Qi Zhao.情感注意力:图像情感和视觉注意力的研究在IEEE计算机视觉和模式识别会议论文集,第7521-7531页,2018年二、五[11] Ohad Fried,Eli Shechtman,Dan B Goldman,and AdamFinkelstein.寻找图像中的干扰物。在IEEE计算机视觉和模式识别会议论文集,第1703-1712页,2015年。5[12] Simone Frintrop,Erich Rome,and Henrik I Christensen.计算视觉注意系统及其认知基础:一项调查。ACMTransactions on Applied Perception(TAP),7(1):1-39,2010。二三五[13] Yosef Gandelsman 、 Assaf Shocher 和 Michal Irani 。 在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。4[14] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,第2414-2423页,2016年。3[15] LeonAGatys , MatthiasKümmerer , ThomasSAWallis ,andMatthias Bethge.用卷积神经网络引导人类视线。arXiv预印本arXiv:1712.06492,2017。一、二、三[16] Sanjay Ghosh , Ruturaj G Gavaskar , and Kunal NChaudhury.显著性引导的图像细节增强。2019年全国通信会议(NCC),第1-6页IEEE,2019。2[17] Ke Gu , Guangtao Zhai , Xiaokang Yang , WenjunZhang,and Chang Wen Chen.具有显著性保留的自动对比 度 增 强 技 术 。 IEEE Transactions on Circuits andSystems for Video Technology,25(9):14802[18] Aiko Hagiwara , Akihiro Sugimoto , and KazuhikoKawamoto.基于显著性的图像编辑用于引导视觉注意。在第一届普适眼动追踪移动眼动交互国际研讨会的会议记录中,第43-48页2[19] Xun Huang,Chengyao Shen,Xavier Boix,and Qi Zhao.Salicon:通过调整深度神经网络来减少显着性预测中的语义差距。在IEEE计算机视觉国际会议论文集,第262-270页,2015年。2[20] 劳伦特·伊蒂视觉显著性。doi:10.4249/pedia.3327,2007. 二、五[21] Laurent Itti和Christof Koch。视觉注意力的计算模型。Nature Reviews Neuroscience,2(3):1942[22] Sen Jia和Neil DB Bruce。EML-net:一种用于显著性预测的可扩展多层网络图像和视觉计算,95:103887,2020。二三五[23] Lai Jiang,Mai Xu,Xiaofei Wang,and Leonid Sigal.显著性引导的图像翻译。在IEEE/CVF计算机视觉和模式识别会议论文集,第16509-16518页,2021年。3[24] Ming Jiang,Shengsheng Huang,Juanyong Duan,andQi Zhao. Salicon:语境中的显著性。在IEEE计算机视觉和模式识别会议集,第1072-1080页,2015年。二、三[25] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。3[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别集,第4401四、五[27] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[28] 克里斯托弗·科赫和西蒙·厄尔曼。选择性视觉注意的转移:朝向潜在的神经回路。见《情报问题》,第115-141页Springer,1987年。2[29] MatthiasKummerer , LucasTheis , andMatthiasBethge. Deepgazei:通过在imagenet上训练的特征映射来提升显着性预测arXiv预印本arXiv:1411.1045,2014。2[30] Matthias Kummerer , Thomas SA Wallis , Leon AGatys,and Matthias Bethge.了解对注视预测的低级和高级贡献。在IEEE计算机视觉国际会议论文集,第4789-4798页2[31] 奥利维耶·勒梅尔和蒂埃里·巴奇诺。比较扫描路径和显着图的方法:优点和缺点。行为研究方法,45(1):251-266,2013。719861[32] 维克多·A·马泰斯库和我·V·巴吉。利用图像中的颜色操作进行注意重定向在2014年第一届感知启发视频处理国际研讨会论文集,第15-20页2[33] 罗伊·梅克雷斯伊莱·谢赫特曼和利希·泽尔尼克·马诺显着性驱动的图像处理。机器视觉与应用,30(2):189-202,2019。二七八[34] Youssef A Mejjati,Celso F Gomez,Kwang In Kim,EliShechtman,and Zoya Bylinskii. 看这里! 基于参数学习的方法来重定向视觉注意。欧洲计算机视觉会议,第343Springer,2020年。一、二、三、七、八[35] Yash Patel,Srikar Appalaraju和R Manmatha。显著性驱动的感知图像压缩。在IEEE/CVF计算机视觉应用冬季会议论文集,第227-236页,2021年。2[36] 纳瓦斯里·雷迪,萨弥亚克·杰恩,普拉迪普·雅拉加达和维 尼 特 · 甘 地 . 整 理 深 层 显 着 性 预 测 架 构 。 2020 年IEEE/RSJ智能机器人和系统国际会议(IROS),第10241IEEE,2020年。二、五[37] Eli Shechtman Roey Mechrez和利希泽尔尼克府梅 赫 雷 斯干 扰 项衰 减数 据 集https://cgm.technion.ac.il/Computer-Graphics-Multimedia/Software/saliencyManipulation ,2012.七、八[38] Yujun Shen和Bolei Zhou。gans中潜在语义的闭式分解。在IEEE/CVF计算机视觉和模式识别会议论文集,第1532-1540页,2021年。5[39] 智天,春华,陈昊。实例分割的条件卷积在计算机Springer,2020年。五、八[40] 德米特里·乌里扬诺夫,安德烈·维达尔迪,维克多·伦皮茨基。深度图像先验。在IEEE计算机视觉和模式识别会议论文集,第9446-9454页4[41] Nachiappan Valliappan , Na Dai , Ethan Steinberg ,Junfeng He,Kantwon Rogers,Venky Ramachandran,Pingmei Xu , Mina Shojaeizadeh , Li Guo , KaiKohlhoff,et al. Accel
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功