任务驱动的网页显著性预测

26 浏览量更新于2023-10-13 收藏 2.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

任务驱动的网页显著性Quanlong Zheng1[0000 - 0001 - 5059 - 0078]，Jianbo Jiao 1，2[0000 - 0003 - 0833 -5115]，Ying Cao1[0000 - 0002 - 9288 - 3167]和Rynson W.H. 刘一[0000−0002−8957−8129]1 香港城市大学计算机科学系2美国伊利诺伊大学厄巴纳-香槟分校{qlzheng2-c，jianbjiao2-c}@ my.cityu.edu.hk，caoying59@gmail.comrynson. cityu.edu.hk抽象。在本文中，我们提出了一个端到端的学习框架预测任务驱动的网页上的视觉显着性给定一个网页，我们提出了一个卷积神经网络来预测人们在不同任务条件下看它的位置受以下观察的启发：给定特定任务，人类注意力与网页上的某些语义分量强烈相关（例如，图像，按钮和输入框），我们的网络明确地将显着性预测分解为两个独立的子任务：任务特定注意转移预测和无任务显著性预测。任务特定分支估计任务驱动的注意力转移的网页从其语义成分，而任务自由分支推断视觉显著性诱导的视觉特征的网页。两个分支的输出被组合以产生最终预测。这样的任务分解框架允许我们从具有稀疏标签的小规模任务驱动的显着性数据集（在单个任务条件下捕获）有效地学习我们的模型实验结果表明，我们的方法优于基线和以前的作品，实现最先进的性能在一个新收集的基准数据集任务驱动的网页显着性检测。关键词：网页分析·显著性检测·特定任务显著性1介绍网页是互联网上无处不在的重要信息交流媒介。网页本质上是任务驱动的，由网页设计者基于特定目的创建（例如，更高的点击率和转换率）。在浏览网站时，访问者通常有任务要完成，例如快速查找他们需要的信息或注册在线服务。因此，能够预测人们在不同任务驱动条件下将在哪里查看网页对于优化网页设计[5]和通知网页生成算法[24]实际上是有用虽然最近的一些作品试图在网页[27，28]或图形设计[4]上模拟人类的注意力，但它们只考虑自由观看条件。在本文中，我们有兴趣预测任务驱动的网页显着性。当访问网页时，人们通常会将注意力吸引到不同的2Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau(a) 输入网页(b) 信息浏览(c) 填写表格（d）购物图1：给定输入网页（a），我们的模型可以预测不同任务下的不同显着图，例如，信息浏览（b）、表格填写（c）和购物（d）。在不同的任务中。因此，给定一个网页，我们的目标是预测多个任务下的视觉显着性（图1）。①的人。该问题的主要障碍有两个：1）缺乏用于网页显著性预测的强大特征：虽然现有的工作已经研究了自然图像的各种特征，但对于图形设计的有效特征研究不足;（2）数据稀缺：据我们所知，现有技术的任务驱动的网页显著性数据集[24]仅包含数百个示例，并且收集任务驱动的显著性数据是昂贵的。为了应对这些挑战，我们提出了一种新的卷积网络架构，它以网页和任务标签作为输入，并预测任务下的显着性。我们的关键观察是，在特定任务下，网页上的人类注意力行为主要由语义组件的配置和排列（例如，按钮、图像和文本）。例如，为了注册电子邮件帐户，人们往往首先识别网页上的关键组件，然后将注意力转移到由几个输入框和一个按钮组成的注册表单区域同样，对于在线购物，人们更有可能查看带有文字描述的产品图像受此启发，我们提出将任务驱动的显着性预测分解为两个子任务：特定任务注意转移预测和无任务显著性预测。任务特定的分支估计任务驱动的全局注意力转移的网页从其语义组件，而无任务的分支预测独立于任务的视觉显着性。我们的网络在一个统一的架构中对这两个子任务进行建模，并融合输出以进行最终预测。我们认为，这样的任务分解框架允许仅使用在单个任务条件下捕获的小规模任务驱动的显着性数据集进行有效的网络训练，即，数据集中的每个网页包含在单个任务上捕获的显著性。为了有效地训练我们的模型，我们首先在大规模自然图像显着性数据集上预训练无任务子网，并在我们提出的数据合成方法生成的合成数据上预训练特定任务子网。然后，我们在一个小规模的任务驱动的网页显着性数据集上训练我们的网络端到端。为了评估我们的模型，我们创建了一个包含200个网页的基准数据集，每个网页都有一个或多个任务下捕获的视觉显着性图。我们在这个数据集上的结果表明，我们的模型优于基线和先前的工作。我们的主要贡献是：任务驱动的网页显著性3– 本文研究了多任务条件下的网页显著性预测问题。– 我们提出了一个学习框架，将任务驱动的网页显着性问题分解为特定任务和无任务的子任务，这使得网络能够从具有稀疏注释的小规模任务驱动的显着性数据集进行有效训练。– 我们构建了一个新的基准数据集，用于评估多任务条件下的网页2相关工作2.1自然图像的显著性检测自然图像的显著性检测是计算机视觉领域的一个研究热点。早期的作品主要探索各种手工制作的特征和特征融合策略[1]。由于CNN特征的强大表示能力，最近的工作已经取得了显着的性能改进。一些作品[17，18，40]使用不同的CNN来提取多尺度特征，从而产生高质量的显着性图。Pan等人。 [23]提出了用于显着性预测的浅层和深层CNN。Wang等人。 [32]使用多阶段结构来处理局部和全局显着性。最近的工作[10，16，19，31]将完全卷积网络应用于显着性检测，以减少网络的参数数量并保留整个网络的内部表示的空间信息。为了获得更准确的结果，更复杂的架构，如递归神经网络[15，20，22，33]，混合上采样[38]，多尺度细化[6]和跳过连接[7，9，34]。然而，所有这些作品都集中在自然图像上。相比之下，我们的工作重点是预测网页上的显着性，这与自然图像在视觉，结构和语义特征上有很大不同[27]。2.2网页显著性检测网页具有精心设计的语义组件的配置和布局，旨在有效地引导观众的注意力为了解决网页显着性，Shen等人。[28]提出了一种基于手工制作的特征（面部，位置偏差等）的显着性模型。）来预测网页上的眼睛注视他们后来扩展[28]以利用CNN的高级特征[27]，以及低级特征。然而，所有这些方法都假设自由观看条件，而不考虑任务对显著性预测的影响。最近，Bylinskii et al. [4]提出基于深度学习的模型来预测数据可视化和图形的显着性。他们为两种类型的设计训练两个独立的网络。然而，我们的问题设置与他们的大不相同他们的每个模型都特定于与其训练数据相关联的单个任务，而没有控制任务条件的能力。相比之下，我们的目标是一个统一的，任务条件的框架，我们的模型将根据给定的任务标签输出不同的显着性图。4Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau2.3任务驱动的视觉显著性在任务驱动的条件下，有几个工作分析或预测视觉显著性。一些以前的作品[2，12，36]已经表明，眼球运动受到给定任务的影响。为了预测特定任务条件下的人类注意力（例如，搜索图像中的对象），早期的工作[21]提出了认知模型。最近的工作尝试使用各种高级信号来驱动显着性预测，例如示例图像[8]和图像标题[35]。还有一系列关于使用图像级监督来可视化对象级显著性的研究[25，29，37，39，41]。所有上述基于学习的模型都是在具有密集标签的大规模数据集上训练的，即数据集中的每个图像具有所有高电平信号的地面实况。相比之下，由于收集任务驱动的网页显著性数据是昂贵的，我们特别设计了我们的网络架构，使得它可以在具有稀疏注释的小规模数据集上有效地训练。在我们的上下文中，稀疏注释意味着我们数据集中的每个图像仅具有单个任务的地面实况显着性，但我们的目标是预测多个任务下的显着性。3方法在本节中，我们详细描述了所提出的用于任务驱动的网页显著性预测的方法。首先，我们进行了数据分析，以了解特定任务的显着性和网页上的语义组件之间的关系，这激发了我们的网络的设计，并启发了我们的数据合成方法。其次，我们描述了我们提出的网络，在一个统一的框架中解决特定任务和无任务的子问题最后，我们介绍了一个任务驱动的数据合成策略，用于预训练我们的特定任务的子网。3.1任务驱动的网页显著性数据集为了训练我们的模型，我们使用[24]中提出的公开可用的、最先进的任务驱动的网页显着性数据集该数据集包含254个网页，涵盖6个常见类别：电子邮件、文件共享、求职、产品促销、购物和社交网络。它是从眼动跟踪实验中收集的，其中对于每个网页，记录了单个任务条件和自由观看条件下的多个观看者的眼睛注视数据。四种类型的语义组件，输入字段，文本，按钮和图像为所有这些网页附有说明。为了计算网页的显着性图，他们聚合了来自所有观众的数据凝视数据，并将结果与高斯滤波器进行卷积，如[13]所示请注意，数据集的大小很小，我们只有在单任务条件下捕获的网页的显着性数据。任务定义。在他们的数据收集[24]中，定义了两个一般任务：1）比较：观看者比较一对网页并决定出于给定目的采用哪一个（例如，在哪个网站注册电子邮件服务）;任务驱动的网页显著性5报名表填写信息眉头Shopping Comm. 加入图2：在特定任务（列）下每个语义成分（行）的累积显著性。从左到右，每一列表示下的显著性分布注册、填写表格、浏览信息、购物或加入社区任务。暖色表示高显著性。更好的颜色。2)购物：观众被给予一定数量的现金，并决定在给定的购物网站购买在我们的论文中，我们根据数据集中的6个网页类别定义了5个常见和更具体的任务：注册（电子邮件）、信息浏览（产品促销）、表单填写（文件共享、求职）、购物（购物）和社区加入（社交网络）。我们在整个论文中使用这个任务定义。3.2数据分析我们的假设是，在任务驱动条件下，人类对网页的注意力与网页的语义成分有关。换句话说，对于不同的任务，人类注意力可能偏向语义分量的不同子集，以便有效地完成其目标在这里，我们探索任务驱动的显着性和语义成分之间的关系，通过分析任务驱动的网页显着性数据集在第二。3.1.图2示出了在不同任务下每个语义分量上的累积显著性。我们可以直观地检查任务和语义组件之间的一些连接例如，对于“信息浏览”，图像分量接收较高的显著性，而其他语义分量具有相对较低的相对于其他任务，输入字段和按钮组件在“表单填充”下具有更高的显着性对于文图像输入字段按钮6Q.Zheng，J.Jiao，Y.Cao和Rynson。Laui=1表1：每个任务（行）下的每个语义成分（列）的成分显著性比率任务下的语义成分的值越大，人们越有可能查看任务下的语义成分，反之亦然。对于每个任务，我们阴影两个突出的语义组件作为关键组件，这是在我们的任务驱动的数据合成方法中使用任务输入字段文本按钮图像签约式0的情况。9530的情况。9711 .一、0401 .一、124表单填写1 .一、6810的情况。9791 .一、2540的情况。572信息浏览1 .一、7250的情况。9460的情况。8041 .一、033购物1 .一、4441 .一、0220的情况。8160的情况。770社区加盟0的情况。8950的情况。8981 .一、1561 .一、186为了定量地理解这种关系，对于任务t下的每个语义成分c，我们定义了任务内成分显著性比率，其测量t下c的平均显著性与t下所有语义成分的平均显著性的比较：SR（c，t）=Sc，t，（1）SAt特别地，Sc，t被公式化为：Sc，t=Σnc，ti=1nc，tc，t，i，其中s，c，t，i表示任务t下语义成分c的第i个实例的显著性（计算为实例内像素的平均显著性值）。nc，t表示将Σist的总数和sema nticcccntcundert的总和表示为kt。SAtisfor-计算为：SAt=nc=Σ1nnc，tsc，t，i，其中η表示语义c=1nc，t件.我们的组件显着性比率告诉是否一个语义组件与平均显著性相比，在特定任务下的显著性更显著（>1）、同样显著（= 1）或不太显著（<我们在表1中报告了所有任务和语义组件的组件显着性比率。我们发现，在在每项任务中，某些语义成分的得分明显高于其他成分，呃。这意味着在任务下，人们更倾向于看高分语义成分而不是低分语义成分。例如，对于基于这些成分显著性得分，对于每个任务，我们识别出具有较高得分的两个语义成分作为人们在任务下倾向于关注的关键成分（表1中的阴影成分）。这些关键组件用于合成任务驱动的显着性数据，用于预训练我们的网络的特定于任务的子网，如第3.5节中所介绍的。值得注意的是，在选择关键组件时，我们还避免了两个任务具有完全相同的关键组件集，这可能会混淆我们模型的学习。因此，对于S任务驱动的网页显著性7任务标签特定任务注意转移分段子网……空间图像文本特定于任务的子网输入按钮+输入网页无任务子网任务驱动显著性无任务显著性图3：网络架构。我们模型的输入是一个网页图像和一个任务标签（例如：G. 、“签名”）。 BP神经网络首先对高层次特征进行编码，并将其用于预测特定任务下的人类注意偏向和非任务下的视觉显著性。特定于任务的子网将任务标签连同来自分割子网的语义分割图作为输入，并且预测任务相关的注意力转移（上），而无任务的子网预测任务无关的显著性（下）。将特定任务的注意转移和非任务的显著性结合起来，以获得输入任务下的最终显著性图。一组关键组件，如上述分析证实了我们的假设，即在特定任务下的人类注意力转移与语义成分的子集相关，并且因此可以从语义成分的子集进行预测。3.3网络架构图3显示了我们提出的网络的架构。首先将网页图像馈送到共享编码器中以提取高级特征表示。共享编码器在输出层之前使用FCN [26]的所有层之后，网络分成两个分支：特定任务分支和无任务分支。对于特定于任务的分支，我们使用分割子网（使用FCN的输出层[26]）从提取的特征表示中生成语义分割图。然后我们发送任务标签（例如，“注册”）连同语义分割映射到任务特定的子网，其输出任务特定的注意力转移图。对于无任务分支，我们使用无任务子网，用于将所提取的特征表示映射到无任务显著性图。将特定任务的注意力转移图和无任务的显著性图相加以产生最终输出。我们还尝试了其他融合操作，例如，乘法，但发现加法执行得更好。任务特定子网：任务特定子网用于在任务驱动条件下对人类注意力向特定语义成分的转移进行建模（如第3.2节中所验证的为此，我们首先通过分割子网获得语义为了考虑分割不确定性，我们直接将分割层的输出（不同语义分量上的概率分布）作为分割图，然后将其馈送到8Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau卷积解卷积FC完全连接重塑复制任务00001任务编码器FC1FC2FC328283×33×33×311256323×3283×34×44×44×464 64128282812856112163216图4：任务特定子网。卷积和去卷积层的滤波器大小被标记在对应层上方。特征图的通道号和大小也在特征图附近被标记它的任务特定的子网来预测语义组件之间的注意力转移。图4示出了详细结构。语义分割图通过一系列卷积层以获得低维分割表示。为了对任务标签进行编码，我们使用K中的一个表示（K=5）来表示它，并通过具有全连接层堆栈的任务编码器将其转换为语义向量。语义向量然后被重塑和复制多次，并与分割表示连接级联的特征最后由一堆去卷积层进行变换，以输出特定于任务的注意力转移图。无任务子网：无任务子网用于对视觉显著性进行建模，其与任务无关并且由输入网页的视觉内容驱动为了简化我们的网络，这个子网使用FCN [26]的输出层直接输出显着图，这在我们的实验中效果很好可以添加更复杂的层讨论：我们的网络架构可以有效地训练，即使使用少量的训练数据，也可以在不同的任务中产生合理的显着性预测。这是因为我们的框架具有任务特定的分支来模拟任务相关的显着性从无任务显着性的转变。此外，任务特定子网接收语义分割图而不是网页作为输入。输入空间的复杂性大大降低，因为只有几个语义类需要编码。这使得模型更容易发现一致的模式，并学习从任务标签到相应注意力转移的映射。3.4培训由于深度网络架构，很难在我们的小数据集上直接进行端到端的因此，我们提出了一个两阶段的训练策略，首先分别对每个部分进行预训练，然后联合微调整个网络在任务驱动的网页显著性9(a) 真实（b）报名（文字-图像）（c）填表（输入-按钮）(d)Info. 浏览（输入图像）（e）购物（输入文本）（f）通信连接（按钮-图像）图5：合成显著性数据。(a)来自网页数据集的显着图[24]。(b)-（f）针对5个不同任务的来自（a）的合成显著性图。每个任务的相应关键组件显示在大括号中。特别地，我们首先在大规模自然图像显着性数据集SALICON [11]上预训练无任务子网，然后在网页显着性数据集[24]上对其进行微调。它是通过最小化预测和地面真实显着性之间的L2损失Lsal来训练的。对于分割子网，我们在预测的语义分割图和真实语义分割图之间实施交叉条目损失Lseg，并在具有真实语义注释的网页显著性数据集上对其进行训练。由于分段子网和无任务子网共享相同的编码器，因此我们以多任务损失Lmulti联合训练它们。Lmulti=Lsal+Lseg，（2）特定于任务的子网是在合成任务驱动的显着性数据集上从头开始预训练的（如下所述），预测和地面实况注意力地图之间存在L2损失。最后，我们使用给定任务标签的地面实况和预测显着性图之间的L2损失来训练整个模型我们还尝试了其他几种损失函数，例如，交叉熵损失和L1损失，但发现它们产生更差的性能。3.5任务驱动的数据综合预训练任务特定的子网需要在多任务条件下的网页上的大量显著性数据，这是不可用的，并且收集昂贵。为了解决这一限制，我们提出了一种数据合成方法，通过利用我们所研究的每个任务的关键语义组件来生成我们的训练数据集。10Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau在第3.2节中确定我们的数据合成方法工作如下。给定我们数据集中的一个网页，我们采用其现有的任务驱动显着图。对于这五个任务中的每一个任务，我们只保留任务的相应关键组件上的显着性图的显着性，通过将其他区域的显着性归零。通过这种方式，我们为每个网页生成5个特定于任务的显着性图图5示出了在不同任务下的合成显著性图的示例利用我们的数据合成方法，我们生成具有密集注释的数据集（即，所有任务下的显著性数据可用于所有网页），这足以预训练我们的任务特定子网。4实现细节分段子网和无任务子网基于FCN [26]，并且我们采用VGG-16 [30]作为FCN的共享编码器。参数由Adam优化器[30]优化，批量大小为20。在训练过程中，我们对不同的部分使用不同的学习率对于特定于任务和无任务的学习率，我们将初始学习率设置为10−7，然后将其除以10，20个纪元。对于共享编码器，我们从一个小的初始学习率（10- 10）开始，并在20个epoch后将其设置为与无任务子网的学习率相同。我们训练我们的网络100个epoch。网页图像及其显著性图的大小被调整为224 ×224。5实验在本节中，我们首先介绍评估数据集和评估指标。然后，我们分析了我们的网络架构和消融研究中的训练策略最后，我们比较我们的方法与以前的方法。5.1评估数据集和指标为了评估我们的方法，需要一个任务驱动的网页显着性数据集，其中每个网页在不同的任务下具有真实显着性。不幸的是，这样的数据集不可用。因此，我们构建了一个新的评估数据集，其中包括我们从互联网上收集的200个网页。新收集的网页涵盖各种类别（购物，旅游，游戏和电子邮件）。数据集统计见补充说明。根据网页的类型，我们为每个网页分配从5个任务中选择的一个或多个任务。具体地，71个网页被分配1个任务，120个网页被分配2个任务，并且9个网页被分配3个任务。为了在不同任务下收集网页上的地面真实显着性，我们按照[24]中的实验设置和方法进行了眼动跟踪实验。我们招募了24名参与者进行实验。在每个观看会话中，参与者首先被告知任务，然后是一个或两个网页来执行给定的任务。对于每个任务下的每个网页，我们从10个不同的参与者那里收集眼动跟踪数据，这些数据被汇总以产生相应的显著性任务驱动的网页显著性11表2：消融研究的结果。最佳结果以红色突出显示，而第二佳结果以蓝色突出显示。方法KL↓ sAUC↑ NSS↑没有特定于任务的子网1 .一、 33005760的情况。412无无任务子网0的情况。8100. 6280的情况。559分离的编码器1 .一、0130. 6290的情况。566单独的CNN1 .一、2350. 6050的情况。498没有对合成数据进行10个。4280.5530的情况。337仅在合成数据上训练二、722 0. 6140的情况。552我们0的情况。8830. 6450的情况。622地图据我们所知，新收集的数据集包含200个网页，是最大的任务驱动的网页显着性评估数据集（与30网页[24，28]）。类似于以前的作品[3，12，14]，我们使用以下指标进行评估：Kullback-Leibler散度（KL）、混洗曲线下面积（sAUC）和归一化扫描路径显著性（NSS）。5.2消融研究为了评估我们的网络架构和培训策略的设计，我们与以下基线进行比较：没有特定于任务的子网：我们移除特定于任务的子网，并将输入任务标签的语义向量与共享编码器的输出（在无任务子网之前）连接起来，以预测任务驱动的显着性。无无任务子网：我们通过删除无任务子网将网络转换为单分支架构独立编码器：而不是使用一个共享的编码器的segmenta- tion和无任务的子网，我们使用两个单独的编码器（VGG-16）的两个子网。单独的CNN：我们为5个任务中的每一个训练5个单独的CNN，并为给定的任务选择相应的CNN，以预测显着性。没有对合成数据进行预训练：我们直接在真实世界的数据集上训练我们的模型，而不需要在合成数据上预先训练特定于任务的子网。仅在合成数据上训练：我们的模型不是在真实世界的数据集上进行训练，而是在3.5节中的合成数据上进行端到端的训练。表2显示了我们的评估数据集的结果。通过对所有任务的度量取平均值来获得结果。（有关各项任务的结果，请参阅补充资料。）如果没有特定于任务的子网，性能最差。这表明拥有一个分支网络直接从网页预测显著性不是有希望的解决方案，并且我们的任务分解框架10Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau对于任务驱动的显著性预测问题是必不可少的没有无任务分支的网络比我们提出的网络稍差。这意味着虽然任务驱动的人类注意力主要12Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau表3：不同显著性检测方法在我们的评估数据集上的性能。最好的结果是红色的，第二好的结果是蓝色的。KL↓sAUC↑方法签名-起来形式填充Info.眉头购物-ingComm. 平均连接方法签名-起来形式填充Info.眉头购物-ingComm. 平均连接人类000000人类0.7500.7340.7270.7450.7360.738Grad-CAM [25]5.5275.2534.1264.0945.8434.973Grad-CAM [25]0.5190.5330.5030.5070.5120.515VIMGD [4]2.5132.7262.9875.4623.1273.363VIMGD [4]0.5960.5760.5770.5400.5830.576洋葱[10]0.6511.1160.5690.7710.5950.739洋葱[10]0.6120.5980.6040.6010.6070.605SalNet [23]1.1291.8931.0410.9411.0281.207SalNet [23]0.6380.6030.6290.6310.6360.627我们0.8671.1520.7310.8610.8120.883我们0.6540.6330.6440.6420.6520.645NSS↑方法签名-起来形式填充Info.眉头购物-ingComm. 平均连接人类0.8040.8230.6990.7390.7730.768Grad-CAM [25]0.1440.2140.0080.0850.1120.126VIMGD [4]0.5340.4490.4650.2930.4880.447洋葱[10]0.6050.5260.5500.4970.5730.550SalNet [23]0.6090.4800.5500.5850.6040.5652我们0.6460.5940.6240.6070.6380.622关注于对任务重要的网页的语义成分，但是它仍然可以被其他视觉内容所吸引（例如，颜色和对比度）作为在自由观看的条件下。与我们的统一模型相比，单独训练特定于任务的模型只有任务特定的子网（即，没有无任务子网），该模型倾向于将显著性主要放在与任务相关的语义成分上，但忽略了人们确实在看的区域（尽管概率较低）。这将导致更好的KL分数，其对高显著性（概率）区域之间的匹配比低显著性区域之间的匹配相比之下，我们的完整模型学习在高显着性任务相关语义成分和其他低显着性区域之间优化分配显着性因此，尽管KL得分稍差，但它可以更好地覆盖高显著性区域和低显著性区域，如其他度量所反映的。最后，结果还表明，我们的网络可以受益于具有用于分段和无任务子网的共享编码器。这是因为多任务架构可以帮助我们的编码器学习更好的隐藏表示，以提高这两个任务的性能。在没有对合成数据进行预训练的情况下，我们的模型的性能大大下降。这证实了我们的任务驱动的数据合成的重要性。此外，由于真实显着性数据和合成显着性数据的统计数据之间的差距，5.3与先前作品的我们将我们的方法与几种最先进的自由观看显着性检测方法进行比较，包括一种用于图形设计显着性的方法，VIMGD [4]，两种最近用于自然图像的方法，SalNet [23]和SALICON [10]。我们还与最近的分类驱动的概念定位模型进行了比较，该模型通过将我们的任务标签视为类来预测任务驱动的显着性任务驱动的网页显著性3标签为了公平比较，我们使用与我们相同的训练设置在网页显着性数据集[24]上微调这些模型。不幸的是，我们没有得到免费查看网页显着性预测方法[28]的代码进行比较。因此，我们与他们的论文中包含的结果进行了视觉比较对于每个任务下的每个网页，我们运行每种方法来获得显着性图。由于自由观看显著性检测方法不以任务标签作为输入，因此在不同的任务条件下总是产生相同的结果。结果示于表3中。我们的模型在sAUC和NSS方面优于所有先前的方法，并且在KL方面达到第二好的性能。显着性检测模型（SalNet，SALICON）通常比其他现有的方法，SALICON甚至有一个更好的性能比我们在KL。这可能是因为那些自由观看显著性模型倾向于在网页中的几乎所有显著区域处激发，从而生成更均匀的显著性分布，其更可能覆盖真实显著区域。这导致更高的KL评分。然而，这种统一的显着性预测肯定会导致更多的假阳性，使这些模型的性能比我们的sAUC和NSS更差。任务驱动的显着性方法Grad-CAM [25]在我们的评估数据集中表现最差。这可能是因为网页的复杂和高度可变的外观使得基于分类的模型很难找到一致的模式并识别不同任务的区别特征，因为我们的数据集很小。我们的模型在所有指标中表现良好，这表明我们的模型用于预测任务驱动的显着性的有效性。还提供了人的性能（人）[12]，其用作上限性能。图6显示了一些定性结果。 Grad-CAM无法为每个任务定位显著区域。SalNet、SALICON、VIMGD）简单地突出所有显著区域，而不注意任务条件。因此，无论输入任务标签如何，我们只显示来自每个先前方法的一个结果相比之下，给定不同的任务，我们的模型可以预测不同的显着性图，接近地面真相。更多结果请参考补充资料。6结论我们已经提出了一个学习框架来预测多个任务下的网页显着性。我们的框架将显着性预测分解为特定任务分支和无任务分支。这种分解框架允许我们有效地学习我们的模型，即使是从相对较小的任务驱动的网页显着性数据集。我们的实验表明，对于任务驱动的网页显着性预测问题，我们的方法优于基线和先前的作品，在新收集的数据集上实现了最先进的性能。鸣谢：我们感谢匿名评论者的深刻评论。我们还要感谢NVIDIA捐赠Titan X Pascal GPU卡。14Q.Zheng，J.Jiao，Y.Cao和Rynson。LauComm. 加入Info. 浏览购物签约式签约式Info. 浏览填表购物图6：我们的方法和现有方法在不同任务条件下的显著性预测结果。SalNetSALICONVIMGDGrad-CAM我们地面实况网页任务驱动的网页显著性5引用1. Borji，A.，Cheng，M.，江，H.，李杰：显著对象检测：一个调查。1411.5878（2014）2. Borji，A.，Itti，L.：视觉注意力建模的最新技术TPAMI（2013）3. Bylinskii，Z.，Judd，T.，Oliva，A.，Torralba，A.，Durand，F.：不同的评估指标告诉我们关于显着性模型的什么？arXiv：1604.03605（2016）4. B ylinskii，Z.， Kim，N.， O'Donnovan，P .， A.sheikh，S.， Madan，S.，P首先，H.，Durand，F.，Russell，B. Hertzmann，A.：学习图形设计和数据可视化的视觉重要性。在：UIST（2017）5. EYEQUANT：http：//www.eyequant.com/，20186. Guanbin Li，Yuan Xie，L.，Yu，Y.：实例级显著对象分割。在：CVPR（2017）7. 他S焦，J.，张，X.，Han，G.，Lau，R.：深入研究显著对象的隐藏和检测。In：ICCV（2017）8. 他S Lau，R.：通过深度关联的示例驱动的自上而下显著性检测。见：CVPR（2016）9. Hou，Q.，Cheng，M.，Hu X.W.Borji，A.，Tu，Z.，Torr，P.：具有短连接的深度监督在：CVPR（2017）10. 黄，X.，Shen，C.，Boix，X.，Zhao，Q.：Salicon：通过调整深度神经网络来减少显着性预测中的语义差距。In：ICCV（2015）11. Jiang，M.，Huang，S.，（1996年），中国科学院，Duan，J.，Zhao，Q.：Salicon：语境中的显著性。参见：CVPR（2015）12. Judd，T.，Durand，F.，Torralba，A.：预测人类注视的显著性计算模型的基准。参见：MIT技术报告（2012）13. Judd，T.，Ehinger，K.，Durand，F.，Torralba，A.：学习预测人类的行踪。In：ICCV.pp. 210602The Dog（2009）14. Kruthiventi，S.，Gudisa，V.，Dholakiya，J.，Venkatesh Babu，R.：显着统一：一个深度架构，用于同时进行眼睛注视预测和显着对象分割。见：CVPR（2016）15. Kuen，J.，王志，王G：用于显著性检测的循环注意网络见：CVPR（2016）16. Ku¨mmerer，M.，这是L Bethge，M. ：DeepgazeI：Bostingal iencypr icti n gin g a在imagenet上训练的特征图。载于：ICLR（2015）17. Lee，G.，Tai，Y.，Kim，J.：具有编码的低级距离图和高级特征的深度显著性见：CVPR（2016）18. Li，G.，Yu，Y.：基于多尺度深度特征的视觉显著性。参见：CVPR（2015）19. Li，G.，Yu，Y.：用于显著对象检测的深度对比度学习见：CVPR（2016）20. Liu，N.，（1996年），美国，Han，J.：DHSNet：用于显著对象检测的深度层次显著性网络。见：CVPR（2016）21. Navalpakkam，V.，Itti，L.：模拟任务对注意力的影响。视觉研究（2005）22. N.Liu，J.Han：用于显著性检测的深度空间上下文长期递归卷积网络。IEEE TIP（2018）23. P a n，J.， Sayyrol，E.， Giro-iNieto，X.， McGuinness，K.， O' C o nn orr，N. ：Sh a l l owanddeep convolutional networks for saliency prediction.见：CVPR（2016）16Q.Zheng，J.Jiao，Y.Cao和Rynson。Lau24. Pang，X.，曹玉，Lau，R.，Chan，A.：通过网页设计的视觉流引导用户注意力。在：SIGGRAPH亚洲（2016）25. Selvaraju等人：Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。In：ICCV（2017）26. Shelhamer，E.，朗J达雷尔，T.：用于语义分段的全卷积网络。TPAMI（2017）27. Shen，C.，黄，X.，Zhao，Q.：使用来自深度网络的早期特征和高级表示的IEEE Trans. on Multimedia（2015）28. Shen，C.，Zhao，Q.：网页显着性。In：ECCV（2014）29. Simonyan等人：卷积网络内部：可视化图像分类模型和显著性图。In：ICLR Workshop（2014）30. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv：1409.1556（2014）31. 唐，Y.，吴X：结合区域级和像素级预测与cnns的显著性检测。In：ECCV（2016）32. Wang，L.，美国，吕，H.，Ruan，X.，Yang，M.：通过局部估计和全局搜索进行显着性检测的深度网络参见：CVPR（2015）33. Wang，L.，美国，Wang，L.，美国，吕，H.，张，P.，阮某：使用循环全卷积网络进行显著性检测。In：ECCV（2016）34. Xiao，H.，冯杰，魏，Y.，张，M.，Yan，S.：具有密集连接和分心诊断的深度显著对象检测IEEE Transactions on Multimedia（2018）35. 徐，Y.，吴，J.，Li，N.，Gao，S.，Yu，J.：个性化显著性及其预测。在：IJCAI（2017）36. Yarbus，A.：在感知复杂物体时的眼动。在：眼动和视觉（1967）37. Zhang等人：自上而下的神经注意力通过兴奋支撑。In：ECCV（2016）38. 张，P.，Wang，D.，中国科学院，吕，H.，王，H.，Yin，B.：学习不确定的卷积特征以进行准确的显着性检测。In：ICCV（2017）39. 张，X.，魏，Y.，冯杰，杨，Y.，黄T：弱监督目标定位的对抗互补学习。来源：CVPR（2018）40. 赵，R.，欧阳，W.Li，H.，Wang，X.：通过多上下文深度学习进行显著性检测参见：CVPR（2015）41. Zhou等人：用于区分定位的深度特征学习。见：CVPR（2016）

下载后可阅读完整内容，剩余1页未读，立即下载