多人脸视频中的显著人脸预测方法基于深度学习的探索

141 浏览量更新于2023-10-15 收藏 2.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4420多人脸视频中显著人脸的预测YufanLiu，Mai Xu，and Xuming HeXu†中国北京航空航天大学上海科技大学，上海，中国摘要尽管卷积神经网络（CNN）最近的成功推进了静态图像中最先进的显着性预测另一方面，我们发现，在涉及多张面孔的视频中，不同主体的注意力始终集中在一张面孔因此，我们在本文中提出了一种新的基于深度学习（DL）的方法来预测多人脸视频中的显著人脸，该方法能够学习视频帧中显著人脸的特征和特别是，我们首先为每帧学习CNN来定位突出的人脸。以CNN特征作为输入，我们开发了一个多流长短期记忆（M-LSTM）网络来预测视频序列中显著人脸的时间转换。为了评估我们的基于DL的方法，我们建立了一个新的多人脸视频的眼动跟踪数据库。实验结果表明，我们的方法优于现有的国家的最先进的方法在预测多人脸视频中的人脸的视觉注意。1. 介绍显著性预测[1]对生物视觉系统中视觉输入的注意力部署进行建模，并在许多计算机视觉任务中具有潜在的应用，例如对象检测[3]和事件检测[36]。特别地，检测显著对象（诸如面部）在视频分析、人机界面设计和事件理解中起着重要作用。事实上，大量的视频，包括电影、访谈和综艺节目，都包含着多张面孔。关于显着性预测的现有文献通常集中在静态图像中发现显着面部[21]。然而，很少有先前的工作已经解决了预测多人脸视频中的显着性的问题。虽然人类受试者通常只注意一张脸[21]，但我们发现不同受试者的注意力始终从通讯作者：麦旭（maixu@buaa.edu.cn）.视频中的一张脸到另一张脸，如图1所示。我们在这项工作中的目标是捕捉静态和动态特性的注意力的面孔在多人视频。基于对人类视觉系统（HVS）的理解，图像显着性预测的早期工作使用手工特征来预测图像的视觉注意力[2，10，20，26，35，42预测图像显著性的代表性方法是Itti相比之下，最近的方法[4，14，21，22，24，25，28，32，40，41，43]提出了一种基于学习的策略来预测显著性。例如，Judd等人结合了高级特征（例如，面部和文本），中级特征（例如，gist）和低级特征一起，通过使用支持向量机（SVM）学习它们对应的权重为了预测人脸图像中的视觉注意力，Xu等人。 [41]提出通过学习人脸和面部特征的固定分布来精确建模人脸区域的显着性此外，Jiang等人。 [21]探索了几种与面部相关的特征来预测多张面孔场景中的显着性。最近，已经提出了几种深度学习（DL）方法[14，24，25，28，32]来自动学习显著性预测的特征，而不是依赖于手工制作的特征。例如，Huang等人。[14]提出了上下文显着性（SALICON）方法，通过结合卷积神经网络（CNN）来学习图像显着性预测的特征。对于视频显着性预测，早期的方法[6，8，12，17-19]已经研究了几个动态特征，以根据HVS对视频的视觉注意力进行建模。例如，Itti的图像模型在[17]中通过与两个动态特征集成而扩展用于视频显著性预测：运动和更清晰的对比。后来，已经提出了几种先进的视频显著性预测方法，其利用了其他动态特征，例如[18]中的贝叶斯惊喜和[6]中的运动矢量。最近，还出现了基于学习的视频显著性预测方法[13，31，33，37]。例如，Pang等人。 [33]提出了一种基于学习的视频显着性预测方法，该方法探索了眼球运动模式的自上而下信息，即，被动和主动状态[34]，4421图1.多面视频序列上的视觉注意力示例（由39名受试者观看）每个图像显示一个选定的帧及其注意力热图。该图主要展示了显著面孔的转变以及显著面孔之间跨帧的长/短期相关性的特征。请注意，视频是从我们的数据库中选择的，将在第2.1节中讨论。to model模型attention注意on videos视频. Hua等人。 [13]提出学习中级特征，即，作为视频显著性预测中的线索。Rudoy等人。 [37]提出根据给定帧的高级和低级特征预测其显着性，条件是检测到前一参考帧的显着性。然而，据我们所知，现有的视频显著性预测方法依赖于手工特征，尽管在[14，24，25，28，32]的最新作品中CNN被应用于自动学习图像显著性预测的特征。更重要的是，在这些方法中没有考虑跨帧的显著面部的长期和短期相关性，这在对多面部视频的跨帧的注意力转换进行建模时是至关重要的（参见图在本文中，我们提出了一种基于DL的方法来预测显着的人脸在多人脸视频，学习图像特征和显着性过渡建模跨帧的多个人脸的注意。据我们所知，我们的方法是第一个针对多人脸视频中的显着性预测的方法。具体来说，我们首先应用CNN自动提取每个单帧中的显着性相关特征。基于递归神经网络（RNN）的长短期记忆（LSTM），我们开发了一个多流LSTM（M-LSTM）网络，用于预测视频帧旁显著人脸的动态过渡，将提取的CNN特征作为输入。最后，多人脸视频的显著性图可以在过渡的人脸显著性上生成。为了评估我们的方法，我们创建了一个新的多人脸视频眼动跟踪数据库，该数据库由两个数据集组成。第一个数据集包括65个多人脸视频上的39个主题，用作测试显着性预测性能的基线。第二个数据集由36个子节点观看的100个多人脸视频组成，用于训练显著性预测模型。我们提供了一个详细的分析所收集的数据，这表明，通常只有一个脸（在多个面孔）在视频帧中接收观看主体的注意，并注意力转移跨帧一致的不同主题。我们在新的数据库上测试我们的方法，并与几种最先进的方法进行比较。我们的实验结果表明，我们的方法在多人脸视频中的显著性预测方面取得了显着的改进综上所述，我们的工作主要有三个方面的贡献：（1）我们介绍了一个眼动跟踪数据库，多人脸视频，以促进视频显著性预测的研究。(2)通过对眼动追踪数据库的分析，我们发现受试者在观看多人视频时具有显著的一致性。(3)我们提出了一种基于DL的方法来预测跨帧过渡的显著人脸，该方法集成了CNN和基于LSTM的RNN模型。2. 数据库建立和分析2.1. 多面数据库本节描述我们如何进行眼动追踪实验，以建立我们的多人脸视频眼动追踪修复（MUFVET）数据库。据我们所知，我们的眼动追踪数据库是第一个用于多人脸视频的数据库。请注意，MUFVET中的所有视频都是室内或室外场景，选自Y-outube和优酷，它们都是由H.264编码的，持续时间从10-20秒不等。此外，MUFVET包括两个数据集-MUFVET-I这两个数据集由两个不重叠的视频组组成，每个视频组由完全不同的子组观看。在本文中，MUFVET-I被视为测试的基准，而MUFVET-II用于训练。MUFVET比现有的眼睛跟踪数据库（例如，[9]和DIEM [30]），仅包含相同受试者观看的视频剪辑。这是因为训练和测试都利用了相同主题的固定，这在现有的显着性预测工作中并不合理[1]，尽管视频不同。MUFVET-I。在这里，MUFVET-I中包含65个不同场景下的多面视频（见表1和图2）。然后，39名受试者（男26名，女13名，年龄20 - 49岁），矫正或未矫正正常视力，参加了我们的眼动追踪实验，观看所有65个视频。其中，有两名专家从事显着性预测领域的工作。其他人没有任何经验的显着性预测，并意味着-而他们是天真的目的，我们的眼动跟踪实验。使用Tobii X2-60眼动仪以60 Hz的频率记录39名受试者观看每个视频时的眼动。对于眼动仪，使用23英寸LCD屏幕以原始分辨率显示测试视频。在眼动追踪实验中，所有受试者都被要求坐在舒适的椅子上，观看距离为距离LCD屏幕60厘米在观看视频之前，4422表1.MUFVET-I和MUFVET-II中的视频类别类别电视剧/电影采访视频会议电视节目音乐/脱口秀小组讨论整体视频数量（I）122067101065视频数量（二）2113535188100图2.MUFVET-I和MUFVET-II中每个视频类别的一个示例从左到右，视频属于电视剧/电影，采访，视频会议，电视节目，音乐/脱口秀，小组讨论。要求受试者对眼动仪进行9点校准之后，受试者被要求自由观看以随机顺序显示的视频.为了避免眼睛疲劳，65个测试视频分为3个时段，每个时段观看后休息5分钟。此外，在两个连续的视频之间插入10秒的黑屏空白期进行短暂休息。Fi-最终，在65个视频上获得了所有39名受试者的1，252，822个固定。值得一提的是，我们的数据集包括面部以外的显著对象。例如，在MUFVET-I中的65个视频中，24个视频具有除了面部之外的显著对象，其中3个视频具有在场景中包含人脸以外的显著对象的帧的比例此外，平均(a) 固定比例（b）像素比例图3.所有MUFVET视频中脸部和背景的固定和像素比例。10.80.60.40.20每帧的面数为3.66。MUFVET-II。对于这个数据集，100个多面视频，1-3面4-6面6面以上脸平均其完全不同于MUFVET-I，用于眼跟踪实验。有关这些视频的更多详细信息，请参阅表1和图2。MUFVET-II的总体实验程序与MUFVET-I相同。不同的是，其他36名受试者（20名男性和16名女性，年龄从20岁到55岁）被要求观看MUFVET-II中的所有100个视频。此外，使用Tobii TX300眼动仪记录注视情况。在实验过程中，100个视频平均分为2个时段，以避免眼睛疲劳。最后，从该数据集中的所有36个受试者中总共获得了1，737，826个修复，该数据集用作学习多人脸视频的注意力模型的训练集。为了促进未来的研究，MUFVET可在线1。2.2. 数据分析在本节中，我们深入分析了MUFVET收集的眼动数据，以进一步学习多人脸视频上的视觉注意力模型。根据1https://github.com/yufanLIU/salient-face-in-MUVFET/树/主/MUVFET。固定在一个面上固定在其他面上图4.固定在一个面和其他面的比例。分析中，有两个调查结果如下。发现1：在多人脸视频中，人脸吸引了大量的注意力。在每个视频帧中，不同主体的注意力始终集中在所有人脸中的一个人脸图3显示了固定和像素的比例-在MUFVET中，它属于人脸和背景。从这个图中我们可以看出，尽管只占5%的像素，面部接受79%的修复。这证明了面孔吸引几乎所有的视觉注意力在多面视频。图图4进一步绘制了落入一个面的固定与落入其他面的固定的比例。从这个图中我们可以发现，不同被试的视觉注意力通常一致地被所有面孔中的一个面孔所吸引。此外，图1的主观示例还意味着面部（通常是一张面部）在视频中吸引最多的注意力。发现2：在视频帧的所有人脸中，人类可能会固定在靠近视频中心注视比例4423中心偏差[1]是预测人类对通用视频的修正的一个明显线索。人们很可能会将注意力集中在靠近视频中心的面部上，这也是直观的。因此，我们调查的相关性的关注与欧几里德距离的脸，这张脸的视频中心。为了量化这种相关性，我们测量了平均斯皮尔曼等级相关系数[15]（ρ=-0。22）。 ρ的负值表明人类可能会固定在靠近视频中心的脸上。ρ的小值也意味着需要学习其他特征来预测显著人脸。3. 该方法在本节中，我们将介绍我们基于DL的多人脸视频显着性预测方法，该方法将CNN和LSTM集成在一个统一的框架中。我们的方法的整个流水线总结在图5中首先，我们在每帧中检测人脸，并将其输入CNN，详见3.1节。其次，我们设计了一个CNN来学习每个静态视频帧中与显著人脸相关的特征第 3.3 节介绍了 M-LSTM，它通过考虑CNN的显着性相关特征和视频帧中显着面部的节奏过渡来学习预测显着面部最后，我们采用后处理步骤来生成多人脸视频的显著性图，在第3.4节中讨论。3.1. 人脸候选生成在发现1的基础上，我们首先提取人脸作为多人脸视频中视觉注意预测的候选区域。为此，我们利用最新的人脸检测方法，漏斗结构级联（FuSt）检测模型[39]，从输入视频中提取候选人脸。此外，为了处理具有挑战性的情况下，如部分遮挡和光线条件差，我们探索时间信息，以提高多人脸视频中的人脸检测性能。更具体地说，我们首先通过搜索具有最近欧几里得距离的人脸来匹配帧间的人脸然后，我们将两个连续帧中最近的人脸识别为同一个人的匹配人脸，前提是它们的距离小于阈值：图6.我们的CNN架构用于预测突出面部的任务滑动窗口内的帧，以便可以恢复丢失的在本文中，滑动窗口的长度被经验地选择为17，以实现足够高的召回率的人脸检测结果。3.2. CNN用于特征提取我们现在设计一个CNN来自动从检测到的人脸中学习特征，以预测检测到的人脸是否突出。检测到的人脸区域在发送到CNN之前被调整为256×256。我们的CNN是基于GoogleNet[38]，在每个卷积层之后批量归一化层[16]，以避免过度拟合。我们还使用预训练的 GoogleNet ，然后使用MUFVET-II 微调网络图 6 显示了 CNN 的架构在GoogleNet中进行卷积特征提取后，我们使用两个完全连接（FC）层，并使用softmax激活函数来判断人脸是否显著第一个FC层有128个单元，其输出被用作预测显著面部的特征。第二FC层具有2个单元，指示显著或非显著面部。为了训练CNN，我们根据落入面部区域的fixations自动将每个检测到的面部标记为显著或非显著。我们的发现1表明，每个视频帧中的显著面部平均吸引超过60%的面部表情。因此，占60%以上的面部被标注为突出面部，其他面部被视为非突出面部。然后我们训练CNN通过使用MUFVET-II的thE√=γ×w2 +h2，（1）我们的眼动追踪数据库作为训练数据。给定训练的CNN，第一个FC层其中w和h是检测到的面部的宽度和高度。否则，我们将它们视为不匹配的面孔，属于不同的人。在（1）中，γ是控制人脸匹配灵敏度的参数，本文将其简单地设置为0.5。一方面，利用平滑滤波器来提高准确率，通过消除错误检测的人脸的一些假警报。另一方面，我们应用线性插值来将人脸检测扩展到邻近区域，可以从每个检测到的人脸中提取，并作为输入输入输入3.3. 用于显著人脸预测的上面定义的CNN主要在单个帧中提取每个人脸的空间信息。为了对视频中注意力转移的时间动力学进行建模，我们现在开发了一种新的M-LSTM来预测视频中的显著人脸。4424n=1n=1，t=12n=1不不不图5.我们基于DL的方法的概述管道我们将多人脸显著性预测公式化为一个回归问题，并建立一个M-LSTM网络来进行递归N生成多个人脸的连续显著性权重。exp{θn·w=Σn=1（Un，t·sn，t+bn，t）}、（五）这使我们的方法与传统的L-[11]第11章为他报仇形式上，我们的目标是预测n，tNn=1 exp{θn ΣNn=1（Un，t·sn，t+bn，t）}由wn，t定义的每个面部的显著性权重，其是第n个面部与帧t中的所有面部的地面实况（GT）注意比例。对于这样的预测， M-LSTM 网络生成一个estimateds_i_y_w_n，t，它可以是进一步视为优化配方：TANGTANG2其中Un，t和bn，t是FC层的参数，而θn是softmax层的参数。最后，我们的M-LSTM可以表示为ML（P，fn，t），其中P是要学习的M-LSTM的参数集。对于P，除了跨时间的在一个传统的LSTM中，我们在一个帧中的多个LSTM也共享不同面部的参数那是因为mint=1n=1||wn，t−wn，t||2不同人脸的显著性变化模式相似。作为S.T.ΣN温岛ΣNn=1 wn，t=1，t=1，2，...，T，（2）这样，来自不同LSTM的参数被同时更新。为了学习所有参数P，我们的M-LSTM将CNN特征{fn，t}N，T作为我们从（2）导出的M-LSTM是输入，其中fn，t代表第n个面的特征向量，弗雷姆湖我们假设每个视频的上限为N个面孔。当在视频帧中检测到较少的面部（0，{βk}4l=1L lk=1k=1（十）3.在实验中，我们使用作者提供的代码和默认参数运行，得到显著性预测结果。4427图8.从MUFVET-I中选择的视频序列的不同帧的显著性图。这些地图是由GT hu- man fixations生成的，我们的方法，Xuet al.[41] ， Salicon [14] ， Jiang et al. [21] ， OBDL [12] ，Rudoy et al. [37]，PQFT，Surprise [18]”[10]《明史》：的显著性检测，这也是比较我们的DL为基础的方法。[27]的最新研究报告称，标准化扫描路径显着性（NSS）和相关系数（C-C）在评估显着性预测准确性的所有指标中表现最佳4。因此，我们比较了我们的方法与其他8种方法的NSS和CC。表2报告了MUFVET-I的所有65个测试视频的从该表中可以看出，我们的方法在预测多人脸视频的显著性方面比所有其他方法都要好得多具体而言，我们的方法比[41]提高了0.98 NSS和0.13 CC，其性能排名第二。这样的改进主要是由于以下原因：在[41]中，所有面部的Salien- cy具有同等重要性，而时间过渡的考虑使我们的方法能够跨帧准确地预测显著面部此外，值得指出的是，我们的方法和[41]都优于[21]，后者对图像中的不同面孔施加了不平等的重要性主要原因是[21]中仅利用静态特征可能会预测视频中错误的显著人脸另一方面，我们的方法的长短期时间转换在发现显著性方面确实有效4[27]还表明，ROC下的面积（AUC）是衡量显着性预测准确性的最差指标。图9.从MUFVET-I的不同视频序列中选择的几个帧的显著性图这些地图是由GT人类fixations生成的，我们的方法，Xu etal. [41]，Salicon [14]，Jiang et al. [21]，OBDL [12]，Rudoyet al. [37]，PQFT，Surprise [18]”[10]《明史》：多人视频接下来，我们来比较主观结果。我们在图8中显示了视频中几个帧的显着性图，由我们和其他8种方法生成。从这个图中，人们可以观察到我们的方法能够找到突出的面孔。因此，我们的方法的显着性图是更准确的比其他方法。例如，我们可以从图8中看到，显著的人脸从女孩变成了男人，然后又变回了女孩，这与我们的预测极其一致。”[14]“三个人，一个人，三个人，此外，图9提供了从5个视频中选择的帧的显著性图。再次，这个图验证了我们的方法能够通过考虑M-LSTM中的时间显着性转变来精确定位显着人脸4.3. 显著性预测的性能分析由于我们在第3.3节中提出的M-LSTM旨在预测视频帧中人脸的显著性权重，因此值得评估M-LSTM的预测误差。为此，图10针对图8的视频序列绘制了通过CNN、M-LSTM和GT的面部的显著性权重。在此图中，CNN的曲线是指CNN的输出（0或1），M-LSTM的曲线是在以下条件下获得的：4428n=1，t=1表2.我们和其他8种方法的显着性预测的准确性，平均超过MUFVET-I的所有测试视频我们的GTXu等人 [41] 萨利孔[14] Jiang等人 [21] GBVS [10] Rudoy等人 [37] PQFT [8] 惊喜[18] OPDL [12]2017年12月31日CC 0.740.77 0.61 0.52 0.29 0.33 0.36 0.22 0.21(a) NSS（b）CC图11. 显着性预测性能与Escherren- 测试（8）的中心偏置参数σ。图10.图10中的视频的面部和处理帧的显著性权重，由我们的CNN（绿线），M-LSTM（蓝线）和GT（红线）预测。请注意，该曲线中的GT是用每个面部中的人类修复比例与所有面部中的比例绘制的在这张图中，M-LSTM和GT之间的均方误差（MSE）在3个面上平均为0.0081。由M-LSTM输出的预测面部显著性权重此外，GT的曲线是M-LSTM的目标输出。我们可以从图10中看到，M-LSTM的预测人脸显着性权重接近目标，并且在CNN的曲线上有显著的改善和平滑。更重要的是，在我们的数据库中可以找到其他视频的类似结果在这里，我们计算M-LSTM和GT之间的面部显著性权重的量化均方误差（MSE），在MUVFET-I中对所有面部进行平均。平均MSE为0.0081，与图10中视频序列的结果相同这也意味着M-LSTM在预测人脸显著性权重方面的差距很小。接下来，有趣的是，我们的预测和GT面部显著性权重之间的差距如何影响显著性预测性能。为此，我们使用GT人脸显着性该基线的平均NSS此外，我们还对中心先验下的基线依赖[41]进行了实验结果表明，NSS和CC的改进分别为0.03和 0.007，与[41]相比，这仍然远不如我们的方法。5. 结论有趣的是，我们发现，当观看多张人脸的视频时，人类总是被每一帧中的一张脸所吸引。对本文建立的MUFVET 眼动数据库（ MUFVET-I 用于测试，MUFVET-II用于训练）进行统计分析，验证了上述为了预测多人脸视频中的显著人脸，本文提出了一种基于DL的方法，其中CNN和RNN结合在一个框架中，然后在MUFVET-II上进行训练特别是，CNN，在谷歌网络上找到了调整，在我们的权重{wn，t}N，T作为（7）的输入，基于DL的方法，用于自动学习特征多人脸视频的最终显着图。平均结果报告在表2的第二列可以发现，使用人脸的估计（M-LSTM）和目标（GT）显著性权重的显著性预测性能接近，这意味着我们的方法接近最后，有必要研究在我们的方法中引入的人脸中心偏差的有效性。为此，遍历（8）中的标准偏差σ，从而对显著性预测施加面部中心偏置的不同影响。图11绘制了不同平均σ下的NSS和CC结果在所有视频中。很明显，当σ = 10 −0时达到最佳性能。2，因此σ被设置为10−0。2、在上述实验中。请注意，中心偏差并不是影响我们方法性能提高的最重要因素。我们测试了所有重量的基准线与定位突出面部相关。在观察每个视频帧中的CN-N特征之后，M-LSTM作为本文提出的深度RN-N，用于考虑从先前帧的面部显著性的过渡，无论是短期还是长期。结果，可以在预测的显著面部上生成多面部视频的显著性图。最后，实验结果表明，我们的方法能够显着推进多人脸视频的最先进的显着性预测。谢谢。我们要感谢KingFar国际公司提供眼动仪及其技术支持。此外，我们感谢所有参与眼动追踪实验的人。本研究得到了国家自然科学基金项目61573037和61202139以及霍英东教育基金项目151061的资助4429引用[1] A. Borji 和 L. 伊蒂视觉注意力建模的最新技术。 IEEETransactions on Pattern Analysis and Machine Intelligence ， 35（1）：185-207，Jan. 2013年。[2] N. Bruce和J.佐斯基于信息最大化的显著性。神经信息处理系统进展（NIPS），2005年。[3] N. Butko和J. R.莫维兰最佳的扫描速度更快的物体检测。在计算机视觉和模式识别（CVPR）中，第2751-2758页[4] M. Cerf，J. Harel，W. Einhaus err，andC. 好的结合人脸检测的低水平显著性预测人类注视神经信息处理系统进展（NIPS），2008年。[5] L.段角，澳-地Wu，J. Miao，L. Qing和Y. Fu.基于空间加权相异度的视觉显著性检测。计算机视觉和模式识别（CVPR），第473-480页[6] Y. 芳，W.林，Z.陈春M. Tsai和C.-W. 是林书压缩域中的视频在ACM International Conference on Multimedia（ACM MM），第697-700页[7] M.格兰特湾Stephen和Y.烨Cvx：用于离散凸规划的Matlab软件。cvxr.com，2008年。[8] C. Guo和L.张某一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用 IEEE Transactions on ImageProcessing，19（1）：185-198，Jan. 2010.[9] H. Hadizadeh，M. J. 恩里克斯和我。 V. Bajic'. 一组标准视频序列的跟踪数据库 IEEE Transactions on Image Processing，21（2）：898[10] J. Harel，C. Koch和P.佩洛娜基于图形的视觉显著性。神经信息处理系统进展（NIPS），第545-552页，2006年。[11] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735[12] S. Hossein Khatoonabadi，N.瓦斯孔塞洛斯岛V.Bajic和Y. 山. 一个刺激需要多少比特才能显著？在计算机视觉和模式识别（CVPR）中，第5501[13] Y. 华，智-地Zhao，H.Tian、X.Guo和A.菜一个带有记忆引导的自上而下线索的概率在多媒体和博览会国际会议（ICME），第1-6页，2013年。[14] X. 黄角Shen，X.Boix和Q.赵Salicon：通过调整深度神经网络来减少显着性预测中的在国际计算机视觉会议（ICCV），第262[15] R. L.伊曼和W.- J·科诺弗。一种引入输入变量间秩相关的无分布方法。通信统计模拟和计算，11（3）：311[16] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[17] L.伊蒂使用视觉注意的神经生物学模型的视频压缩的自动注视点。IEEE Transactions on Image Processing，13（10）：1304[18] L. Itti和P.巴尔迪。贝叶斯惊奇引起了人类的注意。Visionresearch，49（10）：1295-1306，Jun. 2009年[19] L. Itti，N. Dhavale和F.小猪使用视觉注意力的神经生物学模型的现实化身眼睛和头部模拟。光学科学与技术，64：64-78，1月。2004年[20] L.伊蒂角Koch和E.尼布尔基于显著性的视觉注意快速场景分析模型。 IEEE Transactions on Pattern Analysis and MachineIntelligence，20（11）：1254-1259，Nov. 一九九八年。[21] M. Jiang，J. Xu，and Q.赵在人群中引人注目。在欧洲计算机视觉会议（ECCV）中，第17Springer，2014.[22] T. Judd，K.Ehinger，F.Durand和A.托拉尔巴学习预测人类的视线。在Proc. ICCV，第2106-2113页[23] D. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[24] S. S.克鲁蒂文蒂湾Ayush和R.维·巴布Deep fix：一个用于预测人眼 fixations 的完全卷积神经网络。 arXiv 预印本 arXiv ：1510.02927，2015。[25] M. Kummerer，T. S. Wallis和M.贝丝深度凝视ii：从对象识别训练的深度特征中读取修复。arXiv，1610.01563，2016年。[26] J.李，M. D. Levine，X. An，X. Xu和H.他外基于频域尺度空间分析的视觉显著性Pattern Analysis and Machine Intelligence，IEEE Transactions on，2013。[27] J. Li，C. Xia，Y.宋，S. Fang和X.尘显着性模型综合评价的数据驱动度量。2015年，国际计算机视觉会议（ICCV）[28] N. Liu，J. Han，D. Zhang，S. Wen和T.刘某使用卷积神经网络预测眼球固定。在IEEE计算机视觉和模式识别会议论文集，第362-370页[29] E.马丁扫视抑制：一个回顾和分析。心理学通报，81（12）：899-917，12月。一九七四年[30] P. K. Mital，T.史密斯河L. Hill和J. M.亨德森通过运动预测动态场景观看期间的注视聚类。认知计算，3（1）：5-24，3月。2011年。[31] T. 诉阮，M。Xu，G.Gao，M.Kankanhalli，Q.Tian和S.燕.静态显著性与动态显着性：比较研究。在ACM多媒体国际会议（ACM MM），第987[32] J. Pan，K. McGuinness，E. Sayrol，N. O'Connor和X. Giro-i Ni-eto。用于显著性预测的浅层和深层卷积网络。arXiv预印本arXiv：1603.00845，2016年。[33] D. Pang，A.木村，T.竹内，J. Yamato和K.卡希诺具有动态贝叶斯网络的选择性视觉注意随机模型在多媒体和博览会国际会议（ICME），第1073-1076页[34] R. J. Peters和L.伊蒂超越自下而上：将任务依赖性认知转换为空间注意力的计算模型。计算机视觉和模式识别（CVPR），第1-8页，2007年。[35] 联合拉贾什卡尔岛Van Der Linde，A. C. Bovik和L. K.科马克一个专注的搜索引擎。图像处理，IEEE Transactions on，2008。[36] V. Ramanathan，J. Huang，S. Abu-El-Haija，A. Gorban，K.Murphy和L. 飞飞检测多人视频中的事件和关键演员。计算机视觉与模式识别（CVPR），2016年。[37] D. Rudoy，D. B. Goldman，E. Shechtman和L.泽尔尼克庄园使用候选选择从人类注视学习视频显著性在计算机视觉和模式识别（CVPR）中，第1147- 1154页，2013年。[38] C. 塞格迪，W。Liu，Y.Jia，P.Sermanet，S.里德D.安格洛夫，D。Er-han，V.Vanhoucke和A.拉比诺维奇。用卷积更深入在IEEE计算机视觉和模式识别会议论文集，第1-9页[39] S. Wu，M.坎，加-地他，S.Shan和X.尘漏斗结构的cas-cade多视角人脸检测与感知。Neu-

下载后可阅读完整内容，剩余1页未读，立即下载