没有合适的资源?快使用搜索试试~ 我知道了~
245神经光拟合:基于注视的心理图像重建FlorianStrohm1,EktaSood1,Sv enMayer2,PhilippMüller3,MihaiBa ce1,AndreasBullingg1斯图加特大学{florian.strohm,ekta.sood,mihai.bace,andreas.bulling}@ vis.uni-stuttgart.de慕尼黑info@sven-mayer.com德国人工智能研究中心(DFKI)philipp.mueller@ dfki.de摘要我们提出了一种新的方法,利用人的fixa-tions视觉解码的图像一个人的头脑到photofit(面部合成)。我们的方法结合了三个神经网络:编码器、评分网络和解码器。编码器提取图像特征,并预测人类观察者看到的每个面部的神经激活图。神经评分网络比较人类和神经注意力,并预测每个提取的图像特征的相关性得分最后,图像特征被聚集成一个单一的特征向量作为一个线性组合的所有功能加权相关的解码器解码到最终的photofit。我们在一个新的数据集上训练神经评分网络,该数据集包含19名观看合成人脸拼贴画的参与者的凝视数据。我们表明,我们的方法显着优于平均基线预测和报告的人类研究表明,我们可以解码的photofits,在视觉上是合理的,接近观察者1. 介绍视觉解码仅存在于人们头脑中的图像MIR具有深刻的挑战性,因为成功完成这项任务所需的信息编码在大脑中复杂的神经动力学中,并且不容易从外部访问。MIR的主要方法是直接从使用功能磁共振成像[2,13,17,31,34]或脑电图[7,30]记录的脑活动重建心理图像。另一项最近的工作已经探索了其他感测模态,特别是人眼注视。相比之下,虽然图1.我们的基于凝视的心理图像重建方法概述。考虑到图像,用户在他们的注视被记录的同时在多个辅助图像中搜索相似的面部特征编码器从这些图像中提取图像特征和对应的神经激活图评分网络通过比较固定和神经激活图来预测每个图像特征的相关性图像特征最后被聚合并解码成照片拟合。精神形象图像1图像n注视数据评分网络激活图编码器相关性分值图像特征重建的心象解码器246此外,它们是有希望的,因为它们是视觉和认知处理的较不突兀和更实际有用的测量,例如,在场景感知[14]或视觉搜索[41]中。虽然已经提出了几种方法来从注视和图像特征中预测视觉搜索的目标[1,3,26,33,40],但只有两个先前的这些工作首先预测的对象类和属性的心理图像从人眼的固定,然后合成随机样本的预测类。我们通过提出一种方法显著地超越了这种现有技术,该方法我们特别专注于重建面部图像,因为这具有很高的实用价值,也超出了犯罪学,并且由于大量的面部外观细节而具有挑战性我们的方法使用SiameseCNN编码器将观察者看到的多个面部图像编码为单独的特征向量,使用新型评分网络将这些向量评分网络将编码器的每个输出特征的神经激活图与人类注视进行比较,以预测每个特征对于重建心理图像有多重要我们的方法通过允许在大型图像数据集上训练编码器和解码器并且仅需要用于训练评分网络的联合图像和凝视数据来解决训练时我们工作的具体贡献有三方面:首先,我们介绍了一个注释的数据集的人的fixa- tions合成的人脸图像在人脸识别,适合自己的研究任务的凝视为基础的心理图像重建。第二,我们介绍了一个新的问题,- lem的配方和方法,第一次,使我们能够合成一个photofit -也就是说,一个视觉重建的精神形象的脸-从人眼的固定。第三,使用该数据集以及通过人类研究,我们报告了一系列实验,成功地演示了基于凝视的心理面部图像重建1。2. 相关工作我们回顾了以前的工作,视觉搜索目标预测和重建的大脑活动和眼睛凝视的心理图像的相关任务2.1. 视觉搜索目标预测在一项开创性的工作中,Yarbus表明,观察者的凝视行为反映了他们在观看一个1代码和其他支持材料可在perceptualui.org/publications/strohm21_iccv/上找到图像[37]。后来,Wolfe提出了一个有影响力的视觉搜索行为模型,该模型将处理基本视觉特征信息的并行阶段与用于更复杂操作的有限容量阶段相结合,例如人脸识别,阅读或对象识别[36]。机器学习的进步激发了人们对预测视觉搜索目标的兴趣。也就是说,识别观察者正在先验已知的一组潜在目标实体中寻找的特定实例。Sattar等人的开创性工作在自然图像上提出了一种在开放世界环境中搜索目标预测的视觉词袋方法[26]。Stauden等人通过使用预训练的CNN进行特征提取来改进他们的方法类似地,Barz等人使用预先训练的SegNet对固定序列进行编码,并使用SVN来预测可能的搜索目标周围的图像片段的类别[1]。在后来的工作中,Sattar et al.提出了第一种方法来预测目标类和属性,而不仅仅是目标实例[24]。Fang和Geman的工作集中在交互式设置上,其中面部迭代地显示给用户并基于他们的反馈进行细化[10]。最后,Wang et al.研究了在显示刺激后进行目标预测的设置[35]。2.2. 心像重建心理图像重建是显著更具挑战性的任务,不仅预测而且视觉解码仅驻留在观察者的头脑中的目标,并且因此也是系统先验未知的。一些工作集中在从大脑活动重建心理图像,特别是使用脑电图(EEG)和功能性磁共振成像(fMRI)。虽然早期的工作依赖于高斯混合模型[27],但深度学习方法的进步显着提高了重建质量[30,42]。G u¨c¨ l u¨ t u¨ rketal.使用基于EEG的深度学习的概率推理为了提高信噪比,从而提高重建质 量 , Date 等 人 。 取 而 代 之 的 是 使 用 皮 层 电 图(ECoG)-一种将电极直接连接到人脑的侵入性方法- 结合条件生成对抗网络[7]。在并行的工作中,基于fMRI的重建方法已经被开发和改进,首先使用深度学习[13,31],最近通过使用生成对抗网络(GAN)[6,17,20,29],编码器-解码器架构[2,34]以及两者的组合[23]来解决fMRI数据的稀缺问题。Zaltron等人没有将大脑信号直接映射到像素空间,[39]利用迭代用户反馈来遍历预训练GAN的潜在空间。在取得有希望的结果的同时,用户必须提供明确的反馈,这可能要求很高,也很难提供。247××此外,粗反馈需要许多迭代来达到收敛。以前只有一次尝试是在更具有挑战性的问题上进行的,即从人类的凝视中重建心理图像。Sattar等人提出了一个凝视池层,将固定信息和预训练的深度卷积图像编码集成到语义表示中[25]。然后将该表示与条件变分自动编码器(CVAE)一起使用,以视觉解码预测类别的随机实例和搜索目标的属性[24,25]。与此形成鲜明对比的是,我们的方法是第一个从视觉上解码眼睛注视的心理图像的具体实例3. 数据收集目前不存在用于从眼睛注视进行精神图像重建的数据集。Sattar等人[26]已经发布了执行视觉搜索的参与者的眼睛跟踪数据,但是该数据不适合于重建任务:例如,他们使用了由至少20幅图像组成的图像拼贴,因此,数据集缺乏特定心理图像的详细重建所需的各个图像内的细粒度眼睛跟踪数据。其次,他们使用自然图像使得难以以受控的方式研究这种新的任务,并且考虑到感知度量是一个开放的研究问题,难以适当地因此,我们收集了我们自己的数据集,并且作为我们的第一步,选择了一个可控制的图像域,这使得我们能够揭示基于凝视的心理图像重建的可行性。面部是研究来自注视的未充分探索的心理图像重建任务的理想起点,因为存在生成面部同时系统地控制其外观的工具。在我们的数据收集中使用的软件是FaceMaker [28] -一种允许通过使用30种不同的滑块以受控方式操纵关键面部特征来创建类人面部的工具,例如眉毛形状,肤色或嘴的宽度(参见补充材料以获得所有滑块的列表和FaceMaker的示例使用)。为了收集数据集,我们设计了一项眼动追踪研究,参与者使用FaceMaker创建和排名人脸图像。参与者根据真实的人脸图像设计自己的目标人脸,将这张脸的外观编码在他们的记忆中。3.1. 参与者和仪器我们记录了19名参与者(7名女性)的凝视数据,年龄在20至33岁之间(M=25.8,SD=3.4),我们通过大学邮件列表招募。所有参与者的视力正常或矫正至正常。我们使用了固定式EyeLink 1000 Plus眼动仪,该眼动仪在2, 000 Hz下提供双眼凝视估计。根据眼动追踪的最佳实践,我们使用了安装在前的下巴托。图2.在我们的数据收集研究中向参与者展示的样本图像拼贴。 其中两张脸是完全随机的,而其他四张包含参与者心理形象的眼睛,鼻子,嘴巴和下巴(即眼睛)。目标面)。参与者以增加注视估计准确度。面部刺激显示在一个24.4英寸的屏幕上,分辨率为1920 - 1080像素,被放置在90厘米的参与者面前。每张脸都是14张。3厘米14. 3厘米大小对应于8。9◦度的视角。3.2. 程序在征得他们的同意并完成一份简短的人口统计调查问卷后,我们要求参与者坐在椅子上,将头放在下巴托上。然后我们引导他们通过以下过程两次-一次是女性,一次是男性目标脸(随机顺序)。我们首先向他们展示了来自celebA数据集[18]的真实面孔,我们精心挑选了多样性(没有图像被挑选两次)。接下来,我们要求他们在五分钟内使用FaceMaker [28]重建面部。生成的图像是目标面部。基于目标面部,我们生成了八组六张图像,每组六张图像,参与者必须在八次试验中与目标进行比较。每次试验都以眼动仪校准和验证开始。之后,我们再次展示目标面孔10秒钟,要求参与者记住它。然后,向参与者展示六个生成的图像,他们有30秒的时间对它们进行排名(参见图2的示例刺激)。参与者仍然能够在30秒后完成他们的排名,而无需看到刺激。接下来的审判开始了。 在完成八次试验之后,向参与者展示新的名人图像以重新创建和重复先前的过程。我们根据以下程序创建了六个图像。我们生成了六个完全随机的FaceMaker图像,但将图像特征性别和肤色设置为参与者生成的目标图像。这些特定特征可以在MIR之前由用户容易地定义,并且因此不需要使用注视来重建。对于四个图像,我们设置图像特征以表示参与者的目标图像的一次眼睛、一次鼻子、一次嘴和一次下巴参见补充材料248}{|{1}|}{|}{|联系我们我关于我们|}{1}|›→FK我i、f有关将哪个FaceMaker滑块指定给这四个组的详细信息,请参见总之,我们创建了六个辅助图像,显示给参与者,这些图像总是由两个完全随机的面部和四个图像组成,这些图像代表目标图像的眼睛、鼻子、嘴巴或下巴。我们使用这四个面部区域,因为它们对于面部识别最重要[8,9,12,32,38]。4. 基于注视的心理图像重建基于注视的心理图像重建的任务涉及学习映射( Ii, Gi)i=l…n/M,即,给定一组辅助图像I ii=1…η ,从而产生针对每个图像的 注 视 集 合G ii=l…n,重建观察者心中的形象。训练用于端到端的心理图像重建的生成模型将需要大量的关节固定和图像数据(Ii,Gi)i=l…n,这是不切实际的[25]。为了克服这一点,我们的方法由三个单独训练的模型组成:编码器,一个新的评分网络和解码器。这种方法允许我们仅在图像数据上训练编码器和解码器网络,而训练评分网络只需要少量的联合图像和固定数据。图1提供了我们的方法的架构的概述编码器。编码器e被训练以学习映射图3.我们的评分网络架构随时间的注视和激活图对被编码到关节特征空间中。具有注意力的后续递归层提取时间相关特征,其用于预测对应于激活图的图像特征是否与心理图像相关网络评分。为了重建一个心理图像,我们必须在视觉上组合一组图像特征F i i=1. n从图像集合I ii=1…用户观察到的。我们的方法的核心思想是评分网络,其将地面真实人类注视与训练的神经注意力进行比较,并预测指示用于重建的图像特征的相关性的分数见图3)。评分网络采用固定图M g和激活图M a作为输入,并预测图像FEa-e:IF,其中I是来自与以及F是从I提取的特征。 I是真f∈i、f图像Ii的F与心理图像相关I M,P(f相关|Mg,Ma)。虽然激活图是预-使用全局平均池化( GAP)层将特征简化为向量[16]。该向量用于预测定义图像的一这些参数取决于所使用的特定MIR设置。除了图像特征之外,编码器还为每个输出特征产生神经激活图,其可以被解释为编码器对输入图像的关注继Zhou et al.[43]神经激活图针对特征f∈F的Ma由下式给出Ma(x,y)=Σwf·fk(x,y),(1)K由编码器指示,通过将2D高斯放置在由持续时间加权的每个注视位置处来创建注视图。与多持续时间显著性[11]类似,我们不是使用试验的所有注视为每个图像创建一个注视图,而是随着时间的推移创建多个注视图,如图3(左)所示。将Siamese CNN编码器应用于每个输入元组,并提取关节固定和激活图特征。编码器由多个卷积层组成,其组合固定和激活图的信息并提取空间特征图。GAP层将特征图组合到fea中。fk真实向量,从而导致针对时间步长中的每个时间步长的一个向量输入序列 这些特征向量被传递到一个重新其中wf是输出的神经元f之间的权重其中,f k(x,y)是GAP层的第k个卷积核和激活k,并且f k(x,y)是位置(x,y)处的最后一个卷积层中的第k个卷积核的激活。为了使这种方法起作用,倒数第二层应该是GAP层,并且最后一个卷积层的空间分辨率定义了分辨率。提取有意义的图像特征,同时能够当前层具有注意机制,这使得该模型集中于输入序列的最重要的时间步长。所得特征向量用于输出层中以进行二进制分类。然后,如下重建心理图像FMΣne(Ii)·score(e(Ii),Gi)(三)i=1我我FM =Σnscore(e(I),G).为了计算具有足够大的空间的分辨率 它用于提取每个图像{I}的特征和对应的动作图|i=1…n}。也就是说,最终的心理图像特征是线性组合。将归一化的预测得分作为系数,对显示给用户的图像的特征进行归一化。注视-激活图对联合凝视+激活标测图特征第n秒联合凝视+激活标测图特征第1秒二元分类CNN编码器带注意的CNN编码器通过几个卷积层来提取空间激活标测图。 因此,编码器是优化的。i=1249××›→×××××× ×××3030我我译码器解码器d被训练以学习映射d:F M I M,其中F M是由评分网络给出的组合图像特征,并且I M是心理图像。输入特征F M被重塑为张量,随后通过转置卷积层以提高分辨率。具有三个核(每个图像通道一个)的最终转置卷积层产生输出图像IM。5. 实验5.1. 模型训练为了训练编码器和解码器,我们使用Facemaker合成软件[28]生成了分辨率为128 128像素的100K人脸图像。为此,我们从均匀分布中随机采样每个滑块值。我们生成了额外的30K图像进行验证,以确定模型的最佳超参数使用Adam优化器[15]对两个模型进行训练,以最小化均方误差损失,其中默认参数和批量大小为32。为了训练评分网络,我们将收集的固定图像数据分成训练集、验证集和测试集。我们对每个参与者的试验进行了随机化,并选择了12个试验进行训练,两个用于验证,两个用于测试。一名参与者只完成了六次试验,其中五次用于训练,一次用于验证。总的来说,这导致了221次训练试验、37次验证试验和36次测试试验。鉴于我们知道每次试验中哪张脸包含相关的图像特征,以及经过训练的编码器,我们为每个脸和特征创建了固定和神经激活如果特征对应于心理图像,则将地面实况设置为1,否则设置为0由于大多数特征与心理图像无关,这导致了5:1的类不平衡。因此,我们通过单独和联合翻转注视和激活图来增强训练集这导致了5:4的更平衡的比例,为我们提供了大约45K的训练,5K的验证和5K的测试样本。我们使用具有默认参数的Adam优化器[15]进行训练,使用二进制交叉熵损失和批量大小32。5.2. 实现细节编码器。编码器的输入图像分辨率为128 128像素RGB通道。它通过四个卷积层,分别有32、64、128和256个大小为4×4的内核。在每个卷积层之后,我们应用地图是32 32。 见补充材料的例子激活地图我们的模型。使用全局平均池化(GAP)层将这些特征图在这项工作中,由编码器预测的生成参数对应于来自Facemaker的三十个滑块值我们最终的编码器模型总共有大约700K个可训练参数。网络评分。我们在最终模型中使用了一秒的时间分辨率。鉴于我们的数据集的试验具有30秒的持续时间,我们将30个注视-激活图对输入到评分网络中。评分网络内的编码器由具有大小为4 4 2的10个核的3D卷积层组成,以组合固定和激活图的信息。随后是两个2D卷积层,具有大小为4 × 4的14和16个内核,以进一步细化特征以及ReLU激活和批量归一化。GAP层组合所提取的空间特征并且每个时间步长产生总共16个特征。每个产生的16维特征向量都是一个具有30个隐藏单元和注意力机制的单个GRU层[5]的输入,如Zhou等人所述。[44]第44段。这一层的输出是一个30维的特征向量,用于最终的密集层进行二进制分类。总的来说,评分网络由大约10K个可训练参数组成。译码器解码器的输入图像特征通过具有4 4 256个神经元的密集层,随后进行ReLU激活和批量归一化。得到的向量被重新整形为44256张量并随后通过四个转置卷积层。卷积层具有128、64、32、16个大小为4× 4的内核,每个内核在每个维度上的步幅为2,并且随后进行ReLU激活和批量归一化。具有三个内核(每个图像通道一个内核)的最终转置卷积层和Sigmoid激活对输出图像Fm进行解码。最终的解码器模型由大约840K的可训练参数组成。我们在验证集上优化了所有模型参数,并在下文中报告了在遗漏的测试集上获得的结果5.3. 评估指标为了量化我们的方法的性能,我们定义了平均绝对滑块距离(MASD):MASD=1μ m|s p− s t|、(四)i=1第一和第三卷积层将核与其中sp是预测值,st是目标值我我在每个维度中步长为1,而第二层和第四层使用步长为2。因此,最后一个卷积层的特征图的维度为32×32×256,激活的空间分辨率为斯莱德岛通过改变等式3中定义的评分函数,我们可以在准确度方面评估我们的方法:FMf=maxscore(e(Ii)f,Gi)。(五)Ii,fReLU激活函数和批量归一化。的250目标A B C D我们基线眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴眼睛鼻子嘴巴下巴图4.通过我们的方法(我们的)重建的样本图像与相应的目标和基线进行比较颜色编码不同面部区域的标签指示重建质量(高、中或低)。我们通过将每个特征组分配到三个等距箱中的一个来计算这些,A列和B列显示了两个最好的,而C列和D列显示了两个最差的心理图像重建。我们不是将F_M定义为所有特征的线性组合,而是从实现f的最高得分的面部中选择每个特征。我们报告微平均值,即,我们在特征而不是特征组上计算它们。将结果与通过对六个辅助面取平均值而生成的平均基线重建进行比较。我们使用最先进的标志检测器[4]对更复杂的基线进行了实验,由于该方法的性能较差,我们在下文中仅报告平均基线。5.4. 重建结果表1显示了我们的方法和不同消融版本在MASD和准确度方面的性能。可以看出,我们的方法实现了平均MASD23岁37,其对应于12的平均误差。8%,与实现平均MASD 30 的基 线模 型相比 。26 (平 均误 差为16 。6%)。我们的方法的平均精度为61。9%,这显著高于16的机会水平。7%,即,从刺激中随机选择5s模型仅使用6个注视图而不是30个,每个注视图包含5秒的注视数据。该模型整体表现较差,这表明每个固定图一秒的较高30秒模型仅使用一个注视点图,其中包含30秒试验内的所有注视点。即使没有tem-该模型实现了良好的整体性能。然而,除了鼻子相关的特征之外,它在所有情况下都表现得更差即使我们的模型实现了较低的准确度为鼻子相关的功能,它实现了最低的MASD。这表明,即使最高相关性分数没有被分配给包含正确特征的面部,该特征在所有面部上的线性组合仍然导致良好的重构。为了分析注意力机制的影响,我们在NoAtt模型中排除了它。该模型实现了最低的整体性能,特别是对于眼睛,这表明注意力诱导的偏差有助于模型更好地概括和处理少量训练数据。图4示出了四个样本目标面部、由我们的方法生成的重建、以及基线重建以及不同面部区域的重建质量的颜色编码指示我们通过将每个特征组分配到三个等距箱中的一个来计算这些,根据它们的MASD。最后,图5显示了我们的模型每个单元c i,j中的值显示了从辅助面I j中选择特征fi的值的频率的百分比。251精度MASD模型眼睛鼻子嘴钳口所有眼睛鼻子嘴钳口所有我们77.0%百分之四十五点三百分之五十八点九百分之四十四点六61.9%17.7516.5515.1024.9323.375s百分之七十三点二百分之四十二点六百分之四十九点七38.5%百分之五十六点八21.1418.9217.8226.1325.1530s百分之六十七点三百分之五十四点七百分之五十三点五百分之四十三点二百分之五十七点九19.6416.6716.9526.9523.96无属性百分之五十六点八百分之五十点七百分之五十一点九百分之四十二点六百分之五十二点二25.8719.2519.6525.0626.35基线百分之十六点七百分之十六点七百分之十六点七百分之十六点七百分之十六点七31.223.3623.9829.9630.26表1.我们的方法的性能,几个烧蚀版本,和基线重建不同的面部区域的准确性和平均绝对滑块距离(MASD)。眼睛颜色眼睛形状眼睛睁开眼睛大小眼睛高度眼睛距离眼睛旋转眉毛颜色眉毛形状眉毛线鼻子形状鼻子长度鼻子宽度鼻梁脸颊下巴形状下巴形状下巴长度嘴唇体积嘴唇大小比例嘴形状嘴宽嘴高0 10 20 30 40 50 60 70 809089797790676873787081814381111881114118113055148148115583846411111816355516085558053358581955145660627343535088535516148849355143888053550335383511814822141411511113053035333381630223161451183322眼睛鼻子嘴巴下巴Rand1Rand26. 讨论重建性能。在这项工作中,我们介绍了从人类注视中重建心理图像的任务。我们的结果表明,我们可以重建的心理形象显着优于基线方法,准确率范围从45%至77%,MASD范围从约25至15(见表1)。我们进一步表明,我们的方法在重构重要的面部特征(例如眼睛、鼻子、嘴和下巴)方面比基线表现得更好,并且总体上能够生成显示出与心理图像的高度相似性的合理的照片拟合(参见图4)。尽管研究人员已经调查了心理图像检索对视觉搜索行为的影响,但尚不清楚是否可能从注视中重建心理图像[21,22,19]。因此,我们的结果是有前途的,并强调所提出的方法的有效性。然而,我们也注意到,我们的方法经常无法重建正确的头发颜色。我们观察到,参与者很少固定在辅助面孔的头发上,并假设他们能够在周边视觉中识别出这一特征。图5.我们的方法对于不同的面部特征的准确性,使用修改的评分函数来形成分类目标。每个单元ci,j指示从辅助图像I j提取特征fi的情况的百分比。5.5.用户研究为了评估重建的主观质量,我们进行了一项24名参与者的用户研究。在这项研究中,我们向参与者展示了三张面孔:来自测试集的目标面部、来自我们的方法的重建、以及使用基线方法重建的面部。对于测试集中的每一张脸,我们询问参与者,他们认为两张重建的脸中哪一张更像目标脸。对于测试集中的总共36张面孔,参与者平均有79%的时间选择了我们的面孔(机会水平为50%)。如果我们考虑多数票,用我们的方法重建的脸被选中36次中的32次。252在图5中的混淆矩阵中,可以识别四个组,每个组对应于眼睛、鼻子、下巴和嘴区域的一组滑块每个滑块的值最常从包含正确值的辅助面中选择。对于任何特征,辅助面之间没有强烈的混淆;错误分类相当均匀地分布在面部上。功能组的分析。表1还表明,我们的方法的准确性是最高的眼睛相关的功能,其次是嘴,鼻子和下巴。这反映了在数据收集期间分配给包含这些特征的图6示出了参与者向每个图像分配特定等级的频率,其中y轴上的标签指示辅助面部的类型。平均等级的顺序与心理学[8,9,12,32,38]中的先前发现一致,表明眼睛是面部识别的最重要特征2530.400.350.300.250.200.150.101.00.80.60.40.2排名顺序0.050.00 5 10 15 20 25 30以秒为单位的图6.由参与者在整个数据集上给出的每个面部的等级的百分比。(平均等级2.34),其次是口(平均等级3.31)和鼻(平均等级3.73)。此外,我们可以观察到,如预期的那样,两个分心物面部遵循类似的等级分布,并且平均排名最低(平均等级分别为4.14和4.02)。辅助面上的固定持续时间。图7示出了表示随着时间累积的每个面部的相对注视持续时间的堆叠图对于每个时间步,我们从所有图中减去具有最低累积注视持续时间的图,以更好地突出注视分布随时间的变化有趣的是,参与者在观看的前15秒内主要关注包含与心理图像相关的特征的图像。由于参与者更多地关注已知与识别更相关的特征,因此我们的模型接收这些特征的更多信息以推断特征的相关性得分。如上所述,该注意力分布与面部的平均排名以及面部感知的面部特征重要性相关。大约10秒后,参与者的注意力转移到越来越多的注意力集中在分心的面孔上,这些面孔在试验的最后10秒获得了最高的注意力。由于分心物的脸平均排名较低,参与者在试验中对它们进行排名,导致当时的固定持续时间较高。注意力机制分析。我们的评分网络包含一个具有注意力机制的递归层(见图3),使我们能够分析网络如何通过提取测试集上的平均注意力分布,我们观察到模型为第五秒和第十秒之间的该窗口与参与者关注包含相关特征的辅助图像的时间段重叠(参见图7)。图7.六个辅助面随时间的累积注视持续时间对于每个时间步长,我们减去最低累积注视,以更好地突出注意力随时间的变化在最初的15秒期间,对包含相关特征(下巴、嘴、鼻子、眼睛)的图像有更多的注意力,而注意力随后转移到随机图像(Rand1、Rand2)。7. 结论在这项工作中,我们介绍了第一种方法来视觉重建一个人的面部图像只从他们的眼睛注视。基于凝视的心理图像重建具有深刻的挑战性,因为凝视只是心理图像的间接测量并且受到由并行认知处理引起的显著可变性的影响。此外,联合注视和图像数据是稀缺的,阻止了现有大规模方法的应用。与此形成鲜明对比的是,我们的方法的关键组件可以单独在图像数据上进行训练,并且它只需要少量的凝视增强图像数据。我们工作的第二个关键贡献是将重建制定为人类固定和神经注意力地图之间的相似性评分任务通过定量评估和人类研究,我们表明,我们的方法显着优于基线方法,可以生成在视觉上类似于心理图像的照片这些重大进展为未来的方法指明了方向,这些方法可以从其他领域的凝视中重建心理图像,包括真实的人脸。8. 确认F. Strohm和A. Bulling由欧洲研究委员会(ERC;赠款协议801708)资助。E. Sood由德国研究基金会(DFG)根据德国卓越战略(EXC 2075 - 390740016)资助。M. 该项目由瑞士国家科学基金会(SNSF)早期博士后资助。 P. Müller由德 国 教 育 和 研 究 部 ( BMBF ) 资 助 , 资 助 号 为01IS20075。辅助图像Rand2Rand1下巴嘴鼻子眼睛眼睛0.410.210.140.10.080.05鼻子0.130.150.170.180.210.17嘴0.170.210.220.130.140.14钳口0.150.140.160.230.190.14Rand10.070.150.140.20.210.25Rand20.080.150.180.160.180.26123456相对累积注视时间254引用[1] Michael Barz,Sven Stauden,and Daniel Sonntag.自然交互环境中的视觉搜索目标推理与机器学习。在ACM眼动追踪研究和应用研讨会上,第1-8页[2] Roman Beliy , Guy Gaziv , Assaf Hoogi , FrancescaStrap-pini,Tal Golan,and Michal Irani.从体素到像素和返回:功能磁共振成像自然影像重建中的自我监督。神经信息处理系统进展,第6517-6527页,2019年[3] Ali Borji,Andreas Lennartz,and Marc Pomplun.眼睛透露了什么?从注视点搜索目标的算法推断神经计算,149:788[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。2017年计算机视觉国际会议[5] KyunghyunCho,BartVanMerrieenboer,DzmitryBahdanau,and Yoshua Bengio.关于神经机器翻译的特性:编码器-解码器方法。arXiv预印本arXiv:1409.1259,2014。[6] ThirzaDado,YagmurGuclutu rk,LucaAmbrogioni,Gabri eülleRas,SanderE. Bosch,MarcelvanGer v en,andUmutGuüuluü.超现实神经解码:通过gan潜在空间从fmri测量线性重建面部刺激bioRxiv,2020.[7] Hiroto Date ,Keisuke Kawasaki , Isao Hasegawa , andTakayuki Okatani.深度学习用于从皮层电图信号重建自然图像。2019年IEEE生物信息学和生物医学国际会议(BIBM),第2331-2336页。IEEE,2019。[8] 格雷厄姆·戴维斯,哈登·埃利斯,约翰·谢泼德。通过“照片拟合”技术评估面部的提示显着性Perception,6(3):263[9] Hadyn D Ellis,John W Shepherd,and Graham M Davies.从内部和外部特征识别熟悉和不熟悉的面孔:对人脸识别理论的一些影响Perception,8(4):431[10] 方宇春和唐纳德·格曼。心理面孔检索实验。在基于音频和视频的生物识别个人认证国际会议上,第637- 646页。Springer,2005年。[11] Camilo Fosco,Anelise Newman,Pat Sukhum,Yun BinZhang,Nanxuan Zhao,Aude Oliva,and Zoya Bylinskii.你 还 有 多 少 时 间 ? 建 模 多 持 续 时 间 显 著 性 。 在IEEE/CVF计算机视觉和模式识别会议论文集,第4473-4482页[12] Ian H Fraser,Greg L Craig,and Denis M Parker.示意性人脸特征显著性的反应时测量。Perception,19(5):661[13] YagmurGu¨c¨lu¨tu¨rk , UmutGu¨c¨lu¨ , KatjaSeeliger ,SanderBosch,Rob van Lier,and Marcel A.J. van Gerven通过深度对抗神经解码从大脑激活中重建感知到的面孔。神经信息处理系统,第4246Curran Asso- ciates,Inc.,2017年。[14] 约翰·M·亨德森在真实世界场景感知期间的人类注视控制。Trends in cognitive sciences,7(11):498[15] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[16] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。arXiv预印本arXiv:1312.4400,2013。[17] 林云峰,李江北,王涵静Dcnn-gan:从fmri重建真实图像。2019年第16届国际机器视觉应用会议(MVA),第1-6页。IEEE,2019。[18] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议(ICCV)的会议记录中[19] 森谷纯视觉心理意象影响视觉搜索任务中的注意引导。注意,知觉,心理物理学,80(5):1127[20] Milad Mozafari,Leila Reddy,and Rufin VanRullen.使用bigbigan从fmri模式重建自然场景。arXiv预印本arXiv:2001.11761,2020。[21] Joel Pearson、Colin WG Clifford和Frank Tong。心理意象 对 意 识 知 觉 的 功 能 影 响 。 Current Biology , 18(13):982[22] Joel Pearson,Thomas Naselaris,Emily A Holmes,andStephen M Kosslyn.心理意象:功能机制和临床应用。Trends in cognitive sciences,19(10):590[23] Ziqi Ren,Jie Li,Xuetong Xue,Xin Li,Fan Yang,Zhicheng Jiao,and Xinbo Gao.通过视觉引导的认知表征和对抗性学习从大脑活动重建感知图像arXiv预印本arXiv:1906.12181,2019。[24] Hosnieh Sattar,Andreas Bulling,and Mario Fritz.使用深度凝视池预测视觉搜索目标的类别和属性在IEEE计算机视觉研讨会国际会议论文集,第2740-2748页[25] Hosnieh Sattar,Mario Fritz,and Andreas Bulling. 深邃的目光汇聚:从人类凝视注视推断和视觉解码搜索意图。神经计算,387:369[26] HosniehSattar,SabineMüller,MarioFritz,andAndreasBulling.在开放世界中从注视点预测搜索目标。In Proceedings of the IEEE Conference计算机视觉和模式识别,CVPR,第981-990页,2015年。[27] Sanne Schoenmakers , Marcel van Gerven , and TomHeskes.高斯混合模型改进了基于fmri的图像重建。在2014年神经成像模式识别国际研讨会上,第1-4页[28] 瓦伦丁·施温德卡特琳·沃尔夫尼尔斯·亨策Face-Maker-A Procedural Face Generator to Foster Character DesignResearch,volume Game Dynamics:程序和动态游戏内容生成的最佳实践,第95-113页。Springer InternationalPublishing,Cham,2017.255[29] KatjaSeelige r,UmutGu¨c¨l u¨ ,LucaAmbrogioni,YagmurG u¨c¨ l u¨tu¨ rk,andMarcelAJvanGer v en. 生成用于从大脑活动重建自然图像的主动网络。NeuroImage,181:775[30] Sophia M Shatek 、 Tijl Grootswagers 、 Amanda KRobinson和Thomas A Carlson。在心灵的眼睛解码图像Vision,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功