没有合适的资源?快使用搜索试试~ 我知道了~
零拍摄图像分类:基于人类目光的辅助信息和凝视数据
1零镜头图像分类Nour Karessli1星级 Zeynep Akata1,2Bernt Schiele1Andreas Bulling11Max Planck Institute for Informatics2阿姆斯特丹机器学习实验室阿姆斯特丹大学萨尔信息学校区摘要零拍摄图像分类使用辅助信息,如描述区分对象属性的属性,需要由领域专家进行耗时的注释。相反,我们提出了一种方法,依赖于人类的目光作为辅助信息,利用即使是非专家用户有一个自然的能力来判断类成员。我们提出了一个数据收集的范例,涉及到一个歧视的任务,以增加从凝视数据获得的信息内容。我们的方法从数据中提取有区别的描述符,并使用三种新颖的凝视嵌入:凝视直方图(GH),网格凝视特征(GFG)和序列凝视特征(GFS)来学习图像和凝视之间的兼容性我们引入了两个新的凝视注释数据集用于细粒度图像分类,并表明人类凝视数据确实具有类别区分性,为专家注释属性提供了一种有竞争力的替代方案,并且优于其他零拍摄图像分类基线。1. 介绍零次学习是一项具有挑战性的任务,因为有些类在训练时不存在[1,28,35,41]。现有技术的方法依赖于辅助信息来辅助分类,例如对象属性[5,6,16]。虽然使用这些属性的图像注释可以由天真的用户执行,但领域专家必须为固定的类集合编译区分属性的初始列表,并且必须在添加新类时修改该列表因此,最近的几项工作评估了替代方案,例如从在线文本语料库(如维基百科[23,32]),网络搜索数据[35]或对象层次结构(如WordNet [24])中提取的分布式文本表示。虽然这样的表示可以自动提取,因此成本较低,但它们不会优于属性。Karessli目前在柏林的Eyeem工作。这项工作的大部分是在马克斯·普朗克信息学研究所完成的。图1:我们使用三种不同的方法将凝视点编码为向量:凝视直方图(GH),网格凝视特征(GFG)和序列凝视特征(GFS)。相反,我们建议利用人类凝视数据作为辅助信息的零拍摄图像分类。凝视相对于属性有两个优势:1)来自不同类别的对象的区分可以由非专家执行,即,我们不需要领域知识,以及2)数据收集对于每个图像仅花费几秒钟并且是隐式的,也就是说,不涉及显式地挑选类属性,而是利用我们的自然能力,根据它们的外观来区分对象我们进一步提出了一种新的数据收集范式,鼓励观察者专注于一个对象的最有区别的部分,从而最大限度地提高分类任务的信息内容该范例涉及观察员首先检查并排显示给他们的两个不同对象类的样本,然后对这些类中随机显示的另一个样本的类成员资格进行二元决策。虽然人类凝视数据先前已被用于获得用于对象检测的边界框注释[29]或通过鼠标点击来近似引导图像特征提取[4],但这项工作首次直接使用人类凝视数据作为零拍摄学习的辅助信息。我们工作的贡献有三方面。首先,我们提出了人类凝视数据作为零拍摄图像分类的辅助信息,这是第一个使用凝视来解决这一任务的工作。第二,我们提供广泛的人类凝视,4525注视直方图(GH)原始凝视数据02200130020每类凝视数据采集异常值去除原始图像视线点带栅格的注视要素(GFG)+ Xy每个类的D31α1α22...X 9无栅格的凝视要素(GFS)+ X每个类的yD31α1α22凝视热图...X 3022001300204526多个观察者的数据,分别来自Caltech UCSD Birds 2010(CUB)[48]和Oxford Pets(PET)[31]数据集的两个细粒度子集。第三,我们提出了三种新的类别区分凝视描述符,即凝视直方图(GH),网格凝视特征(GFG)和序列凝视特征(GFS),并在结构化联合嵌入框架中补充深度图像特征[3]。通过对我们的数据集进行广泛的评估,我们表明非专家的人类凝视确实具有类别区分性,并且所提出的凝视嵌入方法在几个基线上有所改进,并为零拍摄学习提供了专家提供的属性的竞争2. 相关工作我们的工作与以前的零镜头学习和凝视支持的计算机视觉工作有关零射击学习。Zero-shot learning [1,28,35,41]假设训练和测试类的集合不相交。由于在训练期间没有标记的视觉数据可用于某些类别属性[5,6,16]是对象的人类注释的区别性视觉属性他们已被证明在几个任务中表现良好,如图像分类[7,30,40,46,47],行人检测,[15,20]和动作识别[19,33,51]。上模型侧,多模态联合嵌入方法[1,3,50]已被证明提供了一种通过属性将知识从图像转移到类以及反之亦然的方法。然而,由于细粒度对象[27,48]在视觉上彼此非常相似,因此需要大量的属性,这是昂贵的。因此,在文献中已经提出了几种替代方案。分布式文本表示,如Word2Vec [23]或GloVe [23]自动从在线文本资源(如维基百科)中提取。分层的类嵌入提供了另一种选择(例如,使用WordNet [24])来学习类之间的语义相似性。另一方面,搜索辅助信息的替代来源引入了细粒度视觉描述的概念[34],这表明尽管新手用户可能不知道细粒度对象的名称,但他们有一种自然的方式来确定这些对象的区别属性。从专家那里收集标签或从新手用户那里收集属性需要为每个图像询问许多是/否问题我们认为,相反,它可能是足够的,他们看一个图像,以确定对象类之间的细粒度的差异虽然眼动追踪设备增加了成本,但最近的进展表明,眼动追踪很快就会变得无处不在,例如,手机[9]所以我们提出计算机视觉系统。凝视已经成为支持各种计算机视觉任务的越来越受欢迎的线索。视线跟踪数据已用于执行对象检测器的弱监督训练[13,39,52],估计人体姿势[21],推断场景语义[42],检测动作[22],检测图像[18]和视频[14]中的显著对象,分割图像[25],图像字幕[43]或在视觉搜索期间预测搜索目标[38].人类凝视数据高度依赖于注释者必须完成的任务虽然[12,52]收集了免费观看任务的凝视跟踪数据,[29]要求用户专注于视觉搜索任务和构建的POET数据集。另一方面,在[17]中,凝视已被用于评估视频序列上的显着性算法。[4]用“气泡”模仿人类的凝视数据其他人使用显着图而不是真实的凝视数据来提高物体检测性能[26,36]。也许与我们最密切相关的工作是[29],其中固定用于生成对象边界框,从而减少边界框注释工作。另一方面,据我们所知,我们首先收集真实的眼动跟踪数据,以提取类别判别表示,然后将其用作零拍摄图像分类的特定任务的辅助信息。我们的技术新颖性在于我们设计了有效的凝视表示,它提供了类嵌入空间的结构。3. 凝视跟踪和数据集在这里,我们提出了我们的凝视数据收集范式,详细介绍了我们的凝视数据集和我们的凝视嵌入。3.1. 凝视数据收集我们使用Tobii TX300远程眼动仪收集眼动数据,该眼动仪以300 Hz记录双眼注视数据。我们用C#实现了一个自定义的数据收集软件,使用的是我们将公开提供的SDK。我们的软件会记录时间戳、用户在屏幕上的注视位置、瞳孔直径以及每只眼睛的有效性代码,这些代码表明跟踪器对正确识别眼睛的信心。我们使用对双眼都有效的与会者坐在67厘米从一个31。5英寸LCD屏幕。我们使用下巴托来减少头部运动,从而改善眼睛跟踪精度显示在屏幕上的图像的垂直延伸是15cm,因此视角1是125厘米。我们为每个图像记录5个参与者,这导致三个数据集的每个图像有5个凝视流。几乎50%的参与者视力受损,然而,在数据收集过程中没有人戴眼镜,尽管30%的人戴隐形眼镜。来提取人类凝视的类别区分表示,并将其用作零触发学习的辅助信息1视角= 2×arctan(垂直延伸刺激/距离)4527比较分类图2:参与者首先看两个细粒度类的两个图像(6秒),然后在屏幕中央我们只在分类屏幕上记录他们的注视。我们的数据收集范例如图2所示。参与者首先回答一份关于人口统计学的简短问卷,例如:年龄、性别、视力等。然后我们使用标准的5点校准程序校准眼动仪。校准后,参与者遵循三个步骤的循环,即比较,固定和分类。在比较步骤中,我们展示了两个示例图像,我们从两个细粒度的类中随机采样六秒钟,参与者在其中学习两个类之间的细粒度差异。在注视步骤中,我们要求参与者注视屏幕中心的一个点一秒钟,以在分类步骤中,我们展示了两个类之一的新实例,参与者需要在最多五秒内通过点击键盘的右/左箭头进行分类。如果注释者提前决定,此步骤将在5秒前终止。新的循环开始,直到所有图像都由同一用户注释。凝视数据集。 我们收集图像的视线跟踪数据两个公开可用的数据集(详见表1)。在[4]之后,我们收集了所有可用的464张图像的14个类别(7个类别的绿鸟和7个类别的啄木鸟:CUB-VW)的每个图像由5名参与者注释。此外,CUB-VWSW还包括麻雀和莺两个鸟类家族CUB-VWSW包含五个参与者对每个图像的11,730个注视轨迹,即,共1882张图片最后,我们收集了Ox-ford Pets数据集[31]的24个类别子集的图像的凝视跟踪数据,其中我们从猫中获取所有12个类别,从狗中获取12个类别的子集。在CUB设置之后,我们收集了来自五个参与者的720幅图像的3600个注视轨迹,并将该数据集命名为PET。我们在亚种水平上收集凝视数据,例如。黑顶绿鹃对红眼绿鹃。我们观察到,在更高的水平上比较鸟类例如,啄木鸟与绿鹃,太容易了,用户立即做出决定,而在亚种水平上比较鸟类需要更长的时间,为我们提供更多的凝视点。图3:注视特征包括注视点位置(x,y)、注视点持续时间(d)、与序列中前一个和下一个注视点的角度(α1,α2)以及瞳孔直径(R)。3.2. 凝视嵌入我 们 提 出 了 三 种 凝 视 嵌 入 方 法 : 凝 视 直 方 图(GH)、网格凝视特征(GFG)和序列凝视特征(GFS)凝视直方图(GH)。凝视点被编码到m×n维向量,使用覆盖在图像上的m行n列空间网格。每个类的凝视直方图嵌入是特定类别的平均凝视直方图。我们分别对每个参与者的凝视进行编码,以评估注释者的偏见。图1(顶部)显示了我们如何使用3×3的空间网格构建9维直方图。为了简单起见,我们显示了七只绿鹃和七只啄木鸟的每类直方图,颜色越深,表明它们的数量越多。货币。绿鹃(顶行)的高关注点落在图像的中间,而啄木鸟(底行)的图像顶部似乎更重要。从视觉检查的原始图像,我们观察到,在CUB病毒往往坐在水平树枝与他们的眼睛是最具辨别力的属性。相比之下,啄木鸟经常爬在大树干上,它们的头部区域是最具辨别力的特征。凝视- tograms捕捉这些空间,即。水平与垂直,以及特定类别的差异。凝视功能(GFx)。 对落入网格单元中的注视点的数量进行计数粗略地编码了位置信息,并且不编码关于持续时间、顺序和观察者的注意力的任何信息。因此,我们建立了6维凝视特征,即[x,y,d,α1,α2,R],如图3所示。我们的凝视特征编码凝视位置(x,y)、凝视持续时间(d)、扫描路径中前一个和后一个凝视点之间的角度(α1,α2)以及瞳孔直径R,该瞳孔直径R与观察者的处理负荷相关[10]。我们以两种不同的方式嵌入这些凝视特征,即网格凝视特征(GFG)和序列凝视特征(GFS)。具有网格的注视特征(GFG)使用类似于注视直方图(GH)的空间网格来离散注视空间。我们不计算每个单元格的注视点数量,而是平均每个单元格中的点的6-dim注视特征。然后,我们将每个网格单元格转换为6×m×n维向量,其中m和n为6秒1秒最大5秒位置+x y持续时间D序列31α2α12瞳孔直径4528空间网格的行数和列数每个类的GFG嵌入是来自同一类的所有GFG向量的平均值通过对凝视点的空间顺序进行编码,GFG捕获了与鸟类典型行为模式相关的信息,例如坐在水平树枝上与爬上大树干。具有序列的注视特征(GFS)对注视点的序列顺序进行编码。首先,我们相对于时间对凝视点进行排序,即,首先出现的注视点到最后出现的注视点,然后我们顺序地从每个凝视序列,并将它们嵌入为6×k维向量。 这里,k通常是最小凝视次数,从某个观察者的凝视序列中提取的点GFS对凝视点的时间序列进行编码,而不是关注它们的空间布局。每个类的GFS嵌入是同一个类的平均GFS嵌入组合凝视嵌入。当参与者注视同一图像的不同区域时,我们认为他们的注视嵌入可能包含互补信息。因此,我们提出了三种不同的方法来组合它们的凝视嵌入:首先,我们对每个参与者的每类凝视嵌入(φ(y))进行平均,缩写为AVG。其次,我们通过早期融合,即每个参与者的每类凝视嵌入。早期学习一个模型。第三,我们分别为每个参与者学习一个模型,然后在后期融合设置中做出最终预测决策之前,对他们的分类得分进行平均,即。晚了4. 凝视支持的零镜头学习在零触发学习中,训练类和测试类的集合是不相交的。在训练过程中,模型只能访问训练类的图像和凝视嵌入,而不能访问测试类的图像或凝视嵌入。通过使用辅助信息来补偿来自测试类的标记图像的缺乏,该辅助信息定义了标签空间中的结构[2,3,7,49],并提供了将训练和测试类相关联的方法在下文中,我们提供了零射击学习模型的细节[3]。Zero-Shot学习模型给定训练集S={(xn,yn),n= 1中的图像和类对xn ∈ X和yn ∈ Y。. . N},我们使用结构化联合嵌入(SJE)模型[3]通过最小化经验风险来学习函数f:X → Y数据集# img /class目光泡沫[4]CUB-VW464 /142320210CUB-VWSW2346 /6011730900宠物720 /243600–表1:CUB-VW、CUB-VWSW数据集(图像选自CUB[48])和PET数据集(图像选自Oxford PET [31])的统计量图像数量、类别、凝视数量和气泡数量[4]轨道。具有以下双线性形式:F(x,y; W)= θ(x)<$W <$(y).(三)其中图像嵌入(θ(x))(即来自深度神经网络(DNN)的图像特征)和类嵌入(θ(y))(即凝视嵌入) 被提供作 为预处理 步骤。W是通过 结构化SVM[45]通过最大化正确标签的排名来学习的:max(n(yn,y)+F(xn,y;W))−F(xn,yn;W)(4)y并通过随机梯度下降(SGD)进行优化。在测试时,我们搜索其每类凝视嵌入产生最高联合兼容性得分的测试类5. 实验在本节中,我们首先详细介绍了用于零触发学习的数据集、图像嵌入和参数设置然后,我们提出了我们的详细评估凝视嵌入与各种基线相比,定性和定量。数据集。 如表1所示,[4]提供了鼠标点击数据,即气泡轨道,用于14个类别(7个类别的Vireos和7个类别的Vireos啄木鸟类:CUB-VW)的CUB的选择210图像。他们收集了每个图像的气泡轨迹,但是每个注释者并没有注释每个图像。因此,与我们从5名参与者收集的5个凝视轨迹流不同,只有一个气泡轨迹流。在CUB-VW气泡轨道上,我们以三种不同的方式建立每类气泡表示,即:与凝视相同,并发现序列气泡特征(BFS),编码气泡的x,y位置和半径效果最好,因此我们使用这些作为所有气泡表示1ΣNn(n,f(n))(1)我们的实验我们广泛评估我们的方法,CUB-VW在下面的部分。请注意,我们验证所有Nn=1其中,f:Y × Y → {0,1}定义了当真标签为y时预测f(x)的成本。SJE模型最大化相容性函数F:X× Y →R如下:f(x; W)= arg max F(x,y; W)。(二)y∈Y4529CUB-VW上的凝视数据处理参数,并将相同的参数用于其他数据集。我们的CUB-VWSW数据集,即包括绿鹃、啄木鸟、麻雀和莺,每个类都有312个专家注释的属性,即嵌入为312维每类属性向量。[11]通过收集更多鸟类的气泡轨迹来扩展[44530GHGFS前1位准确度(%)前1位准确度(%)前1位准确度(%)10080604020100 80 808070 7060 606050 504040 402030 3005101520253545 5001510255075 10020P1 P2P320P4 P5P1P2 P3 P4 P5最大距离时间窗口大小凝视数据源80凝视数据源80图4:原始凝视数据处理:最大距离70 70凝视点和时间窗口大小。60 60[11]为CUB-VWSW数据集选择的图像也可用。PET数据集既不包含属性也不包含气泡轨迹。对于我们的CUB-VWSV和PET数据集,我们进一步构建了提取的词袋表示50403020P1和P2P3 P450403020P5平均值早期晚描述要构建的特定类的Wikipedia文章凝视数据源注视组合法每类表示。词袋频率是通过计算文档中出现的每个词汇的出现次数来产生的。为了获得固定大小的描述符,我们只考虑在去除停止词和词干之后跨所有类的N个最频繁的词图像嵌入和参数设置。作为图像嵌入,我们从ImageNet预训练的GoogLeNet [44]模型中提取1,024 -dim CNN特征。 我们既不做任何特定于任务的图像处理,如图像裁剪,也不对任务中的预训练网络进行微调。 我们交叉验证了零次学习参数,即SGD中的步长和历元数,在10个不同的零次分裂上,通过保持2/1/1的比例来构建不相交的训练、验证和测试类。我们将准确度作为每个类的平均top-1准确度来衡量。5.1. CUB VW在本节中,我们首先展示如何预处理原始凝视数据,然后广泛评估我们的凝视嵌入wrt。CUB-VW数据集上的多个标准。处理原始凝视数据。由于眼动仪的不准确性,原始凝视数据固有地是有噪声的。我们使用基于分散的方法[37]来减少这种噪声,该方法使用窗口大小为ws的滑动窗口方法来计算注视点的分散,并在该分散值上应用阈值ts窗口内的所有注视点然后被设置为低于阈值的所有点的平均值。为了将这个原始数据预处理步骤与我们的最终任务零拍摄学习分开,我们在堆叠的凝视特征上训练标准的一对多SVM分类器作为训练样本,并将图像标签作为监督信号。我们使用[x,y,d,α1,α2,R]作为凝视特征,GFS作为凝视特征编码,并评估10个随机训练和测试分割。图4(左)显示了使用ws= 25度(其中ws= 5.)获得的最高精度。50)。时间窗图 5 : 比 较 注 视 直 方 图 ( GH ) 、 网 格 注 视 特 征(GFG)和序列注视特征(GFS)。 我们分别评估5名参与者以及他们的各种组合:平均每个参与者的凝视嵌入(AVG),通过早期融合(EARLY)和晚期融合(LATE)将它们组合起来。size(ts)取决于注释者在做出决定之前需要查看图像多长时间。由于我们的用户有显着较短的观看持续时间(100。与需要长时间观看的眼动跟踪研究(例如阅读文本文档)相比,我们在数据上固定了时间窗口大小通过保持ws= 25,我们计算ts= 1. 100,观察到ts=10ms效果最好(图4,右)。 我们观察到,性能确实在实验中有所不同因此,至少对于本工作中研究的数据集,可以在一种通用的方式,即,不必为特定的用户或对象类定制。比较不同的凝视嵌入。我们现在比较注视直方图(GH)、网格注视特征(GFG)和序列注视特征(GFS)的性能。我们构建GFx,即GFG和GFS,具有所有凝视特征,即[x,y,d,α,R]表示一致性。我们首先单独考虑我们的5个参与者的注视嵌入,然后通过平均它们(AVG)、通过早期融合(EARLY)连接它们以及通过后期融合(LATE)组合由每个参与者的注视数据获得的分类分数来组合我们在10个不同的零拍分裂上重复这些实验,以显示鲁棒性估计。如图5所示,GFS嵌入优于GH和GFG嵌入。这意味着层序信息比使用网格进行空间离散更有帮助。因此,我们认为,在细粒度的零-GFG前1位准确度(%)GHGFGGFS前1位准确度(%)前1位准确度(%)4531方法精度显著性直方图三十五8图像中的随机点39岁5基线中央注视点41岁5泡沫[4]四十三2Bag-of-Words来自Wiki55. 2SOA人类注释属性七十二9图6:凝视特征的影响:位置(x,y),持续时间(d),序列(α1,α2),瞳孔直径(R)。我们从x,y开始,累积地连接d,α1,α2和R。镜头学习任务中,注视点的顺序对于获得最佳性能很重要。我们的第二个观察是,确实每个参与者对于GH,表现最好的参与者是第一个,而对于GFG是第五个,对于GFS是第二个。我们认为,每个参与者的凝视嵌入是互补的,因此,我们建议合并不同参与者的凝 视 嵌 入 我 们 得 到 56 。 6% 使 用 AVG , 69. 8% 使 用Early和69. 6%,迟到。这些结果支持了我们的直觉,即不同参与者的凝视嵌入之间存在互补信息。分析凝视特征。我们评估了编码注视位置(x,y)、持续时间(d)、序列(α1,α2)和测量集中度的注释者瞳孔直径(R)的影响。我们通过从参数x、y开始,然后依次是d、α1、α2和R来累积地构建注视特征。作为图5中表现最好的方法,我们评估了注视特征对参与者结合GFS与AVG、EARLY和LATE的影响。 我们从图6中观察到,EARLY达到了最高的73。当我们使用[x,y,d,α1,α2]特征时,准确率为9%。 [x,y]特征已经实现了高精度,增加了持续时间,即d稍微改进了结果,并且添加了序列信息,即,α,进一步改善。然而,瞳孔直径参数没有带来进一步的改善。当我们的注释者浏览所有的图像时,需要一个小时的持续专注。虽然他们在半小时后休息,但在任务结束时,他们的注意力下降,因为他们熟悉了细颗粒鸟类。比较凝视和基线。表2显示了我们的凝视嵌入与几个73.最后的胜利9属性+凝视78.2表2:比较随机点,平均注视点,使用[8]的显着性直方图,气泡[4],词袋和CUB-VW上的专家注释属性。方法准确度第七十三章. 9凝视:与气泡69相同的图像。7凝视:与气泡64相同的位置。0凝视:与气泡数量相同(平均值)55。0凝视:与气泡(rnd)49相同的数字。243.我的超次元帝国2表3:从凝视到气泡的消融:使用我们的全部凝视数据与GFS EARLY嵌入,使用相同的图像作为气泡,连接位于气泡内的凝视点,平均这些凝视点,并使用其中一个凝视点与气泡。基线显著性直方图(35. 8%)是使用图像上的空间网格对显着图[8]进行离散化。作为第二个基线,我们在图像中随机采样点,得到39个。5%的准确度。另一个基线是将中心点的位置作为嵌入,这导致41。5%,表明CUB-VW图像存在一定的中心偏差。气泡[4],鼠标点击位置的视觉区分对象属性,是最接近我们的凝视数据的替代品。泡沫达到43. 2%的准确度,这支持了非专家用户能够确定细粒度对象的区别属性的假设作为最后的基线,我们评估了从维基百科文章中提取的类嵌入(55。2%)。我们表现最好的凝视嵌入,即。GFS EARLY使用图6中的[x,y,d,α],实现73。9%的准确率,并优于所有这些基线。此外,它们优于专家注释的属性,有72个。9%是目前最先进的水平。这一结果表明,人类凝视数据确实具有类别区分性,同时比收集属性更有效。最后,我们将我们的凝视嵌入与属性相结合,并通过获得78来显示。2%的准确率,人类凝视数据包含属性的补充信息。从凝视到气泡的消融 当我们观察到一个巨大的4532幼崽方法公司简介VWVWSW宠物随机点图像39岁59 .第九条。021岁0气泡新手四十三210个。3N/A词袋维基百科55. 2二十四岁0三十三岁。5人类注视新手七十三。9二十六岁0四十六岁。6属性专家七十二9四十二7N/A表4:比较随机点、气泡[4]、词袋、属性和我们的凝视嵌入(GFSEARLY),在CUB-VW =具有绿鹃和啄木鸟的CUB、CUB-VWSW =具有绿鹃、莺、麻雀、啄木鸟的CUB和PET=具有猫和狗的牛津宠物上。凝视和气泡嵌入之间的准确性差距不幸的是,我们现在通过消融研究来调查这种差距的原因。我们以下面的方式逐渐减少凝视嵌入的信息内容。我们首先使用与气泡相同的图像,并从表3中观察到准确度从73下降。9%至69。百分之七。然后,我们将落在气泡内的注视点的注视特征连接起来,即, 使用与气泡相同位置的注视点,观察准确率下降到64。0%。 代替连接,平均注视点或在气泡内取一个随机点将准确度降低到55。0%,49。2%。 我们将49之间的准确性差异归因于。2%,43。2(气泡)的凝视特征,即[x,y,d,α,R]。我们从这个实验中得出结论,注释者在我们记录他们的注视以及他们的注意力时所观看的图像以及注视轨迹的数量,位置,持续时间对于获得良好的零镜头学习结果都很重要。5.2. 其他数据集上的凝视嵌入在本节中,我们首先用60种绿鹃、啄木鸟、麻雀和莺(CUB-VWSW)评估CUB上的凝视嵌入[48]。为了证明我们的想法对其他领域的推广性,我们还评估了牛津PET [31]数据集上的结果,其中包括24种猫和狗(PET)。请注意,我们根据CUB-VW上的实验设置参数,并在所有数据集上使用这些参数。在CUB-VWSW数据集上的实验。我们使用GFS-EARLY嵌入作为我们以前评估中性能最好的方法。我们将其与随机点、气泡、词袋和属性进行比较。CUB-VWSW数据集上的结果表明,凝视的表现明显优于来自图像本身的随机点,从鼠标点击位置提取的气泡嵌入,以及从维基百科文章中提取的BOW嵌入。另一方面,专家注释的属性优于非专家注释的凝视数据。这是预料之中的,因为我们4533新手注释者没有比较不同的绿鹃,啄木鸟,麻雀和莺物种,特别是绿鹃,麻雀和莺看起来非常相似,彼此,即。具有相似的大小、形状和颜色。另一方面,凝视嵌入比BoW本身表现更好的事实是一个有趣的结果。我们怀疑,允许注释者在亚种水平和超种水平上探索鸟类物种之间的差异,例如,我们的注释者从来没有比较过啄木鸟和绿鹃,而只是比较了两种不同的啄木鸟,或者使用鸟类专家的意见来注释图像将改善我们的结果。此外,考虑到类之间的层次关系的改进的零射击学习模型可能会导致更好的结果。我们将在今后的工作中探讨这些备选办法最后,微调我们有意避免的凝视嵌入参数可能会改善结果。PET数据集上的实验。在这里,由于属性和气泡不可用,我们使用从维基百科文章中提取的图像和词袋中的随机点作为基线。 当我们对6个测试类进行抽样时,随机机会为16%,我们在10个不同的零次分割上重复我们的实验,并在表4的最后一列中报告平均值。我们观察到,PET类的维基百科文章包含的信息比图像中的随机点更多(21. 0% vs 33. 5%的话)。而我们的凝视嵌入得到46。6%的准确率,显著优于用词袋获得的结果由于所有的图像都显示猫和狗的品种,我们的注释者更熟悉这些类,这使得这个数据集比CUB更具挑战性注意,通过在该数据集上微调原始凝视处理或凝视嵌入参数(诸如凝视特征、凝视嵌入我们从PET结果中得出结论,我们提出的凝视嵌入确实捕获了类别区分信息,并且可以推广到其他领域。5.3. 定性结果图7上的鸟、猫和狗的定性结果示出了将注视嵌入与竞争方法进行比较的三个不同测试类的五个最高排名的图像。我们还可视化了从对应于该特定测试图像的注视轨迹虽然我们在训练时不使用这些测试类的凝视嵌入,但我们包括这些可视化,以直观地了解凝视轨迹的外观。对于鸟类,我们将凝视与人类注释的属性和词袋进行比较。凝视将被错误分类专家标注属性中的误分类图像属于4534目光Att弓目光弓目光弓黑顶绿鹃俄罗斯蓝猫吉娃娃红头啄木鸟Birman博美犬黄喉绿鹃英短比格图7:定性结果:五个排名最高的图像为鸟类,猫和狗看不见的类。我们将凝视与属性(可用时)和单词表示袋进行比较,并显示选定图像的凝视热图。另一方面,“head”一词对于其他示例,凝视嵌入将正确图像排名最高。这些结果也说明了在细粒度数据集上进行标注的困难。对于猫和狗,我们观察到定性结果遵循与定量结果相似的趋势定性地说,凝视比词袋表征表现得更好比较凝视和词袋的结果表明,凝视从来没有混淆猫和狗,而这种混淆发生在词袋。作为凝视嵌入的失败案例,凝视检索6. 结论在这项工作中,我们提出使用凝视数据作为辅助信息来学习图像和标签空间之间的兼容性,以进行零拍摄学习。除了一种新颖的眼动跟踪数据收集,捕捉人类为了区分两个物体,我们提出了三种凝视嵌入方法,1)利用凝视点的空间布局并采用一阶统计量,2)将位置、持续时间、顺序排序和用户的注意力通过对CUB-VW数据集进行大量的定量和定性实验,我们发现人类的我们对PET数据集的定性和定量结果表明,凝视可以推广到其他领域。另一方面,我们在更大的细粒度数据集(例如CUB-VWSW)上的结果可能表明,这些结果将受益于允许注释者查看超级种和亚种的替代数据收集范例在未来的工作中,我们将通过关注两个以上的细粒度图像来研究凝视行为。鸣谢。这项工作部分由德国萨尔大学的多模式计算和交 互卓 越 集群 (MMCI ) 资助 。 我们 要 感谢 SemihKorkmaz的有益见解。4535引用[1] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特标签嵌入用于基于属性的分类。CVPR,2013。[2] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特用于图像分类的标签嵌入. TPAMI,2015。[3] Z. Akata、S.里德D.沃尔特,H.Lee和B.席勒细粒度图像分类的输出嵌入评估。CVPR,2015。[4] J. Deng,J.Krause和L.飞飞细粒度众包,用于细粒度识别。CVPR,2013。[5] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象。CVPR,2009年。[6] V.Ferrari和A.齐瑟曼。 学习视觉属性。在NIPS,2007年。[7] Y. Gong和S. Lazebnik互联网图像分类和排名的数据依赖和数据独立嵌入比较。CVPR,2011。[8] J. 哈雷尔角Koch和P.佩洛娜基于图形的视觉显著性。神经信息处理系统进展,第545-552页。MIT Press,2007.[9] M. X. Huang,J. Li,G. Ngai和H. V. Leong Screenglint:智 能 手 机 上 的 实 用 原 位 凝 视 估 计 。 ACM SIGCHIConference on Human Factors in Computing Systems(CHI),2017年。[10] J. 你好,J。Tomola和A.- M. 阿拉贾瞳孔放大作为同声传译和其他语言任务中处理负荷的测量实验心理学季刊,48(3):598[11] M. S. L. F.- F.邓佳乔纳森·克劳斯。利用大众的智慧进行细粒度的识别。TPAMI,出版中[12] T. Judd,K. Ehinger,F. Durand和A.托拉尔巴学习预测人类的视线。在ICCV,第2106-2113页[13] S. Karthikeyan,V.贾加迪什河谢诺伊湾埃克斯坦兹,B. 曼朱纳特从哪里和如何到我们所看到的在ICCV,第625-632页[14] S. Karthikeyan,T.Ngo,M.Eckstein,和B.曼朱纳特眼动跟踪辅助视频中重要注意对象的提取在Proc. CVPR,第3241-3250页[15] N.库马尔A. C. Berg,P. N. Belhumeur和S. K.纳亚尔用于人脸验证的属性和明喻分类器ICCV,2009年。[16] C. Lampert,H. Nickisch和S.伤害。基于属性的零镜头视觉对象分类。InTPAMI,2013.[17] J. Li,Y.田氏T.Huang和W.高. 视频中视觉显著性的数据集和ICME,第442-445页,2009年[18] Y. Li,X.侯角,澳-地Koch,J. M. Rehg,和A. L.尤尔。显着对象分割的秘密。在2014年IEEE计算机视觉和模式识别会议论文集,CVPRIEEE计算机协会。[19] J.刘,B. Kuipers和S. Savarese通过属性识别人类行为。CVPR,2011。[20] M.利夫内湖Sigal,N. F. Troje和D. J·弗利特来自3d姿态跟踪的人类属性计算机视觉和图像理解,116(5),2012。[21] E. Marinoiu,D. Papava和C.斯明奇塞斯库图片胡曼空间。人类对3D关节姿势的感知能力如何InICCV,2013.[22] S. Mathe和C.斯明奇塞斯库多实例强化学习,用于图像中的有效弱监督检测。arXiv预印本arXiv:1412.0100,2014年。[23] T. 米科洛夫岛Sutskever,K.Chen,G.S. Corrado,J。Dean.单词和短语的分布式表示及其组合性。在NIPS,2013年。[24] G. A. 米勒Wordnet:英语词汇数据库。CACM,38:39[25] A. Mishra,Y.Aloimonos和C.L. Fah. 主动分段与固定。在Proc. ICCV,第468-475页[26] F. Moosmann,D.Larlus和F.朱丽学习显着图进行对象分类。2006年[27] M.- E. Nilsback和A.齐瑟曼。在大量的类上进行自动花卉分类载于ICCVGI,2008年。[28] M. 帕拉图奇湾Pomerleau,G.Hinton和T.米切尔语义输出代码的零触发学习。NIPS,2009年。[29] D. P. 帕帕佐普洛斯A.D. F. Clarke,F.Keller和V.法拉利从眼动跟踪数据训练对象类检测器。2014年,在ECCV[30] D. Parikh和K.格劳曼相对属性。见ICCV,2011年。[31] O. M. Parkhi、黑腹拟步行虫A. Vedaldi、A. Zisserman和C.贾瓦哈尔猫和狗。CVPR,2012。[32] J. 彭宁顿河Socher和C。D. 曼宁Glove:单词表示的全局在EMNLP,2014年。[33] Q. Qiu,Z. Jiang,和R.切拉帕基于稀疏字典的动作属性表示与识别。见ICCV,2011年。[34] S. Reed,Z. Akata,H. Lee和B.席勒学习细粒度视觉描述 的 深 度 表 示 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别(CVPR),2016年。[35] M. Rohrbach,M.Stark,and B. Schiele.评估大规模环境中的知识转移和零触发学习。CVPR,2011。[36] 联合Rutishauser,D.瓦尔特角Koch和P.佩洛娜自下而上的注意力对物体识别有用吗在CVPR,第2卷,2004中。[37] D. D. Salvucci和J. H.金伯格在眼动追踪协议中识别注视和扫视。在2000年眼动跟踪研究应用研讨会的会议记录中,第71-78页。ACM,2000年。[38] H. Satta r,S. Müller,M. Fritz和A. 欺负人在开放世界中从注视点预测搜索目标在CVPR,第981-990页[39] I. Shcherbatyi,A. Bulling和M.弗里茨凝视:可变形零件模型中凝视信息的早期集成。arxiv:1505.05753,2015年。[40] B.西迪基耶河Feris和L.戴维斯基于多属性查询的图像排序与检索。CVPR,2011。[41] R. Socher , M. Ganjoo , H. 斯 里 达 尔 岛 巴 斯 塔 尼 角Manning和A. Ng.通过跨模式迁移实现零镜头学习。在NIPS,2013年。4536[42] R. Subramanian,V. Yanulevskaya和N. Sebe计算机能向人类学习看得更清楚吗?:从观看者的眼球运动推断场景语义在MM中,第33[43] Y. Sugano和A.欺负人与人类一起看:凝视辅助神经图像字幕。arxiv:1608.05203,2016年。[44] C. 塞格迪,W。Liu,Y.Jia,P.Sermanet,S.里德D.安盖洛夫D. Erhan,V. Vanhoucke,和A.拉比诺维奇。更深的回旋。CVPR,2015。[45] I. Tsochantarkan,T. Joachims,T. Hofmann和Y.阿尔通结构化和相互依赖的产出变量的大边际方法JMLR,2005年。[46] G. Wang)和雅江翠雀花(D.福赛斯视觉属性、对象类别和视觉显著性的联合学习。ICCV,2009年。[47] Y. Wang和G.森一种对象类和属
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功