没有合适的资源?快使用搜索试试~ 我知道了~
人类注释512数据集13精益众包:在在线系统中结合人类和机器史蒂夫·布兰森sbranson@caltech.edu格兰特·范霍恩加州理工学院gvanhorn@caltech.edu彼得罗·佩罗纳perona@caltech.edu摘要我们介绍了一种方法,大大减少了大量的冗余注释时所需的众包注释,如边界框,零件和类标签。例如,如果两个Mechanical Turker在注释给定图像中的某个零件时碰巧点击如果一个土耳其人碰巧同意计算机视觉估计,则可以获得类似类型的置信度。因此,我们逐步收集工人注释的可变数量的每幅图像的基础上在线估计的信心。这是使用概率模型上的顺序风险估计来完成的,该概率模型结合了工人技能、图像难度和增量训练的计算机视觉模型。我们为二进制注释、零件关键点注释和边界框注释集我们表明,我们的方法可以减少注释时间的一个因素的4-11二进制过滤的网页搜索结果,2-4的注释框的行人在图像中,而在许多情况下,也减少了注释错误。我们将公开提供我们系统的端到端版本。1. 介绍像ImageNet [5,21]这样的大型标记数据集的可用性是最近计算机视觉性能大幅提高的主要催化剂之一[19,12,31,32]。虽然已经开发了复杂的众包算法用于分类[46,44,45],但相对缺乏使用更智能的众包算法进行其他类型注释的方法和公开可用的工具我们已经开发了一个简单易用的公开工具,它结合并扩展了众包方法的许多最新进展,用于不同类型的注释,如零件注释和多对象边界框注释,并直接与Mechanical Turk接口。我们的主要贡献是:1)二进制、部分和对象众包的在线算法和停止标准,2)工人技能和图像困难众包工人技能在线模型和众包计算机视觉AmazonMechanicalTurk46图1:我们提出的方法的示意图。1)用图像数据集初始化系统。该方法的每个全局步骤都将向该数据集添加注释。2)计算机视觉系统使用当前工人标签递增地重新训练。3)众包模型更新其对工人技能和图像标签的预测,并基于基于风险的质量保证阈值来决定哪些未完成的图像将发送到Amazon Mechanical Turk。4 -5)AMT上的工作人员注释图像。6)众包模型继续更新其对工人技能和图像标签的预测,并且重复该循环,直到所有图像被标记为完成。用于二进制、部件和对象注释的模型,3)计算机视觉算法的在线学习的结合以加速众包,4)与MechanicalTurk接口并结合这些算法的公开可用工具。我们发现,贡献1对于二进制分类,一个-符号错误与1。使用我们的方法,每幅图像37个工人比使用多数投票和每幅图像15个工人时要低。对于边界框,我们的方法产生的误差较低,为1。每个图像97个工人,而大多数人投票使用每个图像7个工人 对于零件,我们的系统在没有计算机视觉的情况下进行了修改,用于在55,000张图像上准确地注释11个语义零件的数据集,平均为2。3名工人每部分。我们注意到,虽然在循环中加入计算机视觉加快了注释时间,但计算机视觉重新74747475i=1Qi=1j=1i=1希望收集数据集用于基准测试的搜索者可以选择关闭该选项以避免潜在的偏差问题。同时,我们认为它在应用环境中是一个非常有价值的功能。例如,生物学家可能需要注释所有细胞的位置在图像数据集中,不关心注释是来自人类还是机器,但需要确保一定水平的注释质量。我们的方法提供了一个端到端的工具,用于收集训练数据,训练预测算法,结合人类和机器预测并审查其质量,同时试图最大限度地减少人类时间。这可能是几个应用程序的有用工具。2. 相关工作Kovashka等人[17]提供了计算机视觉众包的全面概述。接近亲-重要的是,|Wi|对于不同的图像可以显著变化。 这是因为我们对估计标签y<$i的置信度不仅取决于冗余注释的数量|Wi|,但也取决于那些注释Z i之间的一致性水平,注释i的特定工人的技能水平,以及与计算机视觉算法的一致性(其是经过不断训练的)。3.1. 在线众包我们首先描述了一个简化的模型,它不包括工人技能模型或循环中的计算机视觉。我们将在随后的章节中扩充这个简化模型。 在任何给定的时间步长,设Z ={Zi}N是所有图像的工作者注释集。我们-finetheprobability 概 率 overerobser v eded 观察到的。ges ,truelabels,anpose方法将多个注释与as-质量保证是最相似的我们的方法。Q Q工人标签为p(Y,Z)=ip(yi) j∈Wi p(zIj|yi),[29,33]通过多数投票和工人质量估计来协调多个注释器。[45,44,23,43]联合模型标签和注释者的能力。[13,23,22]探索选择下一个要注释的数据的主动学习机制,以及选择其中p(yi)是可能标签上的先验概率,并且p(zij|是噪声W或K注释的模型。 这里我们假设每个worker 标 签 都 是 独 立 的 。 最 大 解 Y<$=argmaxp(Y|Z)=arg max p(Y,Z)。可以分别为每一个镜像找到查询.我们的方法与以前的方法不同,y<$i=argmaxyip(yi) ∫j∈Wip(zij|yi)将[45]的在线概念与工人建模相的[44],我们结合了计算机视觉组件,并提供了执行二进制分类的框架,风险R(y<$i)=预测的标签是∫yi(yi,y<$i)p(yi|Zi)与Qsification,边界框和部分注释。yi(yi,y<$i)p(yi)j∈Wip(zij|yi)我们的工作与人在回路中的主动学习有关。这一领域的先前工作为以下方面提供了方法:R(y<$i)=∫Qyip(yi)j∈Wi p(zij(一)|yi)任务,如细粒度图像分类[3,40,6,42],图像分割[26,8,10,14],基于属性的分类,阳离子[18,24,2],图像聚类[20],图像注释[35,36,30,48,27],人类交互[16]和视频中的对象注释[39]和分割[28为了简单起见,在选择下一批要注释的图像或要询问的问题时,我们不包含主动学习组件,但这可以包含在我们的框架中。减少注释工作的其他方法包括更好的接口,更好的任务组织[4,7,47],游戏化[37,38,15,6]。3. 方法令X={xi}N是我们希望使用不完美的群组工作者池来用未知的真实标签Y={yi}N标记的图像集合。我们首先描述了问题的根源-通常取决于所需的应用,每个yi可以表示类标签、边界框、部件位置或某种其它类型的语义注释。对于每个图像i,我们的目标是通过组合多个冗余符号Zi={zij}来重新接收与y i具有高概率相等的标签y <$i。|Wi|,其中每个zij是不完全的工人标签(即,他们对yi的感知),Wi是那个集合的工人,注释图像i。7476其中,(yi,y <$i)是当真实标签为yi时与预测标签y <$i相关联的损失。一个逻辑标准是,一旦风险低于某个阈值R(y<$i)≤τ,就接受y <$i(即,τ是每个图像的最小可容忍误差那个...如算法1所示的sic在线众包算法批量处理图像(因为批量发送图像到目前的情况,我们优先注释未完成的图像,其中w或k注释的数量最多|Wi|然而,在未来的工作中,可以采用更复杂的主动学习标准。每次接收到新的批次时,重新估计组合的图像标签y'i,并且使用风险标准来确定图像是否完成或可能需要更多的工人注释。3.2. 添加计算机视觉通过使用每个图像的实际像素内容xi作为额外的信息源,可以获得更智能的算法。我们考虑两种可能的方法:1)一种朴素的算法,它将计算机视觉与人类工作者的方式相同,通过将计算机视觉预测附加到tionzi,cv到工人标签Wi的集合,以及2)利用计算机视觉可以提供比单个标签输出更多的信息7477i=1我的天伊伊i=1i=1j=1算法1在线众包1:输入:未标记图像X={xi}N2:初始化未完成/完成的集合:U<${i}N,F <$3:使用先验概率初始化W<$,I<$4:重复5:选择一批未完成的示例B6:对于i∈B,获得新的群组标签zij:Zi←Zizij7:重复最大似然估计8:估计全网先验p(di),p(wj)9:预测真标签:i,y<$i←argmaxyip(yi|xi,θ<$)p(Zi|yi,d<$i,W<$)10:预测图像困难:i,d<$i←argmaxdip(di)p(Zi|y<$i,di,W<$)11:预测工作参数:Q,w<$←argmaxp(w) p(z|¯我们使用K折交叉验证的修改版本:对于每个分割k,我们使用(K − 1)/K个样本进行训练,剩余的(k − 1)/K个样本进行概率校准。 我们过滤掉图像,|Wi|<1来自训练和概率校准;然而,所有1/K图像都用于输出概率估计p(y , i|xi,θk),包括具有|Wi|=0。 该过程确保估计p(y,|xi,θk)是使用一个没有在图像i的标签上训练的模型产生的。3.3. 工人技能和图像难度模型更复杂的方法可以模拟这样一个事实,即一些工人比其他人更熟练或更仔细,一些图像比其他人更困难或更模糊。设W ={wj}M是对技能水平进行编码的参数,我们的M群工作者池,并设D={di}n为jjwjJ i∈Ij(y、d、w)参数编码的固有难度的水平,12:直到收敛13:使用K折交叉验证,训练计算机视觉在数据集{(xi,y<$i)}i上,|Wi|>0,并校准概率-标记每个图像i(至此,我们仅定义WD抽象)。则联合概率为Y联系人p(yi|xi,θ<$k)14:预测真实标签:i,y<$i←argmaxyip(yi|xi,θ<$)p(Zi|yi,d<$i,W<$)15:f或i∈Bd,o表示成品标签的CheQckp(Y,Z,W,D,θ|X)= p(θ)Yp(wj)J(p(di)p(yi|xi,θ))我Yp(zij|yi,di,wj)(三)i,j∈Wiy(yi,y<$i)p(y<$i|xi,θ<$)j∈W p(zij|yi,di,wj)第16章:我的天,p(y<$|x,θ<$)Q我我j ∈W ip(zij|yi,di,wj)其中,p(di)是图像difficulty上的先验,p(w,j)是17:如果Ri≤τi:F←Fi,U←U\i18:结束19:直到U=0优先于一个工作者的技能水平,并且p(z ij|yi,di,wj)将噪声工人响应建模为地面的函数真实标签、图像难度和工人技能参数。20:returnY<${y<$i}N设Y<$,W<$,D<$,θ<$=argmaxY、W、D、θp(Y,W,D,θ|X,Z)是(例如:置信度估计边界框出现在图像中的每个像素位置处)。对于更智能的方法,观察到的图像、真实标签和工人标签的联合概率为:最大似然解Eq. 3.在实践中,我们使用交替最大化算法估计参数,其中我们每次针对一个图像或工作者的参数进行优化(通常使用快速分析解决方案):Yp(Y,Z,θ| X)=p(θ)p(yi|xi,θ)Yp(zij|(2)第(2)款y<$i=argmaxp(yi|xi,θ<$)yiYj∈Wip(zij|yi,di,wj)(4)ij∈WiYd< $=arg max p( d) p(z|y , d , w)(5)我其中p(yi|xi,θ)是计算机视觉算法的估计值,我Dij∈Wi我的天Rithm,参数为θ。Yw<$ = argmaxp(w)p(z|y¯,d¯,w)(6)J计算机视觉培训:最大的挑战是JJi∈Ij我的天训练计算机视觉系统(估计计算机Yθ¯ 为argmaxp(θ)p(y<$|x,θ)(7)视觉参数θ),假设我们递增地获得新的θii,我Wi=17478工人标签随着时间的推移。虽然有许多可能的方法,在实践中,每次我们从Mechanical Turk获得一批新的标签时,我们都会重新训练计算机视觉算法。每一步,我们用至少一个工人la来处理每个图像的当前预测标签y <$i。Bel|Wi|≥1作为现成计算机的训练标签视觉算法虽然预测的标签y <$i显然是其中Ij是由工作者j标记的图像的集合。风险Ri=R(y<$i)的精确计算是困难的,因为不同图像的标签通过以下方式相互关联:W 和 θ。一个 近似 是 到 假设 我们 ap-近似W(yi,y<$i)p(yi|X、Z、θ<$、W<$、D<$)我当每个图像的工作者数量静止时,小,我们依赖于训练后的概率校准步骤∫ℓ(y, y¯)p(y |x,θ<$)Q伊伊j∈Wi p(zIj|yi,d<$i,w<$j)以应对由此产生的嘈杂的计算机视觉预测。R(y<$i)≈p(y |x,θ<$)Qp(z|y,d¯,w¯)伊伊 伊j∈Wi我的天y7479使得Eq.可以针对每个图像i单独求解8。设计先验时的考虑因素:消除先验知识对于使系统更健壮很重要。由于通过对与组合预测一致的标签的数量进行计数来计算算法1的第8行中的技能先验p(wj)Σ在线性质的算法,在早期批量的图像数量|Ij|由每个w或k标注的值可能很小,使得工人技能wj难以估计。此外,本发明还pk= nβp+nβ+ij1[zij=y<$i=k,|Wi|>1]Σij1[y<$i=k,|Wi|>1],k=0,1(8)实际上,许多图像将满足具有两个或更少标签的最小风险标准。|Wi|≤2,使图像难以估计。在实践中,我们使用分层其中1[]是指示函数。 类似地,我们估计-通过计数匹配算法1的第11行中的工人技能wj与组合预测一致的工作者J前系统。一个全网的w或k技能先验p(wj)和图像难度先验p(di)(处理所有工人和图像pk= n pk+nβi∈Ij 1[zij]=y<$i=k,|Wi|>1],k=0,1(9)J同样的)被估计并用于规范每个工人,当注释数量为nβ+i∈Ij 1[y<$i=k,|Wi|>1]小了作为避免高估技能的启发式方法,我们严格要求自己考虑至少有2个工人标签的图像|Wi|>1,因为工人标签之间的一致性是用于 估计工人 技能的唯一可行信号。我们还采用了一个手工编码的先验规则化学习的全网先验。4. 常见注释类型的模型算法1提供伪代码以实现用于任何类型的注释的在线众包算法。支持一种新类型的注释包括定义如何表示真标签yi和工作者注释zij,以及实现用于推断1)真标签y<$i的求解器(等式。 4),2)图像的困难d<$i(方程。5),3)work er技能w<$j(方程式 6),4)计算机视觉参数θ<$(Eq.7),和5)与预测的真实标签相关的风险Ri(等式7)。(八)。4.1. 二进制注释这里,每个标签yi∈0,1表示感兴趣的类别的存在/不存在。二元工人技能模型:我们使用两个代表工人技能的参数来建模工人技能wj=[p1,p0]为了简单起见,我们决定省略图像差异的概念。在实验发现我们的简单模型在大多数数据集上与更复杂的模型(如CUBAM [44])竞争后,我们的二进制模型中出现了邪教。二进制计算机视觉模型:我们使用一个简单的计算机视觉模型,该模型基于对来自通用预训练CNN特征提取器(我们的实现使用VGG)的特征训练线性SVM,然后使用Platt缩放[25]进行概率校准,验证分裂在第二节中描述。3.2.这导致概率估计p(yi|xi,θ)=σ(γθ·φ(xi)),其中φ(xi)为CNN特征向量,θ是学习的SVM权重向量,γ是来自Platt标度的概率校准标量,并且σ()是sigmoid函数4.2. 零件关键点注释部件关键点注释在计算机视觉中很受欢迎,并包括在MSCOCO [21] 、MPII 人类姿势[1]和CUB-200-2011 [41]等数据集中。这里,每个部分通常被表示为x,y像素位置l和二元可见度变量v,使得yi=(li,vi)。虽然我们可以使用与二元分类完全相同的模型来建模v(第4.1节),但l是一个连续变量,J J分别识别真阳性和真阴性。 在这里,我们假设zij给定yi是伯努利,则p(zij|yi=1)=p1和p(zij|yi=0)=p0. 作为需要不同的模型。 为了简单起见,即使大多数数据集包含对象的几个语义部分,我们独立地建模和收集每个部分。这个简单的-J J如第3.3节所述,我们使用一组分层的先验,使系统在工人或图像很少的情况下具有鲁棒性。忽略工人身份,假设工人标签z给定y是Bernoulli,使得p(z)|y. =1)= p1且p(z≠ 1)|y = 0)=. p0,我们加入β概率βnβp0,nβ(1−p0)和βnβp1,nβ(1−p1),fies符号和集合;根据我们的经验,Turkers往往更快/更好地注释许多图像中的单个部分,而不是同一图像中的多个部分。关键点工人技能形象难度模型:令li为图像i中关键点的真实位置,而lij为工作者j点击的位置。我们假设lij是高斯-p0和p1,其中nβ是先验的强度sian分布在li周围,方差为σ2。 这个变种-j j ij对此的一种直觉是,工人j一旦她标记了成功取决于工人σ2=eijσ2+(1−eij)σ2,其中σ2代表工人我的天超过nβ个图像,否则,主宰我们还在p0和p1上放置Beta先验Beta(nβp,nβ(1−p)),以处理算法1的前几批情况。在我们的实现中,我们使用p=。8作为二元变量的一般相当保守的先验,nβ=5。该模型的结果是简单的估计工人7480我噪声(例如,,有些工人比其他人更精确),σ2表示每图像噪声(例如,鸟的腹部在给定图像中的精确位置不过,工人j有时会犯一个严重的错误,7481EJJ|X|IJJ我我我=Σ全局先验分布。期望是EEijGJ=,mijgi+gj1/|Xi|1/|Xi|+(1−Eeij)gi+Eeijgjg=g(μl −l <$2; σ2),g =g(μl −l<$2;σ2)(14)i ij iij i j ij图2:示例部件注释序列显示了常见情况,其中来自2名工作人员的响应相关性良好,足以使系统将图像标记为已完成。在离高斯中心很远的地方(例如,工作者J可能是垃圾邮件发送者或者可能意外地点击了无效位置)。mij表示j是否犯了错误--概率为Pm--,在这种情况下,lij均匀地分布在图像中。因此Σp(lij|yi,di,wj)= p(mij|pm)p(lij|li,mij,σij)mij∈0,1我们在最大化和期望步骤之间交替,其中我们初始化为Emij= 0(即, 假设注释者没有犯错误)和Eeij=。5(即, 假设工作者噪声和图像难度具有相等的贡献)。推断真实标签:推断y<$i(等式 4)由于计算机视觉项p(yi) 的 存 在 , 必 须 以 更 暴 力 的 方 式 完 成|xi,θ)。设Xi是一个长向量|Xi|它存储概率部分检测图;也就是说,它存储p(yi) 的 值|xi,θ),对yi的每一个可能值. 设Zij为对应的长度向量|Xi|储存价值对于p(zij|yi,di,wj)在每个pixel位置(使用其中p(m|pm)=mpm+(1 − m(十))(1−pm),当量101)。 那么向量Yi= Xij∈Wi Zij密集国际新闻报国际新闻报国际新闻报存储yi的所有可能值的可能性,其中prod.p(lij|li,mij,σij)=eij我+(1−eij)g(<$lij−li<$2;σ2),假设使用分量方式计算ucts|是i中pi x el位置的数量,g(x 2 ; σ 2)是正态分 布 的 概 率 密 度 函 数 。 |isthenumberofpi xellocationsini,andg(x2;σ2)istheprobabilitydensityfunction for the normal distri- bution. 总之,我们有4个工人技能参数wj=[σj,pm,p0,p1]和一个图像差分参数乘法最大的li k标签y<$i简单地为Yi的argmax。计算风险:设Li为长度向量,|Xi|的存储y i的每个可能值的损失(yi,y<$i)。Wej j jdi=σi。如4.1节所述,我们在pm上放置一个数据集范围的Beta先验Beta(nβpm,nβ(1−pm)),其中pm是工人不可知的犯错概率,在pm上放置一个额外的Beta先验Beta(nβp,nβ(1−p))。类似地,我们将尺度逆卡方先验放置在σ2和σ2,使得σ2scale−inv−χ2(n,σ2),假设一个零件的预测是不正确的,如果它的距离地面真实值大于某个半径(实际上,我们计算每个零件Mechanical Turker点击响应的标准差,并将半径设置为2个标准差)。与预测的LA相关的风险-根据Eq.则Ri=LTYi/Yi1jijβ iσ2scale−inv−χ2(nβ,σ2)其中σ2是点击位置的全网方差。推断工作器和映像参数:这些pri- ors将导致简单的分析解决方案,以推断最大似然图像的困难(方程。5)和工人技能(Eq.6),如果mij,eij和θ是已知的。在实践中,我们使用期望最大化处理潜在变量mij和eij,最大化步骤针对所有工人和图像参数,因此工人技能参数估计为nβ σ2+j∈W(1−Ee ij)(1−E mij)<$ lij− li<$24.3. 多对象边界框注释用于零件关键点的类似类型的模型可以应用于其他类型的连续注释,如边界框。然而,如果图像中存在多个对象,则引入了重大的新挑战,使得每个工作者可以标记不同数量的边界框,并且可以以不同的顺序标记对象。检查成品标签意味着不仅要确保每个盒子的边界是准确的,而且要确保没有假阴性或假阳性。边界框工人技能和图像难度模型:2iinβ+2+j∈Wi(1−Eeij)(1−Emij)(十一)图像注释yi={br}|Bi|r=1 包括一σ2 =nβσ2Σ+i∈I<$j Eeij(1−Emij)<$lij−li<$2(十二)图像中的一组对象,其中框br由x,y,x2,y2坐标组成。Workerjjn+2+Eeij(1−Emij)k|Bij|工作者1工人2预测地面实况=σ7482我=nβpm+Σi∈Ii∈IjEmijzij={bij}k=1由可能不同的数组成ber|Bij|具有不同排序的框位置。然而,MJJn+|我|(十三)如果我们可以预测潜在的分配{ak}|BIJ|,其中bk是β jij一个kk=1ij这些表达式都具有类似于方差或二项式参数的标准经验估计的直观意义,只是每个示例可能被Emij或Eeij软加权,并且增加了nβ个合成示例工人j1在实践中,我们在等式中用Eeij和Emij代替eij和m10,这对应于对潜在变量eij和mij进行边缘化,而不是使用最大似然估计p7483IJJIJJ2IJJJJJ我我i,cvk=1CVi,cv′i r=1国际新闻报边界框:y<$i,ai=argmaxlog我,我Σj∈Wilogp(zij|yi,di,wj)(16)图3:边界框注释序列。最上面的序列突出显示了一个很好的例子,只需要计算机视觉系统和一个人来完成图像。下面的序列突出了平均情况下,需要两个工人和计算机视觉系统来完成图像。匹配的边界框的位置与关键点完全相同,其中2D向量l已经被4D向量b替换。因此,对于关键点,图像i的难度由一组边界框难度表示:di={σr}|B我|、其中p(zij|yi,di,wj)定义在等式中。 十五岁我们将问题形式化为设施选址问题[9],一种类型集群问题的目标是选择一组“设施”开放,每个“城市”必须连接到一个单一的设施。人们可以分配自定义成本打开每个设施和连接一个给定的城市到一个给定的设施。 简单的贪婪算法被认为对某些设施选址问题具有良好的近似保证。在我们的公式中,设施将被选择来添加到预测的组合标签y'i中,城市设施成本将是与将工人箱分配给打开的箱相关的成本。由于空间限制我们省略了定义的详细信息;但是,我们将facility设置为open测量每个物体的边界在图像中本质上是模糊的。工人成本Copen(bk)=′j∈Wi -低成本和城市设施成本FP FPC匹配KKfn fnfpwj={ p ,pfn,σj}对概率p一个-(bij,bij′)=−log(1−pj)+logpj−log(1−pj)−jJ Jkk′2 2k标记的框Bk是假阳性(即,ak=k),概率-logg(bij−bij′;σj)用于匹配w或kerboxbij到facil-ij ijk′如果地面真值框BR是一个错误(即,itybij′,而不是j = j的所有翼连接除非ji′ ′k,akr),并且在注释框的精确边界时的w或k的方差σ2如在Sec. 四点二。 真值ntp、假值nfp和假值nfp的个数否定句可以写成n =Σ|Bij| 1[ak/= 1],k=k,j=j。我们添加一个有开放成本的0,使得与之匹配的城市对应于为假值的工人框:Cmatch(bk,dum my)=−logpfp。计算风险:我们假设损失(y<$i,yi)为法国国家电视台k=1ij罚款为假阳性边界框的数量加上nfn=|B我|−ntp,nfp=|Bij|-ntp. 这就引出了注解--事件概率. ..Σ.肺炎克 雷2假阴性的数量,其中如果它们的交集超过并集的面积至少为50%,则框匹配。为了简化风险计算(等式8.我们假设我们的假设是:p(zij|yi,di,wj)=G. bij−bk.;σkk. 我k=1…Bij,ak/=0i j.IJ工作盒和真盒之间的段ij是有效的。在这种情况下,风险Ri是预期的假(pfn)nfn(1−pfn)ntp(pfp)nfp(1−pfp)ntp(十五)正(通过对每个BR求和来计算,并计算根据以下公式计算假阳性的概率:与前几节一样,我们将整个队列的先验值放置在所有worker和image参数上。计算机视觉:我们基于MSC-MultiBox [ 32 ]训练计算机视觉检测器,该检测器计算可能的对象检测和相关检测的短列表当量15),太不准确而不能满足联合标准上的交叉面积的真阳性的预期数量(使用第4.2节中描述的方法计算),以及不与任何真框b r重叠的图像部分中的假阴性的预期数量化合物scores:{(bkki,cv)}|Bi,cv|. 我们选择把电脑关于后者的论述已列入补充细节,视觉像ke aw或ker,具有学习的参数[pfp,pfn,σcv]。空间限制。CV CV主要的区别是我们把假阳性参数pfp,其具有作为其检测得分的函数的正确性概率的每个边界框预测5. 实验我们使用了我们方法的现场版本来收集零件,NABIrds数据集。 此外,我们进行了消融术,ki,cv. 首先将检测的短列表与框进行研究二进制数据集,部分,和边界框和-在预测的标签中y<$i={br}|B我|. 令rk是1或-1基于真实MTurk模拟结果的符号i r=1i,cv如果检测到方框bk是否与盒子匹配工人注释。计算机视觉工作者1预测地面实况计算机视觉工作者1工人2预测地面实况,mMY7484IJ我也是。检测分数被转换为使用普拉特缩放和验证集的概率在第3.2.推断真实标签和分配:我们设计了一个近似算法来求解最大似然标签y<$i(等式2)。4)同时解决最佳的,因为-评价方案:对于每幅图像,我们收集了大量的MTurk注释,用于通过以随机顺序添加MTurk注释来模拟结果。对于病变研究,我们对算法1的部分进行了如下削弱:1)我们删除了在线众包-赋值变量ak工人和地面实况之间的关系通过简单地在整个数据集上运行第7-147485100方法比较7000多个注释600050004000十比一3000200010-20 2 4 6 8 10 12141000002 4 6 8 101214每个图像的平均人工数量(a) 二元方法比较每个图像的(b) 二进制#人类注释(c) 二元定性示例图4:众包二进制分类注释:(a)方法比较。我们的完整模型prob-worker-cvonline-0.02获得的结果与典型基线一样好,15个工人(多数投票和prob)只使用1。平均每个图像37个工人。(b)每个图像所需的人工注释数量的直方图。(c)左边的图像表示平均注释情况,其中仅需要计算机视觉标签和一个工人标签来自信地标记图像。右边的图像(不是蝎子)代表了一个困难的情况下,许多工人不同意的标签。每个图像有k个工作者并且扫过k的选择,2)我们通过使用全网先验去除了工人技能,图像难度模型,3)我们通过使用标签先验p(yi)而不是计算机视觉估计来去除计算机视觉。配偶p(yi|xi,θ)。作为基线,多数票法在图4a、5a、5c中显示了我们认为最众包的标准和常用方法/基线。对于二进制注释,这将选择具有最多工人投票的标签。对于零件,它选择中间工人零件位置(即,以最小损失匹配大多数其他工作者注释的一个)。同样的基本方法用于边界框,如果大多数工作者绘制了一个可以与之匹配的框,则添加一个框。图4a、5a、5c示出了不同损伤方法的结果。在每个方法名称中,标记worker意味着使用了工人技能和图像难度模型,标记online意味着使用了在线众包(参数τ= 0)。005,除非方法名称中出现不同的数字),标签cvnaive意味着使用了一种结合计算机视觉的朴素方法(通过将计算机视觉视为人类工作者,参见第二节。3.2),标签cv意味着第3.2节中描述的计算机视觉概率。使用4.1-4.2、4.3二进制注释:我们收集了3个数据集(蝎子,烧杯和羊毛衫),我们认为这代表了ImageNet[5]和CUB- 200-2011[41]等数据集的收集方式。对于每个类别,我们通过搜索类别名称收集了4000张Flickr图像。要求每个图像15名MTurker过滤搜索结果。我们通过自己仔细注释图像来获得地面真值标签图4a总结了蝎子类别的性能(这是典型的,更多类别的结果见补充材料),而图4b总结了蝎子类别的性能。4c是定性的例子。完整模型prob-worker-cvonline-0.02获得的结果与15名工人(大多数-vote and prob)仅使用1。平均每个图像37个工人。方法prob-online对应于Welinder等人的在线众包方法。[45]使用五、1个工人,导致错误为0。045;我们的全方法prob-worker-cvonline-0.005获得了较低的误差0。041只有一个93个工人一张图片。我们看到,结合工人技能模型将收敛误差降低了约33%(将prob-worker与majority-vote或prob进行比较)。添加在线众包大约将获得可比错误所需的注释数量减半(比较prob-worker-online与prob-worker-online)。prob-worker)。添加计算机视觉将每张图像的注释数量减少了2倍。4、比较--错误( 比 较 prob-worker-cvonline-0.005 和 prob-worker-online)。 它还减少了一个因素的注释为1. 8与使用计算机视觉的朴素方法(prob-worker-cvnaive-online)相比,表明使用计算机视觉置信度估计是有用的。有趣的是,在Fig.4b我们看到,增加计算机视觉使得许多图像能够在没有工人标签的情况下被自信地预测。最后,比较prob-worker-cvonline-0.02 到prob-worker-cvonline-0.005,误 差为 0。 051和0。041和1。37对1 每个图像93个工作者,我们看到误差容限参数τ提供了一个直观的参数来权衡注释时间和质量。边界框注释:为了评估边界框符号,我们使用了加州理工学院路边行人数据集的1448个图像子集[11]。我们从数据集的创建者中获得了每幅图像的地面实况注释和7个MTurk注释我们使用0.5 IOU重叠标准对所有假阳性和假阴性产生错误在图5a中,我们看到完整模型prob-worker- cvonline-0.02获得了比多数投票略低的错误,同时每个图像仅使用1.97个工人。这是令人鼓舞的,因为大多数公开的众包prob-worker-cv-online-.02prob-worker-cv-online-.01prob-worker-cv-online-.005prob-worker-cv-naive-online prob-worker-onlineprob-onlineprob-worker-cvprob-worker多数票1工人预测:蝎子地面真相:蝎子14工人预测:蝎子地面真相:不是蝎子prob-worker-cv-online-.005prob-worker-cv-online-.005 prob-worker-online图像计数误差7486101100十比一方法比较1000800600400200多个注释十比一0.090.080.070.06方法比较250002000015000100005000多个注释10-20 1 2 3 4 5 600 1 234 5 6 70.05012345678 9001 23456789 10每个图像每个图像的每个图像每个部件的平均人工数量每个部件的(a) BBox方法组件(b) BBox #人类注释(c) 部分(d) 部分图5:众包多对象边界框和部件注释:(a)我们的完整模型prob-worker-cvonline-0.02获得了比多数投票略低的错误,而每个图像仅使用1.97个工人。(b)每个图像的人类注释者的数量的直方图(c)工人技能模型(prob-worker)使多数投票基线的错误减少了10%,在线模型将注释时间缩短了大约一半。(d)每个部分的人类注释者数量的直方图用于边界框注释的工具使用简单的众包方法。建立概率模型(将prob与多数投票进行比较)将误差降低了2倍,表明考虑假阳性和假阴性框的概率以及绘制框边界的精度是有用的。在线众包将每张图像所需的工人数量减少了1.7倍,而不会增加错误(将prob-worker-online与prob-worker进行比较),而添加计算机视觉(方法prob-worker-online-.005)将注释减少了29%。检查图5b,我们看到计算机视觉允许许多图像被单个人类工作者自信地注释。朴素的计算机视觉方法prob-worker-cvnaive-online和我们更复杂的方法一样有效。零件注释:为了评估部件关键点注释,我们使用了NABirds数据集的1000个图像子集[34],在[ 34 ]中进行了详细的分析,将专家与MTurkers进行了比较。该子集包含11个语义关键点位置的每个图像的10个MTurker标签以及专家部件标签。虽然我们的算法独立地处理每个部分,但我们报告了所有11个部分的平均误差,使用第二节中定义的损失。四点二。我们没有为零件实现计算机视觉算法;然而,数据集的创建者使用我们算法的变体(prob-worker-online)来收集其公布的部分注释(55,000个图像上的11个部分),平均每个部分仅使用2.3个worker注释。在图5c中示出了对1000个图像子集的模拟结果。我们看到,工人技能模型(prob-worker)在大多数投票基线上减少了10%的错误,在线模型将注释时间缩短了大约一半,大多数部分只需2个工人点击即可完成(图2)。第4b条)讨论和失败案例:所有的众包方法都会导致一定程度的错误,当人群标签收敛到与专家标签不同的东西时。最常见的原因是模糊的图像。考试-事实上,大多数MTurker错误地认为蝎子蜘蛛(一种类似蝎子的蜘蛛)是真正的蝎子。当对象从前视图旋转到后视图时,零件注释的可见性可能变得模糊不清然而,我们方法的所有变体(有和没有计算机视觉,有和没有在线众包)都比多数投票(通常用于许多计算机视觉数据集)产生更高的质量注释注释质量的提高主要来自建模工人的技能。在线众包可能会增加注释错误;然而,它使用一个可解释的参数来权衡注释时间和错误。计算机视觉还减少了注释时间,随着数据集大小的增加,会有更大的收益。6. 结论在这项工作中,我们引入了众包算法和在线工具,用于收集二进制,部分和边界框注释。我们发现,系统的每个组件在未来的工作中,我们计划将该方法扩展到其他类型的注释,如分割和视频,使用推断的工人技能参数来阻止垃圾邮件发送者或选择哪个工人应该注释图像,并结合主动学习标准来选择接下来要注释的图像或在不同类型的用户界面之间进行选择。鸣 谢 : 本 文 的 灵 感 来 自 于 Peter Welinder 和 BorisBabenko的工作和早期合作。非常感谢Pall Gunnarsson帮助开发了该方法的早期版本感谢David Hall为边界框实验提供数据这项工作得到了谷歌重点研究奖和海军研究办公室MURI
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功