没有合适的资源?快使用搜索试试~ 我知道了~
深度强化学习的人员重新识别方法
6122† ‡§†‡深度强化主动学习用于人在环人员重新识别⋆ ⋆刘子墨 王静雅 ,龚绍刚,胡川路 *,陶大成†大连理工大学,‡UBTECH Sydney AI Center,The University of Sydney,§伦敦玛丽女王大学lzm920316@gmail.com,jingya.wang @ sydney.edu.au,s.gong@wwwqmul.ac.uk example.com,wwwlhchuan@dlut.edu.cn. com,dacheng.tao@wwwsydney.edu.au摘要大多数现有的人员重新识别(Re-ID)方法基于大量预先标记的数据通常是可用的并且可以一次全部放入训练短语的假设来实现优异的然而,这种假设并不适用于Re-ID任务的大多数实际部署。在这项工作中,我们提出了一种基于强化学习的人在环模型,它释放了预标记的限制,并通过逐步收集的数据保持模型升级。目标是最大限度地减少人工注释工作,同时最大限度地提高Re-ID性能。它通过交替地细化RL策略和CNN参数来在迭代更新框架中工作。特别是,我们制定了一个深度强化主动学习(DRAL)方法,以指导代理(强化学习过程中的模型)在选择训练样本的飞行由人类用户/注释器。强化学习奖励是每个人类选择样本的不确定性值。由人类注释者标记的二进制反馈(正或负)用于选择样本,该样本用于微调预训练的CNN Re-ID模型。大量的实验表明,与现有的无监督和迁移学习模型以及主动学习模型相比,我们的DRAL方法对于基于深度强化学习的人在回路中的人Re-ID的优越性。1. 介绍人员重新识别(Re-ID)是在分布在不同位置的非重叠相机视图上匹配人员的问题大多数现有的有监督人Re-ID方法采用一次训练和部署方案,即手动收集和注释成对训练数据* 通讯作者同等贡献人类注释器图1:深度强化主动学习(DRAL)的示意图。对于每个查询锚(探针),代理(强化主动学习器)将在主动学习过程中从图库池中选择顺序实例以用于具有二元反馈(正/负)的人工注释在学习一个模型之前,基于这一假设,监督Re-ID方法近年来在几个基准上取得了进展[21,56,35,52,25]。然而,在实践中,由于以下几个原因,这种假设并不容易适应:首先,成对的行人数据是禁止收集的,因为它是不可能的,大量的行人可能会重新出现在其他相机视图。其次,摄像机视图数量的增加加大了在多个摄像机视图中搜索同一个人的难度。为了解决这些困难,一个解决方案是设计无监督学习算法。一些工作开始关注无监督Re-ID的迁移学习或域自适应技术[11,44,28]。然而,与基于监督学习的模型相比,基于无监督学习的Re-ID模型本质上较弱,从而在任何实际部署中损害了Re-ID的有效性。另一种可能的解决方案是遵循半监督学习方案,该方案降低了对数据注释的要求。成功的研究已经完成了基于词典学习[27]或自定进度学习[14]的方法。这些模型仍然基于一个强烈的假设,即身份的一部分(例如,的三分之一动作At国家奖励剂查询锚St$t$t%&St%&无标号图库库标签查询6123训练集)被完全标记用于每个相机视图。这对于在城市应用中典型的具有数百个摄像机和24/7操作的Re-ID任务来说仍然是不切实际的为了实现有效的Re-ID,给定注释的有限预算成本,我们专注于人在回路中的人Re-ID,其具有通过人的实时反馈进行的选择性标记[43]。这种方法不同于常见的一次性模型学习方法。相反,一个逐步的顺序主动学习过程,通过探索人类的选择性注释上的一个小得多的样本池模型学习。这些通过人工二进制验证的累积标记数据用于更新模型训练以改善Re-ID性能。这种模型学习的方法自然适合于强化学习和主动学习,这是这项工作的重点。主动学习是一种用于即时人类数据注释的技术,其旨在主动采样更具信息性的训练数据,以优化模型学习,而无需过度的数据标记。形式上,从未标记的集合中选择一些实例,然后由人类预言机进行注释,并且标签信息可以用于模型训练。这些操作将重复多次,直到它满足终止标准,例如注释build-get已耗尽。在这个过程中最关键的是样本选择策略。来自较少人工注释成本的更多信息样本可以极大地有益于性能。我们提出了一个基于强化学习的标准,而不是手工设计策略图1展示了我们对深度强化主动学习(DRAL)模型的设计。具体来说,我们开发了一个模型,在一个单一的人在环模型学习框架中引入主动学习(AL)和强化学习(RL)。通过将我们模型的AL部分表示为序列生成过程,由于每个动作影响未标记数据池之间的样本相关性(在每个步骤中重新计算相似性),因此它将影响下一步的决策通过将所选样本带来的不确定性作为客观目标,我们模型的RL部分旨在学习一个强大的样本选择策略,给出人类反馈注释。因此,从RL策略中选择的信息样本可以显著提高Re-ID的性能,从而增强样本选择策略的能力。迭代训练方案将导致强Re-ID模型。这项工作的主要贡献是:(1)我们引入了一个深度强化主动学习(DRAL)模型,该模型旨在在单个CNN深度学习框架中联合探索强化学习和主动学习原理。(2)我们为人在环人员Re-ID设计了一个有效的DRAL模型,使得深度强化主动学习器(代理)可以直接在CNN深度网络上促进人在环主动学习策略大量的对比实验清楚地表明,所提出的DRAL模型在可伸缩性和注释成本方面优于现有的监督和转移学习方法,优于现有的半监督、非监督和主动学习方法,具有显著的性能增益,同时使用少得多的注释。2. 相关工作人员重新识别Person Re-ID任务旨在在多个摄像机视图中搜索相同的人。最近,大多数人都采用Re-ID方法[50,45,8,10,33,38,7,53,19,5,51,9,39,36]尝试在监督学习框架下解决这个问题,其中训练数据被完全注释。尽管这些方法实现了高性能,但它们的大注释成本不容忽视。为了解决标签成本高的问题,一些研究人员提出只使用少量标签样本或不使用任何标签信息来学习模型。代表性算法[32,48,2,55,23,44,28,46]包括域转移方案、组关联方法和一些标签估计方法。除了上述方法之外,一些研究人员旨在减少人在回路(HITL)模型学习过程中的注释成本。当只有少量带注释的图像样本时,HITL模型学习可以通过在模型训练、调整或测试的循环中直接涉及人类交互来提高模型性能。随着人类群体校正机器学习预测中发生的不准确性,模型可以被有效地校正,从而导致更高的结果。这种情况听起来类似于人员Re-ID任务的情况,其预标记信息难以在图库候选大小远远超过查询锚的图库候选大小的情况下获得。受此启发,Wang等人。[43]制定了一种人类验证增量学习(HVIL)模型,旨在通过灵活的人类反馈实时连续优化距离度量。该模型采用灵活的人工反馈(真、假、假但相似),能够涉及更多的信息,并以渐进的方式提高性能。AL和RL。 主动学习引起了人们的广泛关注在过去的几十年里,它已经在自然语言处理(NLP)、数据标注和图像分类中得到了广泛的应用,任务[41,6,4,31]。它的过程可以被认为是人在环设置,这允许算法交互式地查询人类注释者,其中实例被识别为整个未标记数据池中信息量最大的样本。这一工作通常是通过使用一些启发式的选择方法,效果有限因此,一些研究人员旨在通过将主动学习框架为强化学习问题来明确优化选择策略来解决启发式选择方法 [15]而不是采用,6124✗#t$1St$100.830.710.660.47剂✓✗✗0.8300.8500.8700.710.850000✗00.830.710.660.470.66000000.8300.8500.8700.470.87000 0.770.360000.77 0&0.710.850000true或false行动不0.6600000状态StFcFc Fc成对注释数据相似性0.470.87000 0.77K-倒数0.36 0000.77 0CNN()下一页CNN更新状态query()Q用于样本选择的深度强化主动学习器图2:深度强化主动学习(DRAL)框架:状态度量所有实例之间的相似关系。动作确定哪个图库候选将被发送给人工注释器进行查询。奖励是根据不同的人类反馈计算的。采用CNN进行状态初始化,并在部署模型时通过人工注释器在循环中动态注释的成对数据进行更新。这个迭代过程在达到注释预算时停止。ing一个固定的启发式选择策略,方等人。执行以学习深度Q网络作为自适应策略来选择用于标记的数据实例。Woodward等人。 [47]试图通过制定一种主动学习方法来解决一次性分类任务,该方法将元学习与深度强化学习相结合。通过这种方法学习的代理这些成功的应用表明,强化学习非常适合主动学习。3. 方法3.1. 基本CNN网络我们采用Resnet-50 [20]架构作为ImageNet预训练的基础网络。为了有效地学习身份识别特征嵌入,我们同时采用交叉熵损失进行分类和三元组损失进行相似性学习。softmax交叉熵损失函数定义为:其中m是正对和负对的容限参数最后,总损失可通过下式计算:L总=L交叉+L三(3)3.2. 深度强化的主动学习者的试剂所提出的DRAL的框架如图2所示,其中当每个查询实例到达时,我们将其n个s-最近邻视为未标记的图库池。在每个离散时间步长t,环境提供揭示实例关系的观察状态St,对于动作At=gk,它请求由hu- man oracle注释的未标记的图库池中的第k个实例,hu- man oracle用二进制反馈true或false1Lcross=−Σnblog(pi(y))(1)针对查询。重复此操作,直到耗尽每个查询的最大注释量当nbi=1其中,nb表示批次大小,并且pi(y)是输入图像的地面实况类y上的给定三元组样本xa,xp,xn,xa是锚点。xp是同一类xa中最难的正样本,xn是不同类xa中最难的负样本。最后,我们定义三重态损失如下:Σnb获得足够多的成对标记的数据,CNN参数能够通过三元组损失函数被更新,这反过来为引入的数据生成新的初始状态通过迭代执行样本选择和CNN网络更新,该算法可以快速升级。当所有查询实例都被浏览一次时,此进程终止。关于所提出的主动学习器的更多细节在下文中揭示。为了澄清我们的模型公式,表1和算法-Ltri=xa,xp,x n[Dxa,xp−Dxa,xn+m](2)公式1给出了符号的定义和整个方法的过程,分别。6125τp←τ ∪(q,gk)pKKD表1:符号的定义。响应图库候选集合g={g1,g2,…gns},可以经由CNN网络提取Re-ID特征,其中ns是图库候选的预定义数量。每两个样本之间的相似度值Sim(i,ji,j(ij)然后计算为JSim(i,j)=1− imaxdj(四)i,j∈q,giJ算法1DRAL输入:agentπ,CNN权重w,τr(大小n),τp=π对于i=1:n,来自r的示例查询q和图库池g而t KmaxS t←(Sim,R(n i,k))经由等式4-8Aτt:gk←π(St),请求对(q,gk)的标签(Rt,Sim)←(St,At)9end whileoptimizeπ← arg max E[Rt + γRt+1+. ]π其中di是i,j的马氏距离,否则设置为0。执行k-倒数运算[57]以构建稀疏相似性矩阵。对于相似矩阵Sim的任一节点ni∈(q,g),其上κ-最近邻定义为N(ni,κ).然后,通过下式获得ni的κ-倒易邻居R(ni,κ):R(ni,k)={xj|(ni∈N(xj,κ))<$(xj∈N(ni,κ))}(5)与先前的描述相比,k-倒数最近邻居与节点n1更相关,其相似性值保持不变,否则被分配为零。然后将此稀疏相似矩阵作为初始状态并导入策略网络进行动作选择。一旦动作被采用,状态值将被相应地调整以更好地揭示样本关系。为了更好地理解状态值的更新,我们在图3中示出了一个示例。对于在时间t处的状态St,操作-经过几步后,用τp优化w端经由策略网络最佳动作At=gk其指示将选择图库候选gk用于由人工注释器查询。二进制反馈是假设yt={1,−1},这表明gk是位置。3.2.1行动操作集定义从未标记的库池中选择一个实例,因此其大小与库池相同查询实例的正对或负对。因此,q和gk之间的相似度Sim(q,gk)将被设置为.1,yt= 1在每个时间步t,当遇到当前状态时St,代理根据其策略决定要采取的操作Sim(q,gk)=K0,yt=−1(六)冰π(At|St)。因此,未标记库池的At一旦执行At=gk的终止准则该过程取决于限制每个查询锚的最大注释量的预定义Kmax还将重新计算剩余图库样本gi、i k和查询样本的相似性,其旨在放大肯定之间的距离并推远否定之间的距离。因此,在正反馈的情况下,相似性Sim(q,gi)是gi与(q,gk)之间的平均得分,其中3.2.2状态Sim(q,g)=Sim(q,gi)+Sim(q,gk)(七)I2通过挖掘数据点之间的结构关系,图相似性已被广泛用于主动学习框架[16,30通常,采用稀疏图,其仅将数据点连接到其最相似的邻居中的一些,以利用它们的上下文信息。在这项工作中,我们还构建了一个稀疏的相似性图之间的查询和图库样本,并把它作为状态值。有一个被查询的锚点q和它的对应否则,相似度Sim(q,gi)将仅在gk和gi之间的相似度大于阈值thred时被更新,其中Sim(q,gi)= max(Sim(q,gi)-Sim(gk,gi),0)(8)之后还将采用k-倒数操作,并且然后获得更新的状态符号描述At,St,Rt时间tτr,n车组及其规模τp成对注释数据集Sim(i,j)样本i,j之间的相似性DJ我i,j的马氏距离q、g、k查询,第k个图库候选ytK时间t时gk的二进制反馈Xt,Xtp n阳性/阴性样本批次直至时间tKmax注释每个查询ns作用大小κ互逆运算6126St+16127DpGKnk gkgk1/&/01/&注释器真匹配K-倒数/5个K-倒数(K=2)00.83 0.71 0.66 0.470.36#t:g&S((q;g&:5)S((g; g0:5)St.&0.8300.8500.870剂0.710.850 0 0 0K-倒数0.660 0 0 0 00.470.870 000.77假匹配0.360000.770StS((q;g&:5)St(/;/0:5)>thred图3:不同人类反馈的状态更新示例,旨在缩小与负样本高度相关的实例之间的相似性,并扩大与正样本高度相似的实例之间的相似性带有黄色背景的值是导入到代理中的状态。3.2.3奖励标准的主动学习方法采用不确定性测量、假设不一致或信息密度作为分类[4,18,58,49]和检索任务[17,3]的选择函数在这里,我们使用数据不确定性作为强化学习策略的目标函数。对于数据不确定度测量,较高的不确定度表明样本较难区分。根据[42]的相同原理,扩展了三重损失公式以模拟检索任务中的异方差不确定性,我们执行了类似的硬三重损失[21]。来衡量数据的不确定性设Xt,Xt表示由人类oracle标记,并且这些成对数据将被添加到更新的训练数据池。然后使用微调逐渐更新CNN网络我们使用三重损失作为目标函数,当涉及更多的标记数据时,模型变得更强大,更智能。更新后的网络用于Re-ID特征提取,这反过来有助于状态初始化的升级。当训练数据池中的每个图像都被我们的DRAL代理浏览过一次时,我们用固定的注释预算4. 实验p n直到时间t获得的阳性和阴性样品批次,4.1. 数据集和设置x是度量任何两个样本g,k和x之间的马氏距离的度量函数。然后计算奖励为Rt=[m+yt(maxdxi−mindxj)]+(9)xi∈Xtxj∈Xt其中,[·]+是至少为marginm的软裕度函数。 因此,所有未来的奖励(Rt+1,Rt+2,. )在时间t处被因子γ贴现可以被计算为Q= max E [Rt+ γRt+1+ γ2Rt+2···|π,St,At]π(十)一旦Q*被学习,最优策略π*可以通过选择具有最大Q值的动作3.3. CNN网络更新对于每个查询锚点,通过建议的DRAL代理主动选择几个样本,并手动进行分析。对于实验评估,我们报告了大规模和小规模人员重新识别基准的结果,以进行稳健分析:(1) Market-1,501 [54]是广泛适应的大规模re-id数据集,其包含由可变形部分模型行人检测器获得的1,501个身份。它包括从校园中的6个非重叠相机视图获得的32,668个图像,其中751个身份的12936个图像用于训练。在测试阶段,使用3368个查询作为查询集,在剩余的候选中搜索真正的匹配。(2) CUHK 01 [24]是一个引人注目的小规模re-id数据集,它由来自两个相机视图的971个身份组成,每个身份在每个相机视图中有两个图像,因此总共包括3884个手动裁剪的图像。整个数据集被分成两部分:485个用于训练的身份和486个用于测试的身份。…0.850.420.870.78010.78 0.54 0.67 0.350.83100.85 0.67 0.87 0.780.71+/20.78 0.8500.55 0.45 0.320.660.54 0.42 0.5500.67 0.330.470.67 0.87 0.45 0.6700.770.360.35 0.78 0.32 0.33 0.77000.83 0.71 0.66 0.47 0.360.8300.85 0.42 0.87 0.780.71 0.8500.55 0.45 0.320.66 0.42 0.5500.67 0.330.47 0.87 0.45 0.6700.770.36 0.78 0.32 0.33 0.770010.78 0.54 0.67 0.3510000.8700.78000000.54000000.67 0.870000.770.350000.7700000.66 0.47 0.350.83000.85 0.42 0.87 0.780.71-0.85maxout(0)00.8500.55 0.45 0.320.6600.66 0.42 0.5500.67 0.330.470.8700.87 0.45 0.6700.770.360.7800.78 0.32 0.33 0.7700000.6600000.8500.87000.8500000.660000000.870000.7700000.7706128(3) DukeMTMC-ReID(Duke)[34]是最受欢迎的大规模re-id数据集之一,它由从8个不同相机视图捕获的36411个行人图像组成。其中,16522幅图像(702个身份)用于训练,2228幅图像(702个身份)作为查询,从剩余的17661幅图像中检索。评估协议在该方法中采用两个评估指标来评估Re-ID性能。第一个是累积匹配特征(CMC),第二个是平均平均精度(mAP),把人的重新识别任务作为一个对象检索问题。实施详情。我们在Pytorch 框架中实现了所提出的DRAL方法。我们通过使用Adam优化器以5E- 4的学习率,通过60个epoch(在Duke上对Market 1501和CUHK01进行预训练,在Market 1501上对Duke进行预训练)最终FC层输出特征向量(2,048-D)通过将所有训练图像的大小调整为256×128。所提出的方法中的策略网络由设置为256的三个FC层拟议的DRAC模型被随机初始化,然后以2 E-2的学习速率进行优化,并且(Kmax, ns,κ)默认设置为(10,30,15)。平衡参数thred和m分别被设置为0.4和0.2每25%的训练请求都经过人工注释器的审查,我们就开始微调CNN网络,学习率为5E-6。4.2.与无监督/迁移学习/半监督方法的比较人在环人员重新识别不需要预先标注数据,而是一点一点地接收用户对输入查询的反馈。对许多图库实例进行标记是可行的,但为了减少人工注释成本,我们使用主动学习技术进行样本选择。因此,我们将所提出的DRAL方法与一些基于主动学习的方法和基于无监督/转移/半监督的方法进行比较,在表中,我们使用'uns/trans/semi','active'来指示训练风格。此外,报告的基线结果通过直接采用预训练的CNN模型来计算,并且上限结果指示模型在具有完全监督的训练数据的数据集上被微调。对于无监督/转移学习和半监督设置,选择十六种最先进的方法进行比较,包括UMDL [32],PUL [14],SP-GAN [11] ,Tfusion [28] ,TL-AIDL [44] ,ARN [26],[23]第24话:你是谁?[24][13]第52话:在表2、3和4中,我们示出了Market1501 [54]、Duke [34]和CUHK 01 [24]数据集上的秩-1、5、10匹配准确度和mAP(%)性能,其中我们的ap-10的结果是最佳的表2:在Market 1501数据集上使用一些无监督、半监督和自适应方法的Rank-1、5、10准确度和mAP(%)。风格方法Market1501地图R-1R-5R-10联合国UMDL [32]22.434.552.659.6PUL [14]20.745.560.766.7SPGAN [11]26.958.176.082.7TFusion [28]-60.7574.479.25[44]第四十四话26.558.274.881.1ARN [26]39.470.380.486.3TAUDL [23]41.263.777.782.8骆驼[48]26.354.5--SSDAL [40]19.636.4--SPACO [29]-68.3--单示例器[13]26.255.872.378.4[第52话]46.57---活性随机35.1558.0279.0785.78[22]第二十二话44.9967.8485.6991.12QBC [1]46.3268.3586.0791.15全球司[12]49.371.4487.0591.42[43]第四十三话-78.0--我们基线20.0442.7962.3270.04上界73.2587.9595.2596.79DRAL66.2684.294.2796.59表3:在Duke数据集上使用一些无监督、半监督和自适应方法的秩-1,5,10准确度和mAP(%)。风格方法公爵地图R-1R-5R-10联合国UMDL [32]7.317.128.834.9PUL [14]16.430.043.448.5SPGAN [11]26.246.462.368.0[44]第四十四话23.044.3--ARN [26]33.460.273.979.5TAUDL [23]43.561.7--骆驼[48]-57.3--单示例器[13]28.548.863.468.4活性随机25.6844.763.6470.65[22]第二十二话36.7856.7874.1579.31QBC [1]40.7761.1377.4282.36全球司[12]33.5853.569.9775.81我们基线14.8728.3243.2750.94上界60.9377.9688.6991.61DRAL5674.2884.8388.42在大胆的追求。该方法在rank-1和mAP上分别达到了84.2%和66.26%,优于第二好的无监督/转移/半监督方法6129表4:在CUHK 01数据集上使用一些无监督和自适应方法的秩-1、5、10准确度和mAP(%)。风格方法中大01地图R-1R-5R-10联合国通讯社[37]第三十七话-22.435.947.9UCDTL [32]-32.1--骆驼[48]61.957.3--[第28话]-60.7574.4479.25活性随机52.4651.0371.0981.28[22]第二十二话56.9554.8476.8585.29QBC [1]58.8857.180.0486.83全球司[12]54.7952.3775.2183.44我们基线45.5543.2165.7473.46上界79.9679.2293.0095.37DRAL71.5274.0788.9993.93在Market1501 [54]基准上分别增长13.9%和19.69%。对于Duke [34]和CUHK01 [24]数据集,DRAL也取得了相当好的性能,秩1匹配率为74.28%和74.07%。这些结果清楚地证明了我们的主动样本选择策略的有效性,并表明,没有注释大量的训练数据,一个良好的重新识别模型可以有效地建立DRAL方法。4.3. 与主动学习的比较除了上面提到的方法之外,我们还比较了一些基于主动学习的方法,这些方法在训练期间涉及人机交互。我们选择四种主动学习策略作为比较,通过与我们的方法相同的框架来训练模型,其中执行这些主动样本选择策略和CNN参数更新的迭代过程,直到实现注释预算。这里,通过报告的主动学习方法选择了整个训练样本的20%(约4%对),这表明分别将388,2588,3304设置为CUHK01 [24],Market1501 [54]和Duke [34]数据集的终止注释预算。除了这些主动学习方法,我们还将性能与另一种主动学习方法HVIL [43]进行了比较,该方法在人在环设置下运行实验。这些方法的细节描述如下:(1)随机,作为基线主动学习方法,我们随机选取一些样本进行查询;(2)查询实例不确定性[22](QIU),QIU策略选择具有最高不确定性的样本进行查询;(3)委员会查询[1](QBC),QBC是一种非常有效的主动学习方法,它学习假设的集合并查询引起委员会之间最大分歧的实例;(4) 图密度[12](GD),GD的主动学习是一种算法,它构建图结构以识别高度连接的节点并确定最具代表性 的 数 据 用 于 查 询 。 (5) 人 工 验 证 增 量 学 习 [12](HVIL),HVIL使用人在环设置进行训练,该设置在模型训练期间接收软用户反馈(真,假,假但类似),要求注释器标记每个查询实例的前50个候选项。表2、3、4将来自主动学习模型的秩-1、5、10和mAP率与DRAL进行比较,其中基线模型结果来自直接采用预先训练的CNN模型。从这些结果中我们可以看出,(1)所有的主动学习方法都比随机选取策略有更好的表现,这验证了主动样本选择确实有利于个人的Re-ID性能。2)DRAL优于所有其他主动学习方法,在CUHK01[24],Market1501 [54]和Duke [34]数据集上,秩1匹配率超过第二好的模型QBC,HVIL和GD 16.97%,6.2%和13.15%,并且注释成本要低得多。这表明,DRAL是更有效的比其他主动学习方法的人Re-ID通过引入的政策作为样本选择策略。4.4. 不同注释成本的比较在这项工作中,成本是衡量通过图像对之间的注释数。对于训练集大小为n的情况,全监督设置的成本将为n<$(n-1)/2和10μ mol/L用于报告的DRAL结果。因此我们的DRAL注释约0.12%(Duke [34]),0.15%(Mar-ket1501 [54])和1%(CUHK01 [24])对。我们进一步比较了所提出的DRAL方法在不同数量的标记数据(由Kmax表示)与三个报告数据集上的完全监督学习(上限)的性能。随着训练数据量的增大,标注所有数据的代价呈指数增长。在这些结果中,基线是通过直接使用预训练的CNN进行测试来获得的。对于完全监督的设置,所有训练数据都被注释,它能够用三重损失和交叉熵损失来微调CNN参数,以寻找更好的性能。对于DRAL方法,我们在表5中给出了Kmax设置为3、5和10时的性能。如可以观察到的,1)具有更多注释的数据,模型随着注释成本的增加而变得更强。随着每个查询的注释数从3增加到10,rank- 1匹配率分别提高了13.37%、8.72%和15.43杜克大学[34]、Market1501 [54]和CUHK01 [24]基准。2)与完全监督设置相比,所提出的主动学习方法仅显示出落在每个数据集上的约4%的秩-1准确度然而,DRAL的标注成本远低于监督的。6130表5:在三个报告的数据集上直接采用(基线),完全监督学习(上限)和具有不同Kmax的DRAL的Rank-1准确度和mAP(%)结果,其中n表示每个基准的训练实例数。通过每两个样本的标记行为的次数来计算注释成本。方法公爵Market1501中大01成本地图R-1R-5R-10地图R-1R-5R-10地图R-1R-5R-10基线14.0528.3243.2750.9418.9642.7962.3270.04 41.5943.2165.7473.46043.8264.7778.1982.8152.575.4889.993.26 55.7158.6477.7885.6n*3DRAL51.4870.5184.1687.4359.7181.0693.2195.166.9870.0687.1491.87n2055674.2883.4388.4266.2684.294.2796.59 71.5274.0788.9993.93n*10上界60.9377.9688.6991.6173.2587.9595.2596.79 79.9679.2293.0095.37n*(n −1)/21009080706050403020100mAP秩-10 1 2 3 4迭代1009080706050403020100mAP秩-10 1 2 3 4迭代1009080706050403020100mAP秩-174.18 74.0767.958.4471.27 71.5264.7343.2156.3241.590 1 2 3 4迭代(a) Market1501(b)Duke(c)中大01图4:相对于(a)Market 1501,(b)Duke和(c)CUHK 01数据集的迭代,Rank-1准确度和mAP(%)改善灰色线和绿色条(粗体数字)分别指示等级-1准确度和mAP。4.5. 迭代次数的影响主动学习的承诺是,通过迭代地增加标记数据的大小,逐渐提高模型的性能。对于每个输入查询,我们仅将标签与从DRAL导出的图库候选相关联,并采用这些成对标记的数据进行CNN参数更新。在所有数据集上的实验中,我们将迭代次数设置为固定的4。图4示出了相对于三个数据集上的迭代的秩-1准确度和mAP改进。从这些结果中,我们可以观察到,所提出的DRAL的性能主动学习器改进迅速,在所有三个基准测试的前两次迭代中,rank-1准确度增加约20% 〜 40%,并且模型性能的改进在五次迭代之后开始趋于平缓这表明,对于Re-ID人员,完全监督可能不重要。tial一旦获得了信息丰富的样品/信息,就可以通过探索运行中的样品选择策略以小得多的注释工作量为代价导出足够好的Re-ID模型5. 结论在这项工作中,我们解决了如何减少传统数据预标记的人重新识别模型训练中的人工标记工作的问题由于有限的符号成本或无法获得大量预先标记的训练数据,我们的模型设计旨在最大限度地提高Re-ID模型学习的有效性,具有少量的选择性样本标记。模型设计的关键任务是如何在固定的注释成本下选择更多的信息样本。具体来说,我们制定了一个深度强化主动学习(DRAL)方法,具有灵活的强化学习策略,为给定的输入查询选择信息然后将这些样本馈送到人类注释器中,以便模型可以接收二进制反馈(真或假)作为DRAL模型更新的强化此外,一个迭代的计划执行DRAL和Re-ID模型的更新在大规模和小规模的Re-ID基准上进行了广泛的比较评估,以证明我们的模型的鲁棒性。确认本工作得到国家自然科学基金项目No.61725202、61829102、61751212;中央高校基础研究经费(DUT 19GJ 201)视觉语义有限公司;国家留学基金管理委员会;艾 伦 · 图 灵 研 究 所 In-novate UK Industrial ChallengeProject on Developing and Commercialising IntelligentVideo Analytics Solutions for Public Safety ( 98111-571149 ) ; 以 及 澳 大 利 亚 研 究 委 员 会 项 目 : FL-170100117,DP-180103424。79.9982.7284.270.5866.2642.7959.4963.746.2918.9670.3873.5274.2857.325650.875428.3237.5214.05地图地图地图6131引用[1] 阿部直树和真见冢浩。使用boosting和bagging查询学习策略。载于ICML,1998年。六、七[2] Slawomir Bak,Peter Carr,and Jean-Francois Lalonde.通过合成进行主适应,用于无监督的人重新识别。在ECCV,2018。2[3] BjoérnBarz,ChristophK é ding,andJoachimDenzle r. 基于内容的图像检索的信息论主动学习。在PR,2018年。5[4] 威 廉 ·H Beluch , TimGen e wein , AndreasNuürnberge r ,andJanM. 科勒河集成在行为学习图像分类中的作用在CVPR,2018年。二、五[5] 作者:Timothy M. Hospedales和Tao Xiang。用于人员重新识别的多级分解网络。在CVPR,2018年。2[6] 莫伊托亚·查特吉和安东·卢斯基。一种基于主动学习的有效视频标注和检索方法。2015年,在NIPS中。2[7] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一种用于人员重新识别的深度四元组网络。在CVPR,2017年。2[8] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR,2018年。2[9] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在CVPR,2016年。2[10] Dahjung Chung,Khalid Tahboub和Edward J.德尔普一种用于人员再识别的双流连体卷积神经网络InICCV,2017. 2[11] 邓伟建,郑良,康国梁,杨毅,叶七江,焦晓.图像-图像域自适应与保留的自相似性和域相异度的人重新识别。在CVPR,2018年。1、6[12] 桑德拉·埃伯特马里奥·弗里茨和伯恩特·席勒。RALF:一种用于对象类识别的增强型主动学习公式CVPR,2012。六、七[13] 于武等以一个例子进行个人再认同的渐进式学习TIP,2019年。6[14] 范呵呵,梁铮,严成刚,杨毅。无人监管人员重新识别:聚类和微调。ACM,2018。1、6[15] 孟芳,袁力,特雷弗.科恩。如何主动学习:深度强化学习方法。在EMNLP,2017年。2[16] EyalEnGad , AkshayGadde , AmirSalmanAvestimehr,and Antonio Ortega.使用自适应和非自适应方法的加权图主动学习。InICASSP,2016. 4[17] 菲利普·亨利·戈斯林和马修·科德。交互式图像检索的主动TIP,2008年。5[18] Husheng Guo和Wenjian Wang.一种基于主动学习的SVM多类分类模型。PR,2015年。5[19] 郭一銮及张艺敏。使用多级相似性进行有效和深入的个人重新识别。在CVPR,2018年。2[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。3[21] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。CoRR,2017年。一、五[22] David
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功