没有合适的资源?快使用搜索试试~ 我知道了~
1基于全尺度特征学习的人再识别周凯阳1杨永新1AndreaCavallaro2陶翔1,31萨里大学2伦敦玛丽女王大学3三星人工智能中心,剑桥{k.zhou,yongxin.yang,t.xiang}@ surrey.ac.uka. qmul.ac.uk摘要作为一个实例级识别问题,人的重新识别(ReID)依赖于区分特征,它不仅捕获不同的空间尺度,而且封装了多个尺度的任意组合。我们把均匀尺度和非均匀尺度的特征称为全尺度特征。在本文中,设计了一种 新 的 深 度 ReID CNN , 称 为 Omni-Scale Net(OSNet),用于全尺度特征学习。这是通过设计由多个卷积特征流组成的残差块来实现的,每个卷积特征流以一定的尺度检测特征。重要的是,一种新的统一的聚集门被引入到动态融合多尺度特征与输入相关的通道式权重。为了有效地学习空间通道相关性并避免过拟合,构建块使用逐点卷积和逐层卷积。通过逐层堆叠这些块,我们的OSNet非常轻量级,可以在现有的ReID基准上从头开始训练。尽管模型尺寸很小,但我们的OSNet在六个人的ReID数据集上实现了最先进的性 能 。 代 码 和 型 号 可 从 以 下 网 址 获 得 :https://github.com/KaiyangZhou/deep-person-reid.1. 介绍人员再识别(ReID)是分布式多摄像机监控中的一项基本任务,其目标是匹配出现在不同非重叠摄像机视图中的人员。 作为实例级识别问题,人ReID面临两个主要挑战,如图2所示。1.一、首先,类内(实例/身份)变化通常由于相机观看条件的变化而很大。例如,图中的两个人图1(a)和图1(b)中的人携带背包;相机之间的视图变化(正面到背面)在背包区域中带来大其次,也有一些小...在剑桥三星人工智能中心实习(a)(b)第(1)款(c)(d)图1. Person ReID是一个很难的问题,如上面的四个三元组图像所示。每个子图从左到右显示查询图像、真匹配和冒名顶替者/假匹配。阶级差异-公共场所的人们经常穿相似的衣服;从远处看,就像通常在监控录像中一样,他们看起来非常相似(见图4中所有四个人的冒名顶替者)。①的人。为了克服这两个挑战,ReID的关键是学习区分特征。我们认为,这样的功能需要是全尺度,定义为可变的同质尺度和异质尺度的组合,其中每一从图中可以明显看出,需要全尺度特征。1.一、为了匹配人并将其与冒名顶替者区分开,特征对应于两个小的局部区域(例如,鞋、眼镜)和全局全身区域是重要的。例如,给定图1中的查询图像。1(a)(左),查看全球尺度特征(例如,一个年轻人,一件白色T恤+灰色短裤组合)将缩小搜索范围到真正的匹配(中间)和冒名顶替者(右)。现在,局部尺度的特征开始发挥作用-鞋区域泄露了一个事实,即右边的人是一个冒名顶替者(教练vs。凉鞋)。然而,对于更具挑战性的情况,即使是可变同质尺度的特征也不够。需要跨越多个尺度的更复杂和更丰富的例如,为了消除图中的冒名顶替者1(d)(右),人们需要的功能,代表一个白色的T恤与特定的标志在前面。注意37023703该标志本身并不独特-同样,白色T恤在夏天到处都是(例如:图1(a))。这是独特的组合,由跨越小(标志大小)和中等(上身大小)尺度的异质特征捕获,使特征最有效。然而,现有的ReID模型都没有解决全尺度特征学习。近年来,深度卷积神经网络(CNN)已被广泛用于人ReID中,以学习区分特征[2,26,28,38,43,57,58,69]。然而,大多数采用的CNN,如ResNet[12],最初是为基本的对象类别级识别任务设计的。R=3多尺度全尺度与ReID中的实例级识别任务不同。对于后者,如前所述,全尺度特征更为重要。也存在学习多尺度特征的一些尝试[30,2]。然而,没有人有能力学习同质和异质尺度的特征。在本文中,我们提出了OSNet,一种新的CNN架构,旨在学习全尺度特征表示1。基础构建块由具有不同感受野的多个卷积特征流组成(见图1)。2)的情况。每个流聚焦的特征尺度由指数确定,指数是一个新的维度因子,在流之间线性增加,以确保在每个块中捕获各种尺度。关键是,所得到的多尺度特征图通过由统一的聚集门(AG)生成的通道权重AG是在所有流之间共享参数的子网络,具有用于有效模型训练的许多期望的特性。利用可训练的AG,生成的通道权重变得依赖于输入,因此动态尺度融合。这种新颖的AG设计允许网络学习全尺度特征表示:根据特定的输入图像,门可以通过为特定的流或尺度分配主导权重来关注单个尺度;或者,它可以选择和混合,从而产生异构尺度。除了支持全方位的特征学习之外,OSNet中采用的另一个关键设计原则是设计轻量级网络。这带来了几个好处:(1)ReID数据集通常具有中等大小,这是由于在收集跨相机匹配的人图像中的困难。因此,具有少量模型参数的轻量级网络不太容易过拟合。(2)在大规模监视应用中(例如使用数千个摄像头的全市监控),ReID最实用的方法是在摄像头端进行特征提取。 无需将原始视频发送到中央服务器,只需发送特征。对于设备上处理,小型ReID网络-[1]我们可以互换使用尺度和感受野图2.所提出的OSNet构建块的示意图。R:感受野大小。作品显然是首选。为此,在我们的构建块中,我们将标准卷积分解为逐点卷积和dependency卷积[15,34]。因此,这项工作的贡献是全尺度特征学习的概念和OSNet中有效和高效的实现。最终的结果是一个轻量级的ReID模型,比流行的基于ResNet50的模型小一个数量级,但性能更好:OSNet在六人ReID数据集上实现了最先进的性能,击败了更大的现有网络,通常有明显的差距。我们还证明了OSNet对对象类别识别任务的有效性,即CIFAR [20]和ImageNet [6],以及多标签人属性识别任务。结果表明,全尺度特征学习是有用的实例识别之外,可以考虑广泛的视觉识别任务。2. 相关工作大多数现有的深度ReID CNN [24,1,48,37,11,41,51]借用为通用对象分类问题设计的架构,例如ImageNet 1K对象分类。最近,引入了一些架构修改以反映ReID数据集中的图像仅包含一个对象类别的实例(即,大多数人都是直立的。为了利用直立的身体姿势,[43,63,8,50]将辅助监督信号添加到从最后的卷积特征图水平汇集的特征中。[38,39,26]设计注意力机制以将特征学习集中在前景个人区域上。在[66,40,57,42,47,65]中,通过现成的姿势检测器来学习在[25,22,67]中,CNN被分支以学习全局和局部图像区域的表示。在[59,2,28,52]中,组合了在不同层提取的多级特征。然而,这些ReID网络都没有像我们的OSNet那样在网络的每一层明确地学习R=57输入9R=R=逐行自适应聚合3704和/或手工挑选用于多尺度学习的特定层。此外,不考虑从不同尺度的混合计算的异质尺度特征。多尺度和多流深度特征学习据我们所知,全尺度深特征Conv3x3BatchNormReLU(一)Conv1x1DWConv3x3BatchNormReLU(b)第(1)款学习从来没有被介绍过。尽管如此,多尺度特征学习的重要性最近已被认识到,并且多流构建块设计也已被采用。与许多具有多流构建块的ReID网络相比[2,30],OSNet显着不同。具体来说,[2]中的层设计基于ResNeXt [56],其中每个流以相同的尺度学习特征,而我们每个块中的流具有不同的尺度。与[2]不同,[30]中的网络是建立在Inception [44,45]上的,其中多个流最初是为了低计算成本而设计的,具有手工制作的卷积和池化层的混合。相反,我们的构建块使用一个规模控制因素,以多样化的空间尺度被捕获。此外,[30]仅在最后一个块处将多流特征与可学习但一次学习固定的流式权重而我们使用动态(依赖于输入)通道权重来融合每个构建块中的多尺度特征,以学习多尺度模式的组合。因此,只有我们的OSNet能够学习全尺度特征,每个特征通道都可能捕获有区别的图3.(a)标准3×3卷积。(b)Lite3×3卷积。DW:深度智慧。w∈Rk×k ×c×c′分成两个分离的层ReLU((v<$u)<$x),其中分解的k个核u∈Rk×k×1×c′,逐点的k个核v∈R1×1 ×c×c′,其中k表示卷积,k表示核大小,c表示输入通道宽度,c ′表示输出通道宽度. 给定输入张量x ∈ Rh×w×c,高h,宽w,计算量由h·w·k2·c·c′降为h·w·(k2+ c)·c ′,参数个数由k2·c·c ′降为(k2+ c)·c ′. 在 我们的实现中,我们使用ReLU((uv)x)(逐点→深度而不是逐点),这对于全尺度特征学习2更有效。我们称这种层为Lite3×3。实施方式如图1所示3 .第三章。3.2.全比例残差块我们架构中的构建块是剩余的瓶颈[12],配备了Lite3×3层(见图1)。(见第4(a)段)。 给定输入x,此瓶颈旨在学习具有映射函数F的残差x,即单一尺度或加权混合的特征y=x+xx,s.t。x∈F(x),(1)多重尺度。我们的实验(见第二节)4.1)显示OSNet显著优于[2,30]中的模型。轻量级网络设计随着嵌入式人工智能的兴起,轻量级CNN的设计越来越受到人们的关注.SqueezeNet [19]压缩功能使用1×1卷积的维度。IGCNet [62]、ResNeXt [56]和CondenseNet [17] 利 用 了 群 卷 积 。 Xception [5] 和MobileNet系列[15,34]都基于依赖可分离卷积。 密集1×1卷积与Shuf中的信道重排一起分组fleNet [64].在轻量级设计方面,我们的OSNet类似于MobileNet,采用了因子卷积,并进行了一些修改,这些修改在经验上更适合全规模特征学习。3. 全尺度特征学习在本节中,我们介绍了OSNet,它专门学习人ReID任务的全尺度特征表示。我们从分解卷积层开始,然后引入全尺度残差块和统一聚合门。3.1. 深度可分卷积为了减少参数的数量,我们采用了深度可分离卷积[15,5]。 其基本思想是将卷积层ReLU(wx)与内核其中F表示学习单尺度特征(尺度= 3)的Lite3×3层。注意,这里忽略了1×1层,因为它们用于操作fea。真实维度,并不有助于空间信息的聚合[12,56]。多尺度特征学习为了实现多尺度特征学习,我们通过引入一个新的维度,指数t来扩展残差函数F,指数t代表特征的尺度。 对于Ft,t >1,我们将t建兴3×3层,这导致了一个大小的感受野(2t+1)×(2t+1)。然后,要学习的残差xx是直到T的表示的增量尺度之和:ΣTxt=F t(x),s.t.T>1。 (二)t=1当T=1时,等式二是简化为Eq。1(见图4(a))。在本文中,我们的瓶颈设置为T=4(即最大感受野为9×9),如图所示。第4(b)段。快捷连接允许在当前层在下一层中被有效地保留,从而使最终特征能够捕获整个空间尺度范围。2两个顺序之间的细微差别是当通道宽度增加时:逐点→逐点增加空间聚集之前的信道宽度。3705x输入Lite3x3Lite3x3Lite3x3输入1x1Lite3x3Lite3x3Lite3x3残余+ReLUAG AG AG+AG共享输出残余1x1+ReLU输出(a)(b)第(1)款图4. (a)基线瓶颈。(b)提出的瓶颈。AG:聚合门。第一个/最后一个1×1层用于减少/恢复特征尺寸。统一聚合网关到目前为止,每条溪流都能给 我们的特点,一个特定的规模,即,它们是鳞片同质的。为了学习全尺度特征,我们提出以动态方式组合不同流的输出,即,根据输入图像,不同的权重被分配给不同的尺度,而不是在训练之后被固定更表1. OSNet的架构,输入图像大小为256 ×128。CNN中的滤波器参数共享,产生了许多优点。首先,参数的数量与T(流的数量)无关,因此模型变得更可扩展。其次,统一AG(在流之间共享相同的AG模块)在执行反向传播时具有很好的特性。具体地说,假设网络是这样的,由可微分的损失函数L来证明,并且可以计算梯度Δ L;梯度w.r.t G,基于具体而言,动态尺度融合是通过一种新的聚合门(AG),这是一个可学习的神经网络。当量3的L=联系我们=( xt)。(四)设xt表示F t(x),全尺度残差xt为∂G∂x˜∂Gxt=1由...保持x~= ΣTt=1G(xt)xt,s.t.xt,Ft(x),(3)在Eq中的第二项4表示来自所有流的监督信号被聚集在一起以指导G.当每个流都有自己的门时,这种理想的属性就消失了。其中,G(xt)是具有跨越xt的整个信道维度的长度的向量,并且G(x t)表示Hadamard乘积。G被实现为一个由非参数全局平均池化层[27]和具有一个ReLU激活隐藏层的多层感知器(MLP),然后是sigmoid激活。为了减少参数开销,我们遵循[55,16]以减少比率来减少MLP的隐藏维度,该比率被设置为16。值得指出的是,与使用提供粗略尺度融合的单个标量输出函数相反,我们选择使用信道加权,即:对于第t个流,AG网络G(xt)这种设计导致更细粒度的融合每个频道的调谐此外,权重通过以输入数据为条件来动态计算。这对ReID至关重要,因为测试图像包含与训练中不同身份的人;因此,自适应/依赖于输入的特征尺度融合策略是更理想的。注意,在我们的架构中,AG被共享用于相同的全尺度残差块中的所有特征流(图1中的虚线框)。第四条(b)款)。这在精神上类似于卷积3.3. 网络架构OSNet是通过简单地逐层堆叠所提出的轻量级瓶颈而构建的,而无需在网络的不同深度(阶段)定制块。详细的网络架构如表1所示。相比之下,具有标准卷积的相同网络架构具有690万个参数,33.849亿次多加运算,比我们的精简版3×3卷积层设计的OSNet大3倍表1中的标准OSNet可以很容易地按比例放大或在实践中,为了平衡模型大小,计算成本和性能。为此,我们使用宽度乘数 3和图像分辨率乘数,如下[15,34,64]。在多流设计方面,OSNet与Inception [44]和ResNeXt[56]相关,但在几个方面有关键的差异。首先,OSNet中的多流设计严格遵循由指数(Eq. 2)的情况。具体而言,不同的流具有不同的感受野,但使用相同的Lite3×3构建3幅值小于1的宽度乘数适用于OSNet中的所有层,除了最后一个FC层,其特征尺寸固定为512。1x11x1Lite 3x3阶段输出OSNetconv1128×64,6464×32,647×7转换,步幅23×3最大池,步幅2conv264×32,256瓶颈×2过渡64×32,25632×16,2561×1转换2×2平均池,步幅2conv332×16,384瓶颈×2过渡32×16,38416×8,3841×1转换2×2平均池,步幅2conv416×8,512瓶颈×2conv516×8,5121×1转换间隙1×1,512全局平均池FC1×1,512FC#参数2.2M多添加978.9MLite 3x3Lite 3x3Lite 3x3Lite 3x33706数据集ID编号(T-Q-G)图像数量(T-Q-G)Market1501751-750-75112936-3368-15913CUHK03767-700-7007365-1400-5332公爵702-702-111016522-2228-17661MSMT171041-3060-306030248-11659-82161Viper316-316-316632-632-632网格125-125-900250-125-900表2.数据集统计。T:火车。问:查询。G:画廊。层(图第四条(b)款)。这样的设计更有效,+ softmax)安装在OSNet的顶部。训练遵循标准分类范例,其中每个人的身份被视为一个唯一的类。类似于[26,2],交叉熵损失与标签平滑[45]用于监督。为了与现有的模型进行公平的比较,我们实现了两个版本的OSNet。一个是从头开始训练的,另一个是从ImageNet预训练的权重中微调的人匹配是基于2012年的数据-捕捉大范围的尺度。相比之下,Inception最初的设计是通过与多个流共享计算来降低计算成本。因此,它的结构,包括卷积和池的混合操作,是手工制作的。ResNeXt具有多个等尺度流,因此可以在相同尺度下学习表示。第二,Inception/ResNeXt通过连接/添加来聚合特征,而OSNet使用统一的AG(等式2)。3),这有助于学习多尺度特征的组合。重要的是,这意味着融合是动态的,并且适应于每个单独的输入图像。因此,OSNet第三,OS-Net使用因子卷积,因此构建块以及随后的整个网络都是轻量级的。与SENet [16]相比,OSNet在概念上有所不同。具体而言,SENet旨在通过重新缩放单个流的激活值来重新校准特征通道,而OSNet旨在选择性地融合不同感受野大小的多个特征流,以便学习全尺度特征。4. 实验4.1. 对人员重新鉴定的评价数据集和设置我们在六个广泛使用的人ReID数据集上进 行 实 验 : Market1501 [68] , 中 大 03[24] ,dukemtmc-Reid(杜克)[33,70],[17][19] 详细数据集统计数据见表2。前四个被认为是“大”数据集,即使它们的大小(最大的MSMT 17大约30 K训练图像)相当适中;而VIPeR和GRID通常太小,无法在不使用这些大数据集进行预训练的情况下进行训练。对于CUHK 03,我们 对检测到的 图像使用 767/700分割[71]。对于VIPeR和GRID,我们首先使用来自Market1501,CUHK 03,Duke和MSMT 17(Mix 4)的训练图像从头开始训练单个OS- Net,然后进行微调。在[25]之后,VIPeR和GRID的结果在10个随机分割上取平均值这种微调策略已被其他深度学习方法普遍采用[28,54,66,25,67]。使用累积匹配特征(CMC)秩-1准确度和mAP作为评估指标。实施细节分类层(线性FC从最后一个FC层提取的512-D特征向量的一部分(见表1)。批量和重量衰减分别设置为64和5e-4。对于从头开始的训练,SGD用于训练网络350个epoch。学习率从0.065开始,在150、225和300个epoch时衰减0.1为了进行微调,我们使用AMS-Grad [32]训练网络,初始学习率为0.0015,持续150个epoch。学习率每60个epoch衰减0.1在前10个epoch期间,ImageNet预训练的基础网络被冻结,只有随机初始化的分类器是开放的训练图像大小调整为256×128。数据增强包括随机翻转和随机擦除[72]。大数据集的结果从表3中,我们有以下观察结果。(1)OSNet在所有数据集上都实现了最先进的性能,明显优于大多数公开的方法。从表3中可以明显看出,ReID基准测试的性能,特别是Market1501和Duke,最近已经饱和因此,OSNet获得的改进是显著的。关键是,这些改进是通过更小的模型尺寸实现的-这验证了通过极其紧凑的网络实现的ReID全尺度特征学习的有效性。由于OSNet与某些方法(例如基于图像生成的DGNet [69])正交,因此可以将它们组合以进一步提高ReID性能。(2)无论有没有ImageNet预训练,OS-Net都能产生强大的性能。在极少数可以从头开始训练的轻量级ReID模型(HAN和BraidNet)中,OSNet表现出巨大的优势。在R1,OS- Net在Market 1501上以2.4%/9.9% 的 优 势 击 败 HAN/BraidNet , 在 Duke 上 以4.2%/8.3%的优势击败HAN/BraidNet。mAP的利润率甚至更高。此外,还比较了没有ImageNet预训练的通用轻量级CNN。表3显示,OSNet在所有数据集上都大幅超过了流行的MobileNetV2和ShuffleNet。 注意所有三个网络具有类似的模型大小。因此,这些结果证明了我们的OSNet的多功能性:它可以从通用对象分类任务中进行有效的特征调整,并在中等大小的数据集上从头开始训练时提供对模型过度拟合的鲁棒性。(3)与部署多个3707方法出版物骨干Market1501CUHK03公爵MSMT17R1地图R1地图R1地图R1地图[64]第六十四话CVPR'18ShuffleNet84.865.038.437.271.649.941.519.9[34]第三十四话CVPR'18MobileNetV287.069.546.546.075.255.850.927.0[51]第五十一话CVPR'18BraidNet83.769.5--76.459.5--[26]第二十六话CVPR'18成立91.275.741.738.680.563.8--OSNet†(我们的)ICCV'19OSNet93.681.057.154.284.768.671.043.3[52]第五十二话CVPR'18DenseNet89.076.063.359.080.264.5--PNGAN [31]ECCV'18ResNet89.472.6--73.653.2--KPM [37]CVPR'18ResNet90.175.3--80.363.2--MLFN [2]CVPR'18ResNeXt90.074.352.847.881.062.8--FDGAN [9]NeurIPS'18ResNet90.577.7--80.064.5--DuATM [38]CVPR'18DenseNet91.476.6--81.864.6--双线性[42]ECCV'18成立91.779.6--84.469.3--G2G [35]CVPR'18ResNet92.782.5--80.766.4--DeepCRF [3]CVPR'18ResNet93.581.6--84.969.5--PCB [43]ECCV'18ResNet93.881.663.757.583.369.268.240.4SGGNN [36]ECCV'18ResNet92.382.8--81.168.2--[49]第四十九话ECCV'18ResNet93.182.365.560.584.971.8--AANet [46]CVPR'19ResNet93.983.4--87.774.3--CAMA [58]CVPR'19ResNet94.784.566.664.285.872.9--IANet [14]CVPR'19ResNet94.483.1--87.173.475.546.8DGNet [69]CVPR'19ResNet94.886.0--86.674.877.252.3OSNet(我们的)ICCV'19OSNet94.884.972.367.888.673.578.752.9表3.大ReID数据集上的结果(%)很明显,OSNet在所有数据集上都实现了最先进的性能,超过了大多数数据集。出版的方法由一个明确的保证金。值得注意的是,OSNet只有220万个参数,远远少于目前性能最好的基于ResNet的方法。- :无。†:从头开始训练的模型答:我们复制的(最佳和次佳结果分别为红色和蓝色规模/多流架构,即具有Incep-tion或ResNeXt骨干的架构[26,40,4,54,2,38],OSNet显然更优越。正如SEC分析的那样。3,这归因于OSNet通过将多个非均匀尺度特征与动态AG相结合来学习非均匀尺度特征的独特能力。小型数据集VIPeR和GRID上的结果对于深度ReID方法来说是非常具有挑战性的数据集,因为它们只有数百个训练图像-因此需要在大型ReID数据集上进行训练和微调。表4将OSNet与六种最先进的深度ReID方法进行了比较。在VIPeR上,可以观察到OSNet的性能明显优于替代品- R1时超过11.4%。GRID比VIPeR更具挑战性,因为它只有125个训练身份(250个图像)和额外的干扰项。此外,它被安装在繁忙公共场所的真实(操作)模拟闭路电视摄像机JLML [25]是目前在GRID上发表的最好的方法。值得注意的是,OSNet在GRID上略优于JLML总体而言,OSNet在这两个小数据集上的强大性能表明其在收集大规模训练数据不可扩展的现实应用中的实用性。消融研究表5评价了我们的架构设计选择,其中我们的主要型号为型号1。T是等式中的流基数。二、(1)与标准卷积:分解卷积使R1略微降低了0.4%(模型2与模型1)。这意味着我们的架构设计保持了代表性的力量,即使方法骨干Viper网格MuDeep [30]成立43.0-[67]第六十七话成立48.7-JLML [25]ResNet50.237.5主轴[66]成立53.8-GLAD [54]成立54.8-[28]第二十八话成立56.6-OSNet(我们的)OSNet68.038.2表4.与VIPeR和GRID上的深度学习方法进行比较仅报告秩-1准确度(%)。- :无。模型架构Market1501R1地图1T= 4+统一AG(主要模型)93.681.02T= 4w/全转化+统一AG94.082.73T= 4(相同深度)+统一AG91.777.94T= 4+串联91.477.45T= 4+添加92.078.26T= 4+单独AG92.980.27T= 4+统一AG(流向)92.680.08T= 4+学习和固定门91.677.59T= 186.567.710T= 2+统一AG91.777.011T= 3+统一AG92.879.9表5.建筑设计选择的消融研究模型尺寸缩小了3倍以上。(2)与类ResNeXT设计:OSNet被改造成一个类似ResNeXt的架构,通过使所有流在深度上均匀,同时保留统一的AG,这是指模型3。我们观察到该变体明显优于主要模型,R1/mAP差异为1.9%/3.1%。这进一步验证了我们全尺度设计的必要性(3)多尺度融合策略:为了证明我们的统一AG设计,我们通过改变如何进行融合的方式来进行实验。3708不同尺度的特征被聚合。基线是连接(模型4)和添加(模型5)。在R1/mAP下,主要模型优于两个基线1.6%/2.8%以上。尽管如此,模型4和5仍然比单尺度架构(模型9)好得多。(4)Unified AG与单独的AG:当为每个特征流学习单独的AG时,模型大小增加,并且梯度计算中的良好特性(等式10)被改变。(4)丢失。根据经验,尽管具有较少的参数,但在R1/mAP下统一AG提高了0.7%/0.8%(模型1vs.6)。(5)通道式门与流向闸门:通过将通道方向的门转换为流向的门(模型7),R1和mAP都下降了1%。由于特征通道封装了复杂的相关性,并且可以表示许多视觉概念[7],因此使用通道特定的权重是不必要的。(6)动态门控与静态门控:在模型8中,特征流通过静态(学习然后固定)通道门融合,以模仿[ 30 ]中的设计。结果,与动态门(主要模型)相比,R1/mAP下降了2.0%/3.5%。因此,适应个别输入图像的尺度融合是必要的。(7)流基数评价:结果从T=1(模型9)到T=2(模型10)有很大改善,并逐渐进展到T=4(模型1)。模型收缩超参数我们可以通过调整宽度乘数β和图像分辨率乘数γ来权衡模型大小、计算量和性能。表6显示,通过保持一个乘数固定并缩小另一个乘数,R1平稳下降。值得注意的是,92.2%的R1准确率是通过一个大大缩小的OSNet版本获得的,它只有0.2M个参数和82M个多加(β=0. 第25段)。与表3中的结果相比,我们可以看到,缩小的OSNet与最新提出的模型相比仍然非常具有竞争力,大多数其中100倍的尺寸。这表明OSNet在资源高效部署方面具有巨大潜力受约束的设备,如带有AI处理器的监控摄像头。统一聚合门的可视化就像门-由AG产生的选通向量固有地编码全尺度特征流如何聚合的方式,我们可以通过可视化类似选通向量的图像来理解AG子网络已经学习到了什么。为此,我们在最后一个瓶颈中连接四个流的门控向量,对Mix 4的测试图像执行k-means聚类,并选择最接近聚类中心的前15个图像。图5示出了四个示例集群,其中相同集群内的图像展现类似的图案,即,全球尺度和局部尺度外观的组合。学习特征的可视化为了了解我们的设计如何帮助OSNet学习区分特征,我们β#参数γ多添加Market1501R1地图1.02.2M1.0978.9M94.884.90.751.3M1.0571.8M94.584.10.50.6M1.0272.9M93.482.60.250.2M1.082.3M92.277.81.02.2M0.75550.7M94.483.71.02.2M0.5244.9M92.080.31.02.2M0.2561.5M86.967.30.751.3M0.75321.7M94.382.40.751.3M0.5143.1M92.979.50.751.3M0.2535.9M85.465.50.50.6M0.75153.6M92.980.80.50.6M0.568.3M91.778.50.50.6M0.2517.2M85.466.00.250.2M0.7546.3M91.676.10.250.2M0.520.6M88.771.80.250.2M0.255.2M79.156.0表6. OSNet的可变宽度乘数β和分辨率乘数γ的结果(%)。对于输入大小,γ= 0。75:192×96;γ= 0。5:128×64; γ=0。25:64 ×32。sualise最后的卷积特征映射的激活在[61]之后,激活图被计算为沿着通道维度的绝对值特征图的总和,然后进行空间归一化。图6比较了OSNet和单尺度基线(表5中的模型9)的激活图显然,OSNet可以捕获人A的局部判别模式(例如,服装标志),以区分人A和人B.相比之下,单尺度模型过度集中在人脸区域,由于监控图像的分辨率较低,这对于ReID来说是不可靠的因此,该定性结果表明,我们的多尺度设计和统一的聚集门使OSNet能够识别视觉相似的人之间的细微差异4.2. 人物属性识别评价虽然人属性识别是一个类别识别问题,但它与人ReID问题密切相关,因为全尺度特征学习也很关键:一些属性,例如“视角”是全局的;其他属性,例如“戴眼镜”是局部的;还需要异质尺度特征来识别属性,例如“年龄”。数据集和设置我们使用PA-100 K [28],这是最大的人物属性识别数据集。PA-100 K包含80 K训练图像和10K测试图像。每个图像都有26个属性,例如,男/女,戴眼镜,手提包。在[28]之后,我们采用了五个评估指标,包括平均准确度(mA)和四个基于实例的指标,即准确度(Acc),精确度(Prec),召回率(Rec)和F1分数(F1)。详细定义请参见[23]。补充材料中详细说明了执行情况。结果表7比较了OSNet与两种状态的3709(a) 帽衫+背袋。(b)男性+黑色夹克+蓝色牛仔裤。(c)背袋+黄色T恤+黑色短裤。(d)绿色T恤。图5.相似门控向量的图像聚类。可视化显示,我们的统一聚合门能够以动态的方式学习同质和异质尺度的组合。A人B人图6.每个三元组从左到右包含原始图像、OSNet的激活图和单尺度基线的激活图。这些图像表明,OSNet可以检测视觉相似的人之间的细微差异。方法PA-100K马ACCPrecRecF1[21]第二十一话[28]第二十八话72.774.270.472.282.283.080.482.181.382.5OSNet74.676.088.382.585.3表7.行人属性识别结果(%)表8.CIFAR数据集的错误率(%)这里的所有方法都使用转换和镜像来进行数据扩充。逐点卷积和逐层卷积被视为单独的层。架构CIFAR10CIFAR100T= 15.4921.78T= 4+添加4.7220.24T= 4+统一AG4.4119.21表9.CIFAR 10/100上OSNet的消融研究女性:93.4%18-60岁:99.9%正面:52.5%短袖:100.0%上标识:94.5%短裤:99.9%18 -60岁:99.8%返回:95.7%眼镜:96.4%长袖:91.8%裤子:99.9%女性:95.0%18-60岁:99.9%侧面:10.7%单肩包:99.9%长袖:99.7%裤子:98.3%它每类包含的训练图像少10倍(500 vs. 5,000)。然而,OSNet(a)(b)(c)图7.由OS-Net预测的地面实况属性的可能性。基于阈值50%的正确/不正确分类以绿色/红色显示。在PA-100 K上的现有技术方法[21,28]可以看出,OSNet在所有五个评估指标上都优于两种替代方案图7提供了一些定性结果。它表明OS- Net在预测属性方面特别强大,这些属性只能通过检查年龄和性别等异质尺度的特征来推断。4.3. 物体分类的评价数据集和设置CIFAR 10/100 [20]有50 K训练图像和10K测试图像,每个图像的大小为32×32。OSNet按照[13,60]中的设置进行训练。除了表1中的默认OSNet之外,通过将分段瓶颈的数量从2-2-2增加到3-8-6来构建。错误率报告为度量。结果表8将OSNet与许多最先进的对象识别模型进行了比较。结果表明,尽管OSNet最初是为ReID中的细粒度对象实例识别任务而设计的请注意,CIFAR100比CIFAR10更困难,因为由于数据有限,因此它在数据稀缺的ReID基准测试中表现出色。我们还对更大规模的ImageNet 1K对象识别任务进行了实验。结果(见补充材料)表明,我们的OSNet优于类似大小的轻量级模型,包括SqueezeNet[19],ShuffleNet [64]和MobileNetV2 [34]。总体结果表明,全尺度特征学习在ReID之外是有益的,并且应该被考虑用于广泛的视觉识别任务。消融研究我们在CIFAR 10/100上比较了我们的主要模型与模型9(表5中的单尺度基线)和模型表9显示,全尺度特征学习和统一AG都对OSNet的整体性能做出了积极贡献。5. 结论我们介绍了OSNet,这是一种轻量级的CNN架构,能够学习全尺度特征表示。在六人ReID数据集上进行的广泛实验表明,OSNet实现了最先进的性能,尽管它的轻量级设计。在物体分类任务和多标签属性识别任务上的优异表现进一步表明,OSNet对ReID之外的视觉识别具有广泛的兴趣。方法深度#参数CIFAR10CIFAR100[13]第十三话1641.7M5.4624.33[13]第十三话100110.2M4.9222.71[60]第六十话408.9M4.9722.89[60]第六十话1611.0M4.8122.07DenseNet [18]401.0M5.2424.42DenseNet [18]1007.0M4.1020.20OSNet782.2M4.4119.21OSNet2104.6M4.1818.883710引用[1] Ejaz Ahmed,Michael Jones,and Tim K Marks.一种用于人员重新识别的改进的深度学习架构。CVPR,2015。2[2] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员重新识别的多级分解网络。在CVPR,2018年。二三五六[3] 陈大鹏,徐丹,李洪生,Nicu Sebe,王晓刚.基于深度crf的群体一致性相似性学习方法。在CVPR,2018年。6[4] 陈燕北,朱夏天,龚少刚。通过深度学习多尺度表示进行人员重新识别在ICCVW,2017年。6[5] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习。在CVPR,2017年。3[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。2[7] 露丝·方和安德里亚·维达尔迪Net2vec:量化和解释深度神经网络中的过滤器如何编码概念在CVPR,2018年。7[8] Yang Fu,Yunchao Wei,Yuqian Zhou,Honghui Shi,Gao Huang,Xi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功