没有合适的资源?快使用搜索试试~ 我知道了~
14065他Ar博乐高度深度头?手臂?尸体?视觉语言规模深层鸟瞰图前视图Where,What,Whether:多模态学习满足行人检测上海交通大学电子信息与电气工程学院,上海交通大学电子信息与电气工程学院,上海交通大学电子信息与电气工程学院2上海交通大学人工智能研究所,MoE人工智能教育部重点实验室,上海200240。* 通讯作者:张重阳,sunny zhang@sjtu.edu.cn目标在哪里?目标的规模有多大?目标是否真的是行人?图1. W3Net将行人检测从左到右分解为Where、What和Whether问题,这使我们能够生成针对遮挡和尺度变化的鲁棒表示。摘要行 人 检 测 极 大 地 受 益 于 深 度 卷 积 神 经 网 络(CNN)。然而,CNN本质上很难处理存在遮挡和尺度变化的情况在本文中,我们提出了W3网,试图解决上述挑战,分解行人检测任务到在哪里,什么和是否问题,分别针对行人定位,规模预测和分类。具体地说,对于行人的例子,我们制定了三个步骤,其功能i)我们生成鸟瞰图,其自然地没有遮挡问题,并且扫描其上的所有点以寻找每个行人实例的合适位置。ii)代替利用预先固定的锚点,我们对深度和尺度之间的相互依赖性进行建模,旨在在不同位置处生成深度引导的尺度,以更好地匹配不同大小的实例。iii)我们学习了视觉空间和语料库空间共享的一个潜在向量,通过该潜在向量,具有相似垂直结构但缺乏人类部分特征的假阳性我们在广泛使用的数据集(Citypersons和Cal- tech)上获得了最先进的结果。尤其是。当评估重度咬合子集时,我们的结果将Citypersons的MR-2从49.3%降低到18.7%,将Caltech的MR-2从45.18%降低到28.33%1. 介绍行人检测是计算机视觉中的一个基本课题。一般来说,行人探测器的设计深受物体探测技术发展的影响,物体探测技术用于判断物体的位置和大小[24]。大多数现代基于锚点的检测器[4][29][28]陷入了一种范式,即基于专业知识的技术来生成一系列锚点,然后识别它是否是行人。不可否认,这种方法具有广泛的影响,作为一种强大的基线被广泛使用,但它引入的大量冗余和低质量的程序也限制了精度和速度。相比之下,我们的工作属于无锚模式,它采用多模态数据作为输入来预测目标在哪里,规模是什么,以及目标是否实际上是行人,而不是使用预先固定的锚。其中-对象检测实际上从一个基本问题开始:目标在哪里在以前的成功实践中,例如Faster RCNN [19]或SSD [15],这个过程主要由一组预定义的锚点确定,基于对象均匀分布在图像上的隐式依赖性最近流行的无锚点方法摇动轭(预定义锚点)并直接从图像中检测对象,这使得检测是更自然的其中一个典型的和有效的无锚实践中的行人de-in-14066保护是CSP [24],它促进了Where问题作为一个简单的中心预测任务。我们的工作在概念上类似于CSP,它也属于无锚的范围,但在见解上有很大的不同。正如作者在CSP [24](第4.4节)中所述,行人中心实际上是语义信息的模糊点,其中行人穿着或方向的变化将对其产生负面影响。另外,我们还发现行人中心容易受到遮挡的影响,也就是说,在某些遮挡场景中,行人中心是不可见的。上述挑战促使我们找到一个统一的和鲁棒的表示行人的位置。在本文中,我们试图将遮挡问题归因于由单个图像视图(前视图)引起的如果将2D图像切换到鸟瞰图,则遮挡将大大减轻。如图1(左)所示,即使行人在前视图中有遮挡,鸟瞰图仍然没有遮挡问题。物体检测和行人检测中存在的另一个长期存在的问题是目标的规模是什么对于基于锚点的方法,显然,它们更多地依赖于一组预定义的比例和长宽比。或者,无锚方法(如CSP)与卷积叠加尽管这些管道在几个基准测试中显示出有效性本文提出的W3网是基于行人在二维图像中的尺度分布并不是无序的,相反,它与图像的几何形状密切相关。如图1(中间)所示,图像内行人尺度变化随着估计的深度(现实世界中距相机的距离)而变化根据这种直觉,我们对深度和尺度之间的相互依赖性进行建模,旨在生成在不同位置灵活和准确的适当尺度。无论是基于锚还是无锚的方法都不能避免这个问题:边界框是否过滤了行人。由于遮挡问题的存在和遮挡模式的多样性,用于下游分类的实例特征表现出明显的差异,从而给“是否“问题带来为处理这一问题已作出了一些努力。基于部分的方法[29] [28]倾向于采用弱监督的方式来感知可见的身体部位,而双分支方法[31]提出了两个子网络,一个用于全身估计,另一个用于可见部分。这些方法,归根结底,以分裂的方式处理被遮挡和未被遮挡的行人,这遭受弱监督部分标签的不确定性和不确定性。闭塞和非闭塞样本数量之间的平衡相比之下,我们发现,行人具有明显的属性可以表示为语料库,如头部,手臂,身体和腿,这提供了一种可能性,重新编码的闭塞和非闭塞的实例到一个统一的语料库空间,从而有利于鲁棒的特征生成对“是否“的W3 Net在Cityper- sons [27]和Caltech [6]行人数据集上进行了具有挑战性的设置评估特别是,当评估Citypersons的重度闭塞子集时,我们的结果将MR-2降低了2倍(我们的模型产生18.7%,而现有技术的范围为49%-56%)。2. 相关工作通过多模态学习,提出的W3网络面临的挑战(遮挡和尺度变化),并将任务分解为针对行人定位、尺度预测和分类的Where、What和Whether问题因此,我们回顾了最近的工作,pedes- trian检测与或没有多模态数据和commonsours与以前的国家的最先进的方法。大多数流行的行人检测器都是基于一般对象检测的框架,如Faster RCNN [19]和SSD [15],并利用面向行人的特征来解决行人检测任务中的遮挡和尺度变化等挑 战 。 基 于 部 分 的 方 法 , 例 如 DeepParts [9] ,FasterRCNN+ATT [29]或OR-CNN [28],充分利用行人部分信息,特别是可见的身体部分,以帮助鲁棒的特征嵌入。TLL [20]通过仔细发现行人通常采取直立姿势,摆脱了预定义的锚点,提出了线定位,极大地促进了行人检测的发展。最近,一些研究人员将注意力转向多模态学习,它提供了捕获多模态之间的对应关系并获得对自然现象的深入理解的可能性SDS-RCNN [2]提出了一种分割注入网络,以实现对语义分割和足检测的联合监督F-DNN+SS [7]使用Faster RCNN框架的衍生,并进一步以后处理方式结合逐像素语义分割以抑制背景提议。F-DNN 2 +SS [8]采用集成学习方法和语义分割网络来调整检测器建议的置信度。基于上述动机,提出的W3Net在三个方面又迈出了一1) 我们首先尝试探索一种新的可能性,即行人可以有效地描述在鸟瞰图,这绕过了2D(前)图像的限制,并有利于对各种遮挡模式的鲁棒特征的生成。14067՞域名_A域名_B图2.W3Net的概述 ”“是否“:从正视图中提取的特征被重新编码到统一的语料库空间。“是否“分支由L DE优化,以学习视觉特征和属性嵌入共享的潜在空间。总体输出用于下游行人定位和分类。2) 我们首先尝试对行人检测的深度和尺度之间的相互依赖性进行建模,这预测了比预定义的建议更灵活和适当的建议。3) 我们首先尝试提出一种方法来嵌入pedes- trian功能在语料库空间,这将被遮挡和非遮挡的情况下。3. 方法W3Net采用无锚模式,将行人检测任务分解为三个子问题。在输入多模态数据(包括鸟瞰图、深度和语料库信息)的情况下,“在哪里“、“是什么“和“是否“这三个问题流水线如图2所示。特别地,以正视图IF(域A)作为输入,网络首先通过两个循环GAN生成相应的鸟瞰图IB(域C)[32]。然后,由前向特征提取器处理IB,以预测每个位置处的行人的概率和对应的宽度,表示为由深度关系支持的连接由特征提取器提取的建议特征随后被馈送到编码器-解码器中,其中潜在空间被语料库占据,并且促进被遮挡或未被遮挡的实例都被行人的共同属性重新编码。总的来说,这三个3.1. 鸟瞰图:目标在哪里鸟瞰与正视相比,具有独特的优势:1)鸟瞰图自然没有遮挡问题。我们发现,无论是类内还是类间的遮挡[23],都可能主要归因于单个检测视图(前视图)。2)行人更容易通过鸟瞰被浓缩为一个统一的特征以往的无锚点方法,如CSP,在训练过程中很难确定一个然而,如何获得鸟瞰图仍然是一个有待解决的问题,我们把它作为一个图像到图像的生成过程。由于大 多 数 现 有 的 行 人 数 据 集 ( 如 Citypersons [27] 和Caltech [6])中缺乏真实的鸟瞰图,我们试图引入直接从3D游戏中捕获的合成数据来训练鸟瞰图生成模型。与[1]中的先前实践一样,[18] [21]等合成数据面临巨大挑战:如果模型Where What When 深度关系前视图解码器嵌入CycleGAN特征提取器编码器头臂体腿鸟瞰图՞域名_C14068在合成数据上训练的数据直接用于真实世界的数据。受此启发,我们分两步设计了我们的前向鸟瞰图生成网络第一个包括循环GAN [32] [13],在图2中表示为GA→B,以将真实世界数据(域A)传输到合成图像(Do- main B)。接下来的步骤介绍了另一个周期-措辞如下:[X,Y,Z]T=ZK−1[u,v,1]T(1)按照相同的步骤,3D坐标(X′,Y′,Z′)在vH的观点下,θ也可以变换为二维共-GAN,表示为GB→C ,训练鸟瞰一代相应地,纵坐标表示为(u′,v′)。这一切GTA5游戏中捕捉到的合成数据,其中包括总共50,000对图像,包括虚拟汽车的前视图和鸟瞰图。基于经过良好训练的生成对抗网络(GAN)[11]GA→B和GB→C,输入正视图IF可以是最终目标是建立(u,v)和(u′,v′)。在视图变换之后,存在已经已知的关系,其可以被写为:′X=X转换成鸟瞰图IB。Y′=(Y−H)cosθ+Zsinθ′(二)在1B上,检测头,其由一个Z = −(Y − H)sinθ + Zcosθ3×3conv和两个1×1conv层,连接在“”后面。特征提取器用于预测每个位置处行人的概率和相应的宽度。由于鸟瞰图在遮挡问题上的固有优势,它可以克服正视图的局限性,从而有利于鲁棒特征的生成。然而,它还没有很好地执行。一方面,鸟瞰图弥补了行人高度信息的损失,这导致在单个鸟瞰图上的高度预测结果不令人满意,因此导出了以下另一方面,鸟瞰图遭受由可疑对象引起的假阳性,例如路灯的顶部与行人的3.2. 深度:规模是正如我们所知,边界框有四个自由度,即{x,y,w,h}。在建议生成过程中,{x,y}是已知的,它们在特征图上均匀分布,并且对应的w具有在鸟瞰图上被预测。因此,“What“分支只包括两个任务:1)前视图地图上的宽度是多少。(2)对应的高度是多少。随后,为了解决上述任务,我们从具有以下定义的更一般的情况开始。定义:我们将v0, 0定义为当图像IF在前面水平拍摄时的前视图,并且将vH,θ定义为当图像IB在H的高度处以俯角θ特别地,如果θ为90°,则视图vH,90°看起来垂直于水平方向。在此基础上,我们可以建立一组几何关系。我们假设行人P在v0 , 0的视图下的真实世界3D坐标是(X,Y,Z),其中Z也可以被认为是到相机的距离,即深度,而图像 IF上的对应2D 坐标是(u,v),其中给定相机内禀矩阵K,从(u,v)→(X,Y,Z)的投影可以此外,与等式1相同,(u,v)可以通过以下等式来实现[u′,v′,1]T=(Z′)−1K[X′,Y′,Z′]T(3)从等式1到等式3,正视图IF上坐标为(u,v)的第j个位置lj,f可以与鸟瞰图IB上的对应位置li,b相关,即(u′,v′)。此外,如第3.1节中所讨论的,每个位置li,b已经被分配了概率行人位置的得分和对应的宽度,描述为{pi,b,wi ,b},其可以辐射到lj,f。上述配方旨在解决“What“分支中的第一个任务还有另一个问题:高度是多少?非正式地说,对于行人检测的特定任务,行人高度的差异在很大程度上是深度差异,其中图像中实例的尺度与距相机的距离成反比[30]。换句话说,这意味着距离摄像机越远,目标的尺度就越小。这一事实使我们能够对深度和规模之间的相互依赖性进行建模,并将提案生成过程视为规模的不均匀分布问题首先,仍然从等式1开始,一个图像中的Δ h可以被建模为从头部d1= [u1,v1]T到脚部d2= [u2,v2]T的距离,公式为Δh=||d1−d2||2,而现实世界中的真实高度H可以映射为CHH=ZH,其中C是由摄像机内参数组成的常数,Z是我们提到的深度。如上所述,当C H为固定值时,Z(深度)和h(高度)完全相反。但由于行人身高受性别和年龄的影响,直接将身高作为一个固定值,有些不合理。在身高估计中,我们假设所有行人的身高均服从均匀分布,并分析了这种假设的误差。此前对6.3万名欧洲成年人的研究表明,男性和女性的平均身高140692分别为178cm和165cm,标准偏差均为7cm[22]。此外,男性和女性的身高分布遵循高斯分布,女性人口[10],表示为:H男性βN(µ1,σ2)从编码器中删除,优化:1ΣNL DE=||E(x i)− E(y)||2N(五)和H女性N(µ2,σ2)。具体i=1图像IF中的每个点lj,f,其行人高度在现实世界中是从上述分布的一个样本,我们利用正态分布函数来评估采样高度的不确定度。 把男的-作为一个例子,如果采样高度为H∞ ,相应的不确定度可以用公式表示为:C=C(|x−µ|<|H−µ|)=2Φ(|H−µ1|(4)其中N是所有提案的总数,xi是vi-第i个建议的视觉特征,y表示行人属性的词向量,包括头部、手臂、身体和Le g,E(·)表示视觉特征编码器,并且X(·)是嵌入网络。通过解码器输出的特征网络用于下面的分类和回归预测是否存在行人的可能性得分,表示为pj,f,其与pj,b1 1σ和第j个提案的总体可能性得分其中Φ(·)是标准正态分布函数。可表述为:上述模型模拟了到期日的估计不确定性在现实世界中行人高度的变化,其中,1pj=(p2j,b+pj,f)(6)当H接近µ1时,e变小,而不是变大。该估计不确定性也可用作第3.4节中所述的重新重量损失函数的置信值利用上述公式化的w和h,可以生成(x,y)位置处的对应提议,并且随后导致以下3.3. 语料库:目标是否是行人在“Where“和“What“分支之后然而,单一的鸟瞰图预测有一个问题:假阳性的增加。为此,我们引入了视觉和属性嵌入,即这个分支基于两个观察:一个是许多误报主要是与人类相似的垂直结构,例如栏杆或树干[26];另一个是以直立姿势行走或站立的行人从上到下具有一种特定的身体结构的事实:头-臂-身-腿利用这种行人特定的结构,我们试图将遮挡和非遮挡的行人重新编码到统一的表示中,以区分那些具有全局垂直结构但缺乏基于人体的部分特征的假阳性。拟议的“是否“的组成部分它由变分自动编码器(VAE)[5]组成3.4. 培训详细信息为了实现这一任务,我们求助于从基于CNN的单目深度预测模型导出的深度图特征生成器由FPN [14]和强大的主干ResNet-50 [12]组成,整个框架通过以下损失函数进行优化。在“Where“分支中与CSP [24]中的损失函数相同,我们还通过交叉熵和平滑L1损失将可能性和宽度预测分别表示为分类和回归任务,分别表示为Lbird和Lwidth。在“What“分支中值得注意的是,为了保证检测器的鲁棒性,现实世界中的行人高度ΔH是从分布中采样的,而不是使用固定的高度值。因此,为了评估不同样本的不确定度,我们在公式4中引入了e_(?),并因此根据以下分类和回归损失对其进行重新加权。在“是否“分支中整体损失可表述为:L=λ1Lbird+λ 2Lwidth+λ 3LDE采用LDE优化去学习一个共同的空间λ4N+(1−ei)(Lcls,i+Lreg,i)(七)通过视觉特征和属性嵌入。更具体地,嵌入网络将属性嵌入向量作为输入,并且在经过两个全连接(fc)层和整流线性单元(ReLU)之后,输出视觉嵌入向量,该视觉嵌入向量具有与每个建议实例的视觉特征向量Ni=1其中i表示第i个建议,N是所有建议的总数。λ1、λ2、λ3和λ4是每种损失的权重,分别在实验中设定为0.01、0.1、0.1和114070哪里什么是否合理重C14.611.060.623.3C12.452.6C10.830.2CC9.921.7CC10.320.5CCC9.318.7表1. Citypersons上鸟瞰图vθ,H的比较,其中θ表示俯角,Height表示表3. W3网对城市人的消融研究摄像机从水平面的高度。粗体字/粗体字表示最佳/次佳性能。表4.CSP对城市人的消融研究方法合理重W3 Net(带GA→C)13.432.1W3Net(GA→B和GB→C)9.318.7表2. 比较的 不同 预测组合表5.有或没有的鸟瞰图生成的消融研究从真实世界到Citypersons的合成数据的域转移。Citypersons上的(wb,hb)和(wf,hf),分别表示鸟瞰图和正视图的(宽度,高度)粗体字-4. 实验我们在广泛使用的数据集Cityper-son [27]和Caltech[6]上评估了我们提出的行人检测方法的有效性。结果是MR-2评估指标,其中越低越好。4.1. 实验装置数据集Citypersons [27]是一个基于Cityscapes数据的多样化数据集,其中包括5000张图像(2975张用于训练,500张用于验证,1525张用于测试)。在总共5000张图像中,它有135k人和13k忽略重。gion注释。 它注意到人口密度在训练/验证/测试子集中保持一致。加州理工学院的数据集[6]由大约10小时的640x480 30Hz视频组成,这些视频是从城市环境中正常交通中行驶的车辆上拍摄的。大约250,000帧,总共350,000个边界框和2300个独特的行人被注释。 所有的数据集都包含chal-遮挡设置,表示为重遮挡,其中行人的可见部分的比例小于0。六十五实 现 我 们 在 Pytorch 中 使 用 主 干 ResNet50 [12] 和NvidiaGTX 1080钛合金我们优化网络使用随机梯度下降(SGD)算法与0.9动量和0.0005重量衰减,分别。对于Citypersons,小批量包含2张图像,我们以10- 3的初始学习率训练网络进行30k次迭代,并将其分解为将其设置为10−4,再进行6k次迭代。对于加州理工学院,小批量包含8张图像,我们以10−3的初始学习率训练网络进行40k次迭代,并将其降低到10−4,再进行20k次迭代。4.2. 消融在本节中,我们使用Citypersons数据集在合理和重度设置下评估网络的每个重要组成部分对性能的值得注意的是,为了评估每个分支的性能,例如表3中的结果,我们将每个例如,为了得到“Where“的结果或者为了评估表4中的实验也是如此。为什么是鸟瞰图?遮挡是行人检测中的一大难题,其根本原因是孤立的视点,特别是前方风景然而,我们实际上可以发现,在真实的3D世界中,即使行人从初始视图被遮挡,鸟瞰图仍然没有遮挡问题。此外,行人实例被压缩到鸟瞰图上的一个点,即受上述启发,进行实验并在表3中报告比较。结合“Where“分支的方法θ高度合理重10◦521.363.42020.860.830◦518.250.62014.333.660◦515.534.9209.318.790◦516.740.92013.526.9WBWF hbhf合理重C9.318.7C10.529.0CC10.325.8CC9.820.1CC12.343.4CC11.038.6哪里什么是否合理重C10.924.6C10.345.2C11.031.0140710.40.350.30.250.20.150.10.050CSPW3网络0.2 0.3 0.4 0.5 0.6 0.7 0.8IOU行人检测一个是深度暗示了尺度线索,特别是对于行人,它们具有很强的类内相似性。另一个是深度在我们的框架中起着连接作用。深度即如表3和表4所示,与基线或裸CSP相比,所提出的仍然值得注意的是,为了进一步研究该效果,我们还进行了实验,包括预测网络来估计行人图3.比较了不同方法、CSP和W3网络的IoU直方图,结果表明,当IoU > 0时,W3网络产生的建议质量更高。五、合理重测试时间TLL [20]15.553.6-[29]第二十九话15.4--TLL+MRF [20]14.452.0-[23]第二十三话13.256.9-[28]第二十八话12.855.7-ALFNet [16]12.051.90.27s/imgCSP [24]11.049.30.33s/imgW3Net(我们的)9.318.70.31s/img表6.与其他国家的最先进的方法对城市人的比较。粗体/粗体表示最佳/次佳性能。在重度闭塞子集上实现了23.3%的MR-2,这比我们的基线60.6%绝对提高了37.3分。如表4所示,当CSP增加“Where“分支时这与我们的直觉是一致的,此外,在表1和表5中进行了消融,以研究鸟瞰图生成的差异是否会影响结果。表1中的比较表明,在θ=60°,H= 20米的情况下,vθ,H的性能最好,我们认为对参数θ和H作更详细的探讨可以进一步提高性能,但这不在本文的范围内。在表5中,没有域转移的方法直接从真实世界数据生成鸟瞰图像,在合理子集和重子集上都有很大的下降,这证明了所提出的GA→B 的有效性。为什么是深度?深度是一种有用的辅助信息,但尚未得到充分的认识和利用高度,如表2所示,其中单个wb意味着检测器将鸟瞰图上的宽度预测与通过深度-尺度关系的高度估计相结合,而wb+hf分别将鸟瞰图和正视图上的宽度和高度预测相可以观察到,其他方法可以实现与wb预测相当但次优的结果。这一结果可能归因于在训练期间具有更少噪声的准确且一致的高度估计该方法生成的提案具有更好的IoU性能,其中IoU比例>0. 五是大大改善。为什么是语料库?一个自然的问题是,对于遮挡,鸟瞰图是否足够?鸟瞰图可以有效地提供所有行人的位置。然而,由于行人特征模糊,在鸟瞰图中类似行人“头”的栏杆也可能被错误地归类为行人。为了解决这个问题,我们引入了在行人识别中,遮挡情况下的行人特征与非遮挡情况下的行人特征相比往往表现为不完全特征,即两类行人具有不同的特征分布。因此,我们重新编码propos- als到一个统一的语料库空间,它具有固定的维度和明确的语义信息之间产生强大的视觉和语义线索的关系,从而有利于鲁棒的特征表示。结果报告于表3和表4中。可以看出,虽然4.3. 与最新技术显示了在Citypersons Reasonable、Partial和Heavy数据集上与最先进方法的比例14072域名_A域名_A域名_A域名_A域名_B域名_B域名_B域名_B域名_C域名_C域名_C域名_C结果结果结果结果图4.该方法的可视化结果,其中域A,域B和域C分别表示正视图,域转换后的地图和鸟瞰图红色的边界框表示W3Net的总体检测结果ROHOFORNACF++[17]17.779.5110014.68DeepParts [9]11.8960.4210012.9FasterRCNN+ATT [29]10.3345.1890.948.11美国有线电视新闻网[3]9.9559.9497.238.08RPN+BF [25]9.5874.361007.28TLL [20]8.45-68.03-SDS-RCNN [2]7.3658.551006.44[23]第二十三话---4.0[28]第二十八话---4.1W3网络(我们的)6.3728.3351.053.82表7. 与加州理工学院数据集上最先进的方法进行比较。BLOO表示结果在标准(旧)测试注释下,BLON表示结果在[26]提供的新注释下。R、H和F表示合理的子集,分别针对非遮挡、遮挡和小规模行人检测的重、远目标。粗体/粗体表示最佳/次佳性能。在表6中,而在Caltech中的结果报道在表7中。实验结果表明:1)W3Net在两个Reasonable子集上都取得了9.3%(Citypersons)和3.82%(Caltech)的最新结果特别地,当评估城市人的重度闭塞子集时,我们的模型产生18.7%,而现有技术的范围为49%-56%。2)加州理工学院远子集的结果优于以前的广告-先进的探测器,如TLL [20]16.98%,是专门为小尺度目标设计的,证明了在尺度变化上的优越性。3)尽管引入了多模态数据,但仔细发现深度关系实际上减少了计算成本,而无需额外的conv或fc层,因此在一个GTX 1080Ti上使用1x的推理时间。图像比例仍然符合最新技术水平。5. 结论针对行人检测中的遮挡和尺度变化问题,提出了一种新的网络结构,将行人检测问题分解为针对行人定位、尺度估计和分类的Where、What和Whether问题。因此,探测器在各种具有挑战性的设置下实现了新的最先进性能。该框架是针对行人检测的定制设计,但它很容易扩展到其他任务,如人脸或车辆检测,这些任务需要重新建模深度和尺度之间的相互依赖性,并且已经在我们的未来计划中。6. 致谢这项工作得到了中国国家科学基金的部分资助,格兰特国家重点研发计划编号:2017YFB1002401,国 家 科 技 攻 关 计 划 编 号 : 18DZ1112300 和18DZ2270700。14073引用[1] A. Atapour-Abarghouei和T.P.我猜利用域自适应合成数据进行实时单目深度估计在Proc. Computer Vision andPattern Recognition中,第1-8页。IEEE,2018年6月。[2] G.巴西,X. Yin和X。刘某通过同时检测分割照亮行人。&InICCV,2017.[3] 蔡兆伟,范全福,Rogerio S. Feris和Nuno Vas- concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV,2016年。[4] Hao Cheng,Chong Yang Zhang,Wenjuan Song,YanLi,and YouPing Zhong.基于多尺度上下文嵌入特征学习的行人检测。在ACPR,2017年。[5] Max Welling Diederik P Kingma.自动编码变分贝叶斯。在arXiv预印本arXiv中:1312.6114。,2013年。[6] P.Dollar角沃杰克湾Schiele和P.佩洛娜行人检测:基准。在CVPR,第304-311页[7] Xianzhi Du , Mostafa El-Khamy , Jungwon Lee , andLarry Davis. Fused dnn : A deep neural network fusionapproach to fast and robust pedestrian detection.在计算机视觉的应用,2017年。[8] Xianzhi Du , Mostafa El-Khamy , Vlad I. Morariu ,Jungwon Lee,and Larry Davis.用于有效行人检测的融合深度神经网络。2018年。[9] 费尔岑斯瓦尔布河Girshick,D. McAllester和D.拉玛南。使用区分性训练的基于部分的模型进行对象检测。模式分析和机器智能,第32卷,2010年。[10] J V弗里曼,T J科尔,S Chinn,P R琼斯,E M怀特和MA普里斯。1990年英国横断面身高和体重参考曲线。Archives of Disease in Childhood,73(1):17-24.[11] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Xu Bing , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoshua Bengio.生成性对抗网。神经信息处理系统,2014年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在计算机视觉和模式识别(CVPR),2017年IEEE会议上,2017年。[14] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。[15] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng Yang Fu , andAlexander C.伯格。Ssd:单发多盒探测器。在ECCV,2016年。[16] Wei Liu,Shengcai Liao,Weidong Hu,Xuechi Liang,and Xiao Chen.通过渐近定位拟合学习有效的单阶段行人检测器。在欧洲计算机视觉会议(ECCV),2018年9月。[17] 作者声明:Eden OhnBar,Mohan M.特里维迪要不要提振?关于物体检测的提升树的限制。InICPR,2016.[18] 拉维·S. Hegde Param S.拉杰普拉,赫里斯托·博季诺夫。使用在合成图像上训练的深度cnn进行目标检测。在arXiv预印本arXiv:1706.06782中。,2017年。[19] S. Ren , K.He 、 R Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks. 在 IEEE Transactions on Pattern Analysis andMachine Intelligence,第39卷,第1137-1149页[20] T.松湖,澳-地Sun,D. Xie,H. Sun和S. PU.基于人体拓扑定位和时间特征聚合的小规模行人检测。在ECCV,2018。[21] Robert Zinkov Frank Wood Tuan Anh Le,Atilim GunesBaydin.使用合成数据来训练神经网络是基于模型的推理。在arXiv预印本arXiv:1703.00868中。,2017年。[22] 作者声明:Peter M.测量人类身高变化。40(5):489-490.[23] 王新龙,肖泰特,姜语宁,邵帅,孙健,沈春华。斥力损失:在人群中发现行人。在CVPR,2017年。[24] 任伟强,胡卫东,刘玉伟,廖胜才.高级语义特征检测:行人检测的新视角。在IEEE计算机视觉和模式识别会议(CVPR),2019。[25] 张立良,林亮,梁晓丹,何开明。更快的r-cnn在行人检测方面做得好吗在ECCV,2016年。[26] ShanshanZhang , RodrigoBenenson , MohamedOmran,Jan Hosang,and Bernt.席勒我们离解决行人检测问题还有多远?在CVPR,2016年。[27] Shanshan Zhang,Rodrigo Benenson,and Bernt.席勒城市居民:用于行人检测的多样化数据集。在CVPR,2017年。[28] Shifeng Zhang,Longyin Wen,Xiao Bian,Zhen Lei,and Stan Z.李遮挡感知r-cnn:在人群中检测行人。在ECCV,2018。[29] Shanshan Zhang,Jian Yang,and Bernt Schiele. cnns中基于引导注意的遮挡行人检测。在CVPR,2018年。[30] Muming Zhao , Jian Zhang , Chongyang Zhang , andWenjun Zhang.利用异构辅助任务来辅助人群计数。在CVPR,2019年。[31] Chunluan Zhou和Junsong Yuan。用于行人检测和遮挡估计的双盒回归。在ECCV,2018。[32] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在计算机视觉(ICCV),2017年IEEE国际会议上,2017年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功