没有合适的资源?快使用搜索试试~ 我知道了~
3672深度检测神经网络的主动学习哈米德·HAghdam1,Abel Gonzalez-Garcia1,Joostv an de Weijer1,Antonio M. 洛佩斯1,2计算机视觉中心(CVC)1和计算机科学部。2,Univ.Auto` noma de Barcelona(UAB){haghdam,agonzalez,joost,antonio}@ cvc.uab.es摘要绘制对象边界框(即标记)是非常高的。例如,在常规城市图像中标记行人平均需要35秒主动学习旨在通过仅选择那些信息丰富的图像来降低标记成本,以提高检测网络的准确性。在本文中,我们提出了一种方法来执行主动学习的对象检测器基于卷积神经网络。我们提出了一个新的图像级评分过程来排名未标记的图像自动选择,这显然优于经典的分数。所提出的方法可以应用于视频和静止图像集。在前一种情况下,时间选择规则可以补充我们的评分过程。作为一个相关的用例,我们广泛地研究了我们的方法在行人检测任务上的性能。总体而言,实验表明,该方法的性能优于随机选择。1. 介绍拥有全面和多样化的数据集对于训练准确的神经网络至关重要,这在诸如对象检测之类的问题中变得至关重要,因为对象和背景的视觉外观变化很大。创建此类数据集的常用方法包括收集尽可能多的图像,并为所有图像中的所有感兴趣对象绘制边界框(标记)。然而,这种方法具有两个主要缺点。虽然标记小数据集是易于处理的,但当数据集很大时,它变得非常昂贵。例如,根据我们使用六种标记工 具 ( La-belMe 、 VoTT 、 AlpsLabel 、 LabelImg 、BoundingBox Annotation、Fast Annotation)的实验,平均而言,一个人(即,标记典型城市道路场景的行人花费最少35秒;根据工具和Oracle的标记经验,时间可能更长。在数十万个图像包含足类的数据集中,总标记时间可能高得令人望而却步。处理这个问题的一种方法是选择一个随机子集进行标记。除非所选的随机子集是虽然它很大,但这并不能保证它将捕获不同的视觉模式。因此,在随机子集上训练的网络的准确性可能显著低于在完整数据集上训练的准确性。主动学习[22]旨在选择能够提高网络知识的样本。为此,主动学习方法采用网络的当前知识来选择用于标记的信息样本。一般的假设是,在主动学习选择的子集上训练的网络将比在相同数量样本的随机子集上训练的网络更准确。这样,不仅通过选择较小的子集进行标记来降低标记成本,而且还通过在该子集上进行训练来保证网络足够准确。正如我们将在第2节中看到的,主动学习的大多数工作然而,通常,与分类任务相比,检测任务的标记成本相当高。在本文中,我们提出了一种方法来执行主动学习的检测任务。问题公式:我们使用标记有对象边界框的图像集合Xl来基于卷积神经网络训练对象检测器θ。之后,我们接收到一组未标记的静态图像或视频Xu。目标是通过标记Xu的小子集来提高Θ的准确度。Xl和Xu可以来自相同的分布,或者在它们之间可以存在域移位[19],Xu来自其中Θ必须表现良好的域在无论哪种情况,主动学习的目的都是自动选择子集XalXu,使得对X al进行微调Θ比对随机选择的子集XrndXu 进 行 微 调 产 生 更 准 确 的 结 果 ; 其 中 |Xal| 为|Xrnd|=B,并且Xal和Xrnd都由oracle标记(例如,人类)之前微调。我们将B称为总标签预算1。出资额:在本文中,我们提出了一种新的方法,在深度检测神经网络上执行主动学习(第3节)。特别地,给定这样的对象检测器,我们的方法检查一组未标记的图像1还有其他方法来定义标签预算。在本文中,为了简单起见,我们使用3673图1.我们的方法用于对象检测器的主动学习。我们从一个在标记数据集上训练的检测器开始。然后,根据预设预算重复主动学习周期。每个循环开始于为每个剩余的未标记图像计算密集对象预测概率。然后计算像素级分数并将其聚合为帧级分数。这些分数用于自动选择用于人类标记的图像最后,使用累积的主动标记图像对原始检测器进行微调以选择具有更大潜力的那些来提高检测精度。这些图像被标记,然后用于重新训练检测器。为此,在给定图像的情况下,我们提出了一个新的函数来对每个像素的重要性进行评分,以改进检测器。这样的像素级分数的适当聚合允许获得图像级分数。通过对这些分数进行排名,我们可以决定选择哪些图像进行标记。该过程可以在几个迭代中执行。我们的方法可以应用于静止图像和视频的数据集。作为相关用例,在第4节中,我们对行人检测任务进行了实验。此外,我们进行了详细的分析,以显示我们提出的方法相比,随机选择和使用其他经典方法的图像级评分的有效性。此外,在视频的情况下,我们展示了我们的方法如何可以很容易地补充考虑到时间相关性的选择规则。我们的代码可在www.gitlab.com/haghdam/deep_active_learning公开获取。第五部分是结论和未来的工作。2. 相关工作大多数主动学习的工作集中在图像分类。Gal等人[7,6,15]在图像分类神经网络的权重上添加先验,在每次评估时从dropout分布中采样权重。然后,通过计算预测的互信息或变化率来获得未标记图像的信息性得分。根据这些分数对图像进行排名,并选择顶部B进行标记。这些方法的主要缺点是没有考虑所选样本的相似性.因此,他们可能会选择冗余样本进行标记。Elhamifar等人[5]将选择公式化为凸优化问题,考虑到特征空间中所选样本的相似性此外,Rohanet al. [18]引入了核心集的概念来实现这一目标。最近,Sener和Savarese [21]将coreset寻找问题转化为k-中心问题。在[9]中使用了类似的方法来在长尾上进行主动学习。Lakshminarayananetal. [14] Galet al. [8]对 于回 归 任务 , 由 Von- drick和Ramanan [26]选择关键帧以使用动作类标记完整视频,以及由Heilbron等人。[10]动作定位。基于手工特征和浅层分类器的对象检测的主动学习有不同的工作[1,24]。然而,据我们所知,只有少数工作的主动学习的对象检测基于卷积神经网络。Kao等人[13]使用定位紧密性和稳定性对图像进行排名。前者测量检测到的绑定框有多紧,后者估计它们在原始图像和噪声版本中的稳定性。Roy等人[20]提出了黑盒和白盒方法。黑盒方法不依赖于底层网络架构,而白盒方法是基于网络架构定义的。此外,Brustet al.[2]计算候选边界框的边际得分[23],并使用不同的合并函数将它们整合。我们的方法和这些关于基于深度学习的对象检测的主动学习的工作之间存在主要差异。首先,它们结合了常用的得分函数,如边际和熵得分。相反,我们提出了一个新的函数来计算像素级的分数,这是非常适合的目标检测的任务。其次,它们主要依赖于简单的合并函数,例如像素级分数的平均值或最大值,以获得图像级分数。然而,我们提出了另一种方法来聚合像素级的分数,并在我们的实验中显示其重要性。第三,在处理视频时,我们展示了我们的方法是如何很好地补充规则,以避免选择有代表性但冗余的帧。3. 该方法给定一幅图像X,x1=Xm1:m2,n1:n2表示它的一个补丁,x2=Xm1± n:m2± n,n1± n:n2± n是通过平移x1得到的另一个补丁。 我们假设,如果网络在训练期间充分看到了这些补丁的出现,则检测网络可能会预测x1和x2的相似概率分布。否则,x1和x2的后验概率分布将发散。这表明了3674Bx1和x2的后验概率由D(Θ(x1))||其中,Θ()是检测网络的softmax输出,我们假设D对于真阳性和真-阳性将是小的。负面预测;而对于假阳性和假阴性预测,它将是高的。因此,由于我们的目标是减少假阳性和假阴性预测的数量,我们提出了图1所示的主动学习方法来选择用于标记的信息图像。最初,我们假设标记的数据集Xl用于训练网络0,从而提高权重向量wl。主动学习将从一个空的图像集合Xal=X l和一个称为Xu的N个未标记图像的集合开始。然后,主动学习将循环进行,其中在标记之后将从Xu自动选择的图像移动到Xal称b为每个周期的标签预算,已经引入了标记的总预算,两者都表示为图像的数量,我们运行K = B个主动学习周期。请注意,一个基本假设是BN。主动学习循环从步骤1开始,其中处理当前未标记集合Xu以为其图像的每个像素分配预测实际上,它可以是每个像素多于一个的预测概率,多分辨率检测网络,这是我们在这里考虑的情况;我们可以根据预测概率的矩阵来考虑在第一主动学习周期中,检测网络唯一地基于wl。 在接下来的周期中,通过对活动标记图像的累积集合Xal进行再训练来修改这些权重。然后,在步骤2中,我们联合考虑空间邻域和预测矩阵以获得粗略地指示每个像素对于改进检测网络的信息量的每像素分数。由于我们必须选择完整的图像,因此必须将像素级分数转换为图像级分数。因此,步骤3计算每个像素的图像级标量分数。图像xu∈Xu通过聚合其像素级分数。步骤4采用图像级分数来从Xu中选择b个最佳排名的图像用于它们的标记。用Xs表示所选b图像的集合,步骤5将Xal设置为Xal∪Xs并且将Xu设置为Xu− Xs。最后,在使用Xal和wl作为初始化权重重新训练Θ之后,主动学习循环在步骤6中结束。接下来,我们将解释我们建议的法在不损失主动学习协议的一般性的情况下,我们专注于一个与我们特别相关的问题我们设计了我们的网络和其他阶段的主动学习方法的行人检测的任务,但他们是可扩展的多类检测问题。网络架构:主动学习的第一步-循环计算图像的像素级分数因此,检测网络Θ必须能够计算每个像素的后验概率Lin等[16]提出了具有横向连接的特征金字塔网络(FPN)用于对象检测。我们在设计上也采用了类似的模式-图2.检测网络的总体架构。我们的探测网络。尽管如此,我们没有使用重型骨干网络,而是设计了图2所示的网络,在解码器的不同级别上进行预测。因为我们的方法需要像素级分数,所以预测层必须与图像大小相同。为此,我们遵循[3]并使用双线性上采样在空间上调整logits的大小。每个击发残留量模块均遵循[12]中所示的相同架构。此外,每个下采样层由并行应用并在输出端级联的卷积层和池化层组成[17]。所有预测层共享相同的权重。出于这个原因,在每个logits层之前有一个128个过滤器的1×1卷积层,以统一特征图的深度。感兴趣的读者可以在www.example.com中找到该架构的详细信息www.gitlab.com/haghdam/deep_active_learning。我们设计网络,使得预测块{Θ1,Θ2,Θ3,Θ4,Θ5}覆盖大小为{270×160、225×130、145×80、80×50、55×31}。这里,Θ1指示连接到编码器的最后一层的预测块,并且Θ5示出在解码器的末尾处的预测块。在本文中,我们主要集中在任务的行人检测,这是一个二元分类问题。因此,每个logits层的深度是1。此外,它们中的每一个都与物流损失有关。我们在网络中不使用任何边界框回归分支。像素级分数:我们的目标是选择具有最高数量的假阳性和假阴性预测的图像进行标记。早些时候,我们假设假阳性和假阴性像素附近的因此,通过局部计算预测的散度,我们将能够近似像素的预测不正确的程度。F或大小为W×H的图像,输出Θi,i=1。 . . KΘ将是概率值的W×H矩阵,其中KΘ是预测分支(矩阵)的总数。例如 ,我们的网络中来自Θ 3的元素(i,j)表示像素坐标(i,j)对应于与145×80边界框适当匹配的行人的可能性有多大给定五个概率矩阵,我们的目标是计算得分矩阵S=[sij]W×H,使得sij显示3675MaxIJIJMNIJMNMNMN=MNMN第i个区域,其中s为i,我们计算图像级分数z为最大合并分数的平均值:z=1DpΣImax我、(五)图3.将像素级分数聚合为图像级分数。在以坐标(i,j)为中心的局部邻域中,预测彼此之间的差异有多大。将第k个概率矩阵Θk的元素(i,j)表示为p,k,获得像素(m,n)的分数的第一步是如下空间地计算预期概率分布其中Dp是最大池化区域的总数。选择图像:如图1所示,为未标记数据集Xu中的每个样本计算图像级分数。下一步是从Xu中选择b个样本。在这里,我们考虑两种情况。在第一种情况下,Xu由静止图像组成,这意味着没有时间两个连续样本之间的相关性。在第二种情况下,Xu包含按时间顺序排序的样本。换句话说,Xu包含视频序列。在第一种情况下,从Xu中挑选具有最高图像级别分数的前b个样本。相同的方法K1Mn(2r+1)2m+rn+rpk.(一)可以用于第二种情况。然而,多余的如果我们在选择过程中不结合时间推理,则在第二种i=m−r j=n−r在该等式中,r表示邻域的半径。接下来,通过计算第k个概率矩阵的元素(m,n)假设来自Xu的视频中的第t帧具有最高图像级分数。很可能t + △t帧具有与第t帧相当的图像级分数,k=H(p≠k1)−(2r+1)2m+rn+rH(pk)(2)因为很有可能两个(或更多)连续的帧包含类似的视觉模式。然后,如果在不考虑时间差异的情况下选择帧,则在不考虑i=m−r j=n−r其中H是熵函数。该分数先前已由[11]和[8]在图像分类任务中使用在二元分类问题的情况下,H(z)定义如下:H(z)= −z log z −(1 − z)log(1 −z)。(三)例如,这一步可能会选择在t±△t上运行的许多帧因为它们都可能具有较高的图像级分数。 不-这些帧中的仅一个帧就足以提高网络的知识。出于这个原因,我们为第二个场景添加了更多的步骤。具体而言,我们对图像级分数执行时间平滑,如下所示:元素(m,n)的最终得分通过对所有概率矩阵中的相同元素求和来获得。1zt=tΣ+△tw i+△tz i。(六)smnΣ=k=1.. KΘK.(四)iwii=t−△t在该等式中,表示第i个图像的图像级分数基本上,得分sk通过计算DIF-Wi+△t表示图像级的重要性平均预测的熵与在大小为2△t的时间窗内得分。 本文在分析了现有文献的基础上,预测的平均熵事实证明,sk将我们使用高斯权重,但其他权重函数接近零,如果预测在这个lo是局部相似的。也可以探索。接下来,顶部的b帧与阳离子。相反,SK如果预测偏离,最高的z从Xu中逐一选择,考虑到ac-在附近最后,如果预测在所有概率矩阵中局部一致,则smn将很小综合评分:我们需要根据它们的信息量对未标记的图像进行排名,以便在下一步中选择其中的一些。然而,纯粹使用它们的得分矩阵来比较两个图像并决定哪一个可以为网络提供更有利的信息并不是微不足道的。一种直接的解决方案是将得分矩阵S中的像素级得分聚合为单个数字。为此,我们将得分矩阵S划分为不重叠的区域。这在图3中示出。然后,计算每个区域的最大得分。表示的最高分SpSS367611计算以下时间选择规则:• 如果选择了第t帧,则在当前主动学习周期中不再选择时间距离±△t1内的任何帧• 如果选择了第t帧,则在下一个活动学习周期中不再选择时间距离±△t2内的任何帧我们将△t1设为比△t2大的数。这种启发式的直觉是,如果第t帧在视觉上类似于第t± △t帧,则它将充分改善网络,使得第t± △t帧将具有低图像级别36772CityPersons加州理工学院BDD100k图像18355136369836实例77402006256473图片wped18351052317632图像尺寸2048 ×1024640 ×4801280 ×720类型图像视频图像表1.训练集的统计数据。在下一个循环中得分。通过将△t1设置为一个较大的数值,我们可以确保两个帧在当前周期中在视觉上是不同的。另一方面,由于第t帧和第t± △t帧在视觉上几乎相同,所以△t2设置为较小的数字因此,其中一个将足以在所有的周期中提高网络的知识更复杂的方法,如比较两个帧的密集光流或图像散列也可以用于确定两个帧的相似性然而,在没有实验的情况下判断它们是否比我们提出的规则更好或更差并不是微不足道的更新模型:步骤6是使用当前可用的标记数据集Xal来更新神经网络。在本文中,我们使用预训练的权重Wl初始化网络,并在Xal上训练T epochs。4. 实验数据集:我们使用CityPersons [30],Caltech Pedestrian[4]和BDD100K [29]数据集。这些被过滤,使得仅保留与行人实例相关的标签。此外,高度小于50像素或其宽/高比的任何行人不在区间[0. 2,0。[65]已删除这些选择是因为我们的网络架构。对于不同的体系结构,可以忽略这些过滤器。表1显示了应用这些标准后三个数据集的统计数据。在主动学习周期期间,CityPersons数据集被用作初始数据集Xl,并且Caltech Pedestrian和BDD100K被用作未标记的集合Xu事实证明,加州理工学院行人数据集中只有20%的帧和BDD 100K数据集中25%的帧包含行人实例。此外,不仅Xl和Xu中的图像的大小不同,而且它们在视觉上也是可区分的。换句话说,在Xl和Xu之间存在域转移[19,25,28,27],这使得主动学习过程更具挑战性。更重要的是,虽然加州理工学院行人数据集包含视频序列,BDD 100K由静止图像组成,它们之间没有清晰的时间相关性。这将评估我们的方法对视频序列和静止图像的有效性。实施详情:网络中的每个预测分支连接到S形函数,并且通过最小化以下来训练网络:图4.不同b和B的完成时间。ΣΣKΘe(X)=−yklnpk−(1−yk)ln(1−pk)+λ||W||(七)x,y∈X k=1在该等式中,λ是正则化系数, pk(x)=σ(Θk(x))是后验概率,并且X=(xi,yi)是训练样本的小批量,其中yi∈ {0,1}ΚΘ是二进制向量。这个向量中的第j个元素是1,如果样本x指示适合第j个默认边界框的行人。使 用RMSProp方法以T = 50个时期的指数退火速率优化上述目标函数。 学习率设置为0。001,并且指数地退火,使得其减小到0。0001在最后一次迭代中。此外,正则化项被设置为2e-6。重要的是要确定一个适当的负阳性(N2P)比(即。背景对比这里的行人)的小批量。从补充材料中可以看出,N2P=15在我们的实现中提供了最佳的检测精度以主动学习法为重点我们设置r=9作为步骤2的空间半径,用于获得像素级分数;而我们在步骤3中使用30×30个非重叠区域来聚合像素级分数。Fi-最后,由于Caltech Pedestrian数据集被组织为视频序列,因此我们设置△t1= 15和△t2= 2以在帧选择期间应用时间推理(步骤4)。完成时间与budget:给定B,设置b是执行主动学习之前的重要步骤之一。不适当的b值可能会增加主动学习过程的总体完成时间。此外,将b设置为高的数字可以将主动学习减少到图像的一种均匀采样。例 如 , 对 于 加 州 理 工 学 院 行 人 数 据 集 的 一 帧(640×480像素),我们的网络在具有双重评估2的前向传递中的完成时间是150 ms,并且对于向前-向后传递,为200ms分解出标记帧的时间(即,通过假设它是恒定的),图4针对该数据集的51,363帧(表1)绘制了使用不同的b和B值的我们的方法的总体完成时间假设B=7500,那么,完成主动学习过程将花费46小时对于b=2500;而对于b=50将花费1800小时。2在本文中,双重评估是指评估原始图像及其镜像版本以进行预测。3678MN一方面,将b设置为50是不切实际的,因为它的完成时间很长。此外,在每个周期仅将50个图像添加到Xal可能不会充分改善网络的知识。另一方面,将b设置为2500可能会将主动学习减少到采样帧单位。形式上(我们将解释)。将b设置为500更为实用,因为完成时间为190小时。此外,在每个周期向Xal添加500个帧可能更好地提高网络的准确性。 因此,除非另有说明指定,我们在所有实验中设置b=500我们的方法VS random:为了将我们的方法与随机抽样进行比较,我们假设14个周期。对于每个周期,在前一种情况下,我们应用我们的图像选择方法,而在后一种情况下,选择纯粹是随机的。通过这种方式,我们可以执行每个周期的比较。此外,为了公平比较,将视频的相同帧选择规则应用于随机选择;因此,我们称之为引导随机。所有实验重复五次。图5示出了对于选择的循环(suppl.材料(包括14个周期)的缺失率和每图像假阳性(FPPI)[4]。在第一个周期中,纯粹使用来自CityPerson数据集的知识选择500帧结果表明,由引导随机方法选择的帧与由 我 们 的 方 法 选 择 的 帧 表 现 相 当 这 可 能 是 由 于CityPerson和Caltech Pedestrian数据集的视觉模式之间的实质性差异。换句话说,从CityPerson数据集获取的知识在第一周期选择信息样本在在第一个循环结束时,Xal包含500个样本(即,百分之一的未标记的训练数据)从加州理工学院行人数据集。我们的方法利用从当前Xal获得的知识来选择用于标记的下一帧。相比之下,引导随机方法不利用网络的知识,而是随机选择样本。在第4个周期结束时,通过这些方法中的每一个选择了2K帧实验结果表明,用主动学习方法选择的Xal训练的准确性更与引导随机速率网络相比。最后,在第14个周期结束时的结果表明,我们的方法在加州理工学院行人数据集上的表现明显优于引导随机这也可以在图5中看到,图5示出了每个周期FPPI=1时的未命中率。其他像素级评分函数:我们还重复了这个实验,用二进制熵和蒙特卡罗(MC)丢弃代替我们提出的像素级评分函数[8]。对于二进制熵,像素级得分q是dropout分布。该函数与我们提出的评分函数之间的主要区别在于,我们的函数计算局部发散,而MC-Dropout函数计算相同空间位置但具有T个不同预测的发散 我们设置P=30,辍学率为0。5和0。MC-Dropout中1图6示出了与图5(左中)进行比较的结果。请注意,即使与引导随机相比MC-Dropout与引导随机相比产生更准确的结果,但它仍然不如我们提出的评分函数准确。图5详细描述了该观察结果,比较了每个周期在FPPI=1时的相应未命中率。Xal的统计:为了进一步分析这些方法,我们计算了在每个循环结束时由每个方法选择的行人实例的数量(图7)。通过我们的方法选择的7K帧包含collectively 5706(五次运行的平均值)行人实例。相反,通过引导随机方法,在所选择的帧内仅存在2741个行人实例使用我们基于MC-Dropout和熵函数的方法,该数量分别等于3700和5243。尽管基于熵的方法与引导随机和MC-Dropout相比选择了更多的行人实例,但其准确性低于这两种方法。这主要是由于真阳性或真阴性候选可能具有高熵值的事实。因此,由网络正确处理的帧可能具有高图像级分数,并且它将被选择用于标记。然而,所选帧可能是冗余的,因为网络已经检测到行人。ANS和背景正确,但具有高熵。MC-Dropout背后的直觉是,如果网络关于视觉模式的知识是精确的,那么如果通过每次随机丢弃权重来多次评估图像,则预测不应该发散。这与我们的方法不同,我们的方法在空间上近似除了卓越的性能之外,我们的像素级评分函数在计算上比MC-Dropout方法更预算规模的重要性:在本节的前面,我们解释了正确设置预算大小对于使主动学习方法的总体完成时间易于处理非常重要。在这里,我们从另一个角度研究预算规模b的重要性。为此,b增加到1500,并且主动学习方法重复五个周期(因此比先前设置多标记1000帧图8显示了结果。在第5个周期,选择7500帧用于标记。(2)被替换为sk=H(pk),并将其替换尽管如此,该网络在X上训练,选择关于SK=H(pkmn1千兆吨MNH(pk|w ∼ q) for thealb=1500时,我们的方法不如网络精确嗯嗯Tt=1分钟MC-脱落方法,其中p<0.05是Tpredic的平均值在由引导随机方法选择的Xal上训练,其中)−3679图5.我们的主动学习方法的性能曲线(左)与随机选择(中间),在加州理工学院行人数据集上的不同训练周期N表示标记图像在整个可用未标记训练集上的百分比。因此,黑线示出了检测器可以提供的最佳性能(在两个图中是相同的)。FPPI=1(右)的未命中率将我们的主动学习方法与基于熵,MC-Dropout和引导随机选择的变体进行了比较。图6.其他评分功能的性能:二进制熵(左)和MC-Dropout,其中丢弃率为50%(中)和10%(右)。足够数量的帧以提高其知识并减少选择冗余样本的机会。消融研究:接下来,我们研究我们提出的方法中的每一步的重要性。在每个实验中,一个步骤被禁用,而其他步骤保持活跃。首先,聚集步骤(最大池化,等式10)。5)用于计算图像级分数的方法被改变为仅对像素级分数求平均。第二,时间平滑步骤(Eq.(6)是图7.每个周期的行人实例数(单位:Xs)图8.将b增加到1500后,FPPI与未命中率。b=500。这主要是由于选择规则中的第一标准和当前周期中X中的冗余根据第一标准,一旦选择了帧,则在当前周期中将跳过与所选择的帧的时间距离±15内的任何帧。当预算大小b很高时,这迫使选择过程进行形成类似于均匀采样帧的形式。此外,网络的知识在第一个周期是肤浅当b为高时,第一周期中的一些选定帧可能是冗余的。然而,通过将b设置为较小的值,算法能够选择不适用。第三,没有应用时间选择规则。图9和10示出了结果。我们看到,时间平滑似乎没有多大帮助,而基于最大池的聚合和时间选择规则在加州理工学院行人数据集中至关重要。BDD 100K数据集:我们还将我们的方法应用于仅包含静态图像的BDD100K数据集。因此,不应用时间平滑和时间选择规则我们首先在这个数据集上训练我们的网络,以便估计主动学习方法的下限误差。不同N2P值的结果如补充材料所示,N2P=15也是最佳值。然而,与加州理工学院行人数据集相比,我们的检测网络在这个数据集上的准确性下降了。这主要是由于BDD 100K在视觉上更具挑战性,因此,我们认为我们目前的网络没有足够的表达能力来学习复杂的映射并提供良好的准确性。图11和12说明了我们的主动学习方法和随机选择的准确性,包括使用完整可用的标记训练集和N2P=15时我们的网络的准确性。随机选择执行bet-3680图9.禁用聚合步骤(左)、时间平滑(中)和时间选择规则(右)后的性能周期与加州理工学院行人数据集的情况相比,我们的方法对随机的改进只是轻微的。一个原因可能是由于网络架构对BDD 100K数据集有很高的偏差。当偏置高时,大多数视觉模式将对网络提供信息。 然而,网络不会能够从新样本中学习更复杂的映射。因此,与Xal中的样本相似的视觉模式在接下来的循环中仍将具有高分。换句话说,Redun-图10. FPPI 1时的未命中率,对于每个周期,设置/禁用我们方法的中间规则。图11.我们的方法(顶部)和随机选择(底部)在BDD100K数据集上不同周期的性能图12.对于我们的方法和随机选择,每个周期的未命中率FPPI=1。比我们的方法在第一个周期结束时更晚。然而,我们的方法从第二个开始执行稍微好一点如果网络具有高偏差,则可能在下一个周期中选择Dant样本。总的来说,要解决这个问题,我们必须从设计一个更精确的网络开始。因此,我们计划考虑具有更高容量的网络,因为否则我们认为任何主动学习方法都很难在不显著增加循环次数的情况下达到使用100%标记数据的准确性(在循环14中,我们只使用13%的数据)。5. 结论提出了一种基于卷积神经网络的主动学习目标检测方法。总的来说,它优于随机选择,只要检测器有足够的能力在目标域中表现良好。我们的方法可以处理未标记的静止图像或视频集。在后一种情况下,可以将时间理性作为互补选择并入。我们已经进行了烧蚀研究的不同组成部分,我们的方法。我们已经看到,特别相关的是所提出的基于最大池化的聚合步骤,其优于文献中的其他提议。作为一个相关的用例,我们的实验已经进行了行人检测面临的域转移旁边。事实上,我们的方法可以推广到分割问题,以及多类对象检测,这是我们认为我们不久的将来的工作。鸣谢。作者衷心感谢Audi Electronics Venture GmbH在本工作开展期间给予的支持。作为CVC成员,作者还感谢加泰罗尼亚CERCA计划及其ACCIO机构。Antonio感谢西班牙项目TIN 2017 -88709-R(MINECO/AEI/FEDER,UE)和Joost项目TIN 2016 -79717-R的财务支持。安东尼奥感谢ICREA在ICREA学术计划下的财政支持。3681引用[1] 约塔姆·艾布拉姆森和约阿夫·弗罗因德SEmi-automatic VIsuaL LEarning(SEVILLE):视觉物体识别的主动学习教程。在CVPR,2005年。2[2] Clemens-Ale xanderBrust , ChristophK ? ding ,Joachim Denzler 。 主 动 学 习 深 度 目 标 检 测 。CoRR,abs/1809.09875,2018。2[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。CoRR,abs/1706.05587,2017。3[4] PiotrDolla'r , ChristianWojek , BerntSchiele ,andPietro Perona.行人检测:对最新技术水平的评价。TPAMI,2012年。五、六[5] Ehsan Elhamifar,Guillermo Sapiro,Allen Yang,and S Shankar Sasrty.主动学习的凸优化框架。InICCV,2013. 2[6] 亚林·加尔和祖宾·加赫拉马尼。具有Bernoulli近似变分推理的贝叶斯卷积神经网络2016. 2[7] Yarin Gal、Riashat Islam和Zoubin Ghahramani。使用图像数据进行深度贝叶斯主动学习。2017. 2[8] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习CoRR,abs/1703.02910,2017。二、四、六[9] Yonatan Geifman和Ran El-yaniv长尾上的深度主动学习CoRR,abs/1711.0,2017年。2[10] Fabian Caba Heilbron , Joon-Young Lee , HailinJin,and Bernard Ghanem.我接下来要注释什么?行 动 定 位 主 动 学 习 的 实 证 研 究 。 在 ECCV ,2018。2[11] Neil Houlsby Ferenc Huszar Zoubin Ghahramani[15] Yingzhen Li和Yarin Gal.具有α发散的baidom神经网络中的丢弃推理。CoRR,abs/1703.02914,2017。2[16] 林 宗 义、多拉尔 、 罗 斯 B. Girshick 、 KaimingHe、Bharath Hariharan和Serge J.贝隆吉用于对象检测的特征金字塔网络。在CVPR,2017年。3[17] Adam Paszke、Abhishek Chaurasia、Sangpil Kim和Eugenio Culurciello。Enet:用于实时语义分割的深度神经网络架构。CoRR,abs/1606.02147,2016。3[18] Rohan Paul,Dan Feldman,Daniela Rus,and PaulNewman. InICRA,2014. 2[19] JoaquinQuin oneroCandela 、 MasashiSugiyama 、AntonSchwaighofer和Neil D.劳伦斯机器学习中的数据集转移。MIT Press,2009. 一、五[20] Soumya Roy、Asim Unmesh和Vinay P.南布德-伊利。用于对象检测的深度主动学习。在BMVC,2018年。2[21] Ozan Sener和Silvio Savarese卷积神经网络的主动学习:核心集方法。在ICML,2018。2[22] 伯尔·塞特斯。主动学习文献调查。技术报告,2010年。1[23] 伯尔·塞特斯。主动学习。人工智能和机器学习综合讲座,6(1):1- 114,2012。2[24] Sayanan Sivaraman和Mohan M.特里维迪用于道路车辆检测的主动学习:比较研究。马赫视觉应用,Apr. 2014. 2[25] 安东尼奥·托拉尔巴。和Alexei A.埃夫罗斯无偏倚地看数据集偏倚。CVPR,2011。5[26] 卡尔·冯德里克和德瓦·拉马南视频注释和跟踪与主动学习。NIPS,2011年。2[27] 王梅和邓伟红深视觉域还有Mate朗杰尔贝叶斯 主动学习适应:一项调查。神经计算,2018年。5用于分类和偏好学习。CoRR,abs/1112.5745,2011年。4[12] 福雷斯特N.作者:Matthew W.放大图片作者:William J. 达 利 和 库 尔 特 · 库 泽 。 Squeezenet :Alexnet级别的精度,参数减少50倍,模型大小为1mb。CoRR,abs/1602.07360,2016。3[13] 高杰琦、李登育、森普拉迪普、刘明宇。用于对象 检 测 的 定 位 感 知 主 动 学 习 。 CoRR ,abs/1801.05124,2018。2[14] Balaji Lakshminarayanan,Alexander Pritzel,andCharles Blundell.使用深度集成的简单和可扩展的预测在NIPS,2016年。2[28] JiaolongXu,SebastianRamos,D a vidV a′ zquez,andAntonioManuelL o′ pez Pe nPena. 基于可变形零件模型的领域自适应TPAMI,2014年。5[29] Fisher Yu , Wenqi Xian , Yingying Chen ,Fangchen Liu,Mike Liao,Vashisht Madhavan,and Trevor Darrell.BDD100K:一个多样化的驾驶视频数据库,具有可扩展的注释工具。CoRR,abs/1805.04687,2018。5[30] Shanshan Zhang , Rodrigo Benenson , and BerntSchiele.城市居民:用于行人检测的多样化数据集。在CVPR,2017年。5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功