没有合适的资源?快使用搜索试试~ 我知道了~
6341TMCOSS:用于数据高效自动驾驶的Soumi DasIIT KharagpurHarikrishnaPatibandla IITKharagpurSuparna Bhattacharya惠普实验室、慧与企业Kshounis BeraHPE EnterpriseNiloyGanguly IITKharagpurSourangshu BhattacharyaIIT Kharagpur摘要训练基于视觉的自动驾驶模型是一个具有巨大实际意义的挑战性问题主要挑战之一是需要存储和处理大量(可能冗余的)驾驶视频数据。 在本文中,我们研究了自动驾驶系统的数据高效培训问题。我们认为,在边缘设备部署的背景下,多标准在线视频帧子集选择是一个合适的技术,用于开发这样的框架。我们研究了现有的凸优化的解决方案,并表明他们无法提供解决方案,具有高权重的损失选定的视频帧。我们设计了一种新的多准则在线子集选择算法,TM-COSS,它使用了一个阈值凹函数的选择变量。使用驾驶模拟器CARLA进行的大量实验表明,我们能够丢弃80%的帧 , 同 时 成 功 完 成 100% 的 剧 集 。 我 们 还 表 明 ,TMCOSS提高了性能的关键启示“相对角度”在转弯时,包括桶特定的相对角度损失(BL),导致选择更多的TMCOSS还在来自标准BDD和Cityscapes数据集的真实世界视频上实现了80%的训练视频帧数量减少,用于可驾驶区域分割和语义分割任务。1. 介绍很多人工智能-基于自动驾驶的应用,例如基于可供性的驾驶模型[21]、语义分割模型[5]、可驾驶区域检测[24]等,需要从边缘设备收集大量视频数据,用于训练机器学习模型。然而,从任务的角度来看,许多输入视频包含冗余信息。例如,在基于负担能力的驾驶模型的情况下,在直路上使用许多帧进行训练训练模型61边缘设备传入视频帧/数据点云转移52a减少视频/数据集多标准OSS32b任务特定模型例如,驾驶模型、语义分割模型,...选定的传入视频帧/数据点永久存储的数据4添加到现有数据点态损失成对距离图1:边缘设备上的数据子集选择框架,用于减少训练数据集收集。可能不需要分段;而在训练中可能需要很多回合。在本文 中 , 我 们 感 兴 趣 的 是 开 发 一 种 在 线 子 集 选 择(OSS)算法[13],该算法可以部署在边缘设备上,并且可以选择用于训练一个或多个模型的信息量最大的视频帧。图1显示了我们的应用程序场景的概述。已经在各种上下文中研究了视频帧子集选择的问题,包括视频摘要[13,19],视频识别[23],视频快速转发[17]等。基于深度强化学习的方法,其学习跳帧网络,奖励更好的性能[17,22],或对最终任务的更高信心[23],对于部署在边缘设备,因为它们需要对最终任务目标进行多次评估(例如,验证集上的错误或测试片段的一部分完成),用于学习跳过网络的参数。基于外部准则的方法优化所选帧和整个视频之间的全局准则例如感知相似性[13]、流形跨越[15]等适合于我们的设置,但不包含来自A.I.的信号。任务,例如当前训练的损失6342模型[12]通过马尔可夫模型确保连续选择的视频段之间的OSS框架[13]被扩展为在复合标准[9]中包含所选帧的逐点丢失,并且最适合我们的设置。在本文中,我们建立在多标准OSS框架(MCOSS)[9]的基础上,其中在每一步中,基于所选帧和传入帧之间的总不相似性的总和以及传入所选帧引起的逐点丢失,然而,通过严格的分析,我们表明,在[9]中逐点损失准则的加法合并受到从传入集合中选择较少帧的影响,因为我们为逐点准则提供了更高的权重这是由于以下事实:加性并入遭受所选点的损失的多次计数,从而导致选择较少的帧。我们提出了一种新的阈值MCOSS公式(TMCOSS),它缓解了这个问题,同时保持凸性的优化问题。我们还提出了SubMCOSS,这是我们所知道的,边缘,是第一次submodular集函数为基础的制定在线子集选择,将逐点标准。我们使用自动驾驶模拟器CARLA来[11] 用于CAL驾驶模型[21]任务,以及用于可驾驶区域分割任务的Berkeley Deep-drive(BDD)[24]和用于语义分割任务的Cityscape数据集[8]的真实世界数据集,使用DeepLabv 3+模型[5]。对于CAL模型任务,我们定义了一个新的桶特定的损 失 ( BL ) 的 关 键 相 对 角 度 启 示 。 我 们 表 明 ,TMCOSS以及桶特定的损失(BL),称为TMCOSS-BL,可以实现100:20的压缩(选择1在5帧),同时完 成 10 个 情 节 在 4 个 不 同 的 驾 驶 条 件 下 , 虽 然 从MCOSS收集的数据上训练的模型只能完成7个情节相同的压缩比。从经验上讲,我们还表明,在合成数据以及来自自动驾驶视频帧选择的数据上,TMCOSS的性能优于使用SubMCOSS的子模最 在语义分割任务中,TMCOSS实现了100:20的压缩,总体mIOU分数降低了1%,而MCOSS的mIOU分数降低了8%。最后,在可行驶区域分割任务中,我们实现了100:20的压缩,mIoU仅减少1%,而MCOSS减少了5%。在所有情况下,使用TMCOSS选择的数据集比任何个体标准都更有信息性总结一下,我们的主要贡献是:• 我们介绍了设计数据高效的自动驾驶平台的问题,其中一个关键挑战是多标准OSS。• 我们提出了两种新的多准则OSS方法。基于凸松弛的方法,TMCOSS是理论动机和经验优于多个最近的最先进的基线。• 我们提出了一种新的特定于桶的相对角度损失(BL),当其与TMCOSS(TMCOSS-BL)-起使用时,其在CAL驱动模型任务上提供最先进的压缩。TMCOSS还展示了在基准真实世界数据集上训练数据需求的显著节省。1.1. 相关工作我们描述了两大类相关的先前工作:(a)与自动驾驶任务相关的应用和(b)视频帧子集选择。CARLA [11]是一款成熟的自动驾驶任务驾驶模拟器。Codevilla等人[6]提出了基于模仿学习的方法,然后被条件Af- fordance学习(CAL)模型[21]改进。最近,[7]提出了一种条件模仿学习模型CILRS和一种用于收集更好的策略数据的强化学习方法[20],据报道这两种方法的性能都优于CAL [21]。为了证明TMCOSS的有效性,我们使用CAL [21]作为驾驶模型,我们认为它仍然是在CARLA模拟器上训练驾驶模型的良好模型我们重申,TMCOSS可用于任何模仿学习方法,包括[7]。我们还研究了子集选择对可驾驶区域检测任务的影响[24][18],其本质上是分割可驾驶道路和备用可驾驶道路,以及驾驶数据集上的语义分割[4] [5] [16]。我们使用DeepLabV3+[5]来完成这两项任务,因为它的稳定性优于其他现有模型。视频帧子集选择:最近的在线子集选择方法可以分为两大类:(1)基于深度学习,以及(2)基于一些输入标准的优化。第一类技术[17],[22] [23]依赖于添加到现有任务的管道中的选择网络,并进行联合训练。它们能够通过深度模型学习复杂的选择标准,但不附带任何规定的选择标准。该选择是最优的。这些方法与最终目标联合训练,例如[22]和[23]的视频识别,并且通常太昂贵而不能部署在边缘设备上。第二类技术也与我们的方法最接近,基于不同的定义标准选择数据点。这些标准包括重建误差[3],线性依赖性[15],感知相似性[13]或基于最终任务的标准,如独特性和不确定性[14] [9]。[15]最近提出了一种基于线性相关准则的在线方法。然而,对于当前问题,我们建立在基于6343IJ∈}D{----我我- -i=1Σs.t.zΣ+zj=1i、jj=1i、jIJIJIJIJIJIJ1,jm,j∈IJIJΣΣz,z∈[13]中提出的方法,并扩展到包括多个成对和逐点标准[9]。虽然这些方法用于视频摘要[13]和语义分割[9]的问题,但它们的设置提供了结合多种不同类型的标准的灵活性,这与我们的应用相关。我们提供了这些方法的详细比较。2. 数据高效自动驾驶在本节中,我们将描述自动驾驶模型的数据高效训练问题,其核心思想是在在线集合中选择相关视频片段-从Xt+1中选择Rt+1 的算法,给定Ct和Mt′,因此构成了用于训练自动驾驶模型的数据效率处理Rt注意,该方案也可以用于强化学习方案中,以改进驱动策略,例如[20]中描述的驱动策略,其中可以在迭代t处从重放缓冲器中获取Xt。对于OSS公式化,我们专注于输入批次的剧集Xt+1。选择算法使用帧Rt和Xt+1的两个输入集合,这里分别称为旧集合(上标o)和新集合(上标n)在[13]中使用的符号。令do表示新框架i(来自Xt+1)与旧框架i之间的不相似性度量其中,n是k,k是k。婷 我们将此问题表述为在线子集选择用于选择视频帧的子集的操作问题(OSS)新帧i和jIJ(both从Xt+1). 战略情报局的公式-给定来自现有的所选视频帧的输入信号,以及训练的模型,其涉及多个输入标准一一用于输入帧对和用于单个输入帧。第2.1节描述了数据高效自治的设置。该方法最小化了具有两个部分的合成标准:(1)“代表帧”(来自新集合或旧集合)和它所代表的输入帧之间的总不相似性,以及(2)来自新集合的代表帧的数量。设zo,zn为松弛二元赋值变量ij ij驱动及其与多准则OSS问题的联系配方。第2.2节指出了现有多标准OSS公式化的缺点。第2.3节和第2.4节描述了我们的多标准OSS问题的新配方。2.1. 问题设置和OSS(Zij∈[0,1]),其中zo= 1表示代表第i个新例子((xi,yi)∈Xt+1)的代表是第j个旧例子((xj,yj)∈Rt),zn= 1表示第i个新例子((xi,yi))的代表X t+1)是第j个新ex-示例((x j,y j)Xt+1)。否则,zij= 0。因此任何最优代表分配解决方案应满足约束:Σ|Rt|z O+Σmzn= 1,断言基于视觉的自动驾驶模型[21,20]需要处理大量注释编码视频数据在许多情况下,视频在一段时间内以片段的形式被收集,从而导致处理和分析。每一帧i ×t+1恰好具有一个代表。的目标函数可以写为:M|Rt|MmL(z〇,zn)=z〇d〇+zndn+ λη [zn. . .zni=1j=1i,j=1j=1]p因此,在[13]中讨论的分批OSS方案是用于在这种情况下选择视频帧的理想设置。 我们将完整数据集表示为=(xi,yi),i= 1,. . .其中,n是数据集中的数据点(注释的视频帧)的总数,xi是从视频帧提取的特征,并且标签yi对应于各种学习任务,例如,启示[21]。设Xt=(xi,yi),i= 1,. . .,m,t= 1,. . .,T表示收集的第t批剧集,其中m表示批1中的帧的数量。因此mT=n。我们还定义Das等人[9]将两种成对评分(例如帧i,j对之间的距离dij)和逐点得分(例如,帧i的负损耗L i)。修改的累积相异性函数Qij是dij和Lj的加权和,Lj是由代表点引起的损失。因此Q ij=ρd ij(1ρ)L j.设Ln表示点态对于Xt+1中的数据点i的损失属性(这里是损失值)和对于Lo的损失属性(表示Rt中的数据点i的损失)进行分析。的最终配方为:累积集Ct=∪tXi表示所有数据col-M|Rt|Mm选择直至批次t。 我们致力于构建代表性的...⊆minΣ ΣzoQo+ΣznQn+λΣ[znzo,zn. . .zn]p命题集RtCt,它由一个有代表性的帧组直到批次t。这里的意图是一个非-ij iji=1j =1|M|mi,j=1j=1在累积集上训练的驾驶模型MtCt,应该执行类似于训练的另一个模型Mt′Oi、jj=1ni、jj=1=1,i∈Xt+1代表性的一组帧Rt在结束每-性能指标,例如使用的事件完成指标n oi,ji,j∈[0,1],i,j(1)[21]。 此外,R应该小一些其中Qn=ρdn−(1−ρ)Ln和Qo=ρdo-(1−toijij ijj ij ij ijR t占用的存储空间和通信带宽较低,Mt′的训练时间可能较短。一个1相同的批量大小是为了简化说明,而不是要求ρ)L j. 这是一个凸优化问题,可以有效地解决中等大小的集合X t+1和R t使用现成的求解器,例如。CVXPY [10]。我们称之配方多临界OSS(MCOSS)。按时间顺序分批训练模型IJIJIJIJm,j1,j6344IJIJ∈∈IJi=1JΣJ∈不超过∈nJ∈IJ∈IJ∈∈IJIJIJi=1JΣIJ∈∈IJ−∆L(j)对于所有zn,zo,且对于ρ=0,j∈Xt+1不是aIJJIJJi′=1i′,ki′k1,jm,jzn2.2. 多准则OSS推论1.1设zoZn是…在将MCOSS应用于我们的问题时,我们注意到,当我们通过选择较低的ρ值来赋予逐点分量较高的权重时,所选择的点的数量减少。从应用程序的角度来看,这允许制剂1. 选择新帧jX t+1作为至少一个输入帧iX t+1的代表帧,即 z n= 1,仅当以下两个条件均成立:• Ln>Ln,对任意j′∈Xt+1且j ′=j逐点评分对点集的影响有限j j′•Σmz oL o−λ[z n... znJ]p选定. 这在某些应用中可能是可以容忍的,j例如语义分割,其中感知不同-znity测度包含了帧子集的足够信息其中k=argminjΣmoi,joi,j,且zn1=选择.然而,对于自动驾驶的应用-Mi′=1n伊日ing,我们发现任务明智和情况明智的损失为了了解这个问题的机制-推论1.2令∆(i,j)=zndn−ΣmJIJLJKi′kJi′=11zodoi′ki′kD对所选择的帧的质量影响更大。且∆(j)=znL n− Σmz o L o。If∆(i,j)Lj′ j′Xt+1,在这种情况下,只有一个点将是选择(见推论1.1)。否则代表将来自Rt,在这种情况下不选择点。虽然上述直觉是针对ρ= 0的特殊情况,但这些想法也适用于更一般的0<ρ1值。我们通过在以下定理中表征公式1的解来进一步说明这一点。定理1设zo和zn是公式1的最优解. 选择新帧j X t+1作为至少一个输入帧i X t+1的代表帧,即 z n= 1,仅当以下两个条件均成立:代表,并满足Δd(i,j)和ΔL(j),那么它将不再是ρ≥0的某个值的代表。通过重新排列定理1的第二条件中的项,我们得到:ρ∆d(i,j)−(1−ρ)∆L(j)≤λzjp。F或p=1,RHS不变,但LHS减小zn的p。 因此,定理1的第二个条件对于给定的候选代表帧jX t+1不被任何i X t +1满足。这些结果促使我们寻找更好的多准则OSS问题的配方2.3. 子模块多准则OSS在这一节中,我们描述了一个基于子模块优化的多准则OSS问题的算法。该问题可以被提出为一个集合函数,其包含• 对输入帧i∈Xt+1,Qn所有j ′∈Xt+1且j ′=ji=1i,k k1,jm,jD1i′=1lem出现时,我们观察到仅使用逐点度量6345←∪←∪Σs.t.zΣ+z1,jm,jJ∈∈ − −Σ--J-- Ji=1 IJ∈大化Σzo,znIJIJi=1IJJϵi=1其中ε是输入参数。修改后的目标函数-IJIJi=1j=1IJIJi,j=1IJIJj=1JJj=1JJJϵi=1 IJJϵi=1IJ注意,G是z〇,zn的凸函数,因为S是一个凸函数。当zij=zi′j′= 1 =⇒j时,jLj Sji′。因此,Sj也将提供非小瓶溶液。z,z- −ΣΣGΣΣΣjΣ− −Σ∠Σ∠ΣΣn算法1:子模块化多准则OSS1:输入:2: S0:初始代表集=3: X:传入实例4: k:子集基数,f(S):目标函数5:过程:6:对于i = 1,2,. . . ,kdo7:对于每个x ∈ X\S i−1,做8:fv xf ( S i−1x)9:结束10:设MiΣ∈X\Si−1是前k个元素的子集m∈Mi FVMMCOSS(等式1)的另一个缺点是压缩比与参数λ没有直接关系。我们使用基于约束的基数标准,以便更精确地控制所选择的代表的数量用户提供的参数frac指定要被选择为代表的传入帧的分数的上限。克服这些缺点,我们最终的基于凸优化的多标准OSS问题公式是:minG(z〇,zn)(3)IJIJ11:假设ui从Mi中随机采样12:SiSi−1ui13:结束14:输出:15:Sk:大小为k|Rt|Oi、jj=1n oi,ji,jMMi,j= 1j=1[0,1]Σ[zn. . . zn]p ≤ frac * m2.4. 门限凸多准则OSS前一节中描述的SubMCOSS使用逐点和成对损失函数的加权线性聚合的自然公式。然而,用于子模优化的算法是随机近似算法,并且由于良好的最优子集需要多次采样运行而在计算上也是昂贵的。在本节中,我们描述了一种新的多准则OSS的凸公式,它缓解了MCOSS(等式1)以及SubMCOSS(算法1)的问题。帮助我们设计一种新颖的算法是在MCOSS(等式1)中,对于帧jX t+1贡献m(1ρ)Ln通过成为每个点iXt+1的代表(参见涉及逐点损失的项加起来为(1ρ)(mzn)Ln)。 然而,在现实中,它仅将一个数据点添加到具有逐点得分Ln的训练集。这个问题通过使用L n的系数来缓解,该系数是j是否是表示的指示符。的点或不是,而不是(mz n),它计算由j表示的点的数量。这是我们实现的-j=1这可以使用用于解决凸问题的任何建模语言来有效地解决,例如CVXPY [10]。我们称这种配方阈值多准则OSS(TM-COSS)。ε是用户输入,其被设计为当zij中没有一个表示代表性关系为真时由变量izij取的最大值。在理想情况下(当我们得到zij的0,1解时),ε的任何正值都是足够的。在实践中,我们将ε设置为小于1的值,例如ε= 0。9 .第九条。接下来,我们通过实验证明了我们的方法的实用性。3. 实验在 本 节 中 , 我 们 描 述 了 将 所 提 出 的 TMCOSS 和SubMCOSS算法与MCOSS [9]、OSS [13]和仅基于损失(OL)的子集选择进行比较的实验结果。我们比较了来自Cityscapes [8]和Berkeley DeepDrive [24]数据集的驾驶模拟器和真实世界驾驶视频的帧子集选择方法第3.1节描述了模拟器设置,其中的数据用于基于驾驶模型的比较(第3.3节)和基于目标函数值的比较(第3.4节设一个zij的凹函数Sj:Sj=1min(ε,Σmzij)使用两个现实世界任务的方法:(1)可行驶区域(zo,zn)= ρ( m|Rt|z o d o(t)+(1)(1)(2)( |Rt|S oL o+mS nLn),其中,S o= 1min(ε,mz o),Sn=1min(ε,mz n)。IJIJ洞穴功能 还要注意,每个潜在代表j X t+1可以贡献其自己的逐点得分L j的最大值,因为S j可以取最大值1。对于ρ = 0,在代表性约束zij= 1下;我j′if标准BDD数据集[24]上的序列分割任务和(2)Cityscapes数据集[8]上的序列分割任务。3.1. 实验设置-模拟器数据集:我们使用开源驾驶模拟器CARLA[11]来生成我们的驾驶数据集。收集的数据包括262个驾驶片段和总计100,000个视频帧,使用CAL控制器收集[21]以地面实况示能表示作为输入。为每个3.2)提出的方法。第3.4节比较了亲视频帧,我们收集:(1)前中心摄像机图像,6346MCOSSSubMCOSSTMCOSSΣ不不×个1−wrbΣ∗和(2)六个示能表示(离散:红灯、危险停车、超速标志;连续:相对角度、中心线距离、车辆距离)。我们使用大约85%的视频帧作为训练数据,其余的作为测试集。我们使用条件示能性学习[21](CAL)模型作为涉及模拟驾驶数据的实验的驾驶模型。我们将以下基线视频帧选择方法与所提出的方法TMCOSS和SubMCOSS进行比较:• WS:整个收集的视频帧集合。• 美国:均匀采样,帧采样在定期intervals取决于压缩比。• OL:仅损失,具有最高总损失的子集。• OSS[13]:OSS仅基于成对相异度。• MCOSS[9]:基于加性成对和逐点差异的多准则OSS。我们使用SIFT相异度作为所有选择方法的成对相异度度量(di j),并使用损失的两个变体(L j)作为逐点度量 - 总 损 失 ( TL ) 、 铲 斗 特 定 相 对 角 度 损 失(BL)。 TL被定义为帧j的每个任务/示能表示t上的损失(L)的总和。TL j=tL tj。BL被定义为相对角度损失和其他任务损失的加权和。 BL j=(wrb,L,rb,j)+(L,t,j),其中wrb=帧j所属的相对角度桶的权重。3.2. TMCOSS与SubMCOSS0.25随 机 性 虽 然 所 有 三 种 方 法 都 找 到 了 近 似 解 , 但TMCOSS始终找到目标函数的较低值,其次是MCOSS和 SubMCOSS 。 我 们 在 图 2 ( 右 ) 中 报 告 了 使 用CARLA收集的驾驶数据中的10个事件的相同情况。我们可以清楚地观察到,我们提出的凸方法,TMCOSS的函数值低于其他近似方法,从而证明它是一个有效的方法。接下来,我们将讨论子集选择方法在模拟和真实世界驾驶数据上的应用。3.3. 基于驾驶模拟器的OSS在本节中,我们将使用模拟驾驶数据,基于情节完成和启示准确性来我们考虑在[11]中最初定义的事件完成下的四个任务:(1)直线:所有航路点都位于一条直线上。(2)单圈:航路点通过单圈。(3)直行动态和(4)单转弯动态:类似于直行和单转弯任务,但存在其他车辆和行人。我们在表1中显示了在通过各种选择技术获得的子集上训练的CAL模型[21]的性能,通过使用CARLA [11]模拟器对其进行模拟我们报告了在训练和测试条件下每个子任务成功完成的发作次数(总共10次发作)。我们发现TMCOSS在所有帧选择方法中表现最好,通过完成100:20压缩比的所有剧集和100:7压缩比的10个剧集中的至少8个剧集。 我们注意到这些任务-直 和直动态是相当容易accom-plish。单回合和单回合动态模式下的情节完成取决于示能相对角度。我们观察到,Uniform Skip(US)在回合中表现不佳,因为1.051.101.151二个三个四个五个六个七个八个九一零合成数据样本0.200.150.1012345678九一零CARLA驾驶数据样本它不对转弯附近的足够数量的重要帧进行采样。虽然OSS和OL的表现优于美国,但他们仅完成了100:20压缩的10集中的7集。令人惊讶的是,MCOSS也执行类似于OSS,尽管使用来自模型的附加信息。这可能是由于对点的重要性较低图2:MCOSS的目标函数值,SubM-COSS和TMCOSS用于(左)合成数据和(右)CARLA驱动数据样本。在 本 节 中 , 我 们 比 较 了 基 线 方 法 MCOSS [9] 、SubMCOSS和提出的基于凸优化的方法TM-COSS在最终目标函数值方面报告的最优子集。图2(左)示出了针对10个随机合成的问题实例(维度为100 100的d矩阵和维度为100的L向量)的三种方法的目标函数值。对于子模块化方法,我们报告了算法运行100次的结果的箱形图,以捕获如第2节所述的标准的明智组成部分。图3分析了一个典型的例子,情节转向结束。左图示出了作为距离的函数的地面实况和预测的相对角度转弯的位置清晰可见。可以看出,由MCOSS训练的模型开始转向较早,而图中所示的其他中心图显示了预测误差,再次清楚地表明MCOSS模型开始产生早期错误,并且很晚才从错误中恢复过来。最后,右图示出了针对不同距离桶的所选帧的分数。请注意,MCOSS在回合之前选择了很多帧,而TMCOSS在回合期间选择了更多帧。MCOSSSubMCOSSTMCOSS目标函数值目标函数值6347使用Ground Truth进行驾驶使用WS使用MCOSS驱动使用TMCOSS-BL驱动使用WS使用MCOSS使用TMCOSS-BL驱动0.00.20.20.40.10.60.0表1:使用来自用于各种任务的不同OSS方法的数据训练的模型的情节完成压缩比方法训练条件测试条件直单匝直动态单匝动态直单匝直动态单匝动态WS1010101010101010一百比二十美国93839595OL10610610797OSS10710710796MCOSS98987777SubMCOSS97979797TMCOSS-TL108107109109TMCOSS-BL1010101010101010一百比七MCOSS95957474SubMCOSS93939292TMCOSS-TL107107109109TMCOSS-BL1081081091090.30.20.10.0500.0550.0600.065 0.0700.050 0.055 0.060 0.065 0.0700.00.0500.0550.0600.0650.070累积距离累积距离累积距离图3:MCOSS未通过但TMCOSS成功完成的发作分析。左:相对角度与行进距离,中心:相对角度误差,右侧:所选实例的一部分。表2:离散示能表示(宏)的预测准确度和所有OSS方法的连续示能表示的平均绝对误差。方法危害停止红色光车辆距离中心线距离WS99.7297.410.030.05美国99.4797.030.060.05OL99.691.080.090.08OSS99.5796.070.090.08MCOSS98.3989.730.050.06SubMCOSS99.6093.910.050.06TMCOSS-TL99.6196.050.050.05TMCOSS-BL99.71(0.01%)92.83(4.58%)0.04(33.33%)0.05(0%的百分比)转弯这最终证明,与MCOSS相比,TMCOSS选择更多信息帧。表2比较了使用通过100:20压缩比的不同OSS技术获得的子集训练的CAL驾驶模型的预测性能。我们报告的预测准确性的两个离散的启示和误差为两个连续的启示。我们忽略了速度符号,因为它的预测性能对情节完成并不重要。我们还报告了TMC 0 SS-BL w.r. t的性能指标的%差异。我们注意到TMCOSS预测了关键的危险停止af-hazard令人满意的fordance与很少的区别从WS。在车辆距离和中心线距离的预测性能也接近WS。奇怪的是,TMCOSS-TL在红灯示能预测上表现得比TMCOSS-BL更好,这是因为它在转弯期间不存在于中央相机中。我们观察到,在所有6个示能表示中,提供汽车转向角度的相对角度是剧集完成的最基本示能表示因此,我们在图4中更详细地研究它。“相对角度”示能表示的整个范围可分为20个桶(范围从-1.0到+1.0)。步骤0.1)。对应于(-1.0至-0.1)、(-0.1至0.1)和(0.1至1.0)的桶分别指示左转、直行和右转。我们观察到,所有OSS方法在直路桶的MAE位于一个狭窄的范围内。这是由于相对角度示能表示的数据分布的偏斜度(4%左,92%直,4%右)。我们注意到,TMC 0SS-TL和TMC 0 SS-BL依次在具有较少数量的数据点的桶中优于所有其他方法我们还观察到,TMCOSS-BL为左转弯和右转弯两者选择相对较高比例的实例。我们发现MAE的差异随着压缩比的增加而变得更加明显(见补充材料)。接下来,我们研究了所提出的方法在实际驾驶基准数据集上的有效性,用于分割任务,其中MCOSSTMCOSS-BL相对角度绝对误差所选实例63480.080.080.0750.10.10.080.040.90.830.850.860.820.850.80.20.21左转0.020.026直路0.10.143右转0.00.000.00.10.10.50.00.00.0子集选择方法子集选择方法子集选择方法图4:3个相对角度桶的所选实例的分数(FOSI)和平均绝对误差(MAE)是自动驾驶中的重要子任务。3.4. 基于实际驾驶任务的OSS在这个实验中,我们展示了所提出的方法在另外两个任务中的有用性,这两个任务对于自动驾驶-可驾驶区域分割和语义分割同样重要。我们使用两个基准数据集-伯克利DeepDrive数据集(BDD)[24]用于第一个任 务 , Cityscapes[8] 用 于 第 二 个 任 务 。 我 们 使 用DeepLabV3+[5]来完成这两个任务,并报告重要类的标准度量(IoU)。表3比较了压缩比为100:20的各种OSS技术的性能。TMCOSS-TL的表现优于所有基线,并达到了性能要求(图5-左)以及所选像素的分数(图5-右)。像素的分数是重要的,因为选择具有突出可见性的人的帧比具有远角的人的帧更有用。虽然两个图像都将被标记为包含Person类的实例,但前一个图像将具有更多像素,因此对于人分割任务将更有用我们可以看到,该方法为困难类选择了更高比例的实例以及像素,从而证明了其在表中的那些类中的更好性能3. 因此,我们表明,所提出的方法不仅在模拟场景(使用CARLA)中,而且在涉及真实驾驶数据的任务(使用BDD和Cityscapes)中表现得比基线更好。接近WS。从表3-顶部,我们观察到,与可驱动区域相比,备用驱动区域对于OSS是更难的任务。我们还从表3(底部)中注意到,TMCOSS-TL能够比基线更好地分割重要类。例如,在行人检测任务(个人类)中,TMCOSS-TL的性能优于MCOSS。1.00.80.60.40.20.0人行道墙人自行车分段类0.060.040.020.00人行道墙人自 行 车分段类表3:对于各种OSS技术,使用BDD的可行驶区域分割(顶部)和使用Cityscapes的语义分割(底部)的预测性能图5通过报告所选实例图5:Cityscapes上用于语义分割的所选实例(左)和像素(右)的比例。4. 结论在本文中,我们提出了TMCOSS,新的阈值凸优化为基础的在线视频帧子集选择技术,结合成对的视频帧之间的差异和逐点丢失的视频帧在当前模型上执行任务。我们研究了TMCOSS对驾驶模型训练任务的有效性,通过在CARLA模拟器上完成情节来测量,以及在BDD和Cityscape的真实世界驾驶数据集中进行语义分割。我们发现,TMCOSS是有效的选择相关的视频帧,即使在下降80%的帧,我们成功地保持性能接近的整个集合。我们还比较了TM- COSS的子模块集函数制定这里提出的所谓的SubMCOSS,得出结论,TMCOSS outper-forms SubMCOSS 的 情 节 完 成 在CARLA。0.1830.1150.120.0870.084 0.0840.0430.0210.0170.0130.0150.0090.010.0120.0910.0940.0760.0930.0930.0920.10.08零点零七0.07零点零七0.060.05MCOSSTMCOSSMCOSSTMCOSSMaeFOSIMaeFOSIFOSI所选图像的分数Mae所选像素的分数方法可驱动面积IoU(%)替代驱动器面积IoU(%)MIoU(%)WS81.069.075.0OL77.062.069.5OSS75.059.067.0MCOSS76.059.067.5TMCOSS80.065.072.5方法路IoU(%)壁IoU(%)侧步行IoU(%)人员IoU(%)车IoU(%)自行车IoU(%)是说IoU(%)WS98.050.083.081.094.076.080.33OL96.035.075.073.090.068.072.836349引用[1] Niv Buchbinder,Moran Feldman,Joseph Naor,and Roy Schwartz.基数约束下的次模极大化。在第二十五届年度ACM-SIAM离散算法中,第1433-1452页。SIAM,2014年。[2] Niv Buchbinder,Moran Feldman,Joseph Seffi,and Roy Schwartz.无约束子模最大化的紧线性时间SIAM Journal on Computing,44(5):1384[3] 陈崇宇,蔡建飞,林伟思,施光明.基于低秩稀疏分解的监控视频编码。在Proceedings of the 20thACM international conference on Multimedia ,pages 713[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017.[5] Liang-ChiehChen , YukunZhu , GeorgePapandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。[6] FelipeCode villa,MatthiasMiiller,AntonioLo'pez,Vladlen Koltun,and Alexey Dosovitskiy.通过条件模仿学习实现端到端驾驶。在2018年IEEE机器人与 自 动 化 国 际 会 议 ( ICRA ) 上 , 第 1-9 页 。IEEE,2018年。[7] 费利佩·科德·维拉、埃德·桑塔纳、安东尼奥·洛佩斯和阿德里安·盖东。探索自主驾驶行为克隆的局限性。在IEEE/CVF计算机视觉国际会议论文集,第9329-9338页,2019年[8] Marius Cordts , Mohamed Omran , SebastianRamos , Timo Rehfeld , Markus Enzweiler ,Rodrigo Benenson , Uwe Franke , Stefan Roth ,and Bernt Schiele. 用 于 语 义 城 市 场 景 理 解 的cityscapes数据集。在IEEE计算机视觉和模式识别集,第3213[9] Soumi Das 、 Sayan Mandal 、 Ashwin Bhoyar 、Madhu- mita Bharde 、 Niloy Gangu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功