没有合适的资源?快使用搜索试试~ 我知道了~
5988基于半监督对比学习的车辆-人动作识别Chihiro NoguchiToshihiroTanizawa丰田汽车公司,日本{chihiro noguchi aa,toshihiro tanizawa}@ mail.toyota.co.jp摘要近年来,许多汽车都配备了摄像机,这些摄像机积累了大量的驾驶场景的视频片段。自动驾驶要求最高的安全水平,为此,即使是极其罕见的驾驶场景也必须收集到训练数据中,以提高特定场景的识别准确率。然而,从大量视频中找到很少的特定场景的成本过高。在这篇文章中,我们表明,适当的视频到视频的距离可以通过专注于自我车辆的行动来定义众所周知,基于监督学习的现有方法不能处理不属于预定义类别的视频,尽管它们在定义标记视频之间的嵌入空间中的视频到视频距离方面工作得很好。为了解决这个问题,我们提出了一种基于半监督对比学习的方法。我们考虑两个相关但不同的对比学习:标准图对比学习和我们提出的基于SOIA的对比学习。我们观察到,后一种方法可以在未标记的视频之间提供更合理的视频到视频的距离。其次,通过对HDD数据集上的自车行为识别的分类性能进行评估,验证了该方法的有效性,结果表明,在训练过程中包含未标记数据的方法明显优于仅使用标记数据的方法.1. 介绍近年来,自动驾驶技术受到了广泛的关注。为了实现自动驾驶,必须解决计算机视觉中的各种挑战性问题最近的许多研究都是基于深度学习模型,这需要大量的人类注释数据进行训练。由于自动驾驶需要最高级别的安全性,因此即使在非常罕见的情况下,也有必要收集足够数量的标记数据为了收集如此罕见的场景的视频数据,已标记的视频$(unlabeled)左转(turn left)&未标记(Unlabeled)m(右转)::拉吉&布里$布勒姆卢恩嵌入空间标签视频图1.所提出的方法的目标是在输入驾驶视频之间的嵌入空间中设置合理的距离。具有相同标签的标签视频嵌入得更近,而具有不同标签的视频嵌入得更远。另一方面,如何优化未标记视频之间的距离并不简单。为了解决这个问题,本文使用了半监督对比学习技术.如上所示,所提出的方法可以设置所有标记和未标记视频之间的合理距离。场景可能是另一个需要解决的挑战性问题。 在这篇文章中,我们专注于自我车辆动作识别,这是一个任务,预测场景级标签相对于自我车辆的动作,从由自我车辆的前置摄像头拍摄的视频作为一个单一的输入。为了提取在罕见情况下出现的相关场景,需要人工注释者遍历大量不相关的场景,这可能是令人望而却步的成本。如果我们能够在所有获得的场景(包括未标记的场景)之间定义一个足够有意义的距离,这将使我们能够系统地甚至自动地5989(图①的人。为了在未标记的视频之间设置适当的距离,我们采用了对比学习(CL)的方法[13,9]。CL被广泛应用于各种领域的表示学习,使我们能够从未标记的数据中获得有意义的表示。在当前的设置中,我们可以容易地获得大量具有在普通驾驶场景中频繁出现的场景级标签的视频,例如左转、掉头、变道等,因此,更希望将在无监督设置中定义的标准CL扩展到半监督设置中,以便设置所有两种类型的视频之间的距离。最近,Khosla et al.[17]提出了监督CL,它将标准CL扩展到完全监督的环境中。在这篇文章中,我们进一步扩展CL的这个框架到当前的半监督上下文。因此,半监督CL(SSCL).从视频数据中提取相关特征的一种简单方法是将它们馈送到卷积神经网络(CNN)中以学习场景级标签。这种方法被称为对象不可知论方法[41]。然而,尽管这种方法利用了原始视频中包含的所有信息,但它不使用对象实例的地面实况注释。因此,根据[41],使用对象实例和端到端学习的以对象为中心的方法在相同的设置中优于对象不可知的方法。基于这种理解,我们在本文中提出的方法中采用以对象为中心的方法。更具体地,通过构造时空图(ST图)将输入视频数据变换成图结构[43]。ST图中的节点表示诸如汽车和行人的对象然后将ST图馈送到图卷积网络(GCN)[19,34,42]中以获得视频的特征向量CL也可以应用于具有图结构的数据,称为图CL(GCL)[52,45]。在GCL中,正样本由数据增强生成,例如节点丢弃、边缘扰动和属性掩蔽[52]。从GCL的框架,它可能是预期的,具有相似结构的未标记ST-图映射到彼此接近的嵌入空间。然而,在实践中为了解决这个问题,我们提出了一个对象实例关联(SOIA)的简单算法,该算法受到[5]中提出的简单在线和实时跟踪它通过关联不同驾驶视频之间检测到的对象实例并计算基于IoU的距离来提供视频之间的距离由SOIA确定的距离(SOIA距离)可以应用于CL,其中阳性样品被确定为批次中最接近锚定样品的我们观察到,SSCL与SOIA距离可以提供更合理的距离。我们称这种方法为基于SOIA的CL。很难定量地评估所获得的所有视频(包括标记的和未标记的视频)之间的距离的质量。另一方面,只有标记的视频可以定量评估。因此,我们考虑两种评价方法。对于未标记的视频,通过显示查询的视频对及其在嵌入空间中最接近的视频的许多示例来评估距离的质量。对于标记的视频,我们评估的分类性能的自我车辆动作识别。在对标记视频的评估中,与在完全监督设置中训练的现有方法相比,本文中所提出的方法实现了最先进的性能实验结果表明,使用未标记的视频进行训练,所提出的方法的性能得到了显着提高。我们的贡献总结如下。(1)我们提出了一个框架,以提供合理的驾驶视频之间的距离,即使他们是未标记的。为此,我们提出SOIA来确定未标记视频之间的距离,并使用SSCL方式的距离(2)本文提出的方法在自我车辆动作识别中达到了最先进的性能。通过使用未标记以及标记的视频与SSCL技术相结合,性能显着提高。2. 相关作品2.1. 自我-车辆动作识别已经提出了许多方法来识别自我车辆动作,包括使用传感器信号或视频图像的方法,以及两者。隐马尔可夫模型(HMM)是使用传感器信号的常用方法[31,20,26,15]。隐藏状态对应于场景级标签,并且它们使用输入信号预测隐藏状态的转变。另一种常见的方法是使用递归神经网络[49,35,50]。它们通过使用卷积层来提取图像特征,并且通过使用长短时记忆来将与相邻帧的时间关系嵌入到特征中最近提出的有前途的方法包括从输入视频构建时空ST图识别用于各种识别任务,例如人类动作[51]和群体活动[44],而不限于自我车辆动作。在构造ST图之后,它们的谱特征被用于训练分类器[7,8]。图神经网络也被广泛应用于更深层次的特征提取5990我∈.Σpp∈pp∀∈WHWHWHF=pa一个k(dak)21 2 3 45M[14,24,27]。2.2. 半监督对比学习(SSCL)半监督学习(SSL)的目标是利用现成的未标记数据来帮助分类器提高性能并减少对标记数据的依赖它通过引入各种技术在计算机视觉中取得了显着的成果,包括熵最小化[11,23],Mean Teacher [39,48],MixMatch[4,3,38],一致性正则化[1,36,22,47]和标签传播[16]。然而,这些方法基本上假设每个未标记的数据具有属于预定义类的未观察标记。因此,当未标记数据包含分布外(OoD)数据时,它们的性能显著降低[29]。为了解决这个问题,最近的研究引入了OoD过滤器,使用预测不确定性[30],经验风险最小化[12]以及与类原型的距离[33]对OoD和分布数据进行分类。本文中提出的方法表示与在视频n的每个帧中检测到的对象相对应的节点的集合,并且表示与对象之间的空间或时间权重相对应的边缘的集合可以通过使用任何对象跟踪方法从视频n获取Vn中的对象。请注意,我们使用两个术语,“对象”和“对象实例”,不同。“对象”代表每个图像中的单个对象,而“对象实例”对应于视频的一系列帧中具有相同ID的我们将n表示为视频n中的对象实例的集合。节点属性。 为了将初始图馈送到GCN系统,我们必须分配一组合适的节点属性。我们设置了三种类型的节点属性:(1)语义标签,(2)边界框的几何特征,以及(3)与车道线的交互。语义标签siR8是每个边界框i的独热向量。根据[53],我们包括八个对象类:行人,骑手,汽车,卡车,公共汽车,火车,摩托车和自行车。几何特征gi被定 义 为gi=ai,bi,wi,hi,wihi,n∈Vn,OoD数据。对比学习(CL)[13,9]由于其在计算机视觉中表现学习的出色能力而引起了人们的广泛关注。CL的成功源于一个实例识别借口任务[46],其中每个实例都被吸引到它的增强中,而其他实例则在嵌入空间中远离它最近,Khosla et al.[17]提出了监督CL,这是一个将CL应用于完全监督设置的框架。监督CL考虑锚样本的两种类型的阳性样本:一个chor样本的增强视图和具有相同标签的 样本其中(ai,bi)、wi和hi分别表示边界框i的质心坐标、W和H表示输入视频剪辑的整体宽度和高度。最后,道路上的车道线的信息也是必不可少的识别自我车辆的行动。为了将其引入模型中,我们引入了物体和车道线之间的相互作用。更具体地,我们考虑与边界框i、ai、ai、ai、ai、ai(四个角和中心)的五个点以及对应于图像中的车道线的所有像素的相互作用。在下文中,为了可读性省略了上标i。 在-a k,nk ∈ {1,. . . ,5}和车道线pix-ELS被定义为p哇,哇,可学习的原型最近,CL也被应用于半监督设置[25,33,54]。它们为未标记的数据生成伪标签,以便通常的CL可以处理它们。与这一系列工作相比,本文提出的方法通过扩展普通监督CL [10]应用于半监督设置3. 方法我们的方法的概述如图所示。2.首先,通过使用检测到的对象的边界框和语义标签将输入驾驶视频转换为ST图,这在第2节中描述。3.1.其次,ST-图被送入GCN。该体系结构在附录A中描述第三,通过SSCL训练GCN这其中wak=e−2σ2.表示对应于图像中的车道线的像素集合。vakR2是二维向量从ak到p,dak表示两点ak和p之间的欧几里得距离。引入权重wak导致更靠近边界框的像素受到更强烈的影响。因此,对于边界框i,车道线特征fi∈R10通过以下方式连接获得:fi=[fa1,fa2,fa3,fa4,fa5].边权重。 E n包含两种类型的边:空间和时间边缘。 空间边缘表示帧内边界框之间的空间相似性,并且时间边缘表示相邻帧之间的时间关系。边权重eij,(i,j)En定义如下:过程在SEC中描述。3.2.e−2IJ2σ2(ifeij是空间边)3.1. 时空(ST)图构造在本节中,我们描述如何构建ST-图Gn=(Vn,En)从视频n,其中Vn表示eij=1(如果eij是时间边缘)100(其他)(一)D文章采用未标记数据仅包含p一批锚样品。Cui等人。[10]通过引入类智能解决了其不平衡学习,k ∈{1,. . . ,5}p∈MP.K.P.K.P.K.其中,dij表示中心之间的欧几里德距离5991n=1n=N1+1D{}∈∈ID{}图2.所提出方法的概述。首先,通过任何对象检测和跟踪方法检测输入视频中的对象实例。然后从检测到的对象实例中构造ST图这些ST-图输入到GCN,并获得每个ST-图的特征向量最后,利用SSCL的损失函数对GCN进行了优化。该图说明了基于SOIA的CL。在一个批次中,在SOIA距离方面最接近锚样本的样本被认为是阳性样本,而既不是锚样本也不是阳性样本的样本是阴性样本。此外,仅对于标记样本,锚样本被优化为接近相应的3.2了解更多详情)。边界框i,j的三角形,σ=H2+W2/4。如果两个边界框i和j在同一帧中,则eij表示空间边缘。 仅当i和j对应于两个相邻帧之间的相同对象实例时,才存在时间边缘。因此,节点在内部密集连接一个框架,而整个ST-图是一个稀疏图。3.2. GCN培训半监督环境中的GCN训练使用了标记ST-图l=Gn,ynNl和未标记ST-图u=GnNl+Nu,其中yn表示视频n的场景级标记,并且Nl和Nu表示视频n的数目。分 别 是 标 号 ST- 图 和 未 标 号 ST- 图 的 BER(N=N1+Nu)。ST-图n是从视频n中获得的,如在Sec. 第3.1条对于GCN培训,我们考虑两种类型的方法:标准图对比学习(GCL)和基于SOIA的CL(SCL)。这两种方法之间的区别以下SEC。3.2.1和3.2.2分别描述了如何在这两种方法中生成正样本和负然后,SEC。3.2.3描述了SSCL的细节并定义了损失函数。3.2.1图对比学习GCL处理具有图结构的数据。为了生成正样本,将考虑图结构的数据增强应用于锚样本。在[52]之后,我们采用了三种数据扩充:节点丢弃、边扰动和属性掩蔽。与正常CL一样,将一批中除锚定样品以外的样品用作阴性样品。3.2.2基于SOIA的对比学习(SCL)SOIA的目标是将不同视频中的对象实例在关联之后,可以在相关联的对象实例之间测量基于IoU的距离。因此,可以基于基于IoU的距离来定义视频之间的距离。在基于SOIA的CL中,在SOIA距离方面,阳性样本被发现为批次中与锚样本最接近的样本,并且阴性样本是批次中除阳性样本和锚样本之外的样本。下面将详细说明SOIA以及如何选择阳性和阴性样本。对象实例关联(SOIA)的简单算法。 SOIA的灵感来自SORT [5],SORT是对象跟踪中数据关联的流行算法。SORT将不同两个帧上的对象相关联以检测对象实例,而SOIA将不同两个视频上的对象实例相关联以定义两个视频之间的距离。我们首先测量不同ST图中对象实例之间的相似性。S nmR| In| ×| Im|是指示ST图n和m上的对象实例相似性的相似性矩阵。换句话说,它的第(u,v)个元素snmuv,un个,vm表示相似度为- 补间对象实例u和v。相似性snmuv由Nnu和Nmv中的对象的边界框之间的平均交集(mIoU)确定。Here,Nnu卡车骑手车损失视频1车自行车车骑手车锚点样品布吕车自行车汽车视频2目标检测跟踪ST图1ST图2特征向量特征向量一阳性样本原型双曲矢量ST-图构造GCN阴性样本���1⋯������ − ������+⋯视频���ℬ批量=1000ST图���ℬ特征向量���⋯������−���������+���⋯���ℬ1⋯���−���������⋯C·········5992MMOO−NNBD{|∈B<$ }D|B| −−|B|不|B|t=1n ∈BC{}表示对应于对象实例的一组对象。更具体地说,具有相同标签的样品ST-图n中的u。 因此,s nmuv=1πTIoU(ut,v t),选择锚样本的值作为正样本,其中,T表示帧的数量,并且ut和vt分别表示对象实例u和v的帧t处的边界框IoU(ut,vt)返回来自ut和vt的IoU值(如果在帧t检测到这两者),否则返回0。从包含ST图n和m之间的对象实例的所有组合之间的相似性的相似性矩阵Snm,我们找到最大化总相似性的最佳关联nm这个问题被归类为指派问题。我们用匈牙利算法[21]求解它,得到nm和nm,其中nm删除一组无法找到关联伙伴的对象实例。最后,SOIA距离是ST-图n和m之间的距离,定义如下:1T1T而具有不同标记的那些被选择为阴性。使用这两种类型的阳性和阴性样本的CL称为监督CL [17]。最近,Cui et al.[10]提出了参数对比学习作为原始监督CL的扩展原始的监督CL遭受类不平衡问题。对于相对较小的批量,相同标签的图像的稀缺性可能会导致优化效果不佳。这个问题在当前的半监督设置中更为严重,因为批处理还包含未标记的数据。参数CL通过引入可学习的类原型来解决这个问题。如下面详细描述的,本文中所提出的方法采用具有对半监督设置的适当扩展的参数CL。损失函数。让我们表示一组负样本对应于作为Nn的锚样本n和作为N n的正dnm=T W(ut,vt)+Tmut,样本为pn。正样本pn或者由下式生成:(u,v)∈Mnmt=1u∈Onmt=1(二)数据扩充(Sec. 3.2.1)或被发现为最接近的sam-使用SOIA(Sec. 3.2.2)。损失函数其中W(ut,v t)=(1 IoU(ut,v t))m utvt。这里,mut表示边界框ut的面积,并且如果mut> mvt,则mutvt=mut,否则mutvt=mvt。第一项定义如下:Σ Σ Σ.ez+·zn在右边的EQ。2表示距离,基于由边界框区域加权的mIoU。权重对于防止具有小边界框区域的对象对最终距离产生较大影响是必要的第二L=哪里n=1 Ln=−n=1z+∈Pn日志n∈Anezk·zn、(三)当大型物体停留在没有相关的合作伙伴。Pn= .{zpn,cσn}(如果n是标记数据),(四)阳性和阴性样本的选择。SOIA使我们能够获得视频到视频距离dnm,n,m,其中表示一批视频中的一组索引。在通常的CL中,我们选择一个阳性样本作为一个批次中SOIA距离最接近锚点的样本,而不是增加锚点样本。 在这里,一个批次通常包含多个与字幕相似的场景,这可能干扰表示学习的结果。为了解决这个问题,我们在正样本和负样本之间设置了一个界限来进行选择。更具体地说,对于锚样本,我们选择一组候选的正样本和负样本: =dnm n=n,m,m=n . 这个集合n= n,按升序排序,最小的被选为正样本。然后,提供余量α,并将剩余的1α样本选择为负值样品3.2.3半监督对比学习(SSCL)在标准的自我监督CL中,确定阳性和阴性样本时不注意其标签,如第3.2.1和3.2.2。除这些样本外,还可根据以下条件定义阳性和阴性样本:{zpn}(如果n是未标记的数据),An={zk|k∈Nn}<${zpn}<$C.(五)这里,=c1,. . . C表示一组可学习的类原型,并且C表示场景级类的数量。zn和σn分别表示从GCN输出的特征向量和n的类标签如果n是未标记的视频,则特征向量zn被优化为仅更接近对应的正样本特征向量zpn并且远离对应的负样本和所有原型,这指示我们假设未标记的数据未被分类到任何预定义的类别中。在我们的实验中,所有未分配到任何预定义类别的视频都被视为未标记的视频。4. 评价4.1. 评估设置数据集。使用本田研究所驾驶数据集(HDD)[35]评估了所提出方法的性能。HDD包括104小时的以自我为中心的旧金山湾区真实人类驾驶 这些视频分辨率为1280×720,30fps。 以下现有5993作品[35,24],我们使用了11个目标导向的行动的标签(例如,左转、右车道变换、并道等)和6个原因(例如,拥堵、标志、红灯等)。6个原因包括5个不同的停止动作(取决于其原因)和1个偏离动作。此外,根据之前的工作[35],我们将HDD的137个会话分为100个会话用于训练和37个会话用于测试。请注意,为了保持实验条件与之前的工作相同[35],模型仅在评估6个原因时使用17个标签(11个面向目标的动作+6个原因)进行实施详情。作为对象检测器和跟踪器,我们分别采用Faster-RCNN [37]和QDTrack [32]。使用BDD 100k数据集训练的模型[53]是由[32]的作者分发的,我们用它来构造ST-图。在30fps的HDD上执行对象跟踪,然后将跟踪结果下采样到2.5fps。为了构建未标记视频剪辑的ST图,以相等的间隔每4秒剪切原始视频。确定的间隔足以涵盖要检测的单个动作。选择的优化器是Adam [18],具有默认参数。初始学习速率为0.01,采用余弦退火学习速率调度器。所有实验均在配备Tesla V100 GPU的工作站上进行评估指标。我们使用平均精度(mAP)来评估所提出的方法的性能AP是精确率-召回率曲线下的面积,在先前的工作中用作标准。基线。并与已有的基线方法进行了比较。这些方法不限于自我车辆动作识别,但包括一般动作识别方法,如C3D [40]和I3D [6]。按照[35],我们将现有的方法分为在线和离线设置。在在线设置中,每当进入一个新的帧时,他们都会推断出自我载体的动作标签。另一方面,在离线设置中,为每个短视频剪辑引入动作标签所提出的方法属于后一类。4.2. 标签视频表1和表2给出了通过将所提出的方法应用于HDD而获得的实验结果。表格示出了基于两种学习方法的所提出的方法的结果:基于SOIA的CL(SCL)和图对比学习(GCL)。表1显示了11项面向目标的行动的结果。可以看出,所提出的两种方法的性能优于现有方法的性能特别地,所提出的方法实现了主要由对象实例之间的关系表征的个体动作的并行性能,例如,交叉路口通行,左/右转弯,掉头。另一方面,在一项研究中,诸如L/R车道改变、L/R车道分支和合并的单独动作受到诸如车道线的其它环境条件的强烈影响即使对于这些动作,所提出的方法的性能与现有方法的性能相比也具有竞争力。铁路通过是最难预测的动作,因为关于场景背景的信息比对象实例的动作更重要。表2列出了6个原因的结果。可以看出,与现有方法相比,所提出的方法显著提高了6个原因中大多数标签的性能。事实上,具有这些标签的场景强烈地受到对象实例之间的关系的影响例如,在“因拥堵而停止”场景中,汽车停在自我车辆的前面,并且在“因红灯而停止”场景中,自我车辆在十字路口处并且在自我车辆的这些结果可能意味着,利用对象实例之间的关系的半监督学习是更有效的,并导致性能的改善。此外,SCL与GCL之间也存在显著性差异.由于SCL使用SOIA距离,它是根据对象实例之间的关系严格定义的,因此对于更好地符合假设的动作(例如,掉头及过路车辆停车)。另一方面,对于受其他环境条件强烈影响的其他个体行为(例如,铁路通过和合并),SOIA距离的好处是有限的,而GCL,它不使用这样严格的距离,优于SCL。4.2.1学习方法我们比较了三种学习方法的结果:全监督、半监督和无监督学习。在这三个设置中,我们使用了相同的GCN架构。在全监督设置中,我们只使用标记数据训练模型。当没有未标记的数据被使用时,方程中的损失函数。3减少到通常的交叉熵损失。 在无监督设置中,我们在不使用标记数据的情况下训练模型,并在等式中使用相同的损失函数3.第三章。图3显示了改变标记样本数量时三种设置之间的性能比较结果。所使用的标记数据是11个面向目标的动作的标记。可以看出,所提出的方法在半监督设置中优于在监督设置中。此外,尽管它们的性能随着标记样本数量的减少而自然地降低,但半监督设置中的性能永远不会低于无监督设置中的性能。另一方面,当图中标记样本的数量较少3.第三章。这些是-5994个人诉讼I3D [6]线下长85.6 79.1 78.9 74.0 62.4 59.0 14.3 29.8 0.1 20.1 41.4 49.5表1.11个面向目标的行动的标签之间的建议和现有的方法的分类性能比较训练数据列显示用于训练的数据集(L=标记数据,U=未标记数据)。个人诉讼列车停站改道停站停站全面数据拥堵标志红灯过街车辆停放车辆过街行人通行证I3D [6]L64.871.763.621.515.826.243.9GCN [24]L74.172.476.326.920.429.049.9我们的(沙中线)L+U95.892.276.967.361.965.776.6我们的(协鑫)L+U95.990.981.054.753.769.074.1表2.6个原因的标签之间的建议和现有的方法的分类性能的比较60555045403530251000 2000 3000 4000 5000 6000 7000标记样品图3.在不同的标记样本的数量时,在所提出的方法的不同学习方法之间的分类性能的比较。因为随着标记数据的数量减少,半监督设置减少到无监督设置,而全监督设置减少到随机猜测的设置4.3. 未标记视频在本小节中,我们定性地评估了通过所提出的方法学习的视频到视频的距离。给出了三种学习方法的比较结果ods:SCL,GCL和全监督学习(FSL)。在这里,由于难以定量评估未标记的视频之间的距离的质量,我们反而提出了尽可能多的查询检索的例子,以提供一个定性的评价。具体来说,我们从验证集中的未标记视频中选择查询视频,并在每种方法学习的嵌入空间中搜索查询视频的最近邻视频。从训练集中的所有视频(包括标记的和未标记的视频)中找到最近邻视频。使用从GCN输出的特征向量之间的余弦相似性来测量距离。由于篇幅限制,这里仅举一个例子;其余的见附录C。图4显示了从三种提出的方法中获得的查询检索示例,这些方法具有不同的学习方法:SCL、GCL和FSL。这些方法是用11个面向目标的行动的从未标记的4秒视频中以相等的间隔显示5帧第一行中的五个图像是查询视频,第二、第三和第四行中的图像分别是从所提出的SCL、GCL和FSL方法获得的前1个检索在查询视频中,自我车辆停在十字路口,一辆白色汽车从左到右从自我车辆前面穿过在使用SCL(第二行)的所提出的方法检索的视频中,我们可以看到自我车辆停在十字路口处,并且一辆汽车从左到右从自我车辆的前面穿过,这与查询视频中的场景相似。在通过所提出的具有GCL(第三行)的方法重新检测的视频中,我们还可以看到,自我车辆停在十字路口处。半监督(SCL)半监督(GCL)完全监督无监督(SCL)无监督(GCL)最大平均接入点方法在线/离线火车数据路口通过L形转弯R转弯L巷变化R巷变化L巷分支R巷分支crosswalk通过铁路通过合并掉头整体地图[35]第三十五话L53.447.339.423.817.925.22.94.81.64.37.220.7CNN-LSTM [35]L65.757.754.427.826.125.71.716.02.54.813.626.9[50]在线L63.154.255.128.335.927.68.57.10.34.214.627.2[第50话]L63.557.057.328.437.831.810.511.00.56.316.733.7DEPSEG-LSTM [28]L70.963.463.648.040.939.74.416.10.56.316.733.7C3D [40]L72.864.871.753.444.752.23.114.62.910.615.837.0C3D [40]L82.477.480.767.956.959.75.217.43.920.129.545.5方法GCN [24]L85.577.979.176.062.064.019.829.61.027.739.951.1我们的(沙中线)L+U98.394.195.862.667.353.428.478.01.222.260.060.1我们的(协鑫)L+U98.493.995.564.269.055.834.573.424.442.430.062.05995图4.从查询和检索的视频中以相等的间隔提取五帧。顶行示出了查询视频,并且第二、第三和第四行分别示出了从采用SCL、GCL和FSL的所提出的方法获得的前1个检索视频但是,其他汽车的行为与查询视频中的行为大不相同(例如,汽车从右向左行驶)。最后,在使用FSL检索的视频中,本车不在交叉口,并且视频与查询视频完全不同从上面可以说,至少在这个例子中,用SCL学习的视频到视频的距离是最明智的。在其他检索结果中观察到类似趋势(更多样本见附录C)。FSL结果通常远离查询视频中的场景。我们认为这是因为FSL只考虑预定义的标记视频。事实上,GCL也考虑了未标记的视频,可以提供比FSL更合理的距离。然而,GCL仅考虑基于图结构的距离,这不一定与驾驶视频之间的合理距离一致。另一方面,SCL显式地考虑基于对象实例的移动的距离因此,它们可以提供更大的可感知距离。请注意,在本实验中用于训练的标记数据仅由11个目标导向动作组成,并且不包括与查询视频的场景相关的标签,例如5. 限制如第3.2.3中,我们假设未标记的数据未被分类到任何预定义的类中。这需要由人类注释者确认在然而,在许多情况下,这些未标记的数据在注释过程期间被大量收集,因为所收集的视频中的大多数是与预定义类不相关的场景。6. 结论我们提出了一种方法,可以设置适当的和明智的距离之间的所有标记和未标记的驾驶视频。该方法是基于半监督对比学习(SSCL)。在SSCL中,使用由标签确定的距离和没有标签的距离来训练GCN。 这些距离被用来以批量生成阳性和阴性样本。我们研究了两种CL。除了标准的GCL,我们提出了基于SOIA的CL。在对未标记视频的评估中,我们观察到基于SOIA的CL学习的距离是最合适和明智的。此外,我们定量评估所提出的方法在自我车辆动作识别的分类精度。我们给出了三种不同评估的结果,其中所提出的方法分别使用SCL,GCL和FSL进行训练。实验结果表明,采用SCL和GCL的方法在HDD上实现了最先进的性能。此外,本文提出的SCL和GCL方法优于FSL方法.因此,我们发现,使用未标记的视频进行训练是有效的,以提高分类性能的自我车辆动作识别。5996引用[1] Philip Bachman,Ouais Alsharif,and Doina Precup.学习伪合奏。在Z. Ghahramani,M. 威林C. Cortes,N.劳伦斯和K.Q.温伯格,编辑,神经信息处理系统的进展,第27卷。Curran Associates,Inc. 2014年[2] 克劳丁·巴杜,RaRavernikGuidolini,放大图片创作者:RaphaelVivacquaacquiro,Pedro Azevedo,ViniciusB. 放 大 图 片 作 者 : Cardoso , Avelino Forechi ,LuanJesus , RodrigoBerriel , ThiagoM. PaixaPagio , Fil-ipe Mutz , Lucas de Paula Veronese , Thiago Oliveira-Santos,and Alberto F.德索萨自动驾驶汽车:调查。专家系统与应用,165:113816,2021。[3] 放大图片作者:David Berthelot,Nicholas Carlini,EkinD. Cubuk,Alex Kurakin,Kihyuk Sohn,Han Zhang,and Colin Raffel. Remixmatch:具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv:1911.09785,2019。[4] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。In H. Wal-lach,H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc,E. Fox和R.Garnett,编者,《神经信息处理系统进展》,第32卷。Curran Associates,Inc. 2019年。[5] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在IEEE图像处理国际会议(ICIP)的Proceedings中,第3464-3468页[6] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议(CVPR)的Proceedings中,第4724-4733页[7] Rohan Chandra,Uttaran Bhattacharya,Trisha Mittal,Aniket Bera和Dinesh Manocha。 Cmetric:使用中心性函数的驱动性度量。在IEEE/RSJ智能机器人和系统国际会议(IROS)的会议,第2035-2042页[8] Rohan Chandra,Uttaran Bhattacharya,Trisha Mittal,Xiaoyu Li,Aniket Bera和Dinesh Manocha。Graphrqi:使用图谱对驾驶员行为进行分类。在IEEE机器人和自动化国际会议(ICRA)的会议记录中,第4350-4357页[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在Hal Daume III和Aarti Singh的编辑,Proceedings of the37 th International Conference on Machine Learning ,Proceedings of Machine Learning Research,第119卷,第1597-1607页。PMLR,2020年7月13日[10] 崔杰泉,钟智生,刘舒,俞蓓,贾继亚.参数对比学习。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第715-724页[11] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。在洛Saul,Y. Weiss和L. Bottou,编者,《神经信息处理系统进展》,第17卷。MIT Press,2004.[12] 郭兰哲,张振宇,蒋元,李玉峰,周志华。安全的深度半监督学习,用于未分类的未标记数据。在Hal DaumeIII和Aarti Singh编辑的第37届机器学习国际会议论文集,机器学习研究论文集第119卷,第3897-3906页。PMLR,2020年7月13日[13] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE/CVF计算机视觉和模式识别会议论文集中,第9726-9735页[14] R. Herzig、E.Levi,H.Xu,H.Gao,E.Brosh,X.小王,A. Globerson 和 T. 达 雷 尔 。 时 空 动 作 图 网 络 。 在IEEE/CVF国际计算机视觉研讨会(ICCVW)会议记录中,第2347-2356页,美国加利福尼亚州洛斯阿拉米托斯,2019年10月。IEEE计算机学会.[15] A.贾恩,H。S.科普拉湾Raghavan,S. Soh和A.萨克斯那。汽车知道在你做之前:通过学习时间驾驶模型预测机动。在IEEE计算机视觉国际会议(ICCV)的会议中,第3182IEEE计算机协会。[16] Konstantinos Kamnitsas , Daniel Castro , Loic LeFolgoc,Ian Walker,Ryutaro Tanno,Daniel Rueckert,Ben Glocker,Antonio Criminisi,and Aditya Nori.基于紧凑潜在空间聚类的半监督学习。在Jennifer Dy和An-dreas Krause编辑的第35届机器学习集,机器学习研究论文集第80卷,第2459-2468页中PMLR,2018年7月10日[17] Prannay Khosla , Piotr Teterwak , Chen Wang , AaronSarna , YonglongTian , PhillipIsola , AaronMaschinot,Ce Liu,and Dilip Krishnan.监督对比学习。在H. Larochelle,M.兰扎托河哈德塞尔M. F.巴尔坎,以及H. Lin , 编 辑 , Advances in Neural InformationProcessing Systems,第33卷,第18661-18673页。CurranAsso- ciates,Inc.,2020年。[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。在Yoshua Bengio和Yann LeCun,编辑,第三届学习表征国际会议,ICLR 2015,美国加利福尼亚州圣地亚哥,2015年5月7日至9日,会议跟踪会议,2015年。[19] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在第五届国际学习表征会议上,ICLR 2017,法国土伦,2017年4月2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功