没有合适的资源?快使用搜索试试~ 我知道了~
1流数据Maggie Wigness和John G.罗杰斯三世美国陆军研究实验室maggie.b.wigness. mail.mil,mail.mil摘要我们引入了一种无监督的语义场景标记方法,该方法不断学习和适应数据流中发现的语义模型。虽然与无监督视频分割密切相关,但我们的算法并不是设计为产生连贯过分割的早期视频处理策略,而是直接学习更高级别的语义概念。这是通过基于集成的方法实现的,其中每个学习器从数据流中的局部窗口聚类数据。重叠的局部窗口被处理并编码在图形结构中,以创建跨窗口的标签映射并协调标签以减少无监督学习噪声。此外,我们迭代地从观察到的数据相似性中学习实验结果表明,该方法在语义上对视频流进行标记时具有较高的准确度,并且在标记输出数量相似的情况下,与现有的视频分割算法相比,该方法能够更好地平衡欠分割熵和过分割1. 介绍视觉感知在许多使用场景语义帮助成功执行任务的应用程序中至关重要动机示例包括规划避开不期望地形的路线近年来,深度学习帮助推动了视觉分类[17,30,37]和语义场景标记[4,7,19这些进步部分是由于大量的标记数据需要大量的人工注释工作[5,37]。然而,监督学习器跨领域的推广仍然是一个开放的研究领域。 即使有数百万张训练图像,训练集不能充分地表示所有域。适配需要额外的训练数据、参数调整和/或监督学习系统的至少一部分的重新训练。这种批量式的培训过程-图1. 比较我们的技术,直接建模语义,而不考虑局部性,和基于层次图(GBH)的分割,强调使用严格的局部性规则的分割一致性的分割输出。我们的方法一致地标记所有四个交通锥(第二列),而GBH为每个锥分配唯一的标签(第三列)。hibits在线学习和发现新概念。在一些现实世界的应用中,当人类标记数据以适应视觉分类器时引入的时间延迟已经通过半监督[33]和自监督学习技术[26,27]得到解决,但仍然需要数小时的标记工作或仅限于二进制分类任务。为了进一步解决这些现实世界的应用程序的需求,我们引入了无监督语义场景标记(USSL)技术。与视频分割类似,USSL从数据流中本地化语义概念,而无需人工干预。然而,大多数现有的分割算法被用作早期预处理步骤,以在视频中生成连贯的过分割区域[1,18,34]。换句话说,分段输出在局部区域中遵循严格的像素连接性。由于我们的动机应用程序寻求语义模型的视觉分类,USSL直接建模的语义在一个场景中,而不考虑到地方。图1说明了这种差异,其中四个交通锥通过我们的USSL技术分配相同的标签(第二列),但是分配具有来自基于分层图的分段的相似数量的分段的唯一标签[11](第三列)。无监督学习可能容易出错,因为缺乏关于学习哪些特征模式的明确指导。光照、透视和遮挡的变化只是影响数据中特征模式的众多挑战中的一部分。为了最小化处理过程中看到的视觉特性的变化,USSL在局部水平上学习,即,来自数据流的连续帧的小窗口。46124613学习是使用凝聚聚类进行的,每个窗口都有一个独特的合并阈值标准。局部模型学习重叠的滑动窗口,以产生一个整体的学习者。该集合被编码在图结构中,并用于协调无监督学习错误,并在本地学习错误之间创建标签映射,以生成数据流的全局标签集。我们将USSL与现有的视频分割算法进行比较,以说明直接在数据流中建模语义概念的独特性,而不是简单地输出连贯的连接像素。实验结果表明,USSL算法具有较好的标注准确率,并能较好地平衡欠分割熵和过分割熵。此外,我们的技术自动确定要建模的语义标签的数量,因为它迭代地从流的先前帧中观察到的数据相似性中学习合并阈值。2. 相关工作语义场景标记在很大程度上被视为一个监督学习问题。室外环境的语义场景标记已经使用CNN [4,7,19],回归树森林[23]以及通过语义类和几何类的组合学习进行[31]。他和Upcroft将语义场景标记扩展到3-D环境[13],并且技术已被调整用于解析和标记杂乱的室内环境[4,14]。这些监督方法的成功是以收集用于学习的标记训练数据的高成本为代价的。在许多现实世界的应用中,在飞行中发现新概念或以最小的视觉感知中断改变域的能力是重要的。特别是自主机器人领域,已经寻求在最少的人类监督下学习语义概念的方法。技术包括评估给定环境模型的结构变化[26],并将视觉数据与接触传感器读数[15,16],Li-DAR [12,27]或雷达[21]等辅助数据类型配对,这些数据类型自动提供与可通行性相关的标签。然而,这些分类器往往只学习二进制标签模型,例如,可穿越的这些现实世界的应用和多概念标签集的需要是我们工作的主要动机。与我们的方法最相似的是在标签传播和视频分割中所做的工作标签传播是半监督的,其中来自一小组图像或视频帧的现有标签被传播到其他类似数据。Jain和Grauman [6]介绍了一种主动标签传播方法来获得大型图像集的前景/背景掩模。Chen和Corso [3]学习了运动和外观模型的权重,以在整个视频中传播像素标签。视频分割假设没有先验标签信息,并且技术已经使用运动[2,22]、视觉外观特征[9,11]或两者的组合[29,32]来划分不同的概念在场景中。这些方法有两个主要缺点。首先,仅依赖于运动线索将静态背景对象分组为单个类,并且不捕获完整的场景上下文。其次,这些技术需要将整个视频加载到存储器中进行处理,这与提供连续的可视数据流的应用程序不兼容。已经引入了对现有视频分割模型的基于流的替代方案[11,25],但是相对于完整视频分割技术[34],其性能显着降低。Xu等人[36]介绍了一种分层流视频分割方法,该方法处理非重叠的滑动窗口,并在处理当前窗口时通过使用来自连续滑动窗口的分割和特征来保持整个流中的标签一致性。现有的视频分割方法和本文中我们的工作之间的最大区别是期望的输出,以及确定参数以实现此输出的过程。现有的视频分割输出通常是高度过度分割的,不一定是为寻求语义模型的应用程序设计的。甚至产生分层输出的技术也将分层级别选择留给用户。我们的工作重点是直接学习和建模语义没有任何人的监督。3. 无监督语义场景标注我们使用许多分割算法共同的无监督原则,但寻求一个简洁的,即,最低限度地过度分割,语义标记的输出类似于监督语义场景标记器的目标。在高层次上,我们的无监督语义场景标记(USSL)方法使用凝聚聚类来迭代地创建和适应一组语义模型,因为数据从流中流入。与许多表现最好的分割算法和有监督的语义标记器不同,USSL在没有先验指定参数或类知识的情况下学习语义标记的数量。这种无参数、自下而上的详细描述使我们的方法能够轻松地对整个流中的新对象、地形或其他概念进行建模。虽然无监督学习具有不需要标记数据的优点,但缺乏关于哪些特征模式映射到哪些语义的明确方向通常会我们使用一种类似集合的方法,并在局部窗口上进行聚类,以减少在较长时间内看到的视觉变化,这有助于减少无监督学习可能引入的一些噪声。与其他流分割算法一样,本地处理也避免了内存消耗问题。在图结构中编码总体结果以生成到全局标签集的图2说明了USSL的高级租赁流程,本节其余部分将详细介绍该方法。4614MI j-f)图2. 无监督语义场景标注算法概述。来自数据流的下一个图像被过度分割,并且片段与来自流中的先前帧的现有模型聚集地合并。为流中的窗口创建重叠的局部模型,并且使用图形编码来映射和协调这些局部标签集以生成全局标签集。3.1. 图像表示来自数据流的帧依次进入USSL系统进行处理。USSL执行场景分割,从传入帧的超像素开始,而不是单个像素,因为超像素提供更多的区域来提取对语义建模重要的特征。我们使用基于图(GB)的图像分割[8]来生成USSL聚类的初始过分割超像素。分割以参数σ=0运行。5,K=25,min=100。传入帧表示为S ={s,s,. . . {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}(从W中的先前帧中学习)。现有的局部模型在图中显示为蓝色圆圈,其不同大小表示局部模型代表W的不同体积。USSL的本地学习技术的许多新颖性和贡献具体而言,USSL评估两个模型m i和m j之间的相似性,相对于第3.1节中描述的每个直方图特征类型。 我们将模型m的特征类型r表示为fr。形式上,关于特征r的相似性是1 2大多数图像分割技术依赖于颜色和位置特征以识别像素的相干分组ρ(m,m,r)= . 1.一、0 ,(1)USSL使用额外的功能来帮助编码语义信息,就像许多监督方法一样[23,28]。1 .一、0以上r r2mimj每个si由LAB颜色空间直方图表示,该颜色空间直方图包括每个通道23个bin, SIFT描述符的150项码本[20],以及使用半径为1,2和4的邻域的8个周围邻居创建的局部二进制模式(LBP)[24]直方图三个实验室频道,三个LBP半径和SIFT直方图被独立地L1这些帧片段然后被传递到当前实例化的本地窗口进行处理。其产生在[0. 0,1。0]。特征类型都是单独评估的,所有外观特征类型之间的高相似性最有可能表示相同的语义概念。因此,限制合并到这些模型将减少无监督学习引入的噪声。然而,并非所有特征都与所有语义类相关,因此USSL还评估了特征相似性的整体线性组合:Σ3.2. 局部模型学习USSL通过凝聚聚类学习语义模型,φ(mi,mj)=r∈Rρ(m i,m j,r).(二)将本地窗口中的数据存入流中。 我们将聚类算法针对局部窗口输出的组的集合称为局部标签模型,M={m1 , m2 , ...{\fn 方 正 粗 倩 简 体\fs12\b1\bord1\shad1\3cH2F2F2F}每个局部窗口W由p个连续帧组成,并且M被构造并迭代地适应每个输入。即将到来的画面。图2中的LocalModelLearning框说明了这种迭代聚类流程。来自新帧的S中的片段(如红色圆圈所示)进入系统,并与M(f4615总得分在[0,|R|],其中R是特征类型的集合。为每个特征相似性得分学习合并阈值,其用于定义凝聚聚类停止标准。停止标准允许USSL自动确定W中的本地标签模型的数量,而无需用户定义的参数。USSL维护相似性历史的分布H,其包括在S中的段和它们最近的段之间计算的相似性分数。46162邻居(NN)由于S由过度分割的超像素组成,因此大多数NN应该共享相同的标签。因此,H对USSL想要合并的模型之间观察到的预期相似性进行建模。相似性历史分布在每个新帧处通过找到每个si关于S和M的NN来更新。从S和M的si的NN被定义为:N S=arg maxφ(s i,m j)(3)mj∈S,m j/=siN M= arg max φ(s i,m j)。(四)mj∈M所有S的相邻对的集合是Nt={NS,NM|si∈S},(5)并且要添加到H的观察到的相似性是现有的无监督分割算法使用邻接上下文来选择要合并的像素,这加强了分割输出中的像素连接。邻接对于USSL也是有价值的信息,因为在相同的相对位置中的si∈S很可能是相同语义标签的过分割区域。 一个adja-对于M中的模型,保持概率矩阵A,其中模型m i和m j相邻,即,A[m i][m j]=1,如果它们在同一帧中具有相邻像素或在相邻帧中具有相同坐标的像素(即,在时间上相邻)。由于我们的目标是直接对语义概念建模,而不考虑局部性,因此随机选择的一组非相邻模型T也被评估为潜在的合并选项。这允许语义模型在本地快速增长,因为所有的邻接都被评估,但是当发现一个好的非相邻合并时也会产生最大相似性得分的模型Hr=[ρ(mi,mj,r)|n(mi,mj)∈Ni](6)Ho=[φ(mi,mj)]|[n(mi,mj)∈Ni],(7)l=max<$mi∈M,mj∈A[mi]<$Tβφφ(mi,mj),(10)其中相似性历史被保持为每个特征r和相似性的总体组合。对于本文中的所有实验,当为USSL构造H时,我们计算关于S和MH用于对表示相同语义概念的模型之间的期望相似度进行为了考虑无监督NN建模中的噪声,每个特征合并阈值由Hr分布的平均值和标准偏差定义,αr=µr−σr。(八)αr的这一定义将观察到的相似性建模为高斯分布,并假设表示低于平均值一个标准差的左尾为离群值。虽然理想地,表示相同语义概念的模型将在所有特征类型之间具有高相似性,但是USSL还考虑了特征不相关性,其中第二合并阈值被定义为距离的平均值,即,αo=µo。 该阈值相对于分布统计设置得更高,以确保大多数特征类型都非常强,以补偿低于αr阈值的特征相似性。使用这些阈值,针对模型mi和mj之间的相似性定义符号加权β,使得−1φ(m,m)<α被选为下一个合并。如果l为负,则没有模型对满足合并阈值标准,并且聚集体-主动群集停止。然后,系统开始处理下一帧。本文的实验选择两个随机的非相邻模型进行mi比较。3.3. 全局映射和标签核对我们利用一个集成类的方法来创建一个全局的语义标记的数据流从本地标记的窗口。 具体地,创建新的本地窗口Wi每p帧,因此每个局部建模处理一组重叠帧作为其相邻窗口Wi-1和Wi+1。图2的右半部分说明了局部窗口重叠。 三个本地窗口概述了红色,绿色而蓝色可以在数据流中的P帧的上方或下方看到。图像中的区域颜色表示该局部窗口的模型化语义概念。注意,概念在局部水平上被过度学习,即,许多颜色映射到相同的基本事实概念。USSL使用相邻窗口之间的帧重叠来映射局部标签,协调标签错误并最小化过度学习以生成全局标签集。这个集合背后的想法如下。设M1和M2是同一窗口W的过度学习标签模型的集合。设所有的mi∈M1,mj∈M2表示模型由来自一个地面实况的像素组成吉若β=<$−1 ρ( mi,mj,r)αr1否则。(九)4617类,并且M1和M2没有任何相同的标签模型,即, mimj∈M1,M2. 标签模式-β权重应用于模型之间的总体相似性得分,并指示哪些模型对满足合并阈值标准。当没有对获得正的相似性得分时,凝聚聚类算法停止。M1和M2的元素可以很容易地用图来映射基于编码来生成标记输出,细 分 设 图 G= ( V , E ) 被 构 造 为 使 得 每 个 mi ,mj∈V,并且e(mi,mj)∈E,如果mi和mj在它们的建模数据中至少有一个公共像素4618J图3.从局部模型集成到全局语义集的映射说明 将标签分配给相同像素的局部模型,例如,mi∈M1,mj∈M2,被编码为图中的边连通点.对集合中的所有像素重叠进行编码会在图中生成表示全局标签集的模型的连接组件。给定这种编码,G中的连通分量表示来自M1和M2的集合的标签模型,并且产生一个标签集,该标签集没有比给定我们的假设的两个局部模型中的任何一个更差的过分割。在实践中,模型的集合产生连接的组件,可以大大减少过度分割贡献与其顶点之一相关联的总边权重的一部分该权重分数用于表示标签对应证据。设边e(vi,vj)连接vi∈Mi和vj∈Mj,则证据得分相对vi计算为:we(v,v)在当地看到的。图3示出了从两个重叠的win产生的基于图的编码和全局标签输出vi(e(vi,vj))=i j,(11)i∈EW 我是在xiph.org容器视频中使用USSL进行演示[3]。 本地的窗口M1和M2概述了红色和绿色,请参阅. 在此图中,p = 4,我们只显示了M1和M2重叠的两个帧。我们专注于本地模型Mi∈ M1和mj∈ M2,这两个都包 括 像 素 表 示 水 的 视频。 请 注 意 , 对 于 pi xelovererlap,mimj>0,它在G中由e(mi ,mj )编码,并在插图中以最厚的图边示出。 然而,表示m i和m j的m i<$m j也与其他m ∈ M1,M2重叠。 这些边也被编码在G中,并且连通分量表示-形成来自这些重叠模型的像素的并集。M1和M2中略微不同的学习模型的这种聚合导致具有较少过度分割的全局标记G是在线构造的,其中顶点和边是在处理每个Wi之后添加的。无监督的局部模型无疑是有噪声的,因此原始连接分量输出包括以G编码的任何噪声。为了从未监督学习者的集合中重新识别一些标签噪声,切割提供最小像素重叠证据的边缘。边权重we被设置为其顶点之间的相交像素的数量。每个边缘孔-其中E Wj是连接v i和来自W j的标签模型(其相邻重叠滑动窗口之一)的边的集合。如果是(e,v i)<τ或(e,v j)<τ,则边被切割。 对于我们的实验,τ = 0。五、 任何保留在G中的连接组件都被认为包含足够的像素信息来充分建模语义概念(至少覆盖。05%的视频量)用于表示全局标签模型。太小的连接组件被合并到其NN全局模型中,因此流中的每个像素在最终输出中都有一个全局标签4. 评价我们将USSL与LIBSVX库中实现的两种分割算法进行了比较[35]。Xu和Corso在比较五种算法[34]时证明,基于层次图(GBH)的分割算法[11GBH是GB分段的分层扩展[8]。输出是一组层次级别,其中越靠近根的级别包含越少且粒度越粗的段。GBH最初并不是为处理流数据而设计的,它需要将每个帧同时加载到内存中进行处理。流GBH [36]4619表1. 地面实况中的标签数量,以及USSL、GBH和S-GBH发现的标签数量。GBH和S-GBH输出来自具有与USSL相似数量的标签的层次结构级别。视频|不|GT节段USSL GBH:|S|S-GBH层次结构级别GBH S-GBH总线101719252012容器72424311912花园41717182114冰41115111914足球61920241813Stefan51315121915(S-GBH)是作为GBH的扩展引入的,用于处理无限长的数据流在任何给定的时间,只有来自流的帧的子集被加载到内存在这方面,S-GBH与USSL非常相似。S-GBH还输出分段的分层集合。在评估过程中,一些指标是在GBH和S-GBH的整个分层输出中计算的,但我们专注于使用分层分割级别进行比较,该级别产生的标签数量与USSL相似。在本节的其余部分,我们总结了表2. USSL和GBH变体的平均每类和整体像素标记准确度的比较。视频平均ACC总体-ACCUSSLGBHS-GBHUSSLGBHS-GBH总线0.2940.3140.1370.4010.6470.370容器0.6130.4910.6410.9070.7860.855花园0.6380.6270.4180.6860.6890.438冰0.6280.5240.5340.9410.8980.870足球0.4460.4260.4380.9100.8760.892Stefan0.5440.5710.5410.8410.8780.837平均0.5270.4920.4520.7810.7960.7104.2. 3D分割精度Xu和Corso [34]使用3D分割精度来比较几种超体素分割技术。Ti的分割精度定义为S中被段正确分类的像素的分数。具体而言,所有S j∈ S , 与T i重叠的大 多 数 像 素 构 成 S<$ 。Sj∈S<$与Ti的全交构成了正确分类的分数。从形式上讲,ΣS|VTiVSj|USSL、GBH和S-GBH的视频和段输出。我们使用三个定量指标来评估细分市场-ACC(Ti)=|VTi.(十二)|比较方法的标记/标记特征。对于这些度量,我们将S定义为由算法产生的片段或标签的集合,其中Sj索引第j个标签。T是地面实况片段的集合,V是整个视频。我们用不-桩号|SJ|和总视频流量|V|.对于每个实验,我们给出了所有Ti的平均准确度,它为所有地面真值类提供了相等的权重,以及描述正确分类的像素总数的总体准确度:1Σt4.1. 数据集概述AV G-ACC(V)=不 i=0时ACC(Ti)(13)|VTi|ACC(Ti)对于USSL的定量评价,我们使用Chen等人的数据集。”[3]这是一个比喻。OV ERALL-ACC(V)=Σ|VTi(十四)|xiph.org视频。每个视频都使用来自24个语义类的像素级标签进行了注释(与MSRC对象数据集中定义的类别相同[28])。虽然有八个视频有地面实况标签,但我们只使用了六个(巴士,集装箱,花园,冰,足球和斯特凡),它们的大多数像素都有50%的标签。该数据集的平均视频长度约为80帧。GBH和S-GBH通过改变一组参数来产生标记输出的层次结构,而USSL旨在直接发现数据流中的语义标签的数量并产生单个标记输出。表1总结了地面实况(GT)中的标签数量以及USSL、GBH和S-GBH的输出。我们从与USSL发现的标记数量最接近匹配的分层级别(也在表中示出)中选择GBH和S-GBH的标记输出。请注意,GBH和S-GBH的层次级别选择在视频中是一致的。这表明USSL已经学会了一种分段,该分段映射到分层方法中使用的特定参数范围。表2示出了相对于地面实况通过技术实现的每类平均值和总体USSL在除一个精度指标(容器的AVG-ACC)外的所有精度指标上都优于S-GBH,并且大多数性能改进都非常大。此外,USSL在准确性方面与GBH表现USSL忽略总线视频,USSL的整体准确性优于GBH,优于GBH 0.857至0.825。GBH在某些视频上确实比USSL产生更高的平均和整体准确性,但这并不意味着在视频中的每个类别上都表现出色。图4显示了这两个视频bus和stefan的每个类的准确性分解。类别以像素频率的降序USSL在巴士视频中的汽车和树类上实现的低准确度(图4(a))是其整体性能不佳的主要原因。然而,USSL同样或更好地识别了接下来的四个类4620类似地,通过将T叠加到SH{T |S}=−ΣS和TP(T,S)log P(T |S)。(十九)(a) 总线(b) Stefan图4. 巴士和stefan视频片段的每类分类准确性的细分比GBH。类似地,USSL实现了Stefan视频中人脸和背景类的更好分割。4.3. 过分割和欠分割熵Gong和Shi [10]定义了两种条件熵测度来评价一般的图像分割。过分割和欠分割条件熵分别显示了细粒度和粗粒度分割之间的权衡。通过将地面实况和分割输出彼此叠加来评估这些测量。在条件熵测量中使用的概率集可以通过确定T和S中的标签的量来找到:图5显示了每种技术的过度分割和欠分割熵之间的平衡。GBH和S-GBH产生的30个等级中的每一个都绘制了曲线,但是表1中每种技术的等级都用红色标出总体而言,子图显示了与准确度比较相似的性能趋势USSL在除了一个视频之外的所有视频中实现了比S-GBH更低的条件熵度量,并且在许多视频中表现类似于4.4. 定性比较图6示出了视频的帧40上的标签输出。这种定性比较显示USSL的标记输出更平滑。也就是说,USSL显示较少的过度分割,产生更大面积的正确标记区域。这些定性结果还示出了USSL将相同的语义概念分配给视频中的断开连接的像素的许多示例。除了前面讨论过的圆锥体例子(见第四列)之外,在足球和Stefan视频中,还发现了人类的不连续片段,在容器视频中,发现了水的区域(蓝色)。定性图像还重申,USSL在公共汽车视频方面遇到了一些挑战。我们假设这是由于物体的高度遮挡以及场景中窗户的反射和透明特性。围栏遮挡车辆并为这些区域产生噪声特征,即使它实际上不是这些物体的一部分。类似地,来自其他对象的特征可以与场景中的车辆相关联,因为它们通过透明窗可见或者可以在玻璃的反射中看到因此,USSL错误地分配了相同大多数树木和车辆的标签。P( T=i)=|VT,i||V|(十五)5. 结论我们介绍了一种视频分割的变体,P(S=j)=|VS,j||V||VT,i ∩ VS,j|(十六)cuses直接学习流数据中的高级语义概念,而无需人工注释。我们的无监督语义标记方法分析了潜在的模式,P( T= i,S=j)=(十七)|V|在视频流的局部窗口中进行局部化,同时避免严格的局部建模以确保给定这些定义,通过将S覆盖到TΣH{S|T}=−P(T,S)logP(S|T),(18)S和T其中更一致的映射,即,存在一个覆盖在Ti上的支配Sj,产生较低的熵测度。相同的语义被一起建模。通过局部过度学习,可以最小化由无监督学习引入的噪声,并且可以使用在基于图的结构中编码的局部学习器的集合来协调剩余的错误这种方法比现有的视频分割算法更好地平衡了欠分割熵和过分割熵,同时在没有人类提供参数的情况下自动确定语义标签的数量4621(a)巴士(b)货柜车(c)花园(d)冰(e)足球(f)斯特凡图5. 六个xiph.org视频的欠分割与过分割熵的比较。绘制GBH和S-GBH的所有30个层次输出,以与USSL的单个输出进行比较。GBH和S-GBH层次级别产生的语义标签数量与USSL(也在表1中列出)大致相同,用红色表示图6.xiph.org数据集上输出的定性比较输出来自每个视频的帧40,其大致对应于每个视频剪辑的中间帧。4622引用[1] R. Achanta、A.Shaji,K.史密斯,A.Lucchi,P.Fua,和S. Ssstrunk。切片超像素与最先进的超像素方法的比较 。 Transactions on Pattern Analysis and MachineIntelligence,34(11):2274-2282,Nov 2012. 1[2] T. Brox和J.马利克通过点轨迹的长期分析进行目标分割欧洲计算机视觉会议论文集,第282-295页。施普林格,2010年。2[3] A. Y. Chen和J.J. 高索在整个视频帧中显示多类像素标签在西纽约图像处理研讨会的会议记录中,第14-17页IEEE,2010。二、五、六[4] C.库普里角法拉贝特湖Najman和Y.勒昆用于rgbd视频实时语义标记的卷积网络和分水岭切割The Journal ofMachine Learning Research , 15 ( 1 ) : 3489-3511 ,2014。一、二[5] J. 邓,W。东湖J. 放大图片作者:Richard Li,K.Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 计算机视觉与模式识别会议论文集。IEEE,2009年。1[6] S. Dutt Jain和K.格劳曼活动图像分割传播。在计算机视觉和模式识别会议论文集,第2864-2873页IEEE,2016.2[7] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标 注 的 分 层 特 征 Transactions on Pattern Analysis andMachine Intelligence,35(8):1915 一、二[8] P. F. Felzenszwalb和D. P. Huttenlocher。高效的基于图的图像分割。International Journal of Computer Vision,59(2):167-181,2004. 三、五[9] C. Fowlkes,S. Belongie和J.马利克使用nystrom方法的有效时空分组在计算机视觉和模式识别会议论文集,第1卷,第I-231页IEEE,2001年。2[10] H. Gong和J. Shi.条件熵作为多部分图像分割的过分割和欠分割度量。技术报告MS-CIS-11-17,宾夕法尼亚大学,2011年。7[11] M. Grundmann,V.Kwatra,M.汉和我艾萨高效的基于层次图的视频分割。在计算机视觉和模式识别会议论文集,第2141-2148页。IEEE,2010。一、二、五[12] M. Häselich,M. Arends,N. Woj k e,F. 诺伊豪斯,以及D.保卢斯非结构环境中的概率地形分类。Robotics andAutonomous Systems,61(10):1051-1059,2013。2[13] H.他和B。厄普克罗夫特三维街道场景的非参数语义分割。在智能机器人和系统国际会议论文集,第3697-3703页IEEE,2013。2[14] S. Hickson,S.伯奇菲尔德岛Essa和H.克里斯滕森rgbd视频的高效分层图分割。在计算机视觉和模式识别会议论文集,第344-351页。IEEE,2014。2[15] M. 何福芬,K。 St e p a'n o v a',M. Reinstein.四足机器人多步态行走中运动动作和不同感觉方式对地形分类的影响。Robotics and Autonomous Systems,62(12):1790 2[16] D. Kim,J. Sun,S. M.哦,J. M。Rehg,和A. F. Bobick用于室外机器人导航的使用无监督在线视觉学习的在机器人和自动化国际会议论文集,第518-525页IEEE,2006年。2[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097-1105页,2012年。1[18] M.- Y. Liu,O. Tuzel,S. Ramalingam和R.切拉帕熵率超像素分割。在计算机视觉和模式识别会议论文集,第2097-2104页。IEEE,2011年。1[19] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在计算机视觉和模式识别会议论文集,第3431-3440页。IEEE,2015年。一、二[20] D. G.洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志,60(2):91-110,2004. 3[21] A. Milella、G. Reina和J.安德伍德利用雷达和单目视觉进行 统计地面 分类的自 学习框 架。Journal of FieldRobotics,32(1):20 2[22] Q. Mo和B.A. Draper先生半非负矩阵分解用于缺失数据的 运 动 分 割 欧 洲 计 算 机 视 觉 会 议 论 文 集 , 第402Springer,2012. 2[23] D.穆尼奥斯Bagnell和M.赫伯特堆叠的分层标记。欧洲计算机视觉会议论文集,第57-70页。施普林格,2010年。二、三[24] T. Ojala,M. Pieti kainen和D. 很好。纹理度量与基于特征分布分类的比较模式识别,29(1):51-59,1996. 3[25] S.巴黎视频流的边缘保持平滑和均值漂移分割。欧洲计算机视觉会议论文集,第460-473页,2008年。2[26] P. Ross,A.English,D.鲍尔湾Upcroft和P.科克现场机器人的在线新颖视觉障碍检测。 在机器人和自动化国际会议论文集,第3935-3940页。IEEE,2015年。一、二[27] M. Shneier,T.张氏T.洪,W。沙克尔福德河Bostel-man和J. S.阿不思自主机动车辆的可通过性模型学习。Autonomous Robots,24(1):69 一、二[28] J. Shotton,J.温恩角Rother和A.天啊Texton- boost:联合外观,形状和上下文建模用于多类对象识别和分割。在欧洲计算机视觉会议论文集,第1-15页Springer,2006年。三、六4623[29] H. S. Sokeh和S.古尔德。基于运动线索的街道场景无监督语义分割在新西兰图像和视觉计算会议的会议记录中,第232-237页ACM,2012年。2[30] C. 塞格迪 W. 刘先生, Y. 贾, P. Sermanet S. 里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A.拉比诺维奇。更深的回旋。计算机视觉与模式识别学报. IEEE,2015年6月。1[31] Tighe和S. Lazebnik超级解析:可伸缩的超像素非参数图像解析。欧洲计算机视觉会议论文集,第352施普林格,2010年。2[32] Y.-- H.蔡美儿H.杨,和M。J.布莱克。通过对象流的视频分割。 在计算机视觉和模式识别会议论文集,第3899- 3908页2[33] M. Wigness , J.G. 罗 杰 斯 湖 E. Navarro-Serment ,A.Suppe和B. A. Draper先生减少户外环境中多概念视觉感知的适应延迟。在智能机器人和系统国际会议论文集,第2784-2791页。IEEE,2016. 1[34] C. Xu和J. J.高索早期视频处理的超体素方法的评价在计算机视觉和模式识别会议论文集,第1202- 1209页IEEE,2012。一、二、五、六[35] C. Xu和J. J.高索LIBSVX:一个用于早期视频处理的超体素库和基准。国际计算机视觉杂志,119:272-290,2016。5[36] C. Xu,C. Xiong和J. J·科索流式分层视频分割。欧洲计算机视觉,第626Springer,2012.二、五[37] B. Zhou , 中 国 古 柏 A. Lapedriza , J. Xiao 、 肖 氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。神经信息处理系统,第487-495页,2014年。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功