没有合适的资源?快使用搜索试试~ 我知道了~
588112人在环视频语义分割自动标注Nan Qiao1,Yuyin Sun1,Chong Liu2,Lu Xia1,Jiajia Luo1,Ke Zhang1,and Cheng-Hao Kuo11 Device CoRo,Amazon2 UC Santa Barbara{qiaonan,yuyinsun,luxial,lujiajia,kezha,chkuo}@ amazon.comchongliu@cs.ucsb.edu摘要精确的视频语义分类对于设计和评价视频语义分割算法至关重要然而,由于实际中的高注释成本和有限的预算,注释通常限于视频帧的小子集。在本文中,我们提出了一种新的人在环框架称为HVSA生成语义分割注释的整个视频使用只有一个小的注释预算。我们的方法交替之间的积极样本选择和测试时间微调算法,直到一个符号的质量是满意的。特别地,主动样本选择算法挑选最重要的样本以获得手动注释,其中样本可以是视频帧、矩形或甚至超像素。此外,测试时微调算法将所选样本的手动注释传播到整个视频。真实世界的实验表明,我们的方法生成高度准确和一致的语义分割注释,而simulation享有显着小的注释成本。1. 介绍视频级分割注释在自动驾驶[19]、飞行[4]和增强现实[23]等多种应用中非常重要。它们还促进了其他任务中的模型训练,如视频去模糊/去模糊[35,36],动作识别[22]和3D repricing [24]。然而,手动注释整个视频的每像素语义分割标签通常是昂贵的[14]。因此,典型的方法是仅对视频帧的子集进行采样以获得人类注释[14,6]。然后,给定稀疏注释的帧,该方法应用标签传播(LP)将所选帧上的注释填充到所有帧以获得密集注释[7,3,8]。不幸的是,这些注释一次然后传播的方法不能有效地利用注释预算。为了以较低的成本对整个视频进行语义分割标注,提出了人在环视频语义分割自动标注(HVSA)图1. 2次迭代后HVSA的性能。该方法在每次迭代中主动选择最重要的样本来获取人类注释,然后综合考虑视频的时空一致性和语义信息,将注释传播到整个视频中。因此,需要较少的人力来获得高质量的像素级分割。框架.与大多数只对采样帧进行一次注释的工作不同,我们的HVSA框架迭代地工作,同时保持收集注释和更新分割模型,直到满足高质量的分割。参见图2。在HVSA的每次迭代中,主动选择要手动注释的样本,然后基于累积的手动注释对视频特定网络进行微调。网络的更新输出可以在下一次迭代中使用,以决定选择哪个样本进行人工注释。最后,良好的微调网络用于生成整个视频的分割注释。据我们所知,HVSA是第一个将主动样本选择应用于高效视频语义分割自动注释的人在环框架见图1.一、为了选择用于注释的视频帧,大多数现有工作仅使用朴素策略,例如,前几帧,均匀随机采样,或任意随机采样[3,2,8]。这些策略不考虑视频内容或领域知识,导致有限的人工注释预算的利用率低。相反,在我们的HVSA框架中,我们提出了主动样本选择5882图2.HVSA框架概述主动样本选择从输入视频中搜索不确定和多样的样本测试时微调通过最小化两个互补损失(a b)来微调来自先前迭代的基于图像的语义分割网络整个过程重复,直到满足高质量的语义分割。(ASS)该方法同时考虑了视频内容和语义分割网络。详细地说,我们评估了网络的预测不确定性,并尝试选择具有最小预测置信度的样本。此外,我们生成所有样本的特征,并尝试选择最具代表性的样本。通过这种方式,我们的ASS方法不仅采样的不确定性,而且多样性,所以它能够提高人工注释预算的利用率,提高标签传播的准确性。好奇的读者可能会发现,我们正在进行主动样本选择,而不是像以前的工作那样进行主动帧这是因为语义分割中的一个关键考虑因素是注释单元的粒度。它已经在图像语义分割任务中进行了研究,包括基于帧的[45,41,16],矩形-基于[28,10,13]和基于超像素[40,9]的工作。最近的工作[9]表明,基于超像素的注释是图像分割任务中最有效在我们的ASS方法中,样本可以是一个帧,一个矩形帧,甚至是一个超级像素。此外,为了模拟真实世界的手动注释过程,我们首先采用基于点击的注释测量[28,13]来模拟注释成本,然后基于点击生成我们的实验结果表明,在视频注释任务的最佳粒度是不确定的,但取决于所需的注释质量水平。传统的LP方法[7,3,8]仅使用时空信息将所选帧的手动注释传播到整个视频。因此,它们不利用在现有语义分割模型或手动注释中捕获的语义信息,导致更多的手动注释填充时空约束未覆盖的地方。在HVSA框架的测试时微调(TFT)方法中,我们设计了一个新的损失函数,同时考虑时空一致性和语义信息的模型微调。它进一步提高了标签传播质量,节省了标注成本。总的来说,我们的贡献包括:1. 一种新的人在环框架HVSA,改变-结合主动样本选择和测试时微调方法,提出了一种低标注成本的视频语义分割自动标注方法2. 在主动样本选择中,样本可以是帧、帧的矩形或甚至是超像素。该方法综合利用网络和视频的信息,综合考虑网络的不确定性和样本间的差异性来选择样本。3. 在测试时的微调中,我们提出了一种新的损失函数,结合语义知识和时空信息。4. 我们研究了视频语义分割自动标注问题所需的粒度。我们的研究结果为今后的工作提供了见解,在选择注释单元方面。5. 真实世界的实验,例如,图1表明,我们的方法以低注释成本生成整个视频的高度准确和一致的语义分割注释。2. 相关工作在本节中,我们简要总结了由于页数限制而进行的相关工作完整讨论见附录A。视频语义自动标注。伪标记和半监督学习是自动化视频语义分割注释的两种流行类型的伪标记方法[27]使用预先训练的教师模型来生成测试视频序列的标签。然而,这些方法通常是基于帧的,并且不考虑丰富的时间约束在视频里在半监督学习方法中,标签传播(LP)被广泛采用[3,2,30,18,32]。这些方法依赖于精确的光流估计,这是很难获得的。相反,我们的测试时间微调是优化一个新的损失,同时考虑语义和时间信息,并预测整个视频的时间一致的语义注释,而没有传统的LP方法的限制。主动学习。 受主动学习成功的启发-5883不u(s)=Pθ不不不不在[39]中,以前的方法[17,40]研究了如何选择实例来细化分割任务的网络。[43]研究了线性规划中的活动帧选择问题 我们的工作在两个方面有所不同:首先,他们的方法只选择一次帧,而我们的方法可以选择视频帧,矩形帧,甚至是多个迭代中的超像素。其次,他们的方法与特定的LP技术紧密联系,不符合现代深度网络。我们的方法是通用的,可以与不同的分割网络。可视化注释的人工参与。有一些工作[1,34]试图降低人在环模型学习中的注释成本。和[20,12]研究了交互式视频对象分割框架。然而,在人在环框架下解决视频语义分割问题还没有被研究过。3. 方法在本节中,我们描述了我们的HVSA框架(图1)。2)详细介绍了预处理、主动样本选择、测试时间微调和成本计算。3.1. 预处理(a) 帧(b)Rec100(c)Rec16(d)SP当注释视频时,用户可以注释帧(a)、矩形(b)(c)或甚至超像素[21](d)。(b)和(c)中的段的大小分别为100和16在(c)和(d)中有置信度和不确定性抽样。不确定性采样背后的动机是,如果网络预测样本的置信度很低,则需要选择该样本进行手动注释。为了捕获信心,我们使用置信度[25]。对于每个像素,其置信度被定义为来自在每次迭代中训练的模型的top-1和top-2标签预测的预测分数之间的差异。直觉上,大的边际意味着大的预测置信度。从1中减去后,置信度的像素裕度转换为像素不确定度。样本sn的不确定度定义为样本区域内像素不确定度的总和:样品粒度。需要仔细选择合适的样本粒度,以最大限度地减少人为干扰。ntx∈snk−1(y1)|I t) −P θk−1(y2,x|I t),(1)站的努力。我们研究三种类型的注释单元:帧、矩形和超像素,它们通常用于图像语义分割任务。图3示出了三个单元的示例。为了获得矩形单元,我们将每个帧统一裁剪为不重叠的矩形。我们使用DMMSS-FCN[21]来生成超像素单元。 那个n-来自第t帧的第t个样本被表示为Sn。用于帧其中I t是输入帧,yt是从so f tmax得到的预测,x是sn内的pi x el位置,θk−1是先前模型。通过应用不确定性抽样,ASS方法知道当前网络对其预测不确定的样本是什么,然后这些样本将被相应地选择。样品,不n总是0。所有样品均在然而,不确定性抽样在iso-lation. 它可能集中在决策边界未标记的样本池。建立时间对应。我们依靠帧之间的对应关系来利用视频时间信息。在这里,我们通过估计从帧t到t′的帧对的光学流[42]Ot→t′来提取密集对应。计算所有帧对的光流是昂贵的,因此我们将帧之间的距离限制为小于3 .第三章。我们进一步应用前向-后向一致性检查来处理遮挡/非遮挡以仅提取可靠的对应。结果,每个光流Ot-t’将具有二进制掩模Mt-t’,其中具有大于1个像素的前向-反向流差的像素被设置为0。3.2. 主动样本选择并选择相似的样本,造成人力的浪费为了使选择策略更全面,我们进一步要求该方法对彼此不同的样本进行选择,这就是多样性抽样。深度特征和多样性采样。基于采样的采样自然针对不同的样本选择。我们首先对未标记的样本进行聚类,然后选择质心样本进行注释。我们重新使用下游分割模型作为特征提取器。具体地说,我们将每个帧It转换为一个特征图Ft,使用先前的模型骨干网络没有分割头。然后,样本特征fn被定义为在sn区域内沿着Ft的空间维度的平均值为了降低标注成本,我们提出了主动样本选择(ASS),以主动选择最重要的Ft=θnk−1(It),(二)在每次迭代中手动注释的示例。ASS方法同时考虑了网络和视频内容,涉及不确定性采样和多样性采样及其组合。ft= MeanPoolx∈sn(Ft,x),其中,网络节点表示分段网络骨干。我们采用k-均值算法与欧氏距离的f聚类。不58842LL图4. VEIS上模型不确定性和注释选择的可视化。在对高不确定性样本进行微调之后,第二次迭代中生成的注释在所有相邻帧的样本区域内显著改善。结合不确定性和多样性抽样。在我们框架的第一次迭代中,由于网络在迭代后期,我们首先选择一半最不确定的样本,并将它们聚类到b个聚类中,其中b是一次迭代中的注释预算。然后,选择b聚类质心并将其发送给人类注释者。以这种方式,所选样本具有高不确定性并且彼此相对不同。示例参见图43.3. 输入视频的测试时间微调虽然可以在相关数据集上对网络进行预训练 图5.为了逐步使其适应视频,在每次迭代中,我们对包含两个不同信息源的模型进行微调,灵感来自于人类如何在不同的环境中使用不同的信息源。具体地,我们将像素位置x处的帧t和t′的预测类概率qt和q′t之间的差惩罚为:Ltc , t→t′ ( x ) =Mt→t′ ( x ) <$qt ( x )−q<$t′→t(x)<$2,其中,q=t′→t(x)是来自帧的加权预测得分,使用预先计算的流Ft→t′和Mt→t′,与Ft→t′相关的掩码。这里我们说明为什么以及如何得到掩码Mt→t′。 我们应用了一种用于后向一致性检查的方法来处理遮挡/非遮挡,以仅提取可靠的对应关系。结果,每个光流0t→t′将具有二元掩模Mt→t′,其中具有大于1个像素的前向-反向流差的像素被标记为0的情况。在位置x处的Mt→t′可以用公式表示为:人工注释器处理视频注释任务。 给予M(x)=1平方(x)-O(x)21岁,(4)<目标帧和视频,注释器将自然地分析其相邻帧以决定正确的类别t→t′ˆt→t′t′→t<$2场景中的物体;注释器还将引用同一视频中的现有注释。此外,我们提出了一个新的损失设计的两个信息源,并展示了我们如何优化它。图5.在NYU-V2上预训练的模型在新的域外输入视频上表现不佳,如(c)中所(d)我们的框架使模型适应输入视频,并产生更好的结果。时间一致性丢失。 我们的时间一致性损失,tc,鼓励一致的预测在不同帧上的对应像素。与直接在帧之间传播标签的其他方法[46,8]不同,我们从模型中传播预测的类概率更其中Ot′→t是Ot′→t使用floww的Ot→t′。使得Ot→t′和Ot′→t的位置对齐可以直接比较。与现有的方法[46]不同,这些方法只考虑注释帧及其邻居之间的时间关系,我们将时间一致性损失应用于甚至未标记的图像对。因此,标记的图像信息转换到超过3帧的距离,这是光流的距离限制。语义缺失。时间约束告诉模型与哪个像素共享标签,但不告诉模型在哪里保存标签。这种语义信息必须来自输入视频上的注释样本。我们计算具有人工注释的任何帧或帧区域的规则交叉熵损失ceLce,t=LCE(qt,Lt),(5)Lt表示帧t处的语义标签,其中未标记区域被设置为特殊的5885LL优化. 在测试时微调中,每个训练样本由两个帧组成,它们并行通过单帧模型,给出两组类概率预测。然后,这两个预测用于计算时间损失tc。如果该对中的任何帧区域具有手动注释,则也将计算交叉熵损失ce总之,我们在测试时微调期间使用标准反向传播通过最小化来微调单帧分割网络权重L=λLtc+ Lce。(六)我们在第一次选择迭代中使用预先训练的模型初始化网络权重。在以后的迭代中,网络从之前的检查点进行微调,然后预测所有帧上的分割标签。3.4. 注释成本计算在实践中,注释成本是由费用或人工标记时间来衡量的。一些传统的语义分割AL工作[40]使用标记像素的百分比来表示手动工作。我们遵循最近的一些工作[28,13,9]来通过注释点击来衡量成本,这更现实。语义分割标签掩码是像素级的,而在实际的标记任务中,人类注释者通常使用基于掩码的工具[13]。注释器首先单击一个对象边界上的几个顶点以形成闭合多边形(通过这种方式,该多边形内的所有像素都获得该类的标签。这里我们介绍了如何使用算法来模拟人类注释器从现有的分割标签中定位“边界点击”位置,并计算总点击作为注释成本。对于单个类对象的每个连通点,先求 出 其 轮 廓 点 , 然 后 利 用 Ramer-Douglas-Peucker(RDP)算法将轮廓点简化为多边形顶点每个多边形顶点花费一次“边界点击”。另外,每个多边形花费一次“类点击”来指定它的类标签.图6示出了示例。对于基于矩形和基于超像素的注释,不需要在样本边界上单击。如果一个样本只包含一个类对象,则所需的点击次数为一次“类点击”。对于超像素,不像[9],我们不将主要标签分配给整个超像素,因为错误标签将传播到相邻帧,从而损害最终注释质量。模仿[9]使用类似的方法来估计注释点击,同时使用数据集提供的GT标签作为训练标签。然而,这是不合适的,因为RDP算法简化了对象多边形边界,这导致GT的更粗糙的注释。在他们的情况下,与训练标签质量相比,基于点击的成本被低估了。相反我们图6.注释(a)中的中心矩形示例。红色的“边界点击”是由RDP算法从原始对象轮廓生成的。不需要在示例的边界中单击以封闭多边形。绿色的“类点击”指定床和地板类在这个例子中。(b)是由所示的9次点击注释的分段标签。通过将简化的多边形转换回标签蒙版来模仿手动注释(MA)。我们在微调模型中使用MA而不是GT,这更好地适应了实际中的视频分割标注任务。4. 实验在本节中,我们在两个数据集上进行实验,每个帧上都有密集分割GT,以支持框架的评估。我们首先比较建议的ASS方法与不同的帧选择基线使用各种样本粒度。然后,我们研究了所提出的测试时间微调的有效性,通过比较它与其他标签传播方法。最后,我们设想生成的注释,以显示更多的细节,从建议的框架输出。4.1. 实验设置培训设置。我们为每个测试序列执行三次ASS迭代。每个迭代的注释预算从总预算中平均分配。我们使用HRNet-W 48 [44]作为骨干网络(其他网络可 以 很 容 易 地 合 并 ) 。 我 们 将 considerable lossweightλ=1。每次迭代的初始学习率为0.004。在每次迭代中,我们以0的学习率对网络进行15个epoch的微调。004和SGD优化器[37],动量为0.9。我们遵循“聚”学习率政策,逐步降低学习率。SceneNet RGB-D [29]数据集的批次大小为14,VEIS [38]数据集的批次大小为2。评估和度量。我们使用四个指标来全面评估我们的方法 , 它 们 是 像 素 精 度 , 平 均 Intersection over Union( mIoU ) , 边 界 Intersection over Union ( Boundary-IoU)和时间一致性。前两个通常用于分割任务,以衡量预测的准确性。详见附录B。5886×××图7. SceneNet RGB-D上的活动样本选择结果:(a)、(b)、(d)以注释点击%示出生成的注释mIoU和归一化的边界IoU,并且(b)是(a)的放大版本。(c)以注释像素%示出了生成的注释mIoU4.2. 比较评估4.2.1SceneNet RGB-D我们使用SceneNet RGB-D [29],这是一个逼真的室内轨迹数据集,每个视频帧都有语义分割注释,以评估整体系统性能。与常规室内场景数据集不同[15,31],ScenNet RGB-D数据集的房间布局/对象放置是随机生成我们使用NYU-V2 [31]训练集作为预训练模型训练了一个14类HRNet-W 48模型,该模型在SceneNet测试视频中只有15.04%的平均交集(mIoU) 我们将证明我们的测试时间微调方法使分割模型适应随机生成的场景,并获得更令人满意的结果(图中的示例)。(五)。在我们的实验中,我们从SceneNet测试集中随机挑选了五个序列,每个序列包含300帧。我们测试四种粒度设置:帧,40个40像素的矩形,16 个 16 像 素 矩 形 和 超 像 素 , 分 别 表 示 为 Frame 、Rec40 、 Rec16 和 SP 。 假设 SceneNet 帧 分辨 率 为 240320,Rec40和Rec16分别将帧分割为56和300个片段。我们让SP将一帧分割成大约300个片段。我们通过用GT测量它们的mIoU来评估生成的注释。图7比较了从不同选择方法和注释样本粒度生成的标签质量。“注释点击%”(以对数标度显示)是通过点击次数归一化的注释点击次数,以注释整个视频。我们可以从(a)中看到,所提出的ASS方法在所有样本粒度上都优于随机选择基线Rec16在所有粒度中以较少的点击给出了最佳注释mIoU,因为它提供了比较大样本更好的样本当注释有限时,这种多样性有利于模型的微调.随着注释点击次数的增加,所有设置之间的间隙会变小,因此我们放大(b)中这部分的曲线。当点击率超过20%时,注释框架优于其他框架。原因是样本多样性随着更多手动注释的样本而饱和。在表1.此表显示了SceneNet中不同mIoU基准测试的最有效样本粒度最后一行表示手动注释所有帧。注释mIoU粒度是的点击是的像素百分之八十Rec16百分之一点五百分之零点二百分之八十五Rec16百分之二点五百分之零点三百分之九十Rec405.0%百分之一点四百分之九十五帧百分之二十七百分之二十三百分之九十九帧百分百百分百在这个阶段,通过标签传播,注释更多的像素不断提高最终的与较小尺寸的样本相比,注释帧每次点击获得最多的标记像素,这是由于处理截断对象轮廓或由不完美的超像素合并的分割对象因此,更大粒度的注释样本可以更快地实现更高的标签质量。为此,我们建议用户选择一个适当的样本粒度来注释,这取决于他们想要的标签质量。标签质量基准的点击成本 在选项卡中。我们列出了生成80%、85%、90%和95% mIoU标签所需的最少注释点击,以及相应的样本粒度。最后一行表示完整视频的手动注释Rec16样本首先达到80%和85%的mIoU,注释点击成本为1.5%和2.5%。Rec40首先以5%的注释点击 实 现90% 的 mIoU 。 注 释 框 架 首 先 实 现 了 95% 的mIoU,注释点击率为27%,是实现90% mIoU的点击率的五倍多。该观察结果表明,mIoU增益与注释点击次数呈次线性关系。然而,与注释完整视频相比,它仍然节省了73%的注释工作,证明了所提出的方法生成非常高质量的注释,同时显著节省了人力。值得一提的是,预先训练的模型在测试序列上的表现很差(图1)。5),这表明所提出的框架可以通过从选定的样本中学习并利用时间信息来适应目标序列。图7(c)显示了在传统的5887图8. VEIS上的活性样品选择结果:(a)、(b)、(d)以注释点击%示出生成的注释mIoU和归一化的边界IoU,并且(b)是(a)的放大版本。(c)显示了生成的注释mIoU,以注释像素%表示。表2. SceneNet [29]上的整体性能与ASS方法选择的手动注释的比较。给定相同的信息从注释帧,我们的方法优于其他两个,并显示出优势,在较低的注释成本。2%点击4.6%点击率7.1%点击率9.3%点击率MiouP-Acc.TCMiouP-Acc.TCMiouP-Acc.TCMiouP-Acc.TC仅微调45.7276.5761.9864.7388.9076.8670.7691.7681.2081.3194.7287.09[8] 2016年12月76.4666.0959.585.0684.6868.287.6686.9776.3491.4186.66我们的63.6788.7184.4379.5495.1589.3386.0796.9093.4589.9697.2894.70基于像素的注释成本测量。观察结果与(a)非常不同,因为注释帧总是最差的。我们认为,传统的基于像素的成本测量在分割人工智能任务中可能会产生误导。边界IoU的比较 对象边界质量在分割注释中至关重要。在图7(d)中,我们显示了由mIoU规范化的边界相交于并集(边界IoU)[11],这反映了边界注释的准确性。在帧样本上训练的模型毫无例外地优于其他模型。这是因为框架级标注提供了最丰富的语义/边界信息。而基于超像素的选择通常是由同一目标的像素点组成,缺乏目标边界的信息。因此,其边界预测精度最差.对于矩形样本,更大粒度的样本给出更好的边界元预测。如果用户对标注边界质量要求较高,则标注整帧是最佳选择。4.2.2VEIS对于更广泛的实验,我们在户外场景合成数据集VEIS上进行了自动注释实验[38]。它包括每个视频帧的语义分割地面实况,具有标准真实城市场景数据集的对象类别,例如CamVid [6]和Cityscapes [14]。我们从完整的VEIS序列中随机选取六个视频片段,每个片段包含200帧。预训练模型使用来自ImageNet预训练检查点的Cityscapes训练集进行训练,所有测试视频的mIoU为32.56%。我们测试了四种粒度设置:帧、Rec 100、Rec 40和SP。作为决议-VEIS帧的大小为600×800,Rec100和Rec40分开一帧分别分成48段和200段。我们让SP将一帧分割成大约200个片段。图8(a)比较了给定符号点击的生成的标签mIoU,并且(b)放大了高mIoU图。 观察结果与SceneNet的结果非常相似。首先,ASS方法总是优于随机选择基线。其次,更大粒度的注释样本可以更快地实现更高的标签质量。当注释点击很小时,注释Rec40样本会产生最佳的注释。当注释的点击成本大于10%时,注释Frame的性能优于其他所有类型。由于页面限制,有关标签质量基准的点击成本和边界IoU的比较,请VEIS数据集上的结果。4.3. 分析模型不确定性和选定样本。 图 4说明了该框架如何选择样本并从中学习。这个VEIS示例是用大约3.3%的注释点击来注释Rec100。前两行是模型不确定性和第一次迭代后生成的注释。ASS方法选择具有高不确定性和较差预测的样本。其他帧中的相似区域不被选择,因为所提出的ASS同时考虑了样本不确定性和多样性。最后两行显示使用选定样本进行微调后的模型结果。所有相邻帧的区域标签传播模块的有效性。我们比较了所提出的测试时间微调方法,它5888×××图9.在SceneNet RGB-D中可视化我们生成的注释(a)是视频帧,(b)在注释Rec40的情况下花费大约5.0%的点击(d)是模拟手动注释,以及(e)是地面实况。[18]《易经》中,“唯”字为“八”。LP是众所周知的标签传播算法,其可以直接应用于新的目标区域视频以传播稀疏注释。在这里,我们使用我们的ASS方法来选择手动注释的样本。选项卡. 2显示了生成的标签TC测量两个连续预测之间的mIoU,类似于[26]。给定相同的选择样本,我们的方法在不同的注释点击百分比下,在mIoU和TC方面优于Fine-tune only和LP方法。结果证明了一致性损失和测试时间微调方法的有效性。当采样率较低时,这种好处甚至更显着,因为我们的方法将运动和语义线索结合到测试序列中。ASS迭代次数的影响。我们进行实验以了解迭代次数对SceneNet RGB-D分割质量的影响。我们每次迭代提供0.3%的注释点击,并将模型微调到9次迭代。每次迭代 的 mIoU 增 益 分 别 为 6.91% 、 1.32% 、 0.89% 、0.35%、0.16%、0.43%、0.07%,0.31%和0.03%。从第四次迭代开始,mIoU增益变得可忽略不计。因此,我们对ASS使用了三次迭代。高质量生成的注释中的错误模式我们进行实验,以调查剩余的错误时,所生成的注释已经是高质量的。在SceneNet RGB-D上,100%手动注释mIoU为98.56%。当 我 们 的 方 法 达 到 97.46%mIoU 时 , 边 界 IoU 仅 为83.44%,表明错误出现在对象边界上。具有高边界面积比的类别具有来自不完美边界预测的最大影响这可以从他们低于平均水平的每类IoU中反映出来。在SceneNet中,它们是“Object”、“Chair”和“Table”。在VEIS中,它们是考虑到错误模式,用户可以更自信地使用生成的注释生成的注释可视化。在图9中,我们展示了我们在SceneNet中生成的注释。(b)中90%的mIoU注释仅花费约5.0%的点击;(c)中95%有关VEIS中生成的注释的可视化,请参见附录C。模型计算时间。一次ASS迭代的模型计算时间主要来自样本选择和测试时间训练步骤。测试时间微调计算时 间 取 决 于 图 像 分 辨 率 和 视 频 序 列 长 度 。 对 于SceneNet RGB-D,分辨率为320 240的300帧序列平均每次迭代需要20分钟。对于VEIS,200帧的序列,分辨率为800 - 600需要33。一次迭代3分钟平均来说我们的实验在4台Nvidia 1080上运行。9秒的样本选择CPU运行时间可以忽略不计。几十分钟的计算时间使注释员无法立即标记下一批样品然而,这可以很容易地减轻多任务安排在实践中。5. 结论我们提出了一个人在环框架HVSA生成视频语义分割注释。它在每次迭代时主动选择注释样本,为注释提供最多的信息。在选定的样本得到手动注释后,我们的方法利用语义知识和时间约束来微调特定于视频的语义分割模型。最后,该模型用于为整个视频生成注释。我们在两个数据集上进行了实验,以证明HVSA可以以低成本生成接近完美的注释,即使没有良好的预训练网络。HVSA的每次迭代需要几十分钟,可以使用多任务并行化进一步优化5889引用[1] Azad Abad,Moin Nabi,Alessandro Moschitti.通过人机协作学习实现自主众包。ACM SIGIR信息检索研究与开发会议(SIGIR),2017年。[2] Vijay Badrinarayanan 、 Ignas Budvytis 和 RobertoCipolla。使用树结构图形模型的半监督视频分割 。 IEEE Transactions on Pattern Analysis andMachine Intelligence(PAMI),35(11):2751[3] Vijay Badrinarayanan 、 Fabio Galasso 和 RobertoCipolla。视频序列中的标签传播。在计算机视觉和模式识别会议,2010年。[4] Bianca-Cerasela-Zelia Blaga 和 Sergiu Nedevschi 。利用模拟器和真实数据进行自主无人机的语义分割学习。智能计算机通信和处理会议(ICCP),2019年。[5] G. 布拉德斯基OpenCV库。 博士 Dobb 's Journal ofSoftware Tools,2000年。[6] Gabriel J Brostow,Julien Fauqueur,and RobertoCipolla.视频中的语义对象类:一个高清晰度的真实数据库。Pattern Recognition Letters(PRL),30(2):88[7] 图纳斯·布德维蒂斯、维贾伊·巴德里纳拉亚南和罗伯托·西波拉。使用半监督学习的复杂视频序列中的标签传播。英国机器视觉会议(BMVC),2010年。[8] 布维提斯,萨乌尔,罗迪克,布林,西波拉.用于驾驶场景中语义分割的大规模标记视频数据增强。2017年国际计算机视觉研讨会(ICCVW)[9] 蔡丽乐,徐迅,刘俊浩,传胜富。在具有现实注释成本的语义分割在计算机视觉和模式识别会议,2021年。[10] Arantxa Casanova,Pedro O Pinheiro,Negar Ros-tamzadeh,and Christopher J. 增强主动学习的图像分割。在国际学习代表会议(ICLR),2020年。[11] 郑博文,罗斯·格希克,彼得·多尔,艾尔·克桑德尔·C.Berg,and Alexander Kirillov.边界IoU:改进以对象为中心的图像分割评价。在计算机视觉和模式识别会议(CVPR),2021年。[12] 何祺郑、戴裕荣和邓志强。模块化交互式视频对象分割:交互到掩模、传播和差异感知融合。在计算机视觉和模式识别会议(CVPR),2021年。[13] 帕斯卡尔·科林,卢茨·罗塞-科纳,汉诺·戈特沙尔克,还有马蒂亚斯·罗特曼Metabox+:一种新的基于区域的主动学习方法,用于使用优先级映射的语义分割。模式识别应用和方法国际会议(ICPRAM),2021年。[14] Marius Cordts , Mohamed Omran , SebastianRamos , Timo Rehfeld , Markus Enzweiler ,Rodrigo Benenson , Uwe Franke , Stefan Roth ,and Bernt Schiele. 用 于 语 义 城 市 场 景 理 解 的cityscapes数据集。在计算机视觉和模式识别会议,2016年。[15] Angela Dai , Angel X Chang , Manolis Savva ,Maciej Halber,Thomas Funkhouser,and MatthiasNießner.扫描:丰富的注释三维重建的室内场景。在计算机视觉和模式识别会议(CVPR),2017年。[16] Chengliang Dai , Shuo Wang , Yuanhan Mo ,Kaichen Zhou , Elsa Angelini , Yike Guo , andWenjia Bai.用梯度引导采样对脑肿瘤图像进行暗示性注释。在医学图像计算和计算机辅助干预国际会议(MICCAI),2020年。[17] Alireza Fathi , Maria Florina Balcan , XiaofengRen,and James M.结合自训练和主动学习进行视频分割。英国机器视觉会议(BMVC),2011年。[18] Raghudeep Gadde , Varun Jampani , and Peter VGehler.通过表示变形的语义视频cnns。2017年国际计算机视觉会议(ICCV)[19] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别会议(CVPR),2012。[20] Yuk Heo,Yeong Jun Koh,and Chang-Su Kim.使用全局和局部传输模块的交互式视频对象分割。欧洲计算机视觉会议(ECCV),2020年。[21] 黄金宇,丁建君。基于超像素合并映射的全卷积网络通用图像2020年亚洲计算机视觉会议[22] Jingwei Ji,Shyamal Buch,Alvaro Soto,and JuanCar- los Niebles.端到端联合语义切分5890演员和动作的视频。在欧洲计算机视觉会议(ECCV),2018年。[23] 高泰英和李胜浩一种适用于增强现实的语义分割新方法传感器,20(6):1737,2020。[24] Abhijit Kundu , Yin Li , Frank Dellaert , FuxinLi,and James M.瑞格单目视频的联合语义分割与三维重建。欧洲计算机视觉会议(ECCV),2014。[25] 刘 冲 和 王 玉 祥 双 重 强 大 的 众 包 。 Journal ofArtificial Intelligence Research(JAIR),73:209[26] 刘一凡,沈春华,余常乾,王敬东.具有每帧推理的高效语义视频分割。欧洲计算机视觉会议(ECCV),2020年。[27] Pauline Luc,Natalia Neverova,Camille Couprie,Jakob Verbeek,and Yann LeCun.预测语义分割的未来。2017年国际计算机视觉会议(ICCV)[28] Radek Mackowiak ,Philip Lenz, Omair Ghori ,Ferran Diego,Oliver Lange,and Carsten Rother.谷物-用于语义分割的经济高效的基于区域的主动学习。在英国机器视觉会议(BMVC),2018年。[29] JohnMcCormac,AnkurHanda,StefanLeutenegger , and Andrew J Davison. 场 景 网 rgb-d:500万张合成图像在室内分割方面能击败一般的imagenet预训练吗?2017年国际计算机视觉会议(ICCV)[30] Siva Karthik Mustikovela , Michael Ying Yang ,and Carsten Rother.来自视频的地面实况标签传播是否有助于语义分割?欧洲计算机视觉会议(ECCV),2016。[31] Pushmeet Kohli Nathan Silberman,Derek Hoiem和Rob Fergus。室内分割和支持rgbd图像推断。2012年欧洲计算机视觉会议(ECCV)[32] David Nilsson和Cristian Sminchisescu基于门控递归流传播的语义视频分割。在计算机视觉和模式识别会议(CVPR),2018年。[33] Adam Paszke , Sam Gross , Francisco Massa ,Adam Lerer,James Bradbury,Gregory Chanan,Trevor Killeen,Zeming Lin,Natalia Gimelshein,Luca Antiga,Alban Desmaison,Andreas Kopf,Edward Yang,Zachary DeVito,Martin Raison,Alykhan Te- jani , Sasank Chilamkurthy , BenoitSteiner , Lu Fang , Junjie Bai , and SoumithChintala. Pytorch:一个操作风格的高性能深度学习库。在神经信息处理系统(NeurIPS),2019年。[34] Mahdyar Ravanbakhsh , Tass
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功