视频运动先验优化的人体分割

131 浏览量更新于2023-10-14 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

利用视频中的运动先验改进人体分割陈玉婷1，张文彦1，卢海伦1，吴廷凡2，孙敏11国立清华大学{yuting2401，s0936100879，oscar.lu1007}@ gmail.com，sunmin@ee.nthu.edu.tw2计算机视觉tingfan. umbocv.com抽象。尽管在基于深度学习的语义分割中有许多进步，但在现实世界中经常遇到由于分布不匹配而导致的性能下降。最近，已经提出了一些域自适应和主动学习方法来减轻性能下降。然而，很少注意利用在大多数相机系统中自然捕获的视频中的信息。在该工作中，我们提出了一种“改进的主动学习”方法，用于通过利用视频中的光流提取运动信息，我们可以提取潜在地对应于人段的候选前景运动段（称为运动先验）我们提出了一个基于记忆网络的策略模型，通过再学习来选择强候选段（称为强运动先验）所选择的段具有高精度并且直接用于微调模型。在新收集的监控摄像机数据集和公开可用的UrbanStreet数据集中，我们提出的方法提高了跨多个场景和模态（即，RGB到红外（IR））。最后但并非最不重要的是，我们的方法是经验上的补充，现有的域自适应方法，使额外的性能增益是通过结合我们的弱监督主动学习方法与域自适应方法。关键词：主动学习，领域适应，人体分割1介绍具有识别对象的能力的智能相机系统经常遇到由现实世界中的数据分布失配引起的问题。例如，监控摄像机遇到各种天气条件、视角、照明条件和传感器模态（例如，RGB、红外线或甚至热成像）。标准的解决方案是从各种分布中收集更多标记的图像，以训练更鲁棒的模型。然而，收集高质量的标签是非常昂贵和耗时的，特别是对于分割和检测任务。2Y.-- T. Chen等人帧…………不良运动先验良好运动优先级主动学习经由预先选择错误的IR分割输出良好的IR分割输出Fig. 1. (top)：从视频中提取的RGB块及其相应的基于块的运动先验。先验可以分为的ndnes. （底部）：我们提出的主动学习策略可以选择良好的运动先验，以提高跨模态（RGB到IR）分割场景中的性能。这些考虑提出了两个关键问题：（1）如何选择数据点以用于在加速器中尽可能多地提供数据点？以及（2）如何在成本尽可能低的情况下获得所选择的列表？“主动学习是解决“如何选择”问题的常见范例之一，该问题被定义为从存在许多启发式方法[1]，这些方法在应用于经典机器学习模型时已被证明是有效的然而，Sener和Savarese [2]已经表明，这些启发式方法在应用于CNN时效果较差。为了克服这一限制，Sener和Savarese[2]提出了一种专门为卷积神经网络（CNN）设计的新的主动学习方法尽管最近取得了进展，但大多数主动学习方法都需要人类标记选定的数据点。对于分割和检测任务，标记一小组选定数据点的成本仍然相对昂贵且耗时。另一方面，代替收集独立图像，通常容易收集图像序列（即，视频）。图像序列具有两个主要性质：（1）在时间上接近的图像是相似/冗余的，以及（2）两个连续图像中的差异揭示了潜在地对应于移动对象的运动信息。然而，很少有人关注在视频中利用这些属性来自动提供监督以提高识别性能并减轻由分布失配引起的性能下降这与“如何获得人工智能“问题有关。如果能够从摄像机中获得全部可用性，则这对于智能摄像机系统将是非常有益事实上，研究人员已经提出从图像序列中提取运动信息例如，给定两个连续帧，可以针对每个像素提取密集光流给定较长的帧序列，可以提取像素的稀疏长期轨迹在本文的其余部分中，我们将视频中的这些运动信息称为在这项工作中，我们建议利用视频中的运动先验来提高人体分割的准确性。我们首先计算两个连续帧之间的密集光流然后，我们处理像素流高于一个阈值作为前景运动片段的候选，其被称为由于不完美光流的性质，大多数片段是在视频3非常嘈杂（参见图中的示例）。①的人。考虑到只有一些候选人是好的，许多候选人是嘈杂的，我们建议学习一个基于记忆网络的政策模型，通过强化学习来选择好的候选片段。然后将所选择的良好片段用作附加的地面实况以微调人类分割器。通过这种方式，我们可以实现主动学习，而无需额外的人工注释。我们的策略是在一个包含未标记视频和一组标记图像的保留数据集上训练的。该策略的训练被制定为一个强化学习问题，其中奖励是标记图像的准确性，动作是是否选择每个运动段。一旦策略被训练，我们就可以应用该策略来选择具有挑战性的跨模态（RGB到IR）或跨场景设置中的运动段我们将我们的设置称为弱监督主动学习，因为策略需要在额外的保留数据集上进行训练。在新收集的监控摄像机数据集和公开可用的Ur-banStreet数据集中，我们提出的方法提高了跨多个场景和模态（即，RGB到红外（IR））。最后但并非最不重要的是，我们的方法是经验上的补充，现有的域自适应方法，使额外的性能增益是通过结合我们的弱监督主动学习方法与域自适应方法。在下面的章节中，我们首先描述在Sec.二、然后，我们在第二节中介绍我们新的监控摄像机数据集3 .第三章。我们的主要技术贡献-基于政策的弱监督主动学习强运动先验选择-介绍了在第二节。4.第一章最后，我们报告我们的实验结果在Sec。五、2相关作品我们讨论了运动分割，人体分割，主动学习和领域自适应领域的相关工作。2.1运动分割运动分割的目的是利用运动信息将视频分解为前景对象和背景。基于特征的运动分割方法假设不同运动的分割等同于将提取的特征轨迹分割成不同的聚类。这些方法可以分为两种类型：基于仿射的方法[3，4]和基于子空间的方法[5，6]。一些作品利用轨迹数据的属性。例如，Yan和Pollefeys [7]利用几何约束和局部性来解决问题。最近，[8，9]提出联合处理运动分割和光流任务。Nirkin等人[10]使用运动作为先验，并提出一个人在循环中产生分割标签。在我们的工作中，我们简单地通过高质量的光流获得候选移动对象段最重要的是，没有一个4Y.-- T. Chen等人上述工作利用运动分割进行弱监督主动学习。2.2人体分割人体分割有着广泛的应用。例如，在早期的作品[11，12]中已经讨论了从固定相机获取的高密度场景（拥挤或遮挡）中的人体分割。Spina等人[13]演示在姿态估计和行为研究中的应用。另一方面，在许多应用中，实时性能是至关重要的。Song等人。[14]使用基于CNN的架构实现了1000 fps，该架构在速度和准确性方面都优于一些作品使用运动信息来帮助人类分割，例如，Guo等人。[15]基于通过光流的局部颜色分布和形状先验，以及Lu等人。[16]描述了一种分层MRF模型，用于将低级视频片段与高级人体运动和外观桥接。近年来，热红外系统在夜视方面越来越受欢迎。因此，红外图像的人体分割成为一个重要的研究课题。例如，Tan等人。[17]提出了一种基于背景减除的热红外图像人体分割方法。He等人[18]进一步利用红外图像上的预测的人体片段来引导机器人搜索。为了证明严重的域转移，我们评估我们的方法主要是跨模态（RGB到IR）域适应人类分割。2.3主动学习主动学习算法可以探索信息实例，查询来自用户或其他源的期望输出。基于不确定性的方法被广泛使用。这些工作考虑不确定性作为选择策略。他们通过dropout MC采样[19]，使用最高熵[20]或决策边界的几何距离[21，22]等启发式方法找到困难的例子。其他方法考虑所选样本的多样性，使用k均值算法[2，23]或稀疏表示进行子集选择[24]。还有其他重要的概念也有助于性能，例如选择将最大化输出方差的实例[25，26]，或者在结构化数据中引入数据点之间的关系[27，28]。最近，一些作品使用深度强化学习将主动学习过程建模为一系列查询动作。Fang等人[29]演示了跨语言设置和Bachman等人[29]。[30]通过元学习对学习算法进行建模。我们的方法是类似于这些方法使用可学习的策略，而不是预定义的启发式。上述方法显示了它们降低人工标记成本的目标。然而，我们使用主动学习进行无监督微调，因为我们的方法选择自动计算的运动先验，一旦策略已经学习，则需要零人工标签成本。在视频52.4域适应域自适应利用来自一个或多个源域的信息来提高目标域的性能。最近的方法专注于学习深度表示对域偏移具有鲁棒性[31]。其他几项工作提出基于最大平均差异（MMD）[32]或中心矩差异（CMD）[33]在特征空间中对齐源域和目标域。另一方面，对抗训练[34]也被应用于领域适应[35，36，37]。Liu等人[35]提出耦合GAN，其生成用于分类的两个域的联合分布Ganin等人[36]应用对抗训练来实现两个域之间的最大混淆其他工作，如域分离网络（DSN）[38]将特征分成共享表示和私有表示，以提高提取域不变特征的能力。上面提到的大部分作品都集中在分类上。Hoffman等人[39]，Chen et al.[40]和最近的作品[41，42]扩展到更接近我们的人类分割任务的分割。在这项工作中，我们表明，我们提出的弱监督主动学习方法是补充国家的最先进的领域适应方法。3监测数据集为了在视频中创建具有挑战性的场景，我们收集了一个新的监视相机数据集，该数据集由跨域场景引起的大分布失配组成：交叉模态（即，RGB到红外（IR））和跨场景。发现现有的分割注释的跨域视频数据集是令人惊讶地困难的。由于标注成本高，大多数公共注释视频数据集通常非常小，更不用说跨越多个域。在我们的数据集中;我们强调跨模态，因为它的高外观失配和实用价值。对于监控应用，跨多个传感器模态和场景的良好的人分割是必不可少的。该数据集直接验证了所提出的方法在现实世界的监控场景。我们收集了四个数据集：Gym-RGB，Gym-IR，Store-RGB和Multi-Scene-IR。在典型的监控摄像机上有两种不同的传感器模式，彩色和红外，其中不一定是“RGB“和”IR“。为了在真实世界中使用，我们让相机环境光传感器在两种模式之间自动切换。通常，当有足够的照明时，相机以RGB模式操作;另一方面，当它变暗时，IR模式被激活以提高灵敏度。所有数据集都是由固定摄像机采集的视频，我们标记了从每个视频中稀疏采样的帧的子集。3.1跨域设置我们将数据划分为源S域和目标T域。在该数据集中，我们将所有RGB数据视为源域，将所有IR数据视为目标域，以测试具有挑战性的跨模态设置。在这两个领域，我们进一步定义培训6Y.-- T. Chen等人不不不ET和评价E集。所有评估集均包含标记图像。在源域中，训练T由几个标记的图像IS组成无标签视频framesVS.标记的训练图像IS用于预训练我们的分割器。不未标记的视频帧VS不用于提取运动先验信息（第二节）4.1）。未标记的视频帧VS和评估集IS两者都在图1中。T E源域用于使用强化来训练我们运动先验选择器学习（Sec. 4.2）。在目标域中，训练T仅由未标记的视频帧VT其用于提取运动先验信息。最后，我们报告跨域性能的评估集IT在目标域关于源域和目标域的每个集合中的视频和标记图像的数量的统计在表中示出。1和2。Table1.所以你重新定义了我。“I m - a g es”指的是具有相关性的图像的集合。“V i d e os“指的是包含未标记帧的视频的数量。Table2. 我的天啊。“I m - a g es”指的是可扩展的图像的集合。“视频”指的是由未标记的帧组成的视频的集合。注意，在目标域中没有标记的训练图像。3.2数据收集详细信息对于Store-RGB数据集，我们只有彩色（RGB）图像，因为商店全天都有另一方面，我们从多个场景采集红外数据（多场景红外），如家庭，办公室，步行道，公园，操场等。对于健身房场景，由于自然的白天和夜晚照明转换，数据以RGB和IR模式出现。对于所有视频，一个1080×1920分辨率的视频中大约有6到15帧。4我们的方法我们描述了如何从光流获得运动先验（Sec.4.1）并选择一组强运动先验。在此之前，我们首先定义下面的一些常见符号。健身房-RGB存储-RGB火车测试火车测试图像视频图像图像视频图像749406237985985255Gym-IR多场景红外火车测试火车测试视频图像视频图像92949225389在视频7记法。我们分别使用i、n和k来索引像素、补丁和输入数据的顺序。m表示运动先验，m_i表示第i个像素的运动先验。4.1来自视频帧的我们的目标是获得一组运动先验m（即，候选前景掩模）。虽然可以使用许多复杂的运动分割方法，但我们仅应用最先进的光流法[43]。然后，我们获得m作为二值化流图，使得如果其流量大小大于阈值τ，则m= 1。由于我们的数据集中的监控摄像机通常是对于非静止相机，可以使用其他运动分割方法（例如，[44]）可以用来处理相机运动。这些自动获得的运动先验不可避免地将是有噪声的并且包含异常值。因此，我们提出了一个基于记忆网络的策略模型来选择更准确的策略，而不是直接用所有嘈杂的标签来微调分割器。运动先验的使用在图1中示出。3 .第三章。4.2运动先验选择我们训练一个策略模型π，它学习选择一组强运动先验。此外，这些强运动先验被视为地面实况，以使用交叉熵损失直接微调我们的模型我们使用强化学习来训练策略，而不是手动标记强运动先验并以监督的方式训练策略，该策略通过直接提高源域中保持评估集的人类分割准确性来获得奖励我们的策略模型的训练过程如图所示。二、政策模式。我们将策略π定义为以下概率函数：π（α|I，m（I）; φ），（1）其中I是图像，m（I）是其对应的运动先验，a∈ {0， 1}是选择（a=1）或不选择（a= 0）的二元动作，φ是模型参数。4.2.1网络架构。受Oh等人提出的在深度Q网络（DQN）中使用存储器网络[45]的理想的启发。[46]，我们使用基于记忆网络的策略模型，该模型由三个组件组成：（1）用于从图像和运动先验中提取特征的特征编码器，（2）保留最近观察历史的存储器，以及（3）采取内容特征和检索的存储器状态来决定动作的动作决策层。特征编码器。我们提出了一种双流CNN，首先分别对图像外观I和运动先验m（I）进行编码。为了融合它们，我们将8Y.-- T. Chen等人KKK政策CNN不良记录和前科Fc层Conv层e良好的补丁和前科ConcateL，eL-1，Finetune读写奖励存储器网络…HKL评价设置分割模型图二. 通过强化学习的策略模型训练过程。策略模型φ（由策略CNN和记忆网络组成）将图像I和运动先验m（I）两者作为输入并预测动作，选择m（I）作为良好的先验或不.选择的先验进一步用于改进分割器θ，然后在保持评价集上显示的改进将成为更新策略模型φ的奖励。两个流中的嵌入式要素然后，我们对级联特征应用线性变换并不是说我们的策略网络对域转移具有鲁棒性是必要的，因为它只在源域中训练，但在目标域中应用。我们发现运动先验在各个域中更具有不变性（相对于RGB图像）。因此，我们提出后期融合，并增加运动先验的特征数量。我或你或我。在内存网络中，“写入”和“读取”这两种操作类似于[ 46 ]中提出的架构。–通过线性变换将最后L个观测的编码特征存储到存储器中。两种类型的存储器被表示为键和值，它们被定义如下，M密钥=W密钥Ek（2）Mval=Wval Ek，（3）其中M密钥，M值∈Rd×L是具有嵌入维数的K Kd，并且k是输入数据顺序的索引。Wkey和Wval是写模块的参数。E k={e k−i}i=1，2，...，L∈Re×L是最后L个被选为好先验的观测值的特征的级联。–基于软注意机制，阅读输出将是内容嵌入h和密钥存储器M密钥之间的内积。在视频9KKEE不exp（hMkey[]）pk，=kk、（四）Lexp（hMkey[j]）j=1k k其中hk=Wh ek，Wh是用于内容嵌入的模型参数。pk，是第个内存块的软注意。取值记忆上的注意力权重Mval作为检索输出，其可以表示为如下所述，〇k=Mval pk，（5）其中〇k∈Rd是检索的存储器输出。期望存储器网络处理数据冗余的问题，或者策略可能倾向于选择非常相似的候选者。我们将存储器输出〇k与当前内容特征ek串联作为用于采取动作（选择或不选择）的最后特征。4.2.2奖励我们使用源域中的保留集上的改进的分割准确度作为奖励r，如下所示，r= IoU（IS;θ）-IoU（IS;θ0），（6）E E其中，IoU是用于语义分割的标准的交并（IoU）度量，θ〇是人类分割器的初始参数，是人类分割器的当前参数，并且在源域的保留集。在几个较早的情节之后，IoU（IS;θ〇）被替换为其他估计的基线值，诸如在附近情节中的平均奖励，以便保持学习效率。4.2.3政策梯度。根据上述奖励函数，我们计算策略梯度以更新模型参数φ，表示如下：1φKΣKk=1r·log π（ak|I k，m（I k）; φ）; I k∈ V S，（7）其中k是图像索引，K = |V S|，并且VS是未标记训练的集合T T源域中的视频帧。4.2.4培训程序。我们迭代地执行以下步骤，直到奖励和策略损失收敛。– 给定φ，我们使用策略网络来选择一组图像（即，K={k;ak= l}）。– 给定K，我们使用（Ik，m（Ik））k∈K作为额外的图像和地面真值分割对来微调人类分割参数θ。10Y.-- T. Chen等人不– 给定新的θ，我们在等式中计算奖励r六、– 给定r，我们在等式中计算策略梯度。图7中示出了策略参数φ，并且使用梯度下降（GD）更新策略参数φ– 用于训练分割器θ的所使用的数据的预算被定义为b，即一个Σs当ak=b时，发作早期在步骤s停止。最后，我们重新设置k=1片段结束时的分割器θ=θ0我们进一步扩展上述过程从基于图像的补丁为基础的选择。我们建议选择运动先验在补丁级，因为有非常少的运动先验是准确的整个图像。相比之下，有许多基于块的运动先验，它们在整个块中几乎完全接下来，我们定义基于补丁的选择过程。4.2.5基于补丁的选择。定义图像中对应于一组像素Rn的第n个块，我们可以将基于块的运动先验写为，m n={m i; i∈ R n}.（八）等式中的基于图像的策略梯度7被修改为，1 ΣK ΣNφKNr·log π（ak，n|I k，n，m（I k）n; φ），（9）k=1n=1其中，Ik，n表示第n块在第k个图像上的出现，N是图像中的块的数量为了聚焦于前景区块并减小搜索空间，我们还自动过滤掉具有所有背景运动先验的区块对于所有i∈R（n），m i= 0）。4.2.6目标域上的推断。我们应用训练的策略π来从目标域VT中的未标记训练帧中选择一组图像块KT以及强运动先验。它们被称为补丁式强运动先验如下，KT={（k，n）; ak，n= l}。（十）给定KT，我们使用（Ik，n，m（Ik）n）k∈KT作为图像和地面实况人类分割的附加对，并引入交叉熵损失以用于目标域中的微调。见图3 .第三章。5实验我们进行实验，以验证所提出的弱监督主动学习方法在跨模态和跨场景设置。首先，实验结果表明，所提出的基于策略的主动学习方法能够有效地选择信息量大的学习在视频11TP+TF+FP不良前科Flownet2.0政策模型逐块先验流所有运动优先级良好既往史Finetune目标域视频人体分段器损失ℒ图3.第三章。该图示出了运动先验的提取和使用上半部分显示了从视频生成运动先验的路径，然后是基于策略模型的选择。下半部分示出了用于微调靶结构域上的分段器的所选新目标域上的样本。五点二。此外，我们表明，所提出的主动学习方法是对最近基于对抗的领域适应框架的补充[38，40]。我们的方法与域自适应方法集成的性能增益五点三。我们通过我们收集的源数据集Gym和Store（摄像机模态- RGB）以及多个目标数据集（包括我们在摄像机模态-IR中的剩余数据集）和一个公共可用的行人数据集UrbanStreet [47]，展示了具有跨域设置的弱监督主动学习，其中包含从安装在街道上行驶的汽车上的立体装置拍摄的18个行人立体序列位于费城5.1实现细节在所有实验中，我们使用U-Net结构[48]作为我们的基线分割模型进行比较。代码和模型在Pytorch框架中进行评估为了公平比较，我们使用交集对并集（IoU）[49]作为所有实验的评估指标，其中IoU =TP.数量-表中的结果。图3和图4示出了前景类的IoU得分。为了训练我们的策略模型，我们使用Adam优化器的初始学习率为1×10- 4 [50]。策略梯度的折扣因子设置为1。我们训练了大约5000集。在训练过程中，在MSCOCO [51]上预训练的初始化分段器进一步用策略模型进行微调。5.2跨域弱监督主动学习我们将我们的基于策略的主动学习方法（称为PAL）与两种方法进行比较：表中的随机和人为选择。3 .第三章。在所有设置中，所使用的运动先验补丁的数量被预定义为预算b= 60。注意，所有方法共享相同的运动先验候选（裁剪的块）。12Y.-- T. Chen等人表3. 跨域人类分割性能（IoU）比较的proposedweweakly-supervisedactivelea-rningmeth〇d“P A L”与hotherestrategie。 U-和Seg-表示模型架构：U-Net和SegNet。第一行“So u rc e O n l y”是预成型模块化的直接PP a t io n of pre-t ra i n e d e l o n t a rg e t o m a i n d a ta。据我们所知，没有一个现有的主动学习算法只使用先验知识而不是真标签来对目标域进行微调。源目标健身房-RGB健身房-RGB健身房-RGB存储-RGB存储-RGB存储-RGB健身房-IR多场景-IR UrbanStreet（-RGB）Gym-IRUrbanStreet（-RGB）多场景-IR仅源（U-）（Seg-）48.6%51.1%百分之十六点八百分之二十三点六48.5%百分之五十二点三百分之二十六点七百分之二十三点六百分之六十一点七63.5%百分之二十九点二百分之三十五点八PAL（U-）（Seg-）55.6%57.0%百分之三十点五百分之三十八点四51.2%56.6%百分之三十二点三百分之二十六点九百分之六十四点八65.3%百分之三十四点三39.0%随机（U-）（Seg-）百分之五十二点五56.7%26.5%百分之三十七点二49.3%55.3%29.3%百分之二十四点八62.4%百分之六十三点四百分之三十点二33.2%人-（U-）选择（分段-）百分之五十七点五百分之五十七点五百分之三十四点六百分之四十二点三55.8%百分之五十九点七32.5%百分之三十二点七68.5%65.9%41.0%百分之四十六点五随机从数据池中随机选择一组运动先验。我们报告了十个选定集的平均结果。人类选择。我们手动选择一组运动先验，其运动先验更接近真实注释，同时还考虑数据发散。结果可以被视为我们的方法的上限。我们进行三种跨域应用：（1）跨模态，(2)跨场景，以及（3）跨模态场景。实验结果总结于表1中。3 .第三章。我们选择了两个基线分割模型，U-网和SegNet，以证明该方法的泛化。我们还提供了定性结果图。五、同一场景中的跨模态。在我们的实验中，我们将Gym中的数据从RGB图像转换为红外图像。在表中。 3，第一列（Gym-RGB到Gym-IR）显示我们的方法“PAL”有+3。1%的IoU性能（与随机抽取和备份相关）+7%的“源代码”同一模态下的跨场景。我们还验证了我们提出的方法上公开的一个可用的atets。然而，难以找到具有分割注释的IR视频的公开内容。我们用公共数据集Ur-banStreet替换为目标域，其外观与我们的监控摄像机数据集非常不同，但以相同的方式（RGB）捕获。我们的方法在外观变化很大的情况下仍然有效我们进行了两个实验：Gym-RGB→UrbanStreet和Store-RGB→ UrbanStreet，如表所示3 .第三章。结果显示+2。7%和+3。1%的相对IoU形成源模型。请注意，UrbanStreet包含许多移动车辆。我们的方法仍然可以区分人体运动片段从另一个运动片段，这可能来自汽车或轻微的相机运动。这个结果证明了我们的弱监督主动学习方法的鲁棒性。跨场景和跨模态。这是监控摄像机应用中我们展示了健身房的结果→在视频13存储RGB → Gym-IR Gym-RGB → Gym-IR已用贴片数图4.第一章使用我们的PAL方法在目标域上进行人类分割的性能，其中基于策略的主动学习分别在Gym-RGB和Store-RGB（源）上进行训练注意，仅运动先验（ZERO标签）用于目标域。表4. 在6个不同的源-目标域对中，所提出的方法（粗体）与其他基线的最后两行显示组合方法优于每个子方法，表明主动学习方法是对原始领域自适应框架的补充。源目标健身房-RGB健身房-RGB健身房-RGB存储-RGB存储-RGB存储-RGB健身房-IR多场景-IR UrbanStreet（-RGB）Gym-IRUrbanStreet（-RGB）多场景-IR源仅48.6%百分之十六点八48.5%百分之二十六点七百分之六十一点七百分之二十九点二PAL55.6%百分之三十点五51.2%百分之三十二点三百分之六十四点八百分之三十四点三DSN [38]百分之五十四点三百分之二十五点九百分之五十二点六百分之三十一点八百分之六十二点三百分之三十四点四NMD [40]52.1%百分之二十六点一52.1%百分之三十一点七63.1%百分之三十四点五PAL+DSN55.8%百分之三十五点八百分之五十四点五百分之三十六点四百分之六十六点二39.0%PAL+NMD55.6%百分之三十六点七百分之五十四点五34.0%64.6%百分之三十六点三多场景，商店→健身房和商店→表3中的多场景。请注意，所有设置都是从RGB到IR。在所有设置中，结果显示PAL提供了“源零”和“R和”的显著改进。在Store-RGB → Gym-IR的情况下，我们的方法的结果非常接近“Hu man S e l e t i n”的上界，其中仅0。2%的差距。通过逐步探索更多量的先验的性能曲线如图所示五点二。我们显示PAL的有效性比较随机和人类的选择结果。有趣的是，Store-RGB-Gym-IR中的曲线暗示mIoU可以通过添加更强的先验来增加。以来我们可以从未标记的视频中以零标记成本获得运动先验，我们的方法可以通过简单地收集更多的未标记视频来提高性能。5.3结合对抗域自适应在这一部分中，我们将所提出的弱监督主动学习与其他现有的无监督域自适应（DA）方法相结合，原因有两个。首先，无监督DA共享目标域上的零标签成本的相同目标。其次，直观地说，我们的方法应该是对无监督DA的补充。大多数无监督DA方法只在源域上有微调损失，因为标签在目标域上不可用。然而，我们的弱监督主动学习策略可以使用策略选择的强运动先验对目标域进行微调。IoU（%）14Y.-- T. Chen等人之前后之前后图五. 在以下五个源-目标设置的目标域上改进人类分割的定性结果：Store-RGB→Gym-IR（左上6个图像）、Gym-RGB →Multi-Scene-IR（右上6个图像）和 Store-RGB→Multi-Scene-IR （第三行）。最后一行分别显示 Gym-RGB→Gym-IR和Gym-RGB→UrbanStreet。列“A ft er r”dent e t e t e t e s t et e s i m o t e s通过P A L + N MD恢复了数据段。虚线中的边界框突出显示了显著变化。关于性能和复杂性，我们将提出的PAL与两种现有方法DSN [38]和NMD [40]相结合。在与前一节相同的跨域设置中进行演示，我们将建议的PAL与这些无监督域自适应基线进行比较，并显示这两种类型的方法（PAL与UDA）是互补的，因为组合方法达到了最大的改善目标域。结果见表。4.第一章例如，在设置Gym-RGB-多场景IR（选择颜色）中，组合的“PAL + NM_D”具有大约6。每种子方法的IoU改善2%6结论我们提供了一种“移动预处理”的方法，以便使用跨域设置来预处理人类数据段。我们提出了一个基于记忆网络的策略模型，以避免在执行过程中出现“存储”问题。所提取的段具有高精度，并且用于在目标域上微调模型。此外，主动学习策略被证明是互补的基于对抗的域适应方法。在一个新收集的监控摄像机数据集，我们表明，我们提出的方法显着提高了跨多个场景和模态的人体分割的性能。7确认我们感谢Umbo CV、联发科技、MOST 107-2634-F-007-007的支持。在视频15引用1. 定居点，B.：主动学习文献调查。（2010年）22. Sener，O.，Savarese，S.：卷积神经网络的主动学习：一种核心集方法。In：ICLR.（2018）2，43. 龙河Rosenhahn，B.，Ostermann，J.：用于运动分割的帧到帧对应的多尺度聚类。In：ECCV，Springer（2012）34. Ochs，P.，Malik，J.Brox，T.：通过长时间视频分析分割运动对象IEEETransactions on pattern analysis and machine intelligence 36（6）（2014）1187-120035. Elhamifar，E.，维达尔，R.：稀疏子空间聚类。 In：CVPR，IEEE（2009）36. Yang，M.Y.，阿克曼，H.，林伟，Feng，S.，（1991），中国农业科学院农业科学研究所，Rosenhahn，B.：通过全局和局部稀疏子空间优化的运动分割。arXiv预印本arXiv：1701.06944（2017）37. Yan，J.，Pollefeys，M.：运动分割的一般框架：独立，铰接，刚性，非刚性，退化和非退化。In：ECCV，Springer（2006）38. 蔡永宏，Yang，M.H.，布莱克，M.J.：通过对象流进行视频分割。在：CVPR中。（2016年）39. 郑杰，蔡永宏，王，S.，Yang，M.H.：Segflow：用于视频对象分割和光流的联合学习。In：ICCV.（2017年）310. Nirkin，Y.，马西岛Tuan，A.T.，Hassner，T.，Medioni，G.：人脸分割、人脸交换和人脸感知。在：自动人脸手势识别IEEE国际会议。（2018年）311. 赵，T.，内华达河：从静态摄像机随机分割人体。在：运动和视频计算，研讨会。（2002年）412. 赵，T.，内华达河：拥挤情况下的贝叶斯人体分割。在：CVPR中。（2003年）413. Spina，T. V. Tep per，M.， Esler，A.，莫瑞拉， Papanikolopoulos，N.，Falc~ao，A.X.，Sapiro，G.：使用模糊对象模型的视频人体分割及其在幼儿行为研究中的身体姿势估计中的应用。arXiv预印本arXiv：1305.6918（2013）414. 宋角黄，Y.，王志，Wang，L.：使用深度卷积神经网络进行1000fps的人体分割。In：ACPR，IEEE（2015）415. Guo，L.J.，程，T. T.Xiao，B.，张，R.Zhao，J.Y.：基于多线索融合的视频人体分割信号处理：图像通信30（2015）166-177416. 卢，J，科尔索，杰杰等：具有分层超体素一致性的人体动作分割在：CVPR中。（2015年）417. 谭，Y.，Guo，Y.，中国科学院，Gao，C.：热红外监视系统中基于背景减除的水平集人体分割。红外物理&技术61（2013）230-240418. 他，F.，Guo，Y.，中国科学院，Gao，C.：面向移动机器人搜索的红外图像人体分割。MultimediatoolsandApplications（2017）119. Yarin Gal，R.I.，Ghahramani，Z.：基于图像数据的深度贝叶斯主动学习。在：ICML。（2017年）420. Colwell，S.R.，Joshi，A.W.：在企业环境行动背景下测量机构压力In：IABS.（2009年）416Y.-- T. Chen等人21. Brinker，K.：用支持向量机消除主动学习中的多样性。在：ICML。（2003年）422. Ducoffe，M.，Precioso，F.：深度网络的对抗性主动学习：基于边际的方法。arXiv预印本arXiv：1802.09841（2018）423. Xianglin Li，R.G.，Cheng，J.：结合用于场景分类的增量和主动学习。In：ICMLA.（2012年）424. Ehsan Elhamifar，Guillermo Sapiro，A.Y.，Sastry，S.S.：主动学习的凸优化框架。In：ICCV.（2013年）425. 杨，Y.，Loog，M.：主动学习的方差最大化准则。arXiv预印本arXiv：1706.07642（2017）426. Christoph Kading，Alexander Freytag，E.R.A.P.，Denzler，J.：大规模主动学习，近似预期的模型输出变化。In：GCPR.（2016年）427. Adridekar，A.，Neville，J.：联合集体分类模型的关系主动学习在：ICML。（2011年）428. 苏乔伊·保罗JHB Roy-Chowdhury，A.：结构化数据中主动学习的非均匀子集选择。在：CVPR中。（2017年）429. Fang，M.，李，Y.，Cohn，T.：如何主动学习：深度强化学习方法。In：EMNLP.（2017年）430. Philip Bachman，A.S.，Trischler，A.：主动学习的学习算法。在：ICML。（2017年）431. Tzeng，E.，Hoffman，J.，Darrell，T.，Saenko，K.：跨域和任务的同步深度传输。In：ICCV.（2015年）532. Long，M.，曹玉，王杰，Jordan，M.：使用深度适应网络学习可转移特征在：ICML。（2015年）533. Zellingger，W.， Grubinger，T.， Lughofer，E.， Natschlaüger，T.，Saminger-Platz，S. 中心矩差异（CMD）用于域不变表示学习。In：ICLR.（2017年）534. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS。（2014年）535. Liu，M.Y. Tuzel，O.：耦合生成对抗网络。在：NIPS。（2016年）536. Ganin，Y.，Lempitsky，V.：通过反向传播的无监督域自适应。在：ICML。（2015年）537. Tzeng，E.，Hoffman，J.，Saenko，K.达雷尔，T.：对抗性判别域自适应。arXiv预印本arXiv：1702.05464（2017）538. Bousmalis，K.，Trigeorgis，G.，Silberman，N. Krishnan，D.，Erhan，D.：域分离网络。在：NIPS。（2016）5，11，13，1439. Hoffman，J.，Wang，D.，中国科学院，余，F.，达雷尔，T.：野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649（2016）540. Chen，Y.H.，Chen，W.Y.，Chen，Y.T.，Tsai，B.C.，王玉芳，孙，M.：不再歧视：道路场景分段器的跨城市适应。In：ICCV.（2017）5，11，13，1441. 张玉，David，P.，龚，B.：城市场景语义分割的课程领域适应In：ICCV.（2017年）542. Sankaranarayanan，S.，Balaji，Y.，Jain，A.，Lim，S.N.，切拉帕河：用gans进行语义分割的无监督域自适应。arXiv预印本arXiv：1711.06969（2017）543. Ilg，E.，Mayer，N. Saikia，T.，Keuper，M.，Dosovitskiy，

下载后可阅读完整内容，剩余1页未读，立即下载