基于不确定性的自我中心视频手部分割模型自适应

107 浏览量更新于2023-10-23 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14392自我训练~基于不确定性模型自适应的自我中心视频手部分割蔡敏杰1，*，冯璐2，3，4，*，佐藤洋一51湖南大学，2国家重点实验室。北京航空航天大学虚拟现实技术与系统研究所3北京航空航天大学基于大数据的精准医学北京先进创新中心4彭城实验室5东京大学网址：caiminjie@hnu.edu.cn，lufeng@buaa.edu.cn，网址：www.example.com，ysato@iis.u-tokyo.ac.jp摘要虽然通过使用CNN，以自我为中心的视频中的手部分割的性能已经得到了显着改善，但将训练好的模型推广到新的领域仍然是一个具有挑战性的问题，例如，看不见的环境在这项工作中，我们解决了手分割泛化问题，而不需要在分割标签，输入图像模型自适应适应前目标域。为此，我们提出了一个基于贝叶斯CNN的模型自适应框架，用于手部分割，手标签源域模型不确定手形之前适应后目标域它引入并考虑了两个关键因素：1）预测-当模型应用于新领域时的不确定性和2）关于跨领域共享的手形的公共信息因此，我们提出了一种迭代的自训练方法，在新的领域，这是由贝叶斯CNN估计的模型不确定性指导的手分割。我们还在框架中使用了对抗组件，以利用有关手部形状的共享信息来约束模型自适应过程。在多个以自我为中心的数据集上的实验表明，该方法显著提高了手部分割的泛化1. 介绍近年来，可穿戴相机的普及伴随着大量第一人称视角（以自我为中心）视频，这些视频记录了人们由于手是用户视野中最常见的对象之一由于快速变化的成像条件和缺乏身体线索，以自我为中心的视频中的手部分割具有挑战性[30]。尽管最近的研究表明，使用各种基于CNN的模型可以显著提高性能，* 通讯作者。图1.在一个新的领域中，手分割的拟议模型自适应框架的说明[43] 如何将这些模型推广到新的领域，例如：在看不见的环境中拍摄的以自我为中心的视频仍然是一个具有挑战性的问题。本研究的目的是以无监督的方式在以自我为中心的视频中推广手部分割。该任务可以被视为用于手部分割的无监督域适应，并且具有挑战性，因为在新域中缺乏注释数据禁止了微调模型的传统方法。此外，以自我为中心的视频的独特特征（例如，快速变化的照明和背景、缺乏来自身体部位的上下文信息）使得难以使模型参数适应新的领域。如图1所示，与源域中的图像相比，目标域中的图像具有不同的手部外观和因此，在源域中训练的手部分割模型通过直接应用于目标域将具有较差的性能。基于这样的观察，我们确定了两个主要的因素，是重要的，提高泛化性能的手分割。第一个因素是模型的不确定性，它衡量模型对其预测的信心模型的不确定性提供了一个很好的手段-14393确保源域和目标域的数据之间的差距。一般来说，图像（或图像区域）与训练数据越相似，模型的预测就越有信心，反之亦然。因此，模型不确定性可以用来指导目标域中的模型自适应。第二个因素是手形优先。尽管以自我为中心的视频可以利用变化的照明和背景来捕获，导致手部外观的大变化，但是从用户的第一人称视角来看，手部的形状往往是一致的因此，从训练数据中学习到的共同手形有望为促进新领域中的模型自适应提供良好的先验信息在本文中，我们提出了一种新的模型自适应框架，用于将用源域数据训练的手部分割模型推广到一个看不见的目标域，而无需额外的手部标签。具体而言，我们在贝叶斯框架（贝叶斯CNN）中制定了基于CNN的手部分割模型，该模型对过拟合具有鲁棒性，并且可以提供比传统的确定性CNN模型更可靠的模型不确定性估计。该框架的核心组成部分是不确定性引导的模型自适应，它通过基于贝叶斯CNN估计的模型不确定性构建可靠的伪标签来迭代地此外，我们组成的先验信息的手形状的模型自适应，通过强制的形状预测的手区域在目标域中变得类似于手的形状在源域中。这项工作的主要贡献包括：• 我们提出了一个新的贝叶斯CNN为基础的模型自适应框架，推广的手分割自我中心的视频。据我们所知，这是第一次尝试使用无监督模型自适应来推广手部分割。• 我们证明了使用不确定性先验和手形先验的有效性，以协助推广的手分割模型为自我中心的视频。• 实验结果表明，与现有的基于CNN的方法相比，该方法显著提高了手部分割的泛化性能。2. 相关作品2.1. 以自我为中心的视频中的手部分割在具有变化的照明和背景的以自我为中心的视频中检测或分割手对于传统的基于颜色分析的方法（例如[26]）是具有挑战性的，并且近年来已经进行了许多尝试来克服挑战[39，16，30，31，47，2，4，43，32]。仁与顾[39]提出了手分割的任务，作为一个图形-背景分割问题的基础上的假设，运动手的图案不同于背景的图案。Li和Kitani [30，31]提出了一种场景自适应方法，通过为不同的图像组训练多个手部检测器，并为不同的测试图像选择合适的手部检测器。Bambach等人[2]提出了一种两阶段的手部分割方法，首先使用卷积神经网络检测手部边界框，然后在每个检测到的边界框中通过Grabcut [ 40 ]分割手部区域。最近，Urooj和Borji [43]使用全卷积网络（最初提出用于语义分割的RefineNet-ResNet 101 [35]）进行手部分割，并实现了最先进的性能。然而，现有的方法在应用于与它们所训练的数据集完全不同的看不见的数据集时性能很差。2.2. 无监督域自适应无监督域自适应[15]是一个研究得很好的主题，旨在减少视觉任务的域间隙，并吸引了语义分割的大量研究关注。传统的无监督域自适应方法试图学习可以最小化源域和目标域之间差异的特征表示[19，36]。最近，对抗性学习的思想被用来通过对抗性目标来学习源域和目标域之间的一般特征表示[24，8，25，41，44，34]。在[23]中，提出了一种用于域自适应的两阶段方法，该方法由图像到图像转换网络和分割自适应网络组成Li等人进一步扩展了该方法，在两个阶段之间进行双向学习[34]。无监督域自适应的另一项工作是基于自训练的思想，其中来自先前训练模型的预测被用作训练焦点模型的伪标签[49，48]。在[49]中，提出了一种基于自训练的方法，用于使语义分割模型适应具有类别平衡和空间先验的新领域。在这项工作中，我们采用自训练的思想，并提出了一个基于贝叶斯CNN的不确定性引导的模型自适应框架。此外，我们还引入了手部形状先验，并在模型自适应框架中进行了计算。2.3. 贝叶斯深度学习贝叶斯推理在机器学习中有着悠久的历史[6]。它提供具有后验分布的不确定性估计。为了克服贝叶斯推断在大型模型（如神经网络）中的困难，早期的工作探索了各种方法，如马尔可夫链蒙特卡罗（MCMC）[37]和变分推断[22，3]。还提出了许多其他工作，以在大型贝叶斯深度学习问题中实现可扩展的变分推理[18，21，29，1]。最近，人们看到了一些方法，14394（a）（b）（c）（d）图2.不同不确定度图的比较：（a）输入图像（b）来自标准CNN和地面实况手区域（红色边界）的预测概率（softmax输出）（c）基于softmax输出获得的不确定性图（d）利用贝叶斯CNN获得的不确定性图。越暗意味着越不确定。利用贝叶斯深度学习估计的不确定性进行无监督域适应[20，45]。在[45]中，贝叶斯CNN正确地识别右手的区域是不确定的。在这项工作中，我们建议使用贝叶斯CNN来估计手部分割的模型不确定性，不确定性估计的细节在下面的部分中给出。3.2.贝叶斯CNN在贝叶斯CNN中，模型参数被视为随机变量。给定具有输入X和对应输出Y的训练数据D={X，Y}，通过调用贝叶斯定理来定义模型参数w的后验分布p（Y| X，w）p（w）不确定性被匹配以近似地减少域-分类器的移位p（w|D）=p（Y|十）、（一）在这项工作中，我们利用贝叶斯不确定性来指导预先训练的手部分割模型适应看不见的环境。3. 手部分割中的模型不确定性在解释第4节中提出的不确定性引导模型自适应方法之前，我们简要描述手部分割中的模型不确定性。3.1. 模型不确定性计算后验分布p（w| D）往往是难以处理的，需要近似推理.作为贝叶斯深度学习的一个活跃研究领域，变分推理[7]近似于复杂的后验分布p（w| D）与近似变分分布q（w）通过最小化两个分布之间的Kullback-Leibler（KL）散度。在测试阶段，给定新输入x的输出y的预测分布可以通过多个随机前向传递获得，其中网络参数从q（w）采样：∫模型不确定性度量模型的置信度它的预测和许多实际的深度学习应用不可或缺[42]。例如，如果一个模型-p（y|x）= p（y|x，w）q（w）dw1ΣT（二）将一个具有高不确定性的分类结果，我们可能使用结果时最好小心本工作电子邮件i=1p（y|x，w i），w iq（w）依赖于模型的不确定性来引导预先训练的手部分割模型适应新的领域。简而言之，如果模型对其来自目标域中的一部分数据的预测有信心，则这样的预测可以用作用于使模型参数适应目标域的伪标签不确定性引导的模型自适应的细节在第4节中描述。在这里，我们首先描述如何估计手部分割的模型不确定性。标准CNN模型无法捕捉模型的不确定性。或者，预测概率，例如在分类的情况下，模型最后一层的softmax输出通常被错误地用于解释模型的不确定性。事实上，已知模型即使具有高预测概率，其预测也可能是不确定的[17]。贝叶斯CNN通过考虑模型参数的分布来提供CNN模型的概率解释，因此提供了一种更可靠的估计方法。其中，T是随机向前传递的次数，w表示从q（w）采样的模型参数的一种实现。在实践中，我们遵循[18]中的贝叶斯近似方法，该方法近似具有dropout的模型参数的采样，该方法已被广泛用作深度学习中的这种近似的好处是，用dropout训练的现有CNN模型可以被转换为贝叶斯模型，而不改变原始模型。在这里，我们描述了如何执行贝叶斯推理和估计模型的不确定性手分割。假设我们已经训练了一个手部分割模型H（I，w），输出给定输入图像I的手概率（softmax输出）图P。平均概率图P<$和不确定性mapU计算为：1ΣT估计模型的不确定性。如图2所示，通过预测概率得到的不确定性图为P<$=不 i=1H（I，wi），wi=dropout（w）（三）对右手区域过于自信在地图中看到具有非常低的值的区域。相反，通过贝叶斯1ΣTU= 不i=1P2−P2我14395Hi=1ˆ¯i=1t tt图像Unc ert ain tymapProbabilitymap�� Pseudo-hand dmask��^图像标签源域更新ℒ��(��̅,��^,��)+��ℒ (��ℎ��(��̅ ),1)��迭代式自我训练模型自适应预测目标域鉴别器手形贝叶斯CNN图3.概述了所提出的不确定性引导的模型自适应。其中，Pi=H（I，wi）表示用于学习目标域的H（I，θt）的手概率图，其被在一个随机前向传递之后获得，并且等式3中的平方运算符是逐元素的。注意，P和U具有与输入图像相同的空间大小，并且L（k）=Luseg不. P<$（k），M<$（k−1），U（k−1）<$（四）U的估计基本上等于计算变量，其中k表示迭代inde x，P<$t ={P<$i}nt和U ={U}nti=1在每个像素的手概率的ance通过阈值化P，tii=1表示平均手概率图我们获得预测的手部分割掩模M。4. 该方法4.1. 任务定义以及通过等式3获得的目标域的不确定性图，Mt={Mi}nt表示通过阈值化P ′ t获得的预测手部分割掩模在0.5。Luseg表示不确定性引导的手段，精神损失，定义为：假设我们有一个基线手部分割模型H（I，θs），其参数θs是通过使用来自源域D={I，M}ns的训练数据学习的，其中ILuseg. P'，M'，U'1=−MΣM（1−Um）MmlogPmm=1（五）S I I i=1i+（1−M））log（1−P<$）表示RGB图像，并且Mi表示二进制手段。心理治疗面罩虽然只要测试数据具有与训练数据Ds类似的分布，预训练基线模型就可以表现良好，但是它可能不会推广到具有不同分布的数据。我们的任务是在没有新注释的手部分割掩模的情况下使预训练模型适应新的目标域Dt={Ii}nt4.2. 不确定性引导的模型自适应我们采用半监督学习[13]的自训练思想进行模型自适应。虽然没有针对目标域给出手动分割标签，但是通过利用来自置信模型预测的伪标签，可以更新模型并使其适应目标域。如第3.1节所述，确定性CNN模型的预测概率无法提供可靠的不确定性估计。与以往基于这种预测概率构造伪标签的方法不同，我们利用基于贝叶斯深度学习估计的不确定性来构造更可靠的伪标签。模型自适应被公式化为迭代自训练过程，其中在前一次迭代中从模型获得的手概率图和不确定性图用于训练当前模型。损失函数-其中，对于单纯y，迭代索引和样本索引被省略，并且m表示P'，M'，U的pi x el ind e x。值得注意的是，我们使用不确定性作为整个预测的软权重，而不是选择低不确定性的像素作为具有手动指定阈值的伪标签。换句话说，具有高置信度的像素对模型自适应的贡献更大，反之亦然。在使用之前，U模型的不确定性也被用来确定何时终止迭代自适应过程，以避免过拟合。具体来说，我们终止迭代时，平均不确定性分数的减少小于10%。整个迭代自适应过程总结在算法1中。4.3. 手形约束为了提高手部分割的泛化性能在这项工作中，我们建议利用手的形状，这样的共同信息，以帮助促进适应的手分割模型的目标域。尽管成像条件和背景可能会有很大不同14396不（k）不EGTEA GTEA EDSH UTG YHGEgohands图4.六个数据集的图像样本可以在不同的数据集上观察到照明和背景的大变化算法1：模型自适应过程输入：Dt和Hs在Ds上训练Output：Ht1初始化：用等式3初始化M_s（0），U（0）←H_s（D_t）2 对于k←1到K做3用公式4或8训练Ht4M（k），U（k）←H（k）（Dt），等式3注意，分割网络本身不是我们的概念，并且我们提出的模型自适应方法可以应用于具有丢失的任何分割网络。为了制定贝叶斯CNN，我们简单地在源域中训练手部分割网络，其中有一个丢弃层（丢弃概率p=0）。5）添加在RefineNet的每个残差卷积单元之后，并且在测试期间也应用了dropout层。手形判别-t t5如果|U<$（k）−U<$（k−1）|<1U<$（k−1），则torDhs具有与[38]中使用的结构相同的结构。t t10t6停止迭代在不同的以自我为中心的数据集中，从用户的第一人称角度来看，手的形状是一致的。因此，从源域中学习的手形信息可以作为有用的先验信息用于目标域中的模型自适应。更具体地说，通过在训练中添加手形_hs来学习手形先验。培训详情。我们采用PyTorch实现1. 所有实验均在单个NVIDIA 2080TI GPU上运行我们使用Adam优化器[28]以10- 5的学习率在源域中训练手部分割网络和手部形状识别器20个对于迭代不确定性引导的模型自适应，我们使用学习率为10−5的RMS- Prop，并且在每次迭代中，网络都使用伪标签训练一个时期为了用贝叶斯CNN估计模型的不确定性，我们进行了T=10次随机向前传递。加权在源域中的手分割，和损失函数-将反应公式化为：对抗性损失的因子设置为λAdv=0。1 .一、LHs= Lseg.ΣPs，Ms.+L高级Σ.ΣDhs（Ps），1.（六）Σ5. 实验LDhs= Ladv Dhs（Ms），1+L高级Dhs（Ps），0（七）5.1. 数据集其中Lseg表示标准手部分割损失，Ladv表示图像级二进制交叉熵损失。在上述对抗学习之后，手形信息被编码在Dhs中，并且可以用于模型自适应。在自适应过程中，学习H（I，θt）的损失函数将得到的手形先验修正为：EGTEA数据集[33]。扩展GeorgiaTech以自我为中心的活动（EGTEA）数据集包含29小时以自我为中心的视频，分辨率为1280×960。这些视频记录了32名受试者在自然主义厨房环境中执行的膳食准备任务在数据集中，13847张图像用手掩模标记。我们使用这个数据集来L= L. P<$（k），M<$（k−1），U （k−1）<$训练初始手部分割网络。（k）不usegtt .不Σ（8）GTEA数据集[16]。该数据集由28个自我组成+λadvLadvDhs（P<$（k）），1视频分辨率为720×405，每天录制7次其中具有加权因子λadv的第二项用于强制预测的手分割的形状类似于从源域学习的形状。4.4. 网络架构和培训详情网络架构。我们采用RefineNet [35]作为我们的基线手H14397部分割网络，考虑到它在最近的工作[43]中实现的最先进的性能它由4名受试者进行的活动663张图片，戴着手面具。我们遵循[43]中的数据分割，将受试者1，3，4的图像用作训练集，其余图像用作测试集。EDSH数据集[30]。该数据集包含3个以自我为中心的视频（EDSH 1，EDSH 2和EDSH厨房），分辨率为1280×720，记录在室内和室外1代码可从https://github.com/cai-mj/UMA获得。14398表1.不同模型组件的跨数据集手部分割性能。EGTEA数据集用作源域。使用平均交集对并集（mIoU）和平均F1得分（mF1）作为评估指标。方法GTEA EDSH-2 EDSH-K UTG YHG EgohandMiouMF1MiouMF1MiouMF1MiouMF1MiouMF1MiouMF1CNN0.8845 0.9257 0.6936 0.8030 0.7205 0.8078 0.5481 0.6859 0.2831 0.3870 0.4019CNN+uma0.8766 0.9127 0.7141 0.8170 0.7723 0.8472 0.6089 0.7284 0.3159 0.4257 0.4252 0.5632贝叶斯CNN0.8896 0.9362 0.7632 0.8553 0.7576 0.8356 0.5832 0.7174 0.3619 0.4987 0.4235 0.5619贝叶斯CNN+uma0.8945 0.9391 0.7965 0.8819 0.7812 0.8599 0.6762 0.7892 0.5223 0.66080.4665 0.6134贝叶斯CNN+uma+hs0.8990 0.9417 0.8025 0.8856 0.7951 0.8674 0.6827 0.7922 0.5596 0.7048 0.4660 0.6123环境.我们采用与[30]中相同的数据分割。使用来自EDSH 1的442个标记图像作为训练集。来自EDSH 2的104个标记图像和来自EDSH-Kitchen的197个标记图像用作两个单独的测试集。UTG数据集[11]。东京大学抓取（UTG）数据集由50个以自我为中心的视频组成，分辨率为1920×1080。该数据集捕获了5名受试者执行的17种不同类型的手抓握。为了便于我们的研究，我们对872幅图像进行人工标注，并将它们随机分为训练集和测试集，分别占75%和25%。YHG数据集[9]。Yale Human Grasping（YHG）数据集提供了对非结构化环境中人类抓握行为的日常观察。它由27.7小时的以自我为中心的视频组成，分辨率为640×480，由两名机械师和两名管家在日常工作中记录。我们对488幅图像进行手动标注，并将其随机分为训练集和测试集，比例分别为75%和25%。Egohands数据集[2]。该数据集由48个以自我为中心的视频组成，分辨率为1280×720，记录了室内和室外环境中两个人之间的社交互动。4800个随机采样的图像用手掩模标记。在[2]和[43]之后，我们将数据分为训练集，验证集和测试集，比例分别为75%，8%和17%。这些数据集的图像样本如图4所示。需要注意的是，我们只使用EGTEA数据集训练集中的手部蒙版标签来训练我们的手部分割网络，其他数据集中的标签只用于性能评估。5.2. 性能分析5.2.1所提出方法的烧蚀研究我们首先对所提出的方法的不同组成部分的有效性进行消融研究，如下所示：• CNN：使用RefineNet架构的标准基于CNN的手部分割模型[35]。• CNN+uma：不确定性引导的模型自适应，其中模型不确定性基于标准CNN进行估计。• 贝叶斯CNN：贝叶斯版本的基于CNN的手部分割模型。• 贝叶斯CNN+uma：不确定性引导的模型自适应，其中基于贝叶斯CNN估计模型不确定性。• 贝叶斯CNN+uma+hs：Bayesian CNN+uma，带有手形约束，用于模型自适应。不同模型的跨数据集手部分割性能如表1所示。我们首先基于IoU对结果进行分析。可以看出，贝叶斯CNN比标准CNN具有更好的泛化能力。使用贝叶斯CNN ，不确定性引导的模型自适应（贝叶斯CNN+uma）提高了所有数据集的分割性能。特别是，改进对于UTG和YHG的数据集是显著的，其具有与源区域数据集非常不同的成像条件。此外，贝叶斯CNN在不确定性引导下的模型自适应效果明显优于标准CNN，表明贝叶斯CNN比标准CNN提供了一种更好的估计模型不确定性的方法。添加手部形状约束（Bayesian CNN+uma+hs）进一步提高了分割性能，验证了我们的假设，即手部形状在自我中心视频中是一致的，可以用于促进分割适应。值得注意的是，在Egohands的泛化性能原因是Egohands中的手被记录在第一（自我中心）和第二人称视图的混合中，并且在第一人称视图中学习的分割模型（以及手部形状先验）不能很好地适应第二人称视图。这表明，为了适应不同视图的手部分割，可能需要新的标签。平均F1评分也观察到类似结果。5.2.2迭代自适应在这里，我们评估分割性能如何在我们的模型自适应方法的迭代过程中变化。在图5中，我们展示了我们的方法的两个版本的性能变化：贝叶斯CNN+uma和贝叶斯CNN+uma+hs。由于基于我们对所有数据集的停止标准，迭代在五次迭代之前终止（由垂直虚线示出），因此我们仅展示五次迭代的结果从图中可以看出，使用迭代自适应，分割性能趋于改善，然后在一定数量14399EGOHANDSGTEAEDSH-2EDSH-K贝叶斯CNN+uma贝叶斯CNN+uma+hs贝叶斯CNN+uma贝叶斯CNN+uma+hs贝叶斯CNN+uma贝叶斯CNN+uma+hs0.950.930.910.890.870.850 1 2 3 4 50.850.830.810.790.770.750 1 2 3 4 50.850.830.810.790.770.750 1 2 3 4 5UTGYHG伊戈汉兹贝叶斯CNN+uma贝叶斯CNN+uma+hs贝叶斯CNN+uma贝叶斯CNN+uma+hs贝叶斯CNN+uma贝叶斯CNN+uma+hs0.70.650.60.550.50 1 2 3 4 50.60.50.40.30 1 2 3 4 50.50.480.460.440.420.40 1 2 3 4 5图5.迭代模型自适应的性能变化。水平轴显示迭代次数，“0”表示模型自适应之前的初始预测。纵轴显示了分割性能（IoU）。的迭代。原因可能是随着模型自适应迭代，模型对目标域的数据变得更加自信（可能过度自信），并且可能过度拟合其错误预测。这表明需要适当的停止准则来防止过拟合。结果表明，基于我们的停止准则，自适应过程可以在性能下降之前终止。我们的方法在YHG数据集上的定性结果如图6所示。可以看出，在初始模型的分割性能相当差，相应的不确定区域的面积相对较大。通过不确定性引导的模型自适应，分割性能得到改善，不确定区域的面积逐渐减小关于其他数据集的更多定性结果见补充材料。5.2.3随机向前传球在前面的章节中，我们已经证明了所提出的不确定性引导模型自适应显著提高了手部分割的泛化性能。特别地，通过通过多个随机前向传递对模型参数进行采样，与标准CNN相比，贝叶斯CNN更好地用于手部分割的推断和不确定性估计。在这一部分中，我们研究了随机向前传递的次数如何影响最终性能。图7显示了具有不同数量的随机前向传递的贝叶斯CNN+uma的分割性能性能在开始时（15之前）有所改善，然后随着随机向前传递次数的增加而在IoU为0.525附近波动。业绩波动的原因，Iter-0 Iter-1 Iter-2图6.不确定性引导模型自适应迭代的定性结果。左列显示了来自YHG数据集的三个样本的原始图像和手掩模该图的另一部分显示了不同迭代下的手部分割结果和估计的模型不确定性。图可能是，如果没有足够数量的采样，当前基于丢弃的采样不能很好地近似模型参数的后验分布这个indi-144000.560.540.520.50.480.460.440.420.425101520253035404550基于softmax的输出，并进一步提高了空间先验信息的性能。• BDL [34]: a state-of-the-art unsupervised domainadaptation method for semantic segmentation.它结合了自我训练[49]和对抗学习，以减少领域差距。随机向前传递次数图7.在YHG数据集上用所提出的方法对随机前向传递进行评估。0.560.540.520.50.480.460.440.420.4102030405060708090100110数量的样本CBST [49]和BDL [34]最初是针对语义分割提出的，在此进行比较，以显示最先进的领域自适应方法如何帮助提高手部分割的泛化性能我们采用他们的方法来解决手部分割任务。为了更好地进行比较，我们用RefineNet替换了它们原来的分割网络。表2.不同方法的跨数据集手部分割性能EGTEA数据集用作源域。交集在联合（IoU）被用作评估指标。方法GTEA EDSH-2 EDSH-KUTGYHG Egohands图8.在线手部分割性能仿真在YHG数据集上进行了验证。[43]第43话0.69360.72052019年12月31日在今后的工作中需要采取抽样策略。5.2.4在线手部分割假设我们需要一个实际上可以用于不同现实世界环境的手部分割系统。所提出的方法可以作为这种系统的在线模型为了模拟我们的方法图8显示了作为样本数量的函数的分割性能。实验结果表明，在只有少量未标记数据（20幅原始图像）的情况下，该模型可以很好地适应目标领域，并且随着数据的增加，性能会不断5.3. 与最先进型号的我们比较了跨数据集的性能与最先进的方法对手分割和无监督域适应语义分割。• RefineNet [43]：使用RefineNet [35]作为网络架构的最先进的手部分割模型。它也用作消融研究中的基线模型（第5.2.1节）。• CBST [49]：一种语义分割的自训练方法。它为模型adap生成伪标签，不同方法的定量结果见表2。我们的方法在所有目标数据集上实现了最佳性能，并且在没有域自适应的情况下显著优于最先进的手部分割方法[43]。我们的方法优于CBST [49]和BDL [34]的性能验证了所提出的方法用于推广手部分割的有效性。6. 结论我们提出了一种新的方法来推广手分割在不同的环境。利用贝叶斯CNN估计的模型不确定性，所提出的方法可以使预训练的手部分割模型适应没有标签的新环境。彻底的实验表明，显着改善的泛化性能的手分割相比，现有的基于CNN的方法，使灵活的在线适应新的环境下的手分割。至于我们未来的工作，我们希望研究基于贝叶斯CNN的模型不确定性的不同定量度量此外，由于目前的实验表明，不同数量的随机向前传递的波动性能，我们想更深入地研究不同的采样策略的影响。致谢本研究得到了国家自然科学基金（ 61906064 和61972012）和CREST、JST的部分资助。IOUIOUCBST [49]0.87660.73530.72070.5627 0.35390.4293BDL [34]0.86090.72400.73600.6210 0.41700.4390我们0.89900.80250.79510.6827 0.55960.4660更深入地研究了不同的14401引用[1] A. K. Balan，V. Rathod，K. P. Murphy和M.威林贝叶斯黑暗知识神经信息处理系统的进展，第3438-3446页，2015年[2] S. Bambach，S. Lee，D. J. Crandall和C. Yu. Lending ahand ： Detecting hands and recognizing activities incomplex egocentric interactions.（伸出援手：在复杂的自我中心互动中检测手和识别活动 IEEEInternationalConference on Computer Vision，第1949-1957页[3] D. Barber和C. M.主教在baidu神经网络中的包围学习。Nato ASI Series F Computer and Systems Sciences，168：215[4] A. Betancourt，P. Morerio，E. 巴拉科瓦湖Marcenaro，M. Rauterberg和C.雷加佐尼自我中心视频中的左/右手分割计算机视觉和图像理解，154：73[5] A. Betancourt，P.莫雷里奥角S. Regazzoni和M.劳特伯格。第一人称视觉方法的演变：调查。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，25（5）：744[6] C. M.主教模式识别和机器学习。Springer，2006.[7] D. M. Blei、A. Kucukelbir和J. D.麦考利夫变分推理：统计学家评论美国统计协会杂志，112（518）：859[8] K. Bousmalis，N. Silberman，D. Dohan，D. 尔汗，还有D.克里希南无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议上，第3722- 3731页[9] I. M. Bullock，T. Feix和A. M.美元.耶鲁大学人类抓握数据集：在家庭和机械车间环境中掌握、对象和任务数据。国际机器人研究杂志，34（3）：251[10] M.蔡氏K. Kitani和Y.佐藤一种可扩展的理解手抓握视觉结构的方法。在IEEE机器人和自动化国际会议上，第1360-1366页[11] M.蔡氏K. Kitani和Y.佐藤用于手抓握分析的自我视觉系统。IEEE Transactions on Human-Machine Systems，47（4）：524[12] M.蔡氏F. Lu和Y.高.从第一人称视角的桌面动作识别IEEE Transactions on Cybernet-ics，49（5）：1616[13] O.沙佩勒湾Scholkopf和A.齐恩半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on NeuralNetworks，20（3）：542[14] N. Charoenkulvanich， R. 神久保， R. 米谷，Y.佐藤在多个以自我为中心的视频中，通过手的检测和识别来智能用户界面国际会议，第570-574页，2019年[15] G.楚卡视觉应用领域自适应的综合研究。在计算机视觉应用中的域适应，第1-35页。Springer，2017.[16] A. Fathi，A. Farhadi和J.瑞格理解自我中心的活动。IEEEInternational Conference on Computer Vision ，第407-414页。IEEE，2011年。[17] Y. 加深度学习的不确定性剑桥大学博士论文，2016年。[18] Y. Gal和Z. Ghahramani脱落作为一种有效近似：在深度学习中表示模型的不确定性。在 InternationalConference on Machine Learning，第1050-1059页[19] Y. Ganin和V. Lempitsky通过反向传播的无监督域自适应。国际机器学习会议，第1180-1189页，2015年[20] L. 汉， Y 。邹河，巴西 - 地高湖，加 - 地 Wang 和 D.Metaxas通过校准不确定性的非监督域自适应。在CVPR研讨会，2019年。[21] J. M. Hern a'nano-Lobato和R. 亚当斯概率反向传播算法在贝叶斯神经网络可扩展学习中的应用.国际机器学习会议，第1861-1869页，2015年[22] G. Hinton和D.凡坎普。通过最小化权值的描述长度来保持神经网络的 ACMConference on ComputationalLearning Theory，1993年。[23] J. Hoffman，E.Tzeng，T.帕克，J. -Y. Zhu、P.Isola，K.萨延科，A. Efros和T.达雷尔。苏铁：周期一致的对侧结构域适应。在机器学习国际会议上，第1994-2003页[24] J. Hoffman，D. Wang，F. Yu和T.达雷尔。野生动物：像素级对抗和基于约束的自适应。arXiv预印本arXiv：1612.02649，2016。[25] W. 洪，智-地Wang，M.Yang和J.元用于结构化领域自适应的条件生成对抗网络在IEEE计算机视觉和模式识别会议上，第1335-1344页[26] M. J. Jones和J. M.瑞格统计颜色模型及其在皮肤检测中的应用。International Journal of Computer Vision，46（1）：81[27] T. Kanade和M.赫伯特第一人称视角Proceedings of theIEEE，100（8）：2442[28] D. P. Kingma和J. BA. Adam：随机最佳化的方法。见ICLR，2014年。[29] C. Li，C. Chen，中国粘蝇D. Carlson和L.卡琳深度神经网络的预条件随机梯度朗之万动力学。在AAAI，第1788-1794页[30] C. Li和K.喜谷以自我为中心的视频中的像素级手部检测在IEEE计算机视觉和模式识别会议上，第3570-3577页[31] C. Li和K. M.喜谷以自我为中心的手部检测的虚拟探针模型推荐 IEEEInternational Conference on ComputerVision，第2624-2631页[32] M.利湖，澳-地Sun和Q.霍在以自我为中心的视频中，针对手部分割的具有遮挡感知细节增强的流引导特征传播。计算机视觉和图像理解，187：102785，2019。[33] Y. Li，M. Liu和J. M.瑞格在旁观者眼中：第一人称视频中凝视和动作的联合学习。在欧洲计算机视觉会议上，第619[34] Y.利湖，澳-地Yuan和N.瓦斯康塞洛斯语义分割领域自适应的双向学习。在IEEE计算机视觉和模式识别会议上，第6936-6945页14402[35] G. Lin，L.米兰角沈和我D.里德Refinenet：用于高分辨率语义分割的多路径精化网络。在IEEE计算机视觉和模式识别会议上，第1925-1934页[36] M.龙，H. Zhu，J.Wang和M. I.约旦.带剩余传输网络的无监督域自适应。神经信息处理系统进展，第136-144页，2016年[37] R. M.尼尔神经网络的贝叶斯学习，卷118. Springer Science Business Media，2012.[38] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。[39] X. Ren和C.顾图

下载后可阅读完整内容，剩余1页未读，立即下载