自监督框架：动作识别中的隐私保护

163 浏览量更新于2023-10-25 收藏 814KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20164SPAct：用于动作识别Ishan Rajendrakumar Dave，Chen Chen，Mubarak Shah美国奥兰多中佛罗里达大学计算机视觉研究中心ishandave@knights.ucf.edu，{chen.chen，shah} @ crcv.ucf.edu摘要视觉隐私信息泄漏是快速增长的视频理解应用（如活动识别）的一个新兴关键问题用于减轻动作识别中的隐私泄露的现有方法需要隐私标签以及来自视频数据集的动作标签。然而，为隐私标签注释视频数据集的帧自监督学习（SSL）的最新发展释放了未标记数据的未开发潜力我们首次提出了一种新的训练框架，该框架以自监督的方式从输入视频中删除隐私信息，而不需要隐私标签。我们的训练框架由三个主要部分组成：匿名化功能，自我监督的隐私删除分支和动作识别分支。我们使用极大极小优化策略来训练我们的框架采用现有的协议，已知的行动和隐私属性，我们的框架实现了竞争性的行动隐私权衡现有的国家的最先进的监督方法。此外，我们引入了一个新的协议来评估学习的匿名功能到新动作和隐私属性的泛化，并表明我们的自监督框架优于现有的监督方法。代码可在：https://github.com/DAVEISHAN/SPAct1. 介绍动作识别的最新进展已经使广泛的现实世界的应用，例如。视频监控摄像头[7，24，35]，智能购物系统，如Ama-zon Go，老年人监控系统[2，22，45]。这些视频理解应用中的大多数涉及大量计算，为此用户需要将视频数据共享在将视频共享到云服务器以用于实用动作识别任务的同时，用户还结束了共享视频中的私人视觉信息，如性别、肤色、服装、背景对象等，如图1所示1.一、因此，有一个紧迫的需要隐私保护动作识别的解决方案。在动作识别中保护隐私的一个简单而有效的解决方案是利用非常低分辨率的视频（图1a）[5，23，37]。虽然这种下采样方法不需要任何专门的训练来去除隐私特征，但它没有在动作识别性能和隐私保护之间提供良好的权衡另一组方法使用预先训练的对象检测器来检测隐私区域，然后使用合成[34]或模糊[47]来移除或修改检测到的区域，如图1b所示。基于检测的方法需要用于隐私属性的边界框级注释，并且在没有端到端学习框架的情况下移除隐私特征可能导致动作识别任务的性能下降。Wu等[41]提出一种新的方法，通过对抗训练框架学习匿名化函数来实现隐私特征，该框架需要来自视频的动作和隐私标签虽然该方法能够在动作识别和隐私保护之间取得很好的折衷，但它存在两个主要问题。首先，为隐私属性注释视频数据集是不可行的。例如，Wuet al.[41]承认隐私注释时间的问题，其中他们需要付出巨大的努力来注释即使是小规模（515个视频）视频数据集PA-HMDB的隐私属性。第二，从已知隐私属性学习的匿名化函数在匿名化新隐私属性时可能不泛化。例如，在图1中，用于人类相关隐私属性（例如，性别、肤色、服装）仍然可能留下其他隐私信息，如场景或背景对象不匿名。动作识别任务的性能取决于输入视频的时空线索。Wu etal. [41]表明，在输入视频中匿名化面部，性别等隐私特征不会导致动作识别性能的任何降低。我们的目标是双重的，而不是仅仅关注基于隐私注释的线索：1）学习匿名化函数，该函数可以在所有帧中移除所有空间线索，而不会显著降低动作识别性能;以及20165隐私标签行动标签监督对抗训练方法（Wu etal.[41]）我们的自我监督框架下采样预先训练的物体检测器人员删除隐私属性：服装：运动裤性别：男发型：光头体质：中胚层场景：游乐场物品：袋子，瓶子动作：引体向上隐私注释：不需要隐私属性已弱删除操作记录性能：已删除(a) 基于下采样的隐私移除隐私注释：必填隐私属性已删除行动记录性能：下降(b) 基于对象检测的隐私去除模糊隐私注释：必填隐私属性已删除行动建议执行情况：维持(c) 基于监督对抗训练的隐私删除隐私注释：不需要隐私属性已删除行动建议执行情况：维持(d) 我们的自我监督隐私删除图1.概述了现有的隐私保护动作识别方法。框架的主要目标包括删除隐私信息和以低成本的注释保持动作识别性能。2）在没有任何隐私注释的情况下学习匿名化函数最近，自监督学习（SSL）方法已被成功地用于学习的代表性的功能，这是适合于众多的下游任务，包括分类，分割，检测等。为了实现我们的目标，我们提出了一种新的帧级SSL方法，从输入视频中删除语义信息，同时保留对动作识别任务有用的信息。我们表明，我们提出的自我监督的隐私保护行为识别（SPAct）框架是能够匿名的视频，而不需要任何隐私注释的训练。学习的匿名化函数应该提供与模型无关的隐私保护，因此，我们首先采用[41]中的协议来显示匿名化函数在不同模型之间的可转移性。然而，在评价匿名函数的泛化能力方面有两个方面，这在以前的工作中被忽视。首先，在现实世界的场景中，匿名化功能预计具有泛化能力，具有动作和隐私类的动态变化。为了评估的泛化能力的匿名功能在新的行动和隐私属性，我们提出了新的协议。在我们的实验中，我们表明，由于我们的模型不像现有的监督方法那样依赖于预定义的隐私特征，并且它在新的隐私属性上实现了最先进的泛化。第二，先前的隐私保护动作识别工作仅关注hu的隐私属性，人.在实际场景中，隐私泄露也可能发生在场景和背景对象方面，这可能会泄露个人身份信息。因此，匿名化功能的泛化能力可以保护人类以外的隐私属性（例如，场景和对象隐私）也是至关重要的。为了评估这种能力，我们提出了P-HVU数据集，LSHVU数据集的子集[8]，它具有动作，对象和场景的多标签注释。与仅由515个测试视频组成的PA-HMDB [41]上的现有相同数据集隐私动作评估协议相比，所提出的P-HVU数据集具有约16，000个测试视频，用于隐私保护动作识别的鲁棒评估这项工作的贡献总结如下：• 我们介绍了一种新的自监督学习框架-工作的隐私保护动作识别，而不需要任何隐私属性标签。• 在现有的UCF 101-VISPR和PA-HMDB评估协议上，我们的框架与需要隐私标签的最先进的支持• 我们提出了新的评估协议的学习匿名功能，以评估其泛化能力在新的行动和新的隐私属性。对于这些协议，我们还表明，我们的方法优于最先进的监督方法。最后，我们提出了一种新的数据集分裂P-HVU，以解决较小的评估集的问题，并扩展到非人类属性，如动作场景和对象的隐私评估201662. 相关工作最近的隐私保护方法可以分为三大类：（1）基于下采样的方法;（2）基于模糊的方法;以及（3）基于广告训练的方法。在图1B中可以看到先前的隐私保护方法的概述1.一、基于下采样的方法利用非常低的分辨率输入来匿名化个人可识别信息。Chou等人[4]利用低分辨率深度图像来保护医院环境中的隐私。Sri- Vastava等[39]在人体姿态估计中利用低分辨率图像来减少隐私泄露。Butler等人[1]使用模糊和超像素聚类等操作有一些作品[5，23，37]使用基于下采样的解决方案进行隐私保护动作识别。图la中示出了通过下采样的匿名化的示例。虽然它是一种简单的方法，并且不需要用于训练的隐私标签，但该方法的一个主要缺点是其在动作识别和隐私保护之间的次优权衡。基于混淆的方法主要涉及使用现成的对象检测器来首先检测隐私属性，然后移除或修改检测到的区域以使其在隐私特征方面信息较少。 Ren等人提出了一个有趣的解决方案。[34]用于在动作检测实用程序中匿名化面部他们合成一个假的图像来代替检测到的人脸。Zhang等人对视频域隐私采取了类似的方法。[47]，其中首先使用语义分割来检测感兴趣区域，随后进行模糊操作以减少视频的隐私内容。虽然基于混淆的方法在保护隐私方面工作良好，但是存在与它们相关的两个主要问题：（1）存在知道感兴趣区域所需的领域知识，以及（2）效用任务的性能显著降低，因为该方法不是端到端的并且涉及两个单独的步骤：私有对象检测/分割和对象移除。最近，Hinojosaet al.[17]通过用软件解码器优化光学编码器（硬件级保护）来解决隐私此外，更多的工作集中在基于图像的视觉系统中的硬件级保护[19，28，29，40]，然而，它们不在本文的范围内。Pittaluga等人[27]和Xiaoet al. [43]提出用于图像中的隐私保护的对抗性优化策略作者在[41，42]中介绍了一种用于隐私保护动作识别的新型对抗训练框架。他们的框架采用了一种极大极小优化策略，其中动作分类成本函数被最小化，而隐私分类成本被最大化。他们的对抗框架明显优于基于模糊和下采样的先前最近，基于自监督学习（SSL）的方法已经证明了对图像[3，13，15，44]和视频[6，9，11，18，26，30，32]的学习强大表示，这对于多个图像和视频理解下游任务是有用的。本文提出了一种自监督的隐私保护方法.我们的方法不是使用隐私分类器仅从输入数据中删除隐私属性，而是从视频中删除所有空间语义信息，同时通过以极大极小优化方式训练匿名化函数来保留有用的实用动作识别信息据我们所知，没有其他自我监督的隐私保护动作识别方法，它以端到端的方式学习，而不需要隐私标签。3. 方法我们提出的框架的核心思想是学习一个匿名化函数，使得它在训练中不需要任何隐私标签的情况下恶化我们在[41]的前监督对抗训练框架的基础上构建了我们的自我监督框架。我们的框架的示意图在图1中描绘二、在3.1节中，我们首先通过解释我们的目标来表述问题。在第3.2节中，我们介绍了我们框架的每个组件的细节，在第3.3节中，我们解释了我们框架中使用的优化算法。3.1. 问题公式化让隐私保护动作识别系统的目标是保持T的性能，同时削减预算B。这个目标是通过学习匿名化函数fA来实现的，该函数转换（匿名化）原始原始数据X。假设最终系统具有任何动作分类，以得到模型fT′ 并且任何一个概率都得到模型fB′。概率保持训练的目标是找到fA的最佳点，称为fA的最佳点，其通过以下两个标准实现C1：fA应最小地影响目标模型的成本函数fT′对r a w数据的影响，即LT（fT′（fA（X）），YT）<$LT（fT′（X），YT），（1）其中，T表示效用任务，LT是损失函数，其在单个动作标签Y T的情况下是标准交叉熵，或者在多标签动作YT的情况下是二进制交叉熵。C2：与原始数据相比，转换后（匿名）数据的预处理成本应增加即LB（fB′（fA（X）<$LB（fB′（X）），（2）20167̸L.Σ∥∥∥∥Σ ΣΣ我·输入视频操作标签（yi）fT冷冻行动确认损失（LT）输入视频操作标签（yi）行动确认损失（LT）更新fT最小化LT批次（Xi）更新fA以最小化LT并最大化LBSFNT-Xent对比损失（LB）fB冷冻批次（Xi+1）冷冻fASFNT-Xent对比损失（LB）更新fB最小化LB步骤-1：fA更新步骤-2：fB，fT更新图2. SPAct框架下的极大极小优化。fA是匿名化函数，fT是基于3D-CNN的动作分类器，fB是基于2D-CNN的自监督学习模型，SF是时间采样器。各组件的详细信息见第3.2节。我们首先将fA初始化为身份函数，将fT和fB初始化为在原始视频上优化的预训练检查点。建议的极大极小优化策略是一个迭代过程，包括两个步骤，每次迭代。在左图中，我们首先更新f A的权重，以最小化动作分类损失LT，并最大化NT-Xent对比自监督损失[3] LB，保持fT和fB冻结。之后，如右图所示，对于下一批视频，我们保持fA冻结并更新fT和fB的参数，以分别最小化LT和LB。更多详情请参见第3.3节。其中B表示隐私预算，LB是我们的框架的自监督损失，并且在监督框架的情况下是二进制交叉熵，其需要隐私标签注释YB。增加自监督损失LB会导致对所有有用信息进行分级，而不管它是否与隐私属性有关。然而，用于动作识别的有用信息经由准则C1被保留。结合标准C1和C2，我们可以数学地将隐私保护优化方程写成如下，其中LB之前的负号指示通过使其最大化来优化它：f=argmin[L（f ′（f（X）），Y）−L（f ′（f（X）].其中，x是输入图像，x是fAlogits的sigmoid输出，=输入通道，H=输入高度，W=输入宽度。3.2.2自我监督隐私删除分公司图3中示出了自监督隐私移除分支的示意图。首先，视频x i通过fA以得到匿名化视频fA（xi），其进一步通过时间帧采样器SF。SF采样2帧的视频与各种SF策略，这是研究在第5.5节。采样的帧对（SF（fA（xi）通过2D-CNN主干fB和非线性投影头g（）投影到表示空间中。视频帧对x i对应于表示空间中的投影Z i和Z i′。ATTAFA3.2. 拟议框架TBB一（三）对比度损失的目标是最大化同一视频xi的投影对（Zi，Zi′）之间的一致性，同时最大化投影对（Zi，Z i ′）之间的不一致性。所提出的框架主要由三个组成部分组成，如图2所示：（1）Anciliation函数（fA）;（2）自监督隐私删除分支;以及（3）不同视频对（Z i，Z j），其中j=i。一批N个视频的NT-Xent对比度损失[3]如下所示动作识别或实用程序分支。B=−logN[1h（Zi，Zi′）h（Z，Z）+h（Z，Z′）]、（五）3.2.1Anomalization Function（fA）匿名化函数是可学习的变换函数，其以这样的方式变换视频，使得经变换的信息对于学习任何目标模型fT′上的动作分类是有用的，而对于学习任何目标模型fB′是无用的。我们利用一个编码-解码神经网络作为匿名化函数.fA是初始值-通过使用如下给出的L1重构损失来训练它，将其转换为恒等函数：C HWLL1=|xc，h，w−x<$c，h，w|、（四）c=1h=1w=1j=1[j i]ijij其中h（u，v）=expu Tv/（u v τ）用于计算具有可调参数温度τ的u和v向量之间的相似性。 1[j<$=i]∈ {0，1}是一个等于1的指示函数当且仅当j=<$i。3.3. Minimax优化为了优化所提出的自我监督框架，其目标是Eq. 3.考虑匿名函数fA由θ A参数化，辅助模型fB和fT分别由θ B和θ T参数化。其中，αA，αB，αT分别为θA，θB，θT的学习率.首先，如下面给出的那样初始化θA（Eq.6），乙状乙状L20168B∈不B不不行动不B不一B解析视频f（x）A（x，j）A我图3.对比自监督损失用于最大化视频的两帧之间的一致性，并最大化不同视频的帧之间的不一致性。更多详情请参见第3.2.2除非fA达到阈值thA0重构性能（等式10），4）在验证集上：θ A<$θ A− α A<$θA（LL1（θ A））.（六）一旦θA被初始化，它被用于初始化θT和θB，如以下等式所示，除非它们的性能达到thB0和thT0的损失值：θT<$θT−αT<$θ T（LT（θT，θA）），（7）θ B<$θ B− α B<$θB（L B（θ B，θ A））。（八）初始化后，两步迭代优化过程发生。第一步如图2左侧所示，其中θA使用以下等式更新：图7、8中间行。由于这些未学习的通用语义信息包含与人、场景和对象相关的隐私属性，因此我们最终删除了输入中的隐私信息在此过程中，我们还通过动作记录分支确保与动作记录相关的语义保留在视频中。4. 培训和评估协议现有的训练和评估协议在第4.1节和第4.2节中讨论，并在第4.3节中介绍了一种新的通用化协议。4.1.相同数据集训练和评估协议监督隐私保护动作识别方法的训练需要具有动作la的视频数据集XtbelsYt和隐私标签Yt，其中t表示训练集。T BθA<$θA−αA<$θ A（LT（θA，θT）−ωLB（θA，θB）），（9）其中ω（0，1）是SSL损失LB相对于监督动作分类损失LT的相对权重。这里LB前的负号表示我们想要最大化它。在实现中，它可以通过使用负梯度来简单地实现[10]。在第二步骤中，如图右侧所示2，θT和θB使用等式2更新。7和8所示。我们更新θB以在下一次迭代的步骤-1中获得强大的负梯度请注意，这里与GAN训练有相似之处;我们可以将fA视为a生成器，它试图在第一步中欺骗fB，并且在第二步中，fB试图通过更新Eq.8. 该两步迭代优化过程继续，直到LB达到最大值thBmax。由于我们的自我监督隐私删除框架不需要任何隐私标签，因此我们不使用Yt。一旦训练完成，匿名化函数现在就被冻结，称为fA，并且辅助模型fT和fB被丢弃。为了评估学习匿名的质量，fA 本文提出了一种新的行为分类器fT′，在训练集（fA∈（Xt），Yt）上的一个新的预分类器fB′在er（fA（Xt），Yt）上训练。为了澄清，我们在任何协议中都不使用隐私标签来训练fA隐私标签仅用于评估目的，以训练目标模型fB’。一旦目标模型fT′和fB′在训练集的匿名版本上完成训练，则分别在测试集（fA（Xe），Ye）和（fA（Xe），Ye）上对它们进行评估，其中e表示评估/测试集。动作分类器的测试集性能表示为A1（Top-1精度）或A2（类mAP），以及隐私分类器表示为A1（类式mAP）或A23.4.直觉：SSL分支和隐私删除取一个用自监督对比损失（SSL）预训练初始化的模型fb。现在保持fb冻结，当我们试图最大化对比度损失时，它会改变fb的输入，从而降低同一视频帧之间的一致性。我们知道，同一视频的帧共享大量语义信息，最小化它们之间的一致性会导致破坏-B B（classwise-F1）。补充文件第G节中提供了解释不同培训和评估方案的详细图表。4.2. 跨数据集训练和评估协议在实践中，带有动作和隐私标签的可训练规模视频数据集并不存在。[41]的作者通过跨数据集训练和/或评估协议来补救监督训练过程两个不同的数据集，学习（即遗忘）输入用于【41】：操作注释数据集（Xt，Yt）视频. 简而言之，最大化对比损失结果以优化f A和f T;破坏了苏普所有高亮的注意力地图部分测试隐私，Y t）来优化f A和f B。再次注意，在选择2D-CNN表示空间2帧骨架（fB）SF（fA（xi））吸引排斥Z我ZJ时间采样器（SF）时间采样器（SF）多层-投影头（g）兹伊Z'jGfB（X20169B××行动行动行动隐私×行动行动一行动不一B隐私一不不一隐私BB∩这个协议，我们的自我监督的框架不uti-可扩展的。在通过不同的训练集学习f A之后，它被冻结，我们称之为fA。一个新的作用分类器fT′是在动作注释数据集（f（X t），Yt）匿名化版本和一个新的隐私类-5.2.实现细节对于默认实验设置，我们使用UNet [36]作为fA，R3 D-18 [14]作为f T，ResNet-50 [16]作为f B。为了公平评估，我们报告了具有完全相同的训练增强和模型架构的不同方法的结果A行动T筛选器fB′ 是在原始的自动化版本上训练的，结构。与培训集相关的实施细节-vacy注释数据集（f（Xt），Yt）。一旦目标可以找到A隐私B模型fT′ fB′ 完成附录C中的匿名版本培训。学习匿名化的可视化训练集的不同，它们分别在不同方法的测试集上进行评估，见附录F节。（f）（Xe），Ye）和（f∈（Xe），Ye）.采用下采样方法，4.3. 一种新的动作和隐私属性协议对于上面讨论的前两个协议，相同的在训练和测试中使用的因子为2和4混淆方法是携带出来使用一个MS-训练集Xt（Xt测试隐私）用于目标[33]第21话：我的世界模型fT′，fB′ 学习仿射函数fA。然而，期望学习的匿名化函数fA对任何动作或隐私属性进行概括评价对新奇行为的概括，一个匿名的版本，人类。检测到的人员将使用两种不同的模糊策略：（1）使检测到的边界框变黑;（2）以两种不同的强度在检测到的边界框中应用高斯模糊。新的动作集f（Xnt），使得YntYt=，用于训练目标动作模型fT′，并在新动作集的匿名测试集上测试其性能5.3.评估已知动作和隐私属性f（Xne）的情况。对于隐私泛化评估，一种新的对于已知的操作和隐私属性，我们遵循第二节-一个行动隐私集f（X nt）（s.t. Y ntYt=n）（其中nt表示新的训练）被用于训练隐私目标模型fB′，并且其性能在n个隐私测试集fB（X ne）（其中ne.代表小说第4.2节对[41]中的2个现有协议进行评估，并按照第4.1节使用P-HVU数据集提出一个新协议，用于同域训练和测试。结果表1所示隐私请注意，新的隐私属性协议UCF 101-VISPR交叉数据集训练和评估可以不被称为用于在学习fA中不使用隐私属性Y t的方法的传输协议。在该方案中，XtUCF 101测试集;Xt= UCF 101车组和Xe== VISPR车组和Xe=BVISPR测试集。隐私隐私5. 实验HMDB 51-VISPR交叉数据集训练和PA-HMDB在本方案中，Xt= HMDB 51训练集，5.1. 数据集e行动= PA-HMDB，Xt= VISPR车组，以及101[38] UCF和HMDB51[20]是最常见的两种。电子隐私= PA-HMDB。主要用于人体动作识别。PA-HMDB[41]是由515个视频组成的数据集，其中包含视频级别的动作注释和逐帧的人类隐私注释。该数据集由51个不同的动作和5个不同的人类隐私属性组成P-HVU是LSHVU [8]的选定子集，LSHVU是多标签人类动作的大规模数据集，具有为对象、场景、概念、事件等提供的各种我们根据动作-对象-场景标签在val集中的可用性选择它们的子集，以创建我们的训练/测试分割。该数据集由739个动作类，1678个对象和248个场景类别组成。P-HVU的训练/测试分割由245，212/16，012个视频组成，以提供稳健的评估。VISPR[25]是一个图像数据集，其中包含图像中的各种个人信息，如肤色、面部、性别、服装、文档信息等。P-HVU相同数据集训练和评估在该协议中，效用任务是多标签动作识别，隐私是根据对象和场景的多标签分类来定义的在本方案中，X t= P-HVU训练集，X e= P-HVU测试集。我们可以在表1中观察到，我们提出的自监督框架在已知动作和隐私属性的情况下实现了可比较的动作-隐私权衡。其他方法，如Downsample-4，Obf变黑和Obf-StrongBlur，可以获得值得称赞的隐私删除，但是，以动作识别性能为代价。5.4. 基于新颖行为和隐私属性的学习匿名化评估继SEC4.3，我们提出了两个协议的新的行动和两个协议的新的隐私属性。新颖的动作和隐私属性在该协议中，对于更多详情见附录B节。行动Xt= UCF 101车组，Xnt= HMDB51和X行动和XX行动20170方法转移评估：操作转移评估：隐私UCF→HMDB UCF→PA-HMDB VISPR 1→VISPR 2转移评估P-HVU动作场景→目标行动操作记录（前1位访问百分比）（越高越好）隐私隐私隐私行动行动隐私隐私隐私∼∼→→→→方法UCF101行动Top-1（↑）VISPR1隐私cMAP（↓）F1（↓）行动Top-1（↑）PA-HMDB隐私cMAP（↓）F1（↓）行动cMAP（↑）P-HVU对象cMAP（↓）场景cMAP（↓）原始数据Downsample-2×Downsample-4×Obf-变黑Obf-强模糊Obf-弱模糊噪声-特征[46]监督[41]我们62.3354.1139.6553.1355.5961.5261.9062.1062.0364.4157.2350.0756.3955.9463.5262.4055.32↓14%57.43↓11%0.5550.4830.3790.4570.4560.5230.5310.461↓17%0.473↓15%43.670.10.40120.111.9025.836.161.20.11110.92.458.625.841.40.0810.780.891.7634.263.80.3868.66.1222.136.464.40.24311.36.8922.841.769.40.39818.611.3325.441.569.10.384–––42.362.3↓11%0.194↓51%18.331.98↓83%9.5↓63%43.162.7↓11%0.176↓56%18.011.42↓88%9.91↓62%表1.在已知动作和隐私属性协议上比较现有的隐私保护动作识别方法。我们的框架实现了与监督方法竞争的性能[41]。↓%表示相对于原始数据的相对下降。有关图形视图，请参见附录第D节。前1名（%）（↑）前1名（%）（↑）cMAP（%）（↓）F1（↓）cMAP（%）（↑）cMAP（%）（↓）原始数据Downsample-2×Downsample-4×Obf-黑化Obf-强模糊Obf-弱模糊噪声特征[46]监督[41]我们35.624.116.826.226.433.731.233.234.143.636.125.834.236.441.741.540.642.857.652.241.553.653.755.853.749.6↓14%47.1↓18%0.4980.4470.3310.460.4620.4860.4580.399↓20%0.386↓22%20.111.910.92.450.780.898.66.1211.36.8918.611.33––18.346.43↓46%18.011.42↓88%表2.现有的隐私保护动作识别方法在新动作和隐私属性协议上的比较。我们的框架优于监督方法[41]。↓%表示相对于原始数据的相对下降。火车，XNE= HMDB 51测试集/PA-HMDB，[37]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎。隐私，Xt= VISPR-1车组，Xnt= VISPR-alizing和性能显着（>40%）比我们的差2列动车组和Xne= VISPR-2测试集。从左其他实验见附录D节，表2和图4的一部分，我们可以观察到我们的方法在动作和隐私属性泛化方面都优于监督方法[41从场景到对象的新隐私属性在该协议中，我们采用已知动作集Xt= P-HVU train-定性结果见附录F节。363432设，则Xe= P-HVU测试集，Xt= P-HVU系列-30设置对象，Xnt= P-HVU车组场景和Xne= P-HVU测试集场景。我们可以从表2的最右边部分观察到，在测试从场景到对象的学习的匿名化时，监督方法[41]得到了类似于Obf-StrongBlur的结果，并且仅删除了262448 50 52 54 56 58隐私cMAP %（越低越好）46%的原始数据我们的方法的性能增益与表2中的[ 41 ]不同的主要原因在VISPR 1中2，域偏移非常小，例如 SkinColor （ V1 ） Tattoo （ V2 ）（补充表1），因此[37]仍然能够推广，并且仅比我们的方法差（5%）。而在PHVU场景→对象，域转移是巨大的，例如TennisCourt图4.在动作分类和隐私移除之间进行权衡，同时从动作的UCF 101 HMDB 51和隐私属性的VISPR 1 VISPR 2进行概括。我们的自监督方法实现了其他方法中的最佳权衡。5.5. 消融研究表3中的第二行示出了仅使用基于编码器-解码器的模型fA而不使用任何隐私原始数据DownSample2X Obf-BlackeningObf-StrongBlurObf-WeakBlurSupervised[41]我们的2820171↑ ↓↓SSL丢失↑ ↓↓↑ ↓↓↑ ↓↓fararchitecturreB移除分支fB。然而，风格改变未能匿名化隐私信息。在我们的下一次尝试中，我们使用一个预训练的SSL冻结模型来匿名隐私信息。9 .第九条。这种冻结f B的方法能够在很小程度上（<2%）删除隐私信息，然而，我们在隐私删除方面的最大提升（7%）来自于在fA中的每次更新时更新f B，如图所示虽然RotNet [12]框架可以实现相当的性能，但是它在实用性和隐私性方面都提供了次优性能我们推测这是因为Rot- Net主要鼓励学习全局表示，并且通过隐私删除分支从输入中大量删除全局信息也会导致动作识别性能下降在表3的倒数第二行中。这一观察表明，在步骤2中更新fB的重要性（等式2）。8）min-imax优化。换句话说，我们可以说，如果fB没有用fA更新，那么fA很容易欺骗fB，即最大化LB，这最终导致隐私删除效果不佳。此外，我们还尝试了一个时空SSL框架作为隐私删除分支。详情见附录C。请注意，从输入视频中移除时空语义会导致动作识别性能严重下降，这是在我们的框架中选择2D SSL隐私移除分支的主要原因，以便仅从输入视频中移除空间fAf BUCF 101VISPR 1Top-1（）cMAP（）F1（）2016年12月31日✓64.1 0.549✓空间（冻结）62.2 62.2 0.535✓空间✓时空表3.不同隐私删除分支的实验SSL的时间采样策略为了用各种时间采样器（SF）来实验从视频中选择一对帧，我们改变两个帧之间的持续时间（距离），如表4所示。从视频中选择的一对帧被认为是对比度损失的正项（等式10）。（五）。在我们的默认实验设置中，我们从视频中随机选择一对帧，如第一行所示我们观察到，从更远的距离挖掘阳性帧会降低匿名能力。这是因为在对比损失中挖掘非常不相似的阳性会导致学习不佳的表示，这在[9，31]中采用时间上遥远的阳性对时也观察到。UCF 101 VISPR 1之间的距离正帧Top-1（%）（）cMAP（%）（）F1（）无约束62.157.4 0.473>64帧62.1 58.7 0.488<8帧63.4 57.1 0.443表4.帧采样策略对SSL隐私删除分支不同SSL框架的影响如表5所示，我们在等式5中用三种不同的2D SSL方案进行实验。五、我们可以观察到NT-Xent [3]和MoCo [15]UCF101 VISPR1顶部-1（%）（）cMAP（%）（）F1（）NT-Xent [3] 62.1 57.4 0.473[15] 2016年12月25日[12] 2016年12月28日表5.不同SSL框架的影响不同的fB和fT架构的效果为了理解辅助模型fB在fA训练过程中的效果，我们用不同的隐私辅助模型fB进行实验，并报告它们在相同的评估设置中学习到的fA的性能，如表6所示。我们可以观察到，使用更好的fB架构会导致更好的匿名化。在学习fA时，使用不同的fT结构没有显著影响（补充章节E）。UCF101 VISPR1Top-1（）cMAP（）F1（）MobileNetV1（MV1）62.1 58.14 0.488ResNet50（R50）62.1 57.43 0.473R50 + MV1 61.4 56.20 0.454表6.极大极小优化中不同fB的影响6. 限制我们的工作的一个局限性是，它利用了自监督学习的基本框架，并且可能仅适用于动作识别，而不直接适用于其他视频理解任务，如动作检测或动作预测。此外，在已知动作隐私属性的情况下，仍有改进的空间来匹配监督基线。7. 结论我们引入了一种新的自我监督的隐私保护动作识别框架，它不需要隐私标签的训练。我们广泛的实验表明，我们的框架实现了有竞争力的性能相比，监督基线的已知动作隐私属性。我们还表明，我们的方法实现了更好的推广到新的动作隐私属性的监督基线。我们的论文强调了对比自监督学习在隐私保护动作识别中的好处。致谢我们感谢Vishesh Kumar Tanvar、Tushar Sangam、Rohit Gupta和Zhenyu Wu提出的建设性建议。20172引用[1] Daniel J Butler，Justin Huang，Franziska Roesner，andMaya Cakmak.远程遥控机器人的隐私-效用权衡。第十届ACM/IEEE人机交互国际会议论文集，第27-34页，2015年。3[2] MarcoBuzzelli，AlessioAlb e'，andGianluigiCiocca.一个基于视觉的系统，用于监控家中的老人。应用科学，10（1）：374，2020。1[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。三、四、八[4] Edward Chou ， Matthew Tan ， Cherry Zou ， MichelleGuo，Albert Haque，Arnold Milstein，and Li Fei-Fei.使用低分辨率深度图像的智能医院隐私保护动作识别。arXiv预印本arXiv：1811.09950，2018。3[5] Ji Dai ， Behrouz Saghafi ， Jonathan Wu ， JanuszKonrad，and Prakash Ishwar.对人类活动的隐私保护认可。2015年IEEE图像处理国际会议（ICIP），第4238-4242页。IEEE，2015年。第1、3条[6] Ishan Dave 、 Rohit Gupta 、 Mamshad Nayeem Rizve 和Mubarak Shah。Tclr：用于视频表示的时间对比学习计算机视觉和图像理解，第103406页，2022年。3[7] 伊尚·戴夫，扎凯·谢弗，阿卡什·库马尔，莎拉·施拉兹，约格什 · 辛格 · 拉瓦特，穆巴拉克 · 沙阿 .Gabriellav2：在监控视频中实现更好的泛化，以进行动作检测。在 IEEE/CVF 计算机视觉应用冬季会议（WACV）工作室会议记录中，第122-132页1[8] Ali Diba ， Mohsen Fayyaz ， Vivek Sharma ， ManoharPaluri，J ür genGall，RainerStiefeldom和LucVanGool。大规模整体视频理解。欧洲计算机视觉会议，第593-610页。Springer，2020年。二、六[9] Christoph Feichtenhofer，Haoqi Fan，Bo Xiong，RossGir- shick，and Kaiming He.无监督时空表征学习的大规模研究在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）的会议记录中，第3299-3309页，2021年6月。三、八[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页。PMLR，2015. 5[11] Kirill Gavrilyuk，Mihir Jain，Ilia Karmanov和Cees GMSnoek。运动增强的自我训练，用于较小规模的视频识别。在 IEEE/CVF国际计算机视觉会议论文集，第10429- 10438页，2021年。3[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。8[13] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar，et al. Bootstrap your ownlatent-a new approach自我监督学习。神经信息处理系统的进展，33：21271-21284，2020。3[14] K. Hara，H. Kataoka和Y.佐藤利用时空3d卷积实现动作识别的良好实践。2018年第24届国际模式识别会议（ICPR），第2516-2521页，2018年。6[15] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页三、八[16] Kaiming He，

下载后可阅读完整内容，剩余1页未读，立即下载