隐私保护视觉识别的对抗训练框架与隐私预算的权衡

63 浏览量更新于2023-10-13 收藏 863KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过对抗训练实现隐私保护视觉识别：一项试点研究Zhenyu Wu1、Zhangyang Wang1、Zhaowen Wang2、Hailin Jin21德克萨斯州农工大学，学院站TX 77843，美国{吴振宇sjtu，atlaswang}@ tamu.edu2Adobe Research，San Jose CA 95110，USA{zhawang，hljin}@ adobe.com抽象。本文旨在通过制定一个独特的对抗性训练框架来提高隐私保护的视觉识别，这是智能相机应用中越来越需要的功能。所提出的框架明确地学习原始视频输入的降级变换，以便优化降级视频上的目标任务性能和相关联的隐私预算之间的权衡。一个值得注意的挑战是，通常在任务驱动的上下文中定义和测量的隐私预算不能使用任何单个模型性能来可靠地指示，因为对隐私的强有力保护必须针对试图破解隐私信息的任何可能的模型而保持。这种不寻常的情况促使我们提出两种策略，即，预算模型重新启动和集成，以增强关于保护隐私免受看不见的黑客模型的学习退化的一般化。新的培训策略，评估协议，并相应地设计了结果可视化方法。两个实验的隐私保护行动识别，以各种方式定义的隐私预算，表现出令人信服的有效性，同时保持高目标任务（行动识别）的性能，同时抑制隐私泄露风险的建议框架。代码可在https://github.com/wuzhenyusjtu/Privacy-AdversarialLearning上获得关键词：视觉隐私，对抗训练，动作识别1介绍智能监控或智能家居摄像头，如Amazon Echo和Nest Cam，现在已在数百万个地点发现，可将用户远程连接到其家中或办公室，提供监控服务以增强安全性和/或通知环境变化，以及生活记录和智能服务。智能摄像头的普及重新激发了隐私辩论，因为它们中的大多数需要将设备捕获的视觉数据上传到集中式云进行分析。本文件旨在探讨：如何确保那些智能计算机视觉设备只看到我们希望它们看到的东西（以及如何定义我们想要的东西）？是否有可能在不损害用户便利性的情况下减轻隐私问题？2Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin Jin乍一看，该问题本身被提出为一个困境：我们希望相机系统通过了解其视频来识别重要事件并辅助人类日常生活，同时防止其获得敏感的视觉信息（例如面部）。并行计算解决方案保护通信免受来自攻击者的未授权访问然而，它们不能立即适用于防止授权代理（例如后端分析）未经授权滥用信息，这会导致隐私泄露问题。差分隐私的流行概念已经被引入，以防止对手通过包含/排除主题来获得额外的知识，但不是从发布的数据本身获得知识[8]。换句话说，攻击者仍然可以从任何可用的净化样本中准确地推断出敏感属性，这不会违反差分隐私的任何（已证明的）属性[18]。因此，在本地相机端处找到对所收集的原始视觉数据的适当变换成为新的且有吸引力的问题，使得经变换的数据本身将仅启用某些目标任务，同时阻碍其他不期望的隐私相关任务。最近，一些新的视频采集方法[3，9，47]提出了故意捕获或处理极低分辨率的视频，以创建保护隐私的相比之下，我们在一个独特的对抗性训练框架中制定了隐私保护视觉识别该框架通过学习主动降级以变换视频输入来明确地优化目标任务性能和相关联的隐私预算之间我们研究了一种新的方式来模拟隐私预算在任务驱动的上下文中。与两个单独模型竞争的标准对抗训练不同，我们框架中的隐私预算不能简单地用一个模型定义，因为理想的隐私保护必须是通用的和模型不可知的，即，阻碍了每一个可能的模型预测隐私信息。为了解决所谓的“竞争性挑战”，我们采取了两种策略，即：例如，重新学习并建立一个或多个新的萌芽模型，以增强学习的退化的泛化能力，从而抵御看不见的模型。新的培训策略和评估协议已被提出相应的。两个实验的隐私保护行动识别，以不同的方式定义的隐私预算，体现了所提出的框架的有效性。由于仍有不少问题有待解决，而且仍有很大的改善空间，我们希望这项试验研究能吸引更多社会人士的关注。2相关工作2.1计算机视觉利用用于监控或智能家居设备的普适相机，隐私保护视觉识别已经引起了工业界和学术界越来越多的兴趣，因为（1）由于它们的计算要求的性质，在资源有限的本地设备端运行全部视觉识别任务基于对抗训练3将（部分）数据传送到云端是不可或缺的;（2）虽然传统的隐私问题主要是由云和设备之间的不安全信道（例如，恶意的第三方窃听）引起的，但是客户现在越来越担心将他们的私人可视信息共享给云（这本身可能变成恶意的）。一些加密解决方案[13，66]被开发用于以同态方式本地加密视觉信息，即，密码系统允许对加密数据进行基本的算术分类然而，许多基于加密的解决方案将在本地平台上产生高计算成本。将密码系统推广到更复杂的分类器也具有挑战性[4]结合了感兴趣区域的检测和真实加密技术，以提高隐私，同时允许继续进行一般监视一个看似合理且计算上更便宜的选择是从原始图像中提取和传输特征描述符，并且仅传输那些特征不幸的是，以前的一项研究[31]表明，原始图像的大量信息仍然可以从标准HOG或SIFT特征中恢复（即使它们在视觉上与自然图像不同），这使得它们也很容易受到隐私黑客的攻击。隐私保护视觉系统的替代方案涉及匿名视频的概念。这样的视频被有意地捕获或处理为处于特殊的低质量条件下，其仅允许识别一些目标事件或活动，同时避免视频中的人类主体的身份信息的不希望的泄漏[3，9，47]。匿名视频的典型示例是制作成具有极低分辨率的视频（例如， 16× 12）通过使用低分辨率相机硬件[9]，基于模糊和超像素聚类等图像操作[3]，或通过自定义版本的均值漂移滤波引入卡通效果[63]。[41，42]提出了在进行传感器测量之前，通过k-匿名和散焦模糊，使用早期的工作[23]探索了使用天花板安装的飞行时间低分辨率传感器网络的隐私保护跟踪和粗略姿态估计[58]采用了一个安装在天花板上的二元被动红外传感器网络。然而，这两项工作只处理了有限的一组在房间中的特定约束区域进行的活动。后来，[47]表明，即使在极低的分辨率下，也可以通过学习适当的下采样变换来实现可靠的动作识别，既没有不切实际的活动位置假设，也没有额外的特定硬件资源。作者通过经验验证了传统的人脸识别很容易在生成的低分辨率视频上失败。低分辨率匿名视频的使用[9，47]在计算上更便宜，并且还与传感器和带宽限制兼容。然而，[9，47]仍然坚持保护隐私。特别是，他们的模型既没有学习保护任何视觉隐私，也没有仔细分析和评估隐私保护效果。换句话说，[9，47]中的隐私保护可以作为一种“隐私保护”，而不是一种优化的结果[9，47]的作者也没有将他们的努力扩展到研究基于深度学习的识别，这使得他们的任务表现不那么具有竞争力。4Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin Jin最近，一些基于学习的方法开始发挥作用，以确保更好的隐私保护。[53]定义了任务实体的效用度量和隐私度量，并设计了数据净化函数，在提供效用的同时实现隐私。然而，他们只考虑了简单的消毒功能，如线性投影和最大均值差异变换。在[43]中，作者提出了混淆器和攻击者之间的博弈论框架，以便在不显著影响目标应用程序功能的情况下隐藏摄像头馈送中的视觉秘密。这似乎是与拟议的工作最相关的工作：然而，[43]只讨论了隐藏QR码同时保留图像整体结构的玩具任务。另一项相关工作[18]通过将其公式化为min-diff-max优化问题来解决最佳效用-隐私权衡尽管如此，现有作品中隐私预算的经验量化[53，43，18]仅考虑保护隐私免受一种黑客模型的攻击，因此是不够的，我们将在第3.1节中对此进行更多解释。2.2社交媒体和照片共享中的隐私保护用户隐私保护也是社交媒体领域中广泛关注的话题，特别是对于照片共享。在上传的照片中保护用户隐私的最常见方法是添加经验模糊处理，例如模糊，马赛克或裁剪某些区域（通常是面部）[26]。然而，广泛的研究表明，这种经验方法也很容易被黑客攻击[37，32]。最新的工作[38]描述了一个游戏理论系统，其中照片所有者和识别模型努力实现识别/启用识别的对抗目标，并且可以从他们的竞争中学习更好的混淆方法。然而，它只是为了混淆一个特定的识别模型，通过寻找“特定的特征”[ 36]。可以认为，简单地改变到另一个识别模型可能会使学习努力白费：这种扰动甚至不能保护隐私免受人眼的影响。因此，他们的问题设置偏离了我们的目标问题。另一个显著的区别是，在社交照片共享中，我们通常希望在对这些照片应用任何隐私保护变换之后，对这些照片造成最小的感知质量损失。在我们的场景中不存在同样的问题，这使我们能够探索更自由，甚至更激进的图像扭曲。在[39]中找到了对我们有用的资源，它定义了具体的隐私属性并将其与图像内容相关联。作者对图像中可能的隐私信息进行了分类，然后进行了用户研究以了解隐私偏好。然后，他们提供了一组相当大的22k图像，其中标注了68个隐私属性，并在此基础上训练了隐私属性预测器。2.3视觉退化数据为了能够使用匿名视频，一个重要的挑战是除了抑制不期望的隐私泄露之外，还在所有低视觉质量场景中基于对抗训练5低分辨率的视觉识别可能是最好的研究。[61，28，7]表明，通过适当的预训练和域适应，可以显着增强低分辨率对象识别。低分辨率动作识别也引起了越来越多的兴趣：[46]提出了一种双流多连体CNN，它学习由以不同方式下采样的低分辨率视频共享的嵌入空间，在此基础上训练了一个变换鲁棒动作分类器。[6]利用半耦合滤波器共享双流网络来学习低分辨率和高分辨率特征空间之间的映射。相比之下，“低量化”的非线性降采样是通过简单的降采样和更复杂的降采样来实现的3技术途径3.1问题定义假设我们的训练数据X（由相机捕获的原始视觉数据）与目标任务T和隐私预算B相关联。我们在数学上将隐私保护视觉识别的目标表达如下（γ是权重系数）：minfT，fdLT（fT（fd（X）），YT）+γLB（fd（X）），（1）其中，表示用于对其输入数据执行目标任务T的模型。由于T通常是一个监督任务，例如，动作识别或视觉跟踪，在X上提供标签集Y_T，并且标准成本函数L_T（例如，softmax）被定义来评估T上的任务性能。另一方面，我们需要定义一个预算成本函数L B来评估其输入数据的隐私泄露风险：LB越大，隐私泄露风险越高。我们的目标是寻求这样的主动退化函数fd，以将原始X变换为用于LT和LB两者的公共输入，使得：– 目标任务性能LT与使用在a，i. 例如， minfT，fdLT（fT（fd（X）），YT）≈minf ′LT（f′（X），YT）.TT–与原始数据相比，隐私预算L_B被极大地抑制，即，LB（fd（X））<$LB（X）.隐私预算成本LB的定义并不简单。实际上，它需要放在具体的应用程序上下文中，通常是以任务驱动的方式。例如，在具有视频监控的智能工作场所或智能家居因此，降低LB可以解释为抑制成功率在变换后的视频fd（X）上进行身份识别或验证。也可以类似地定义其他隐私相关属性，诸如种族、性别或年龄。我们将与隐私相关的注释（例如身份标签）表示为YB，并将LB（fd（X））重写为LB（fb（ fd（X）），YB），其中fb表示芽-得到模型来预测相应的隐私信息。与LT不同，最小化LB将鼓励fb（fd（X））尽可能地偏离YB6Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin JinLB的这种有监督的、任务驱动的定义造成至少双重挑战：（1）隐私预算相关注释（表示为Y B）通常具有比目标任务标签更少的可用性。具体地，在同一X上准备好YT和YB两者通常具有挑战性;（2）考虑到隐私保护的性质，仅仅抑制一个fb模型的成功率是不够的。相反，定义隐私预测函数族P：fd（X）-YB，fd的理想隐私保护应该反映为从P中抑制每个可能的模型fb。这偏离了常见的监督训练目标，其中只需要找到一个模型就可以成功完成目标任务。我们用LB的任务驱动定义重写一般形式（1）：minfT ， fdLT（ fT （ fd （X）， YT ）+ γ maxfb ∈ PLB （ fb （ fd（X）），YB）.（2）对于求解的f d，两个目标应同时满足：（1）存在（2）如果所有（“”）函数s ∈ P，则该函数中的任何一个（每个该函数）都可以从fd（X）中预测出YB.大多数现有的作品选择了经验的fd（例如，简单下采样）并求解minfTLT（fT（fd（X），YT）[9，61]。[47]基本上解决了minfT，fdLT（fT（fd（X），YT），以联合适应fd和fT，之后作者凭经验验证了fd对LB（定义为人脸识别错误率）的影响这些方法缺乏对隐私预算的明确优化，因此没有保证隐私保护效果。与标准对抗训练的比较（2）和基于标准对抗训练的现有作品[43，38]之间最显着的区别在于对抗性扰动是否被优化用于我们认为后者是必要的，因为它认为通用化能够抑制看不见的隐私泄露。此外，大多数现有作品寻求具有最小人类视觉影响的扰动，例如通过强制执行在像素域上的p范数约束。这显然与我们的目的不一致。事实上，我们的模型可以被看作是最小化的扰动（学习）功能域的目标效用任务。3.2基本框架概述图1描绘了实现所提出的公式（2）的模型架构。它首先将原始视频数据X作为输入，并将其传递通过主动降级模块fd以生成匿名化视频fd（X）。在训练期间，匿名化视频同时经历目标任务模型fT和隐私预测模型fb。所有三个模块，fd，fT和fb，都是可学习的，可以通过神经网络实现。整个模型在LT和LB的混合损失下进行训练。通过从端到端调整整个流水线，fd（X）将找到最佳的特定于任务的变换，对目标任务有利，但对隐私泄露不利，实现隐私保护视觉识别的目标在训练之后，我们可以在本地设备处应用所学习的主动降级（例如，摄像机）以将输入视频转换成其匿名版本，然后将其发送到后端（例如，云）用于目标任务分析。基于对抗训练7min（LT+ γLB）LTLBfT（fd（X））目标任务模匿名视频不fd（Xfb（fd（X））隐私预测模型fb活性降解fdLBLTXB所提出的框架导致一个自适应和端到端的可管理管道的隐私保护vi-共同认可其方法与新兴的特征解缠研究有关[64]。该技术导致因子化潜在表示的非重叠组，每个因子化潜在表示将适当地描述对应于感兴趣的特定属性的信息。在此之前，它被应用于[10，51]和加强-学习[20]。与GAN [16]和其他对抗模型类似，我们的训练容易崩溃和/或局部最小值不好。我们原始视频图1：隐私保护视觉识别的基本对抗训练框架。从而提出了一种精心设计的具有三模块交替更新策略的训练算法，在补充中解释，其可以被解释为三方博弈。原则上，我们努力避免三个模块fd、fT和fb中的任何一个改变fd、fT和fb的选择这三个模块的选择将显著影响性能。正如[47]所指出的，fd可以通过滤波构造为 fd的形式可以是灵活的，并且其输出 fd（X）不必是自然图像。为了简单起见，我们选择fd作为在基于w或k（C_NN）的2-D卷积的滤波器中的“可学习的滤波器”，其中输出fd（X）将是与输入视频帧相同分辨率的2-D特征图。这样的选择仅仅是为了便于构建块的初始连接，fT和fb通常从自然图像上的预训练模型开始。此外，考虑到它将通过（有限带宽）信道被发送到云，fd（X为了保证fd的有效性，需要选择足够强的fT和fb模型，并让它们竞争。我们采用最先进的视频识别CNN用于相应的任务，并使用[61]中提出的鲁棒预训练策略使其适应降级的输入fd（X）。应特别注意预算成本（第二项）细化（2），其中包括“预算挑战”：如果使用自定义细化的C NN结构，如何确定它是“最佳”的虚拟化改进模型？然而，即使我们能够找到一个fd函数，它设法使一个fb模型失败，是否有可能其他一些f′∈ P仍然能够从fd（X）预测Y B，从而泄露隐私？虽然是计算上难以在P上穷尽搜索的，天真的经验解决方案将是选择非常强的隐私预测模型，希望8Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin JinBB能够混淆这个强函数的fD函数也能够欺骗其他可能的函数。然而，所得到的fd（X）仍可能过拟合伪影一个特定的fb，并且不能推广。3.3节将介绍两种更先进可行的配方。LT和LB的选择不失一般性，我们假设目标任务fT和隐私预测fb都是分类模型并输出类别标签。为了优化目标任务性能，LT可以简单地选择为KL散度：KL（fT（fd（X），YT）。选择LB是非标准且棘手的，因为我们需要最小化隐私预算LB（fb（fd（X）），YB）以扩大fb（fd（X））与YB之间的分歧。一个可能的选择是预测的类向量和地面实况标签之间的负KL散度;但是最小化凹函数将导致大量的数值不稳定性（通常是爆炸）。相反，我们使用预测类向量的负熵函数，并将其最小化，以确保“一致性”预测。同时，我们将在初始化时使用YB来确保足够强的fb此外，YB将在模型重新启动中发挥关键作用（见3.3）。3.3应对挑战为了提高学习的fd在所有可能的fb∈ P上的推广（即，任何模型都不能可靠地预测概率），我们在此讨论两个简单且易于实现的选项。其他更复杂的模型重新采样或模型搜索方法，例如，[68]将在今后的工作中加以探讨。预算模型重新启动在训练的某个点（例如，当隐私预算L_B（fb（fd（X）停止进一步减小时，我们用随机权重替换fb中的当前权重这样的随机重新开始旨在避免fb和fd之间的平凡过拟合（即，fd仅专门用于混淆当前fb），而不引起更多参数。然后，我们开始训练新的模型 fb 成为一个强有力的竞争对手， w.r. t 。当前的 fd（X）：具体地，我们冻结fd和fT的训练，并且改变为最小化KL（fb（fd（X）），YB），直到新的fb已经从头开始训练成为当前fd（X）上的强隐私预测模型然后，我们通过解冻fd和fT来恢复对抗训练，并将fb的损失替换回负熵。它可以重复多次。另一种策略提出用一组离散的M个样本函数来近似连续的P。假设预算模型敏感性函数{fi}M，我们转向最小化以下离散surro-门（2）：B i=1min fT，fdL T（f T（f d（X），Y T）+ γ max i∈{1，2，…，M}LB（fi（fd（X）。（ 3）在每次迭代（mini-batch），最小化（3）将仅抑制模型f i而大的LB成本，e. G. ，“最大发现”是关于结果的真实性预测。前面的基本框架是M= 1的（3）集成策略可以很容易地与重新启动相结合。基于对抗训练9不BBB3.4双重评价方案除了训练数据X之外，假设我们有一个评估集Xe，伴随着目标任务标签Ye和隐私注释Ye。我们的评价是T B比经典的视觉识别问题复杂得多。Af-在应用学习的主动降级之后，我们需要在两个方面进行检查(1) 所学习的目标任务模型是否保持令人满意的性能;(2) 任意隐私预测模型的性能是否会恶化。第一个可以遵循标准例程：应用所学习的fd和fT到Xe，并且通过比较fT（fd（Xe））与.是：越高越好。对于第二次评估，如果我们仅观察到学习的fd和fb导致Xe上的差的分类准确性，则显然是不够的，因为挑战。换句话说，fd不仅需要在数据空间中泛化，还需要在w.r. t中泛化。fb模型空间为了实证地验证fb禁止对其他可能的模型进行可靠的隐私预测，我们提出了一个新的过程：我们首先重新采样不同的N个模型的集合{f，j}NP;没有人会bj=1与训练中使用的M个预算模型重叠然后我们各自训练通过以下方式，在降级的训练数据X上预测隐私信息应用所学习的FD，即，最小化f j（f d（X）），j = 1，…，N. 最终我们在Xe应用每个训练的fj和f d，并计算分类精度对于第j个模型。在fd（Xe）上的N个模型中实现的最高准确度（表示为AN）将默认用于指示fd的隐私保护能力：越低越好。4实验我们提出了两个实验的隐私保护行动识别，作为我们提出的一般框架的概念证明。对于目标任务，我们选择基于视频的动作识别，因为它是许多智能家居和智能工作场所中高度要求的功能隐私的定义因上下文而异，我们将研究两种设置：（一）避免当前工作中存在的人员身份泄露;以及（2）避免多个隐私属性的泄漏，例如，在[39]中研究了多个众包属性。我们强调，所提出的框架（2）的一般性可以适应各种各样的目标任务和隐私信息组成。4.1基于SBU的身份保持动作识别SBU Kinect交互数据集[67]是用于基于视频的动作识别的两人交互动作数据集，具有8种类型的动作和注释的13个不同的演员对。我们将动作识别定义为目标任务T，将隐私预算任务B定义为降低同一视频中演员对我们注意到，目标权衡是高度10Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin Jin具有挑战性的实现。如从补充中的第一个表可以看出，演员对识别任务在原始数据集上容易地实现超过98%的准确度，并且即使当帧被下采样28次时也是鲁棒的，而动作识别性能已经开始显著恶化。我们比较以下五种方法：– 方法1（朴素下采样）：在不同的下采样率下使用原始RGB帧。– 方法2（建议不重新启动）：将所提出的对抗性训练应用于RGB帧，使用预算模型集合而无需重新启动。– 方法3（拟定）：将所提出的对抗性训练应用于RGB帧，使用具有重启的预算模型集合。– 方法4：从RGB帧中检测并裁剪出人脸。– 方法5：从RGB帧中检测并裁剪出整个演员身体。方法1遵循[47]，而方法4和5受到[26]的启发。我们将视频序列分割成16帧的组，并将这些帧组用作我们的默认输入数据X。我们使用C3D网络[60]作为默认动作识别模型，即f T.对于fb身份识别模型，我们选择MobileNet [21]来识别每个帧中的演员对，并使用平均池来聚合逐帧预测。主动降级模块fd采用[24]中的图像变换网络。我们选择γ = 2。0来抑制SBU上的身份识别性能我们首先初始化主动降级模块fd作为输入的重构。接下来，我们采用C3D网络的预训练版本并将其与fd连接，并联合训练它们以用于SBU数据集上的动作识别，以初始化fT。然后，我们冻结它们，并开始初始化fb（MobileNet），以执行参与者对识别任务，方法是将其调整为当前训练的fd的输出。实验表明，这样的初始化为后续的对抗训练提供了鲁棒的起点如果采用预算模型重启，则我们将 “ 重新设置”Mobil e Ne t from random i n i n i t i z at i on aft e v e r y 100 i t e r at i ons。系综预算模型的数量M在{1， 2， 4， 6， 8， 10， 12， 14，16， 18}中变化。不同的预算模型可以通过设置MobileNet的不同深度乘数参数[21]来获得评价程序我们将遵循第3.4节中描述的程序，对SBU测试集进行双重评价对于用于隐私保护检查的模型集，我们对N= 10个流行的图像分类CNN进行了采样，其列表可以在补充中找到。其中，8个模型从ImageNet预训练版本开始，包括MobileNet（与训练中使用的版本不同）[21]，ResNet [19]和Inception [55]。为了消除初始化可能会禁止隐私预测的可能性，我们还有意尝试从头开始训练的另外2个模型（随机初始化）。我们没有选择任何非CNN图像分类模型，原因有两个：(1)CNN在重新训练时具有最先进的性能和强大的拟合能力;（2）大多数非CNN图像分类模型依赖于为自然图像设计的有效特征描述符。由于fd（X）/fd（Xe）不再是自然图像，因此此类模型的有效性也处于危险之中基于对抗训练11BBBBBB结果和分析我们在图2中呈现了一种创新的可视化，以易于解释的方式显示动作识别准确度A T和演员对识别准确度A N之间的权衡。两项任务评价的所有准确度编号可参见补充资料。为了阅读该图，请注意，在以下情况下，期望的折衷应招致最小的AT（y轴）损失：10080604020还原AN（X轴）。因此，我们认为，更靠近左上角的点表示更理想的fd模型，该模型实现了更好的权衡，因为它导致更少的效用性能损失（更大的AT）00 20 40 60 80 100演员对准确度图2：SBU数据集上的目标和预算任务同时抑制N个看不见的隐私预测模型中更好的（更小的A/N）。对于方法1，较大的标记（圆圈）大小表示较大的下采样率。对于方法2和3，较大的标记（星形）尺寸表示在集合中使用更多的预算模型（即，较大的M）。方法4和方法5都给出单点。观察结果总结如下：1. 方法2和3在AT和AN之间的更引人注目的权衡方面具有优于朴素下采样（方法1）的明显优势。2. 方法3实现了比方法2好得多的个体模型性能，显示了重新开始在克服过拟合方面的重要性。3. 对于方法3（类似于方法2），将更多的fb模型添加到预算模型集合中（即，增加M）一致地导致点更接近期望的左上方（尽管由训练引起小的随机性结果表明，提出的预算模型集成技术有效地克服了这一挑战，使fd更好地推广到看不见的fbs。4. 方法4和方法5都没有竞争力裁剪面不会这增加了对身份隐私的保护（其A/N几乎与使用未经下采样的原始RGB帧相同），因为体型和服装风格也揭示了大量的身份信息裁剪身体不仅会删除身份信息，而且会使动作识别性能变差。简而言之，方法3（所提出的，具有重新启动和系综两者）能够在SBU上实现最引人注目的结果，在AT= 82.3%时最好（M= 18）。和n= 41.8%，而不依赖于额外的硬件（例如，深度相机）。一在图4中可以找到学习的 fd（X）的几个可视化示例。4.2保护UCF-101/VISPR问题设置UCF101数据集[54]是一个更具挑战性的动作识别基准，具有101个不同的动作类和比方法1方法2方法3方法4方法5动作准确度12Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin JinSBU新发布的视觉隐私（VISPR）数据集[39]是22，167张图像的集合，注释了68个隐私属性，例如半裸体、爱好、面孔、种族、性别、肤色等等。两者都不能单独用于我们的对抗训练，因为两个数据集都没有竞争任务/标签对。然而，我们展示了联合利用UCF 101和VISPR来训练一个fd函数的可能性，这样它就可以通过一种新的跨数据集训练和评估策略，同时实现有效的动作识别（如在UCF-101上测量的交叉数据集训练和评估fd和fT与SBU相同。对于多隐私属性预测任务的fb，我们采用来自{ResNet-V1-50，ResNet-V2-50，MobileNet-1.0，MobileNet- 0.75}的预算模型，并改变{1， 2， 3， 4}中的M的数量。它们使用具有S形激活的多标签分类损失进行训练，与[39]相同。γ被选择为0.5.而不是识别准确性，多隐私属性预测通过基于类别的平均平均精度（C-MAP）来评估，其定义可以参考[39]。主要的问题是T和B在同一数据集上的不可用性：由于UCF-101没有注释隐私属性，我们不能直接执行对抗训练并评估其隐私保护;VISPR也是如此。我们注意到[39]在VISPR上训练模型成为一般图像的隐私预测器。我们还在视觉上观察到VISPR模型可以正确地检测UCF-101视频中出现的隐私属性（补充中的示例）。因此，我们假设隐私属性在UCF- 101和VISPR之间具有良好的“传输可靠性”，并且使用在VISPR上训练的我们没有使用[ 39]中的所有68个属性，而是发现其中许多属性很少出现在UCF-101中（见补充资料）。因此，我们在这里创建了两个子集用于训练和评估预算模型：一个VISPR-17集由UCF-101中出现最多的17个属性及其在VISPR中的相关图像组成;另一个VISPR-7集合进一步是VISPR-17子集，其包括智能家居设置中最常见的17个隐私属性中的7个它们的属性列表在补充资料中。在培训过程中，我们有两个管道：一个是在UCF-101上训练的fd+fT，用于动作识别;另一种是在VISPR上训练的f-d+ f-b，以抑制多隐私属性预测。这两条管线共享相同的fd参数。初始化和交替训练策略与SBU保持不变。在评估期间，我们执行双重评估的第一部分，例如，动作识别，UCF-101测试集。然后，我们使用VISPR-17/7测试集来评估N模型检查在隐私保护这种跨数据集训练和评估为训练隐私保护识别模型提供了新的可能性，即使在已经针对两个任务注释的数据集的实际短缺的情况下。结果和分析我们选择方法1、2和3进行比较，定义与SBU相同。所有的定量结果，以及可视化的基于对抗训练13图3：UCF-101/VISPR数据集上的性能权衡。左边的是VISPR-17，右边的是VISPR-7。fd（X），见补充资料。类似于SBU的情况，简单地对视频帧进行下采样（即使在我们尝试的超分辨率的帮助下）也不会导致动作识别（在UCF-101处）和隐私预测抑制（在VISPR处）之间的任何竞争性权衡如图3所示，我们提出的对抗性训练再次导致VISPR-17和VISPR-7更有利的权衡，主要结论与SBU一致：集成和重新启动都有助于更好地概括隐私泄露。5限制和讨论如一位匿名评论者所指出的，避免将视觉隐私泄露到云的可能替代方案是完全在本地设备处执行动作识别相比之下，我们提出的解决方案的动机至少有三个方面：i) 对于单个实用程序任务（不仅仅限于动作识别），在设备上运行fd比完整的fT更紧凑和高效。例如，我们的fT模型（11层C3D网络）具有超过7000万个参数，而fd是具有130万个参数的更紧凑的3层CNN。在推断时，在SBU测试集上运行fT的总时间成本是运行fd的45倍。它还便于升级到更复杂的fT模型; ii）智能家居场景要求对多个实用任务（计算机视觉功能）的可扩展性。将所有实用新型装载在装置中是不经济的。相反，我们可以训练一个fd与多个实用模型一起工作，并且仅在设备处存储和运行fd。通过对fd（X）进行训练，可以在云中添加更多的实用模型（如果与隐私没有重叠）; iii）我们进一步指出，所提出的方法可以进一步具有智能家居之外的更广泛的实际应用范围，例如，去识别数据共享。目前的试点研究在许多方面都是初步的，并且在实现实用性之前有很大的性能改进空间第一，定义14Zhenyu Wu，Zhangyang Wang，Zhaowen Wang，Hailin Jin来自UCF-101的原始RGB帧（标签：推）方法2，M=1方法2，M=4方法2，M=8方法2，M=14方法3，M=1方法3，M=4方法3，M=8方法3，M=14图4：在SBU上应用学习到的降级之后的示例帧。B和LB是框架的核心。考虑到挑战，当前预算模型集合是P的粗略离散化近似。更优雅的方法来解决这个问题，可以在通用隐私保护方面取得进一步突破第二，对抗训练是众所周知的困难和不稳定。改进的训练技巧，如[48]，将是有用的。第三，缺乏相关的基准数据集，T和B都被适当地定义，已经成为瓶颈。我们看到，更具体和精确的隐私定义，如VISPR属性，当然可以导致更好的功能分解和T-B性能权衡。目前的跨数据集训练和评估部分缓解了专用数据集的缺乏然而，两个数据集之间不可避免我们计划参考众包来识别和注释与隐私相关的属性对现有的行动识别或其他基准，我们希望可以帮助推动这一研究方向。基于对抗训练15引用1. Martin Abadi，Andy Chu，Ian Goodfellow，H Brendan McMahan，Ilya Mironov，Kunal Talwar，and Li Zhang.深度学习与差分隐私在2016年ACM SIGSAC计算机和通信安全会议的会议记录中，第308- 318页。 ACM，2016.2. Moez Baccouche 、 Franck Mamalet 、 Christian Wolf 、 Christophe Garcia 和 AtillaBaskurt 。用于人类动作识别的顺序深度学习。 InInternationalWorkshoponHummanBehasviorrUnderstanding ，第 29- 39 页。Springger，2011。3. Daniel J Butler，Justin Huang，Franziska Roesner，and Maya Cakmak. 远程遥控机器人的隐私 - 效用权衡。在 ProceedingsoftheTenthAn-nualACM/IObotInternationConfernceonHumaman-RobotInteration，第 27- 34页ACM，2015.4. Ankur Chattopadhyay 和 Terrance E Boult 。 Privacycam ：在 blackfin dsp 上使用uclinux 在Computer Vision and Pattern Recog-nition，2007中。 CVPR' 07。I。 IEEE，2007年。5. Chen Chen，Roozbeh Jafari，and Nasser Kehtarnavaz. 使用基于深度运动图的局部二进制模式从深度序列识别动作。在计算机视觉应用（WACV）中，2015年IEEE冬季会议，第1092 - 1099页。2015年，我在纽约。6. Jiawei Chen，Jonathan Wu，Janusz Konrad，and Prakash Ishwar.用于极低分辨率下动作识别的半耦合双流融合卷积网络。arXiv 预印本 arXiv ：1610.03898，2016年。7. Bowen Cheng，Zhangyang Wang，Zhaobin Zhang，Zhu Li，Ding Liu，JianchaoYang，Shuai Huang，and Thomas S Huang.来自低质量和低比特率视频的鲁棒情感识别：深度学习方法。情感计算和智能交互（ACII），2017年第七届国际会议，第65 - 70页。 IEEE，2017年。8. 格雷厄姆·科莫德个人隐私vs人口隐私：学习攻击匿名化。arXiv预印本arXiv：1011.2511，2010。9. Ji Dai，Behrouz Saghafi，Jonathan Wu，Janusz Konrad，and Prakash Ishwar. 为了保护隐私，承认人类活动。在图像处理（ICIP）中，2015年《图像处理》，第4238- 4242页。 IE E E，2015.10. Guillaume Desjardins，Aaron Courville，and Yoshua Bengio. 解缠因素通过生成纠缠来产生变异arXiv预印本arXiv：1210.5474，2012。11. 雍都、魏王、梁王。基于骨架的动作识别的层次递归神经网络在Proceedingsof the IEEE conference oncomputervis i sionandpatternrecognit i tion，第1110 -1118页，2015年。12. 辛西娅·德沃克。差异隐私：对结果的调查。在国际会议上，Computat 2008年春季13. Zekeriya Erkin、Martin Franz、Jorge Guajardo、Stefan Katzenbeisser、Inald La-gendijk和Tomas Toft。隐私保护人脸识别。隐私增强技术研讨会国际研讨会，2009年。14. Farhad Farokhi和Henrik Sandberg。Fisher信息作为价格的衡量标准：使用电池的智能电表保护家庭隐私。IEEE Transactions on Smart Grid，2017。15. C l'emntGodard，O isinMacAodha，andGabrielJBrostow. 不支持的是具有左右一致性的动态深度估计。在CVPR，第2卷，第7页，2017年。16Zhenyu Wu，Zhangyang Wang，Zhao

下载后可阅读完整内容，剩余1页未读，立即下载