没有合适的资源?快使用搜索试试~ 我知道了~
学习隐私保护光学:用于人体姿态估计的方法
2573用于人体姿态估计的学习隐私保护光学Carlos Hinojosa1,Juan Carlos Niebles2,HenryArguello11桑坦德工业大学2斯坦福大学https://carloshinojosa.me/project/privacy-hpe/图1:标准摄像机从场景中获取可能导致隐私问题的视觉细节。在这项工作中,我们建议学习隐私保护光学执行人体姿态估计(HPE)。我们的优化镜头采用了几个光学像差,降低图像隐藏私人的视觉细节,同时它仍然捕获足够的视觉信息来执行人体姿态估计。摘要在我们的日常生活中,始终连接的数码相机的广泛使用如何开发保护隐私的计算机视觉系统?特别是,我们希望防止摄像头获取可能包含隐私信息的详细视觉数据。然而,我们也希望相机能够捕获有用的信息来执行计算机视觉任务。受联合设计光学器件和算法的趋势的启发,我们通过在端到端框架中优化具有软件解码器(卷积神经网络)我们在我们的光学编码器中引入了视觉隐私保护层,该光学编码器适当地参数化,使得能够优化相机镜头的点扩散函数(PSF)。我们验证我们的方法与广泛的模拟和原型相机。我们表明,我们的隐私保护深度光学方法成功地降低或抑制私人属性,同时保持重要的功能,以执行人体姿态估计。1. 介绍如今,摄像机无处不在,无处不在:我们的智能手机、汽车、家庭和城市里都有它们。从这些设备收集的大量数据使得能够使用基于计算机视觉的技术实现无数应用我们在日常生活中遇到了这些技术。在医院,视觉传感器已经带来了环境智能:对人的存在敏感和响应的物理空间。在这种情况下,可视化系统可实现更高效的临床工作流程,并改善重症监护病房和手术室的患者安全[15]。在游戏的上下文中,相机设备使用动作和手势识别来创建交互式游戏体验[44,50]。然而,随着所有这些相机在始终连接的数字世界中收集图像,提出了一个巨大的挑战:如何开发保护隐私的计算机视觉系统?具体地,我们希望防止相机系统获得包含私人信息(诸如面部)的详细视觉数据,期望地在硬件级别。同时,我们希望系统能够捕获有用的信息,从而能够理解周围的物体和正在发生的事件。几十年来,相机一直被设计成模仿人类视觉系统。一旦光学系统被固定,我们使用相机来获取多个高保真图像。然后,我们调整计算机视觉算法,以优化其在特定任务中的准确性。大多数计算机视觉应用,甚至隐私保护方法,都依赖于这样的传统数字成像系统。例如,可以检测隐私敏感的日常情况,并使用机械快门启用或禁用眼动仪然而,这种方法对由传统相机获取的高分辨率视频执行软件级处理,所述高分辨率视频可能已经包含可能在攻击中暴露的隐私敏感数据。代替使用传统的相机来获取数据,然后使用软件级处理来保持隐私,更好的想法将是设计一种相机,其直接消除敏感数据,同时仍然获得针对给定任务的有用信息。最近,由于各种软件和硬件的进步,整个系统(相机2574域特定的计算相机[8,24,41,18]。在文献中,域特定计算相机的端到端优化被称为深度光学。这一领域的现有工作旨在改进光学元件以获取高分辨率/高保真度图像,并同时改进计算机视觉算法的性能。在这里,我们有兴趣将这种理念扩展到设计隐私保护光学系统。在本文中,我们设计了一个隐私保护的计算相机通过端到端的优化捕获有用的信息,感知场景中的人,同时隐藏隐私敏感信息。由于许多计算机视觉应用程序需要分析人类作为其框架中的第一步,因此我们有兴趣联合优化自由曲面透镜(透镜的空间变化表面高度)以及人类姿态估计(HPE)网络,以开发隐私保护HPE系统。我们的工作贡献如下:(i)我们引入了隐私保护的端到端优化框架,以从场景中提取有用的信息,但防止成像系统获得详细的和隐私敏感的视觉数据。(ii)使用我们的端到端优化框架,我们优化了具有软件解码器(卷积神经网络)的光学编码器我们共同优化相机镜头的光学元件我们表明,没有必要重新训练HPE网络层来实现隐私保护。(iii)我们对COCO数据集进行了大量模拟,以验证我们为HPE提出的隐私保护深度光学方法。(iv)我们构建了概念验证光学系统。我们在硬件上的实验结果与模拟结果相匹配。原则上,我们的主要目标是展示深度光学启发方法的益处设计光学系统镜头,降低成像质量,模糊敏感的私人信息,这与传统的提高成像质量的方法相反。我们不打算开发新的HPE网络。相反,我们使用设计的光学器件向已经训练好的慧与网络添加了一个视觉隐私保护层,并对骨干层进行了微调我们的实验表明,有一个折衷之间获得的场景退化和HPE精度。2. 相关工作当前用于人类姿态估计(HPE)的计算机视觉算法不考虑隐私并且依赖于高分辨率图像。大多数现有的隐私保护计算机视觉方法解决动作识别任务,而隐私保护HPE尚未被广泛探索。人体姿态估计。有多种方法可以解决多人HPE问题。再-目前,卷积网络[28,32,45,46,47,48]已经显示出优于诸如概率图形模型或图形结构[33,54,55]的现有方法的性能 一般来说,存在两种广泛使用的用于解决多人HPE问题的方法[31]:自下而上,其中首先预测身体关键点,然后将其分组为人实例[49,53];以及自上而下,其中首先检测人体,然后对于每个检测到的身体,经由单人姿势估计获得关节。在自下而上的代表性作品中,OpenPose架构[5]建议使用部分亲和字段链接可能位于同一个人的关键点。我们在OpenPose模型的基础上构建了保护隐私的HPE方法。隐私保护计算机视觉。 我们将先前的工作分为软件级和硬件级保护。后者被认为对攻击更鲁棒。软件级隐私保护。大多数现有的隐私保护计算机视觉方法在已经获取高保真图像之后操作;因此,它们仅提供软件级隐私保护。这些方法依赖于领域知识和手工制作的方法,例如像素化,模糊和面部/对象替换,以保护敏感信息[1,9,30]。当我们提前知道在场景中要保护什么时,这在实际设置中可能是有用的最近的工作提出了一种更通用的方法,通过对抗训练来学习隐私保护编码[4,34,52]。他们积极地学习降低或抑制私人属性,同时保持重要的功能来执行推理任务。遗憾的是,之前没有针对慧与的软件级隐私保护工作最接近的作品研究人类跌倒检测[2]和身体姿势[12]。虽然这些软件级方法在最终应用中保护隐私,但是所获取的图像仍然不保护隐私。硬件级隐私保护。硬件级隐私保护方法依赖于光学系统,以通过在图像采集期间移除敏感数据来添加安全层。先前的工作使用低分辨率相机来捕获视频并避免人类受试者的身份信息的不希望的泄漏[37,38]。还可以选择散焦模糊,以在传感器尺寸限制内的工作区域上提供一定程度的隐私[35,36];然而,仅使用光学散焦进行隐私可能会受到逆向工程的影响,如我们将在第4.第一章最近,编码孔径相机被用于从编码测量直接执行人类动作识别,而不需要作为中间步骤的图像恢复[51]。关于隐私保护HPE的唯一先前工作使用低分辨率深度图像作为端到端框架的输入,该框架将多尺度超分辨率网络与2D HPE网络集成在一起[42]。所有这些方法都假设攻击者无法访问硬件。我们2575光学编码器传感器噪声传感器图像CNN解码器骨干网C人体姿态估计网络卷积*CCCC拟议损失相位、振幅掩模薄透镜透镜传感器表面轮廓自由空间传播点源D1D2向前传球向后传递微调图层冻结图层人脸特征身体特征输出位姿估计关键点检测主体面CCCC CCC CC图2:我们提出的端到端框架。光学编码器由一个带有凸薄透镜的摄像机和一个附加的折射光学元件组成。我们通过共同优化光学器件(通过直接在自由曲面透镜表面上添加像差)和微调骨干网络的一些层,同时保持人体姿势估计网络冻结来实现隐私保护提出硬件级隐私保护HPE框架:我们利用Deep optics设计了一款光学镜头,在支持HPE的同时,可以隐藏隐私信息。深度光学传统上,光学系统和图像处理算法是分开开发的。首先,配置并固定光学元件;其次,调整图像处理算法中的参数以执行特定任务[26]。最近,想法联合优化光学系统和图像处理算法的方法引起了广泛的关注,被称为深度光学[41]。这个想法已经在彩色成像和去马赛克[6]、扩展景深和超分辨率成像[41]、单目深度成像[8,16]、图像分类[7]、延时光成像[23]、高动态范围成像[24]和计算显微镜[17,27]中取得了成功。他们的理念是通过提高图像质量来改善计算机视觉算法的性能。我们引入了一种完全相反的方法:我们设计的光学元件可以降低图像质量并模糊隐私信息,同时仍然支持HPE。3. 隐私保护的姿态估计我们感兴趣的隐私保护人类姿势估计任务。我们的总体策略是联合优化相机光学器件和人体姿态估计网络,以通过图像退化来实现隐私保护。关键的想法是,我们可以修改相机镜头,以降低图像在这样一种方式,即主体的身份在保留用于姿态估计的重要特征的同时被遮蔽。为了实现这一点,我们引入了图2中描述的端到端框架。我们的方法有两个关键组成部分:光学编码器(第3.1节)和CNN解码器(第3.2节)。光学编码器模块被适当地参数化以允许学习相机镜头。CNN解码器在我们的光学退化图像上执行人体姿势估计的任务。在训练过程中,我们联合优化这两个模块,以获得我们的隐私保护姿态估计系统。培训过程的结果是双重的:相机镜头参数etersα*和用于姿态估计的卷积网络h*。为了实现这一点,我们可以制定一个学习的损失函数,它结合了我们的两个目标:α*,h*= arg min L T(h)+L P(α).(一)α,h其中,LT是姿态估计任务的损失函数,并且LP是鼓励隐私保护的损失函数。在推理过程中,我们可以通过使用最佳参数α*构建摄像头镜头来在硬件中部署我们的系统,该摄像头镜头获取退化图像,我们的网络h*可以在这些图像上执行姿势估计。还可以通过实现图像采集后的降级来将不太安全的系统部署为仅软件的解决方案。本节的其余部分描述我们的框架的细节。3.1. 光学编码器图2中的光学编码器模块负责我们的隐私保护人体姿势估计(HPE)系统中的图像采集过程。如前所述,我们的隐私保护策略是在训练期间修改相机的光学系统。目标是产生在视觉上模糊个人身份但仍保留用于姿态估计的重要特征的图像我们通过采用深度光学理念来实现这一目标:我们使用端到端培训方法来联合优化相机光学和慧与网络。然而,我们的动机与现有的深度光学器件[24,41]不同:我们希望通过直接在薄透镜(自由曲面透镜)的表面上添加光学像差而不是去除它们来优化相机光学器件此外,与现有的深度光学方法不同,我们不执行图像重建,而是直接使用所采集的低质量图像。实现这种端到端学习的关键是适当地参数化相机镜头,以便我们可以执行反向传播。注意,用于优化相机光学器件的训练信号将从隐私传感器反向传播保持损失LP(α)(3.3节)。我们的参数化有三个关键部分:透镜表面轮廓,我们用泽尼克系数α表示,2576+×个∈·Σ,,2Fj=1. √ΣΣ√Σ对应点扩散函数(PSF)H。首先,我们通过下面的图像形成模型描述和H之间的关系。然后,我们介绍了根据泽尼克多项式的系数α的图像形成模型。我们推导出自然场景的基于波的图像形成模型,以根据来写PSFH,假设空间非相干光。类似于最近关于端到端相机设计的工作[7,41],我们使用可微分傅立叶光学模型[13]对相机中的光传输进行图2描绘了我们的光学系统,其由具有表面轮廓的定制折射光学元件附加件的凸薄透镜组成。类似于照相滤光器,这种光学元件直接安装在镜头前面。相机系 统 对 点 光 源 的 响 应 由 透 镜 创 建 的 点 扩 散 函 数(PSF)描述感测过程可以被建模为场景和PSF之间的2D卷积运算,如y=g(H*x)+η,(2)其中xRw×h是场景,并且它被表示为具有w h个像素的离散彩色图像,并且每个像素具有[0,1]中的值;η表示传感器中的高斯噪声,并且g()是相机响应函数,我们假设其为线性。耳朵该模型还假设PSF是平移不变的,但是该模型可以被推广。假设薄透镜在距离处具有焦距f具有输入电场的有源光学元件和透镜U~ (x,y)=A(x,y)ttl(x,y)U(x,y)。(6)最后,场以精确的传递函数[13]传播距离d2到传感器:Td2(fx,fy)=expikd21−(λfx)2−(λfy)2,(7)其中(fx,fy)是空间频率。该传递函数在傅立叶域中被应用为:U¯(x′,y′)=F −1 FU~(x,y)·Td(fx,fy),(8)其中表示2D傅里叶变换。由于传感器测量光强度,我们采用幅度平方来找到每个位置(x,y)处的PSFH的值,如下:H(x′,y′)=|U¯(x′,y′)|二、(九)镜头参数化。我们用Zernike基对透镜表面轮廓进行参数化,这导致更平滑的表面,如Q=αjZj,(10)j=1其中Zj是Noll符号中的第j个Zernike多项式,并且αj是相应的系数[3]。每个泽尼克多项式描述波前像差;因此表面轮廓由所有像差的线性组合形成。在这方面,由α参数化的光学元件可以被视为光学编码器,其中系数αj确定数据变换。因此,不同于常见的深光学方法,我们的端到端光学方法是一种新的方法。从传感器的距离d2,距离d2之间的关系结束训练找到一组系数α*={αj}q,近轴光线近似中的焦距和传感器距离由薄透镜方程给出:1/f= 1/d1+ 1/d2。因此,在镜头前方距离d1处的物体在镜头后方距离d2处出现在焦点上。假设场景是在光学无限远,我们首先propa-门的点发出的光,表示为球面波,透镜。紧接着透镜之前的复值波场由下式给出:U ( x , y ) =expikx2+y2+z2、(3)其中k= 2π/λ是波数。折射光学元件首先将该入射波前的相位延迟与光学元件在每个点(x,y)处的表面轮廓λ成比例的量。等效地,光学元件可以由以下形式的乘法相位变换表示:t( x , y ) =exp ( ik( n( λ) -1 ) ( x ,y)),(4)其中n(λ)是光学元件材料的波长相关折射率。光波继续传播到相机镜头,这会引发以下相变[13]t(x,y)=exp∫−ik(x2+y2),.(五)2577×个提供场景的最大视觉失真,但允许提取相关特征以执行HPE。3.2. CNN解码器为了执行HPE,我们使用OpenPose网络架构[5]。OpenPose网络由VGG-19[40]骨干和卷积层的两个分支。主干网络从大小为w/h的图像中提取特征,然后将其馈送到两个分支中。一个分支预测一组置信度图,其中每个图表示特定的身体部位位置;第二分支预测一组部件相似性字段(PAF),其中每个字段表示部件之间的关联程度。执行连续的阶段以细化由每个分支做出的预测。最后,通过贪婪推断来解析置信图和PAF,以产生图像中每个人的身体关键点的2D位置[5]。HPE损失函数LT。OpenPose损失账户以改进图像中的人体姿势估计。 令S ={S1,S2,···,SE}为置信度映射集,其中每个映射Se∈Rw×hrep-l2f表示特定关键点位置,e ∈ {1,...,E}。似-考虑到透镜具有有限的孔径尺寸,我们使用具有直径D的二元圆形掩模A(x,y)来对孔径进行建模并阻挡开口外部区域中的光。为了找到透镜之后的电场,我们将折射率的振幅和相位调制设V ={V1,V2,···,VC}为PAF的集合,其中每个仿射域 Vc∈ Rw×h×2 表示关键点之间的关联 度, c ∈{1,···,C}.我们将置信度图分割为S={SB,SF},其中SB S包含身体关键点的图Se,并且2578V VV VV {V V}SS||| |ΣΣ×个SV2ΣΣΣδ值×个δ值2E2BB 2ΣΣ包含用于面部关键点位置的映射Se。类似地,我们将PAF分割为=B,F,其中B包含身体肢体的亲和场V。,并且F包含表示两个面部部分之间的关联程度的亲和场V。。我们定义在阶段τ处的关键点X的子集的损失函数是|χ|Fτ(χ)=B(p)·χτ(p)−χ*(p)2(11)δ=1p微调我们有兴趣在预训练的OpenPose网络中添加隐私保护层。因此,为了执行训练,我们假设一个无像差的自由曲面镜头,并使用OpenPose [22]的Tensorflow实现的预训练权重作为起点。在使用预训练的权重初始化之后,我们冻结OpenPose的两个分支,只微调OpenPose的一些层。VGG-19主干具有较低的学习率其中X是子集中的关键点的数量。例如,如果X=B,则X将是身体相关置信图的总数。 B是一个二进制掩码,当在pi x elp处注释缺失时,B(p)= 0,并且χ*δ对地面实况进行注释。那么,整体OpenPoseLT在从所述私人图像y中提取人体特征。图2示出了冻结层和微调层。训练在训练期间,我们首先通过将来自训练集的图像与PSF H进行卷积来执行一次通过网络的前向传递,以获得光学编码的传感器图像y,如等式(1)所述。二、下一篇:VGG-Γ1LT=Fτ(VB)+Fτ(VF)+τ=1Γ1+Γ2τ=Γ1+1Fτ(SB)+Fτ(SF),(12)19主干从y中提取特征,然后将特征馈送到OpenPose架构的两个分支中。其中Γ1和Γ2分别表示PAF和置信图阶段的总和3.3. 隐私保护损失函数L_P定义隐私保护损失函数不是一项简单的任务,并且定义将取决于具体的应用上下文。 有各种与隐私相关的属性,如面部,种族,性别或年龄[29]。然而,在保护隐私的视觉任务中,面部是我们想要模糊的主要属性因此,我们定义的隐私保护损失,考虑到在图像中的人脸关键点检测。原则上,我们对获得面部关键点的准确定位不感兴趣,并且我们希望从图像中模糊这样的面部区域。然后,我们只想保留身体关键点,并让端到端训练降低所有图像为了进一步加强图像退化,我们最大化了原始图像x和采集图像y,定义为L=Σ1y−x,(13)B现在,我们将置信度图和PAF分成身体相关和面部相关特征,如第3.2节所述,并计算等式2中描述的损失。十五岁在计算L之后,我们使用Tensorflow的自动微分功能来反向传播误差并更新VGG-19主干的参数和使用等式(1)对透镜的表面轮廓进行建模的系数αj10个。我们使用Adam优化器训练了端到端模型批量大小为22,初始学习率为2 10- 5。 我们应用了指数学习率衰减,衰减因子为0。在一些实施例中,在15K、20K、25K、28K和35K训练步骤之后触发的训练步骤666中的一个或多个我们对网络进行了5万步的训练(梯度更新), 在32 GB内存的 Tesla V100-SXM 2GPU上耗时约24小时。4. 实验结果我们工作的目标是保护隐私的姿态估计,因此评估人类姿态估计(HPE)任务的性能以及隐私保护水平我们按照标准做法评估HPE。评估优先-其中下标b表示RGB的色带图像. 我们将隐私保护损失函数定义为vacy保护,我们使用两个间接代理:图像退化数据和面部识别。我们的实验是Γ1LP=−Fτ(VF)−τ=1Γ1+Γ2τ=Γ1+1Fτ(SF)− β2LE.(十四)我们的框架的两个实现:一个纯软件的模拟和在实验室中构建的硬件原型。最后,考虑Eq。1,我们计算我们提出的框架结束时的总损失,如下所示数据集、指标和评估方法。我们在COCO [21] 2017. ΣΓ1L=LT+L P=β1Γ1+Γ2ΣFτ(VB)+Fτ(SB)关键点数据集并在val2017上评估我们的方法集为了定量评估HPE,我们使用标准τ=13.4.培训详细信息τ=Γ1+ 1标准COCO评估指标:对象关键点相似性(OKS)[21]。由于我们的目的是保护隐私,我们光学层模拟。我们模拟了一个像素大小为3的传感器。40µm,分辨率为864 864像素。我们使用Noll符号中的前q=350个Zernike系数来形成表面轮廓。第四泽尼克系数(散焦项)被初始化,使得透镜具有fo-f。f的校准长度=25mm。 光学元件用3. 864×864网格上的40µm特征尺寸−β 2 LE。(十五)2579期望面部关键点的估计降级,而我们希望在身体关键点的估计上保持良好的性能为了进行公平的比较,我们稍微修改了COCO评估脚本,不考虑面部关键点。 我们报告标准平均精确度(AP)和召回率(AR)分数:AP、AP50、AP75、AP M(中等对象)、APL(大对象)和AR。测量图像25801 .一、00的情况。80的情况。61 .一、00的情况。80的情况。60的情况。40的情况。30的情况。2P约束上2LLP1LP0510152025303540四十五五十以及失真图像y。更多详情请参见补充材料第2节图3示出了通过利用三种隐私保护损失中的每一种(每一种以不同的颜色)进行训练而获得的性能与训练步骤。绩效从三个角度进行衡量:面部识别AUC、HPE AP和图像退化SSIM。我们用虚线示出了每个度量的上界。在LFW数据集上计算面部识别AUC。为此,对于每个使用特定隐私丢失训练的隐私保护HPE模型,我们首先生成一个训练步骤×103图3:实验一不同隐私的比较保存损失。所提出的使用不同损耗的端到端框架的性能用不同的颜色描绘图4:实验II。使用我们优化的镜头获取的图像的面部识别性能为了评估退化,我们使用峰值信噪比(PSNR)和结构相似性指数度量(SSIM)[19]。PSNR或SSIM的大值指示高质量。因此,我们期望实现最小PSNR或SSIM值,同时在人体姿势关键点上实现高AP。我们报告来自验证集的所有图像的平均PSNR和SSIM。最后,我们使用人脸识别网络ArcFace [10]的实现来衡量隐私。我 们 在 Microsoft Celeb ( MS-Celeb-1 M ) 上 训 练ArcFace [14],并在LFW [20],AgeDB-30[25]和CFP-FP[39]上进行测试我们衡量人脸识别性能的ROC曲线的曲线下面积(AUC)。4.1.仿真实验消融研究。我们进行了五个消融实验,并调查我们的架构不同的配置实验I探讨了隐私保护损失LP的两种替代制剂。我们将此类损失定义为:Celeb-1 M数据集并训练ArcFace模型--这相当于一种攻击,可以获得用我们的相机获取的一组带我们不从头开始训练ArcFace;相反,我们加载预训练的权重,并使用“私有”集微调模型。 我们观察到L P1产生高度失真的图像,并且人脸识别性能很差;然而,与其他损耗相比,HPE AP是最低的。L P2获得了最好的HPE性能,但图像失真下降缓慢,在25 K训练步数后似乎趋于稳定;因此,面部识别实现了不期望的良好性能。我们提出的隐私保护损失LP实现了良好的HPE结果和低的人脸识别性能。在实验II中,我们测试了使用我们提出的隐私保护镜头在LFW和AgeDB-30数据集上获取的图像上的人脸识别性能。 图4显示了每种测试方法的ROC曲线:“无隐私模型”在原始图像上使用预训练的ArcFace模型;“预训练模型”在每个数据集的私有版本上使用预训练的Ar-cFace模型;“训练模型”使用使用MS-Celeb-1M数据集的私有版本从头开始训练的ArcFace模型;“微调模型”使用用MS-Celeb-1M数据集的私有版本微调的预训练的ArcFace模型。如所观察到的,与其他测试方法相比,微调模型在LFW数据集上表现最好。然而,对于所有测试方法,ArcFace模型的性能与AgeDB-30数据集上的随机分类器相似。ArcFace模型在由我们提出的透镜设计生成的图像上表现不佳。参见补充资料中CFP-FP数据集的结果。在实验III中,我们针对q=350泽尔尼克系数进行优化,并且不微调HPE骨干层。Ta-HPE AP面部识别SSIM2581.ΣΣΣΣ·LP1=−β3Γ1τ=1Fτ(VF)−Γ1+Γ2τ=Γ1+1Fτ(SF)Σ-β2LE(十六)表1示出了优化没有收敛到最佳点;因此网络不能估计姿态Γ1LP2=−Fτ(VF)−τ=1其中β3>1,Γ1+Γ2τ=Γ1+1Fτ(SF)−β4LF,(17)在退化的图像中,即使在几个训练步骤之后。在训练之后,我们获得11.452的平均PSNR和11.452的SSIM。0.496.在实验IV中,我们将泽尼克系数的数量固定为q=350,并微调前10、20和40个Lf=Simcos ( af(x), af(y)),( 18)Sim cos表示余弦相似性, f()表示ArcFace 模型[10]。为了计算LF,我们在从输入图像x提取的面部上使用预训练的ArcFace模型。VGG-19骨架的层微调前20个层导致AP中的最佳结果,同时实现低PSNR和SSIM值。在实验V中,我们在网络中固定要微调的层,并使用不同的2582层×个实验微调Zernike系数PSNRSSIM APIII无微调350 11.4520.496-10 350 14.5980.5650.263四2035014.8510.5670.30240 350 14.5770.5620.25120 15 16.6920.5820.168个单位电话:+86-21- 6666668传真:+86-21 -66666660.5790.23120 150 16.1420.5710.258表1:使用OpenPose网络在COCO val2017数据集上对我们的方法的消融研究。以粗体示出的配置导致在图像退化和AP方面的最佳结果方法PSNR SSIMAPAP50AP75APMAPLAROPPS [5]--0.421 0.655 0.439离焦镜头[35]16.614 0.5980.197 0.432 0.155低分辨率[38]18.540.4762019 - 06 - 22 00:00:00PP-OPPS(我们的)14.851 0.5670.302 0.555 0.266 0.276表2:COCO验证集的比较。我们将我们的方法与两种传统的隐私保护方法进行比较:散焦和低分辨率相机。PP前缀代表我们提出的隐私保护方法。Zernike系数的数量。增加Zernike系数的数目导致更好的编码;因此AP增大而PSNR和SSIM减小。然而,内存消耗也线性增加,因为我们需要存储所有的Zernike基。在下面的实验中,我们使用表1中的最佳配置(以粗体显示)。与其他方法的比较。隐私保护HPE方法在文献中没有得到很好的探索因此,为了比较我们的方法,我们采用了使用低分辨率相机[38]和具有散焦镜头的相机[35]的想法来提供视觉隐私保护。我们模拟了两种类型的摄像头,修复了光学器件,使镜头在学习过程中不被优化,并对HPE骨干网络的前20个可训练层进行了微调,类似于我们提出的方法。为了实现低分辨率的方法,我们使用的图像的分辨率为32 - 32。我们将我 们 的 方 法 与 OpenPose ( OPPS ) [5] 架 构 [22] 的Tensorflow实现进行了比较。表2报告了COCO关键点评估结果以及来自COCO验证集的所有图像中的PSNR和SSIM图像质量度量的平均值。在表中,PP-OPPS代表我们提出的OPPS隐私保护方法。简单散焦透镜实现0的AP。197在低质量图像上,平均峰值信噪比为16。614和0的SSIM。598我们提出的优化透镜导致更好的结果,因为它比散焦透镜方法向光学系统增加了更多的像差,散焦透镜方法仅包含一个像差(散焦)。低分辨率方法不能很好地与我们提出的端到端训练方法一起工作,因为它导致较低的平均SSIM值和关键点AP方面的最低性能。有关使用其他慧与网络的结果,请参阅我们的补充资料。去卷积的鲁棒性。 我们调查了-图5:示例COCO图像的定性结果。我们比较我们提出的隐私保护姿态估计结果使用优化的镜头与非隐私的方法,使用标准镜头。最后一列描述了一个失败的案例,我们无法估计远处的人的姿势。我们提出的透镜设计对去卷积攻击的鲁棒性。在最坏的情况下,我们假设攻击者知道形成表面轮廓的泽尼克系数的集合,即,PSF是已知。然后,攻击者可以执行非盲解卷积以揭示场景内的人的身份。图6展示了我们的结果。虽然散焦透镜似乎模糊了视觉细节,但它容易受到逆向工程的影响,并且可以使用维纳反卷积来揭示人的身份[11]。去卷积方法对于我们提出的透镜设计不起作用,因为它具有显著更多的畸变,使其更鲁棒。在更现实的场景中,攻击者可以访问用我们提出的相机获取的模糊图像的大集合,但不知道PSF。我们已经探讨了这种情况(盲解卷积),并在我们的补充材料的第5节中给出了一些结果定性结果。 图5示出了我们提出的使用优化镜头的方法与来自原始OpenPose(无隐私姿势估计)的结果的视觉比较,其对用标准镜头获取的图像起作用。我们提出的隐私保护方法实现了良好的人体姿态估计退化图像。最后一列显示了我们的方法的一个失败案例;如所观察到的,该方法不能估计远处的人的姿势。然而,当一个人远离摄像头时,较少的是隐私的关注;因此,由我们的方法给出的隐私保护在大多数情况下仍然是有用的。我们的优化镜头隐私保护的姿态估计标准镜头无隐私姿态估计2583标准镜头散焦镜头反卷积我们的选择。晶状体去卷积图6:与我们的透镜相比,用散焦透镜获取的私人图像的非盲去卷积。我们的图像是更强大的反卷积,即使PSF是已知的。图7:(顶部)用于我们的隐私保护方法的实验硬件设置。(底部)关于由原型相机获取的一些示例图像的定性结果。4.2.硬件实验为了实验性地评估我们提出的隐私保护方法的有效性,我们构建了图7中的概念验证光学系统。该原型包括一个主物镜与一个4f系统耦合,该系统具有一个2f的相位调制元件。我们的相机是佳能EOS REBEL T5i放置在光学设置中间图像平面由中间图像平面形成总图像微调套件测试套件APAP50AP75AR300 150 1500,5620,7310.5320.584表3:在我们实验室中获得的图像的定量评价。8mm物镜(NAVITAR MVL 8 M23),其由一对75mm傅里叶变换透镜(Thor-labs AC 254 -075-A-ML)替换。使用分束器(BS,Thorlabs CCM 1-BS 013),我们将可变形反射镜(DM,Thorlabs DMP 40-P01)放置在离中间像平面2f=150最后,将相机检测器放置在距可变形反射镜2f=150mm我们使用20µ m的针孔捕获了一系列点白光源的图像,以校准所获取的PSF。在校准系统之后,我们获得非优化PSF,即,我们具有捕获非隐私RGB图像的光学系统。然后,我们模拟的系统,使用我们提出的方法,以获得优化的Zernike多项式和设置变形镜。可变形反射镜使用泽尼克多项式来使其表面变形,从而修改入射光波前。具有可变形反射镜的光学系统创建了与模拟PSF非常相似的优化PSF并捕获私密图像,参见图1B。7.第一次会议。我们使用一小部分捕获的测量值对HPE网络进行几个时期的微调。最后,我们使用经过训练的隐私保护HPE网络对我们的图像进行人体姿势估计。图7示出了所获取的私密图像和非私密图像上的预测姿态。表3显示了对实验室采集的小型测试集的定量评价。局限性。变形镜是概念验证光学系统的主要限制。该设备只能使用q=15的Zernike多项式,这限制了场景的失真水平。然而,结果表明,我们获得的图像成功地保护个人身份扭曲的脸。我们还对实验室中获得的一小组图像由于流行病的限制,我们不能在实验室中获得更大规模的图像数据集目前,我们的小规模测试显示结果与我们的广泛实验一致。5. 结论我们提出了一种用于姿态估计的隐私保护方法我们广泛的评估和实验验证了我们的方法模拟和硬件原型。我们的定性和定量结果表明图像退化和HPE准确性之间的权衡我们计划将我们的方法扩展到其他计算机视觉任务。我们还将考虑更复杂的PSF,例如深度不变的PSF,这可能会改善遥远的人的HPE2584引用[1] Prachi Agrawal和PJ Narayanan。视频中的人物去识别。IEEE Transactions on Circuits and Systems for VideoTechnology,21(3):299-310,2011. 二个[2] Umar Asif,Benjamin Mashford,Stefan Von Cavallar,Shivanthan Yohanandan,Subhrajit Roy,Jianbin Tang,and Stefan Harrer.使用视频数据的隐私保护人体跌倒检测。机器学习健康研讨会,2020年。二个[3] 马克斯·博恩和埃米尔·沃尔夫光学原理:光的传播、干涉和衍射的电磁理论。Elsevier,2013. 四个[4] Karla Brkic,Ivan Sikiric,Tomislav Hrkac,and ZoranKalafatic.我认识那个人:图像中人物的生成性全身和面部去识别。在2017年IEEE计算机视觉和模式识别研讨会(CVPRW)上,2017年。二个[5] 曹哲,Gines Hidalgo Martinez,Tomas Simon,Shih-EnWei和Yaser A Sheikh。Openpose:使用部分亲和字段的实时多人2D姿势估计。IEEE Transactions on PatternAnalysis and Machine Intelligence,2019。二四七[6] 艾扬·查克拉巴蒂通过反向传播学习传感器复用设计。在神经信息处理系统的进展,2016年。三个[7] Julie Chang,Vincent Sitzmann,Xiong Dun,WolfgangHei-drich,and Gordon Wetzstein.混合光电卷积神经网络与优化衍射光学图像分类。科学报告,8(1):1-10,2018。三、四[8] Julie Chang和Gordon Wetzstein用于单眼深度估计和3d物体检测的深度光学在IEEE国际计算机视觉会议论文集,2019。二、三[9] 陈大同,易畅,容言,杨洁。用于保护视频中特定个人隐私的工具。EURASIP Journal on Advances in SignalProcessing,2007:1-9,2007. 二个[10] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集,2019年。六个[11] Jiangxin Dong,Stefan Roth,and Bernt Schiele. 深度维纳反卷积:Wiener遇到深度学习用于图像去模糊。在神经信息处理系统的进展,2020年。七个[12] Munkhjargal Gochoo , Tan-Hsu Tan , Fady Alnajjar ,Jun-Wei Hsieh,and Ping-Yang Chen.Lownet:隐私保护的 超 低 分 辨 率 姿 势 图 像 分 类 。 IEEEInternationalConference on Image Processing(ICIP),2020。2[13] 约 瑟 夫 · 古 德 曼 。 傅 立 叶 光 学 简 介 。 Macmil- lanLearning,第4版,2017年。四个[14] 郭延东,张磊,胡玉晓,X.他,还有高剑锋。Ms-celeb-1 m:大规模人脸识别的数据集和基准在ECCV,2016年。六个[15] 阿尔伯特·哈克,阿诺德·米尔斯坦,李飞飞。用环境智能照亮医疗保健的黑暗空间。Nature,585(7824):193-202,2020. 1[16] Lei He,Guanghui Wang,and Zhanyi Hu.使用深度神经网络嵌入焦距从单幅图像学习深度。IEEE Transactionson Image Processing,27(9):4676-4689,2018。三个[17] Eran Hershko,Lucien E Weiss,Tomer Michaeli,andYoav Shechtman.多色定位显微镜和深度学习的点扩散函数工程。Optics express,27(5):6158-6183,2019.三个[18] Carlos Hinojosa Jorge Bacca和Henry Arguello。压缩谱子空间聚类的编码孔径设计。IEEE Journal of SelectedTopics in Signal Processing , 12 ( 6 ) : 1589-1600 ,2018。二个[19] Alain Hore和Djemel Ziou图像质量指标:Psn
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功