识别盲人拍摄图像中私人视觉信息的存在和用途的数据集

162 浏览量更新于2023-10-18 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1VizWiz-Priv：识别盲人拍摄图像中私人视觉信息的存在和用途的数据集李庆2，林志1，赵一男1，郭安红3，Abigale Stangl4，Jeffrey P. Bigham31德克萨斯大学奥斯汀分校2加州大学洛杉矶分校3卡内基梅隆大学4科罗拉多大学博尔德分校摘要我们介绍了第一个视觉隐私数据集，它来自盲人，以便更好地了解他们的隐私披露，并鼓励开发有助于防止他们意外披露的算法。它包括8，862个区域，显示盲人拍摄的5，537张图像的私人内容。其中，1，403个与问题配对，62%的人直接询问私人内容。实验证明了该数据的实用性，用于预测图像是否显示隐私信息以及问题是否询问图像中的隐私内容。该数据集在www.example.com上公开共享http://vizwiz.org/data/。1. 介绍具有内置相机的移动设备已经变得无处不在。然而，对于盲人来说，使用这些设备拍摄和分享照片存在广泛传播私人信息的严重风险[10，12，17，44]。这是因为盲人从定义上来说是看不见他们周围的东西的，因此也就不知道视野中有什么他们的相机。尽管如此，许多盲人分享他们拍摄的照片，以获得一种变革性的新能力，在了解他们的视觉环境时获得帮助[7，14，15，16，18，28，31，45，55]。一些盲人还在社交媒体上分享他们的照片，以社交和表达他们的创造力[8，10，26，44]。如果能够确保避免隐私泄露，全球2.85亿视障人士[38]中可能会有更多人拍摄和分享照片[11]。为了避免隐私泄露给摄影师（和旁观者）带来潜在的不利的社会、职业、经济和个人后果，保护虽然赋予盲人保护私人视觉信息的权利的一个自然步骤是1目前，国际上正在讨论是否使用目前，两者都被接受。例如，在美国计算机视觉社区设计算法来帮助，一个关键的障碍是训练算法所需的现有视觉隐私数据集[21，37，36，41，52]都不是面向盲人拍摄的图像和盲人的兴趣的。然而，我们的分析表明，这一人群的隐私泄露是常见的;也就是说，他们的40，000多幅图像中超过10%包含私人视觉信息。此外，我们的分析表明，超过50%的隐私泄露是因为人们明确承诺他们的隐私，以换取帮助了解他们无法访问的私人视觉信息读取新信用卡上的号码）。我们的目标是鼓励开发算法，使盲人摄影师能够避免无意中分享私人视觉信息。首先，我们介绍了第一个视觉隐私数据集来自这一人群。这些图像由视觉问答服务的盲人用户拍摄和分享[14]。对于每个图像，我们根据表示与其图像相关的隐私问题的分类法手动注释私有区域，如图1所示（例如，阅读怀孕测试的结果）。我们还注释了是否需要私人视觉信息来回答用户提出的问题。这些注释作为设计算法的关键我们为这两个目的测试了许多算法。我们的研究结果提供了令人鼓舞的结果，可以自动进行这两种类型的预测，同时也表明数据集对现代视觉算法具有挑战性。更一般地说，我们的工作为使用大规模损坏的数据集训练算法提供了新的数据集这是因为我们提出的用于创建大规模、公开可用的视觉隐私数据集的解决方案是在保留上下文的同时移除私有区域。我们通过各种修复方法混淆私人内容的实证分析突出了使用损坏数据集训练算法的有效策略。939940图1.在盲人拍摄的图像中发现的私人视觉信息类型的例子包括显示常见私有对象的图像（绿框）以及通常显示私有文本的对象（蓝框）。所有隐私内容都被屏蔽（红色区域），并被自动生成的假内容替换，以保护隐私信息，同时保留上下文。2. 相关工作盲人辅助摄影越来越多的自动化解决方案正在出现，可以帮助盲人拍照。例如，许多工具自动引导用户改善图像聚焦、照明或构图，以便拍摄高质量的照片[9，15，24，26，43，54]。其他工具自动通知用户存在什么内容（例如，对象、文本、通用描述）[6，46]，这是一个有价值的先驱，使用户能够决定他们是否满意或应该拍摄另一张照片。虽然先前的工作展示了令人兴奋的进展，但它尚未探索帮助用户保护隐私内容的重要问题。然而，盲人已经表达了对无意中向错误的人披露隐私信息的担忧[10，12，17，44]，隐私泄露可能带来的后果是严重的-例如，身份盗窃，尴尬，勒索，法律责任。因此，我们引入了第一个数据集挑战，以鼓励开发算法，当他们的图片包含隐私信息时，可以提醒这些人群。视觉隐私数据集。大规模数据集通常公开共享，以鼓励自动分析视觉信息的算法的开发[19，33，39，47]。不幸的是，创建大规模的“私有”图像集合本身就具有挑战性，尽管如此，仍有几个团队成功地策划和分享了个人在照片分享网站上发布供公众观看的私人Flickr，Twitter）[36，37，52]. 相比之下，我们从同意VizWiz移动应用程序条款的人那里策划图像，可能是...作为数据集发布个人身份信息（照片，问题等）将被删除。因此，我们不能按原样发布私人图像。其他面临类似限制的团队通过以下方式解决了这个问题：(1)将数据收集限制在同意的个人（一些人参与了阶段性的私人情况）[21，41]或（2）发布描述私人图像的特征（冒着未来工作可能显示如何恢复原始内容的风险）[41]。相反，我们删除私人区域并保留其上下文，以开发一个源于自然环境的大规模视觉隐私数据集这是第一个来自盲人摄影师的视觉隐私数据集，并对训练算法提出了新的挑战，以仅使用其上下文来识别私人信息实验表明，该数据集的训练算法的好处。941视觉问答。许多大规模的视觉问答（VQA）数据集已经被提出来催化VQA问题的研究;例如，在一个实施例中，[13、22、25、27、29、34、51]。然而，没有现有的数据集包括关于私人视觉内容的问题然而，许多盲人选择询问关于他们无法访问的私人视觉内容的问题;例如，分享一张显示他们处方药的图片因此，我们提出了预测问题是否询问隐私视觉内容的新颖问题，这是决定是否需要共享隐私内容以便视觉助理回答问题的关键前兆。私人视觉信息分类。设计隐私数据集的一个关键挑战是确定图像中的隐私内容。虽然法律和政府实体提供指导如何保护隐私的法律和政策[20，30，35，40，42]，但他们的指导为图像的解释留下了空间因此，研究人员提出了基于人们对他们拍摄的图像和他们在社交图像共享网站上看到的图像的隐私偏好的分类法我们提出了第一个分类的动机，这个人口3. VizWiz-Priv数据集我们现在介绍它建立在先前的工作基础上，该工作引入了一个移动电话应用程序，使用户能够拍照，询问有关他们的问题，并让远程人员提供答案[14]。我们使用同意匿名共享数据的用户拍摄的13，626张图像创建了数据集。请注意，这是来自31，173个图像的一组独特图像，这些图像已经作为VizWiz-VQA数据集的一部分公开提供[25]。这些图像被排除在VizWiz-VQA之外，因为它们要么缺乏问题（因此与VQA无关），要么被先前的工作[25]标记为包含私人信息，因此不适合公众消费。在下文中，我们将描述如何注释私有视觉内容，创建数据集，然后分析两者。3.1. 私人视觉内容的注释隐私分类和注释工具。我们首先开发了一个视觉隐私问题的分类法，以及一个用于本地化隐私内容的注释工具。最初，我们为此设计了一个原型。然后，三个可信的个人谁贡献了原型的设计独立使用它来注释120随机选择的图像中的私人内容，并随后细化分类，以解决他们的注释差异以及工具的设计，以提高其可用性。我们最终的隐私分类旨在反映给盲人带来风险的图像内容类型。因此，候选类别来自现有的分类法[21，25，37，49]，并进行了改进，以反映在120个注释图像中检测到的类别，包括反映盲人如何遭受风险的额外类别（例如，分享药瓶上的医疗信息）以及潜在的耻辱。这导致了两级分类层次结构。我们选择“对象”和“文本”作为顶级类别，因为它们是最常观察到的。对象类别依次包括纹身、妊娠测试结果和面孔（直接表示，以及在框架图片中表示，或从闪亮的表面反射，因为这两个相关类别也经常被私有文本类别由私有文本通常位于其上的14个对象组成，并且在图1中列出;例如，处方药显示了人们的名字;字母显示地址，信用卡提供了人们的钱。还包括两个类别的对象和文本，以反映“可疑”内容，如果存在私人信息，则难以破译这些内容（例如，在质量差的图像或复杂的场景中）以及用于捕获不在我们的分类中的私有内容的最终的注释工具支持用户定位显示隐私内容的图像区域，并为每个区域分配隐私类别。具体地，用户通过点击具有用直线连接的一系列点的图像并点击第一点以完成该区域来跟踪私人信息（文本或对象）的边界一旦完成，该人选择第一级和第二级隐私类别。用户在移动到下一个图像之前对图像中的所有私有区域对于密集地填充有多于五个相同私有对象的区域（例如，人群），用户被指示将其注释为一个区域。对于缺乏私人信息的图像，用户可以选择一个按钮来标记图像安全供公众消费。注释集合。我们实施了多层次的审查程序。首先，一个内部注释器注释了所有图像中的隐私信息。然后，帮助定义分类法和注释工具的两名领域专家审查每个注释图像以纠正任何错误，包括更新分配的隐私类别和改进/添加多边形。对于后者，一个人可以通过拖放来调整多边形为了评估注释过程的可靠性，我们测量了两个评审所有注释的主要专家之间的注释一致性。他们各自独立地注释了250张随机选择的图像。我们发现，他们同意是否私人信息存在于90%的图像，同意115张图像不包含私人信息，109张图像包含私人信息。这一发现表明，注释者在很大程度上对什么是私人的有着共同的理解。942P2图2.不同隐私类型的披露频率与图像数量和注释的隐私区域数量有关。结果以对数标度显示，以说明常见和罕见的隐私泄露原因的频率私有对象私有文本型号：所有脸反映照片预测试所有论文错误ComScreen邮件其他区域159,881166,16980,18599,28953,13499,25982,06677,50768,51688,977区域面积图像区域0.110.110.050.070.030.060.050.050.050.04形状0.820.850.810.750.670.550.540.560.570.54表1.描述不同类型私有信息的私有区域的属性的平均值分析私人信息。使用注释的图像，然后我们统计了每种隐私类型在所有图像和隐私区域中发生的频率。图2显示了结果，分为第一级类别（“对象”、“文本”）和23个总共有5，537张图像被标记为包含隐私信息。当考虑到使用VizWiz移动电话应用程序拍摄的大量图像时[14]（即，13，626 + 31，173 [25]= 44，799），这意味着盲人拍摄的所有照片中约有12%显示隐私内容。这一发现表明，保护私人信息是一个重要的实际问题。我们认为这个问题尤其令人担忧，因为许多视觉辅助服务仍然依赖于人类[2，3，4，7，14，23，48]。在所有私有图像中，总共识别了8，862个私有区域。这些区域中的稍微多一点被标记为显示私人文本（即，58%）比私有对象（即，42%）。在5,151份文本披露中，它们最常见于杂项文件（即，其次是电脑屏幕（13%），信件（12%）和其他物体（12%）。在3，711个对象披露中，最常见的是面部（76%），其次是相框照片（15%），面部反射（3%）和妊娠测试结果（2%）。这些发现显示-trate VizWiz-Priv提供了一个域的转变，从最简单的相比之下，更大隐私数据集[36];[36]仅涵盖这八个最常见类别中的两个：面孔和信件/邮件。我们还统计了所有5，537张私人图像中每张图像中有多少个私人区域和隐私类型。最常见的是，每个图像检测一个私有区域（即，67%的图像），其次是两个（即，19%的图像），三个（即，8%），以及四个或更多（即，6%的图片）。这发现直接影响我们对每个图像的隐私类别的数量的发现，最常见的是每个图像一种93%），其次是两个（即，6%），以及至多三个（即，<1%）。后一项发现与之前的工作形成对比，之前的工作报告VISPR数据集的每张图像平均有5.2种类型[37]。VizWiz-Priv平均每个图像1.6种类型我们假设这种差异是由于图像复杂性的差异造成的，VISPR更常见地偏向于复杂场景，而VizWiz-Priv偏向于单一对象图像。接下来，我们描述了不同隐私类别的私有区域的外观。对于每个区域，我们计算其（1）面积（即，区域中像素的绝对数量），（2）相对大小（即，图像中属于该区域的像素的分数），以及（3）圆形度（即，其面积A与具有相同周长P的圆的比率（4πA））。表1显示了顶级类别（“对象”、“文本”）及其最常见的二级类别的平均值。我们观察到私有对象往往比私有文本更循环（即，0.82相对于0.55），可能捕获对于面常见的椭圆形状相对于对于文本常见的矩形形状。还示出了区域的相对大小对于私有对象几乎是两倍大（即，11%的图像）比私人文本（即，图片的6%）。此外，文本类别往往在其相对大小上是一致的（即，4%至5%），到对象类别（即，3%至11%）;例如，怀孕测试平均占据图像的3%（具有153，134像素），而面部平均占据11%（具有166，169像素）。这些发现揭示了不同类型的隐私内容表现出不同的视觉偏差，这是算法学习识别和区分它们的一个有价值的前兆943数据集图像源图像数量注释Taxonomy公共内容[21]第二十一话移动车辆2,176矩形面临演员（Staged Actors）PicAlert [52]Flickr4,701图像标签公共/私有图像[41]第四十一话社交网络1,511图像标签公共/私有图像特征Vispr [37]Flickr、Twitter12，000英镑图像标签68个分类图像编辑[36]Flickr、Twitter8,473Polyurethane+标签 24类图像+蒙版+标签我们的：VizWiz-Priv盲人5,537Polyurethane+标签 23类屏蔽图像+标签表2.比较五个图像隐私数据集和我们的VizWiz-Priv数据集。(Note：3.2. 数据集创建由于我们正在解决的隐私问题禁止我们公开发布图像中的私人内容，因此我们选择仅发布其周围的上下文。因此，设计数据集的主要目标是最大限度地减少算法将学习检测移除区域周围的伪影作为对隐私内容的预测的可能性。在下文中，我们将描述我们如何创建VizWiz-Priv，以及我们对数据集的分析。从私有非私有映像中删除区域。我们的目标是确保私有和非私有图像共享类似的工件。因此，除了从所有5，537个私有图像中屏蔽私有区域之外，我们还将这些相同的私有区域随机应用于剩余的8，093个非私有图像，以确定要删除的内容。这样做确保了被移除区域的相同形状和位置统计被应用于私有和非私有图像。虽然这种方法确实有一个缺点，即非隐私图像中的掩蔽区域可能不会覆盖有意义的对象或文本块，但在第5节中将示出算法仍然可以学习预测隐私信息的线索。修复以替换删除的区域。接下来，我们合成内容来填充从所有图像中删除的区域，试图使它们在公开发布的数据集中看起来更真实，以便进行算法训练和人工审查。我们采用了最先进的图像修复系统的公开代码[50]。该方法明确地利用周围的图像上下文来决定如何在去除的区域中合成新的图像结构。我们还创建了另一个版本，其中我们用ImageNet的平均值替换所有孔像素。数据集比较。表2说明了VizWiz-Priv与现有隐私数据集的比较情况。VizWiz-Priv的一个关键区别是公开发布数据的方法，这源于导致图像收集虽然大多数团队可以按原样发布图像，但由于图像来自已经发布供公众观看的个人[36，37，52]，两个团队与我们一样，不能发布任何私人内容这些团队通过以下方式解决了这一制约因素：要么雇佣相反，我们在保留其上下文的同时重新移动了私有区域因此，VizWiz-Priv提出了一个新的挑战，即如何成功地训练隐私检测算法，只使用隐私信息所在的上下文。另一个关键的区别是，VizWiz-Priv是第一个来自盲人摄影师的隐私数据集，他们试图了解他们的视觉环境。因此，与现有数据集中的图像不同，许多图像质量差模糊、失焦），因为摄影师无法验证它们的质量。此外，大部分内容都集中在目前无法访问的私人信息上，因为盲人通常会分享这些信息，以换取帮助了解这些信息（见第4节）;例如，验孕结果，处方药，名片，还有路牌VizWiz-Priv的最后一个偏见是，许多图像显示室内、家庭场景以及在这种情况下可能出现的无意的隐私泄露，例如计算机/电视屏幕上的人脸反射、放在台面上的个人文档以及沿着墙壁散布的4. 可视化问答（VQA）在赋予盲人保护其隐私权的权利时，一个重要的考虑因素是避免妨碍他们获取所需信息的能力。具体地，在VQA设置中，一种天真的解决方案，用于增强与远程视觉助理共享每个视觉问题的现状的隐私性（例如，对于诸如VizWiz[14]和 BeSpecular [3]的服务）是指示摄影师在图像中检测到私人信息时重新拍摄不幸的是，当一个人试图了解私人信息时，这将是不合适的（例如，了解瓶子里装的是什么类型的药片）。相反，用户将受益于在共享视觉问题之前拍摄另一张照片，仅用于无意的隐私泄露。因此，我们现在描述我们准备用于训练的数据集。944图3.每种隐私类型的披露频率与个人询问隐私内容的图像数量有关图4.对于VizWiz-Priv中的875个实例，以不同单词/短语开头的问题的频率，其中答案位于图像的私有区域。最里面的环代表第一个单词，每个后续环代表问题中最多六个单词的子单词。弧的大小与包含该单词/短语的问题的数量成比例。算法自动确定问题是否我们使用VizWiz-Priv中的2，685张图像，这些图像也包含问题。其中，1，403个包含私人图像。视觉问题预处理。对于每个视觉问题，我们遵循先前工作具体来说，我们重新保存图像以删除个人识别元数据，转录音频记录的问题以删除人们VizWiz-Priv-VQA。接下来，我们量化了私人视觉信息包含视觉问题答案的为了做到这一点，同样的三个内部注释者谁去-包含私人图像，并且如果通过移除私人可视内容问题将变得无法回答则指示每个视觉问题都被分配了注释者的多数投票标签。我们发现62%（即，875)在1,403个关于私人视觉内容的视觉问题中，在VizWiz用户提出的所有33,858个视觉问题的更大2，685 + 31，173 [25]个视觉问题），这意味着每40个视觉问题中就有1个以上的问题是因为盲人为了获得视觉帮助而牺牲了自己的隐私此外，这一统计数据可能是这一人群实际视觉隐私辅助需求的下限，因为许多人避免分享私人信息，而不是接受分享的风险。我们的发现揭示了设计能够回答私人视觉信息问题的算法的重要性。接下来，我们根据人们是否明确询问隐私内容3来量化图像中每种类型的隐私信息的趋势。图3显示了结果。我们发现，一个人正在询问大多数显示怀孕测试结果的图像的私人内容（即，58/59=98%），药瓶/药盒（即，114/137=83%），字母（即，55/68=81%），街道标志（即， 16/16=100% ），信用卡（即，15/20=75%）。当在图像中不必要地捕获私人内容时，也经常出现许多隐私类别例如，可以安全地删除隐私内容，而不会影响回答大约81%的面部、89%的框架图片和88%的车牌的视觉问题的能力。如图所示，人我们使用一个朝阳图来可视化人们对875个可视化问题提出的问题，这些问题询问了私人内容，如图4所示。这显示了问题以不同单词/短语开头的频率。当将先前关于非私人问题的工作中报告的问题[25]与这些私人问题进行比较时，我们观察到很大的相似性。例如，两者集合共享丰富多样的第一个单词，并且是简单的，VizWiz-Priv审查了1，403个视觉问题3由于一些图像显示多个私密区域，因此该分析还2我们为2，685个视觉问题收集了每个视觉问题的10个答案，以使VizWiz-VQA的大小增加8%[25]。当个人询问关于存在的不同类型的私有内容的问题时，揭示了图像中存在的额外私有类型的相关性945长度问题。然而，我们观察到特定问题的频率发生了变化;例如，“这是什么？“发生的频率较低（即，2.5在[25]中，5.8%比14.6%的频率低10倍），而阅读问题更有规律地出现4倍以上，4%的问题比1%[25]）。我们假设这种从物体识别到阅读的转变证实了图3所示的更广泛的趋势，即人们更经常故意用私人文本捕捉图片（即，65%的文本披露）比私人对象（即，47%的对象披露）。5. 算法基准测试我们现在描述两项研究，这些研究的任务是预测（1）给定图像中是否存在隐私内容，以及（2）是否存在关于隐私内容的视觉问题。5.1. 私人视觉信息识别数据集。我们将所有13，626张VizWiz-Priv图像分为大约65-10-25的分割，从而在训练，验证和测试集中产生8，825，1，370和3，431张图像。我们执行一个分层分裂的私人图像与方面的隐私类别，试图包括一个比例的每一个隐私类型的数量在每个分裂。方法. 正如最先进的视觉隐私识别算法[37]所做的那样，我们还微调了ResNet，50. 我们对10种变体进行了基准测试。四个分别微调到来自 VISPR 的训练数据集 [37] ，具有孔修复的VizWiz-Priv（VizWiz-Priv），具有分配给孔像素的ImageNet 平均值的 VizWiz-Priv （ VizWiz-Priv-HoleMean ）和原始 VizWiz-Priv 图像（ VizWiz-Priv-Uncorrupted）。另外三个是VISPR训练的方法[37]，针对以下三个数据集进行了微调：VizWiz-Priv 、 VizWiz-Priv-HoleMean 和 VizWiz-Priv-Uncorrupted。最后，三个被微调到VISPR数据集与上述三个数据集的组合。每种方法都使用Adam求解器进行微调，批量大小为128，固定学习率为0.001，在训练期间采用dropout和批量归一化，并训练五个时期。评估指标。我们使用精确度-召回率（PR）曲线和平均精确度（AP）评估了每种方法。未损坏的VizWiz-Priv图像的结果。在图中-ure5，我们报告了每种方法在原始未损坏的VizWiz-Priv测试图像上评估时的性能，以证明它们在实际环境中的实用性。我们发现，最先进的模型[37]可以很好地推广到未损坏的VizWiz图像;也就是说，AP评分为77.97%。这是一个令人兴奋的发现，因为该模型没有接受来自盲人摄影师的图像训练。图5.在未损坏的VizWiz-Priv测试集上评估的隐私检测算法当使用原始的VizWiz-Priv图像进行训练时，我们观察到了相当大的改进。与上述VISPR训练的模型相比，我们观察到在使用未损坏的VizWiz-Priv图像训练相同架构时提高了2%，在使用这些图像微调VISPR训练的模型这些发现再次强化了众所周知的好处，即在与测试分布匹配的数据上进行训练可以提高性能。考虑到隐私问题激励这项工作，它也是有价值的分析方法训练，只有版本的VizWiz-Priv，将是公开的;也就是说，其中私有内容被屏蔽在图像之外的那些（VizWiz-Priv、VizWiz-Priv-HoleMean）。当直接使用这些数据进行训练时，我们观察到与当今最先进的模型相比，性能下降了近13%;也就是说，77.97%对68.47%和69.6%。我们还观察到，当微调VISPR训练的模型到这些数据集时，性能较差;也就是说，AP评分从77.97%下降到75.62%和71.94%。我们将这些下降归因于孔洞填充方法的不足;如图1所示，孔洞填充算法可能会引入算法可能正在学习建模的视觉伪影。然而，有趣的是，当使用VISPR图像与VizWiz-Priv的两个公开版本联合训练时，我们观察到预测性能的提高;也就是说，AP评分从77.97%提高到80.22%和78.34%。事实上，使用未损坏的图像（VISPR）和损坏的图像（VizWiz-Priv）进行训练的效果我们假设，使用两个数据集进行训练有助于模型学习忽略隔离到VizWiz-Priv的空洞填充伪影，同时提供更丰富的训练数据，以成功学习跨两个数据集的预测线索。VISPR图像上的结果。我们还检查了现有最先进的视觉隐私测试集-VISPR [37]的每个基线的性能，946从在线照片分享网站上收集的图片。这十种方法的AP评分范围从88.08%（微调到VizWiz-Priv-未损坏）到96.78%（[37]）。这突出表明，VizWiz-Priv的问题比VISPR更难解决，其中表现最好的算法在VISPR上实现了96.8%的AP评分，而在VizWiz-Priv-Uncorrupted上实现了81.1%的AP评分。VizWiz-Priv与VizWiz-Priv-未损坏结果我们还评估了VizWiz-Priv的未损坏版本在多大程度上代表了公开版本。我们发现未损坏的VizWiz-Priv图像和填充孔的VizWiz-Priv图像上的预测分数之间的高度相关性;也就是说，在计算皮尔逊相关系数时，得分在0.70到0.89之间。虽然不完美，这个测试集提供了一个合理的隐私自由的替代基准算法的性能在一个可重复的方式。5.2. （非）故意隐私泄露识别我们现在评估一种新的二元分类问题的方法，预测给定的视觉问题是否询问私人视觉信息，以区分有意和无意的隐私泄露。数据集。我们对2，685个视觉问题进行了分层分割，以保留私人图像与非私人图像的比例这在训练集和测试集中分别产生了2，148和537个视觉问题。方法. 我们测试了十种方法。我们评估了一个现状预测器，它返回一个随机值，以反映系统今天所能达到的最佳状态;也就是说，猜测还包括两个相关的隐私检测算法从前面的部分;也就是说，Priv-Detection[37] 和 Priv-Detection-VV （在 VizWiz- Priv 和VISPR上进行训练）。我们还直接从问题（即，Q），将每个编码为300维GloVe单词嵌入，并训练具有300个隐藏状态的单层门控此外，我们还直接从图像中进行预测，使用ResNet-50对每个图像进行编码，并训练三个变体：按原样使用图像（即，I-原始），其中私有区域由平均值替换（即，I-hole-mean），并且用洞填充算法替换私有区域（即， I-hole-inpaint）。最后，我们研究了三个模型，结合每个图像变量的问题。评估指标。我们使用精确度-召回率曲线及其AP评分评估了每种方法结果结果示于图6中。正如所观察到的，尽管隐私类型和问题类型的显著变化，但是可以直接从视觉问题来预测视觉问题是否询问隐私内容例如，所有的Q+I方法都比现状方法至少高出30个百分点。我们的研究结果也证明了直接学习任务的价值，图6. PR曲线和AP分数的算法，预测是否一个视觉问题询问私人视觉内容。而不是依靠预测器来完成检测私人视觉信息的相关任务;也就是说，对于所有Q + I方法，AP从低于40%提高到高于60%。我们观察到，问题和图像每个提供价值-关于视觉问题是否询问私人信息的有用和互补的线索。具体地，虽然问题（Q）和图像（I-original）都是单独预测的（即，分别比现状提高30.25和24.9个百分点），我们观察到联合使用这些功能时进一步提高3.5个百分点。我们的研究结果还强调了具有合成内容的图像在训练算法中的实用性我们观察到，与现状方法相比，使用没有私人内容本身的私人内容的上下文进行培训可以将准确性提高约17个百分点。无论是使用图像平均值填充孔还是使用最先进的孔填充算法填充孔，都会产生这种益处。这些发现强调了在不访问私有内容的情况下开发基于隐私的算法是可能的。6. 结论我们提出了第一个数据集和研究，揭示了试图了解其物理环境的盲人所面临的视觉隐私问题。实验证明了它对教授算法预测私人信息的存在和目的的好处。未来有价值的工作包括（1）检测隐私内容以支持编辑[36]（比识别更具挑战性的问题），（2）改进漏洞填充算法以替换隐私内容（例如，[53]），（3）扩展私有分类（例如，具有场景类型和动作），以及（4）添加来自可佩戴相机的图像（例如，[4，5]）。鸣谢。我们感谢匿名评论者的宝贵反馈。这项工作得到了美国国家科学基金会（IIS-1755593）的部分资助，以及Adobe和微软对Danna Gurari的捐赠。947引用[1] 可扩展的写作指南- SIGACCESS。1[2] 我的眼睛，是一个盲人和低视力的人。https：//www.bemye yes.com/. 4[3] BeSpecular。http：//www.bespecular.com. 四、五[4] 主页- Aira：艾拉https://aira.io/. 四、八[5] 奥卡姆https：//www.example.comwww.orcam.com/en/。8[6] Seeing AI-为视力障碍者提供的会说话的相机应用程序https://www.microsoft.com/en-us/seeing-ai。 2[7] TapTapSee-盲人和视力受损辅助技术-由CloudSight.ai图像识别API提供支持https://taptapseeapp.com/. 1、4[8] Tommy Edison（@blindfilmcritic）·Instagram照片和视频。https://www.instagram.com/blindfilmcritic/。 1[9] D.亚当斯湖Morales和S. 库尔尼亚万支持盲人摄影移动应用程序的定性研究。在第六届国际会议的程序中，与辅助环境相关的侵入性技术，第25页。ACM，2013年。2[10] T.艾哈迈德河Hoyle，K. Connelly，D. Crandall和A.卡帕迪亚。视觉障碍者的隐私问题和行为。在第33届ACM计算机系统人为因素集，第3523-3532页ACM，2015.一、二[11] T.艾哈迈德河作者声明：John W. Connelly，D. Crandall和A.卡帕迪亚理解视力障碍者的人身安全、安全和隐私问题。 IEEE Internet Computing，21 （3）： 56-63，2017。1、6[12] T.作者：Ahmed，P. Connelly，D. Crandall和A.卡帕迪亚。为视力障碍人士解决人身安全、安保和隐私问题。在第十二届可用隐私和安全研讨会（SOUPS'16）的会议记录一、二[13] S. 安托尔，A. 阿格拉瓦尔J. Lu，M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在Proceedings of the IEEE International Conference onComputer Vision，第2425-2433页，2015年。3[14] J.P. Bigham，C. Jayant，H. Ji，G. Little，A.米勒河C.米勒河Miller，A.塔塔罗维奇湾白色和S.白. VizWiz：几乎实时回答视觉问题。第23届ACM用户界面软件和技术年会论文集，第333-342页。ACM，2010年。一二三四五[15] J.P. Bigham，C. Jayant，A.米勒湾，澳-地White和T.是啊使盲人能够在他们的环境中定位物体。在计算机视觉和模式识别研讨会（CVPRW）中，2010 IEEE计算机协会会议，第65-72页。IEEE，2010。一、二[16] E. L. Brady，Y. Zhong，M. R. Morris和J. P·比格姆。社会网络提问作为盲人用户资源的适当性研究。在2013年计算机支持的协同工作会议集，第 1225-1236 页。ACM，2013年。1[17] S. M. Branham ， A. Abdolrahmani ， W. 伊斯利， M.Scheuer-man，E. Ronquillo和A.赫斯特有人在吗？做他们有枪：关于他人的视觉信息如何改善盲人的个人安全管理在第19届国际ACM SIGACCESS计算机和可访问性，第260ACM，2017。一、二[18] M. A. Burton，E.布雷迪河布鲁尔角，澳-地Neylan，J.P.Bigham 和 A. 赫斯特众包主观时尚建议我们 - ingVizWiz：挑战和机遇。在第14届国际ACM SIGACCESS计算机和可访问性，第135ACM，2012年。1[19] X. Chen，H. 方，T.- Y. 林河，巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克MicrosoftCOCOcaptions：数据收集和评估服务器。 arXiv 预印本 arXiv ：1504.00325，2015。2[20] 联合S.国会1974年的隐私法。《公法》，1974年，第88页。3[21] A.弗罗姆，G。Cheung，A. Abdulkader，M.曾纳罗湾吴先生，A. Bissaught，H. Adam，H. Neven和L.文森特谷歌街景中的大规模隐私保护。载于ICCV，第2373-2380页，2009年。一、二、三、五[22] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉和D.帕里克使VQA中的V变得重要：提升图像理解在视觉问答中的作用。CVPR，第1卷，第3页，2017。3[23] D. Gurari和K.格劳曼CrowdVerge：预测人们是否会同意视觉问题的答案。在2017年CHI计算机系统中人为因素会议上，第3511-3522页。ACM，2017。4[24] D. 古拉里湾他，B.Xiong，J.Zhang，M.Sameki，S.D. 杰恩S. Scaroff，M. Betke和K.格劳曼预测前-地面对象模糊性和高效众包分割。 International Journal of ComputerVision，126（7）：714-730，2018。2[25] D.古拉里角Li，长穗条锈菌A. J. Stangl，A. Guo，C.Lin，K.格劳曼，J。Luo和J. P·比格姆。VizWiz GrandChallenge：从盲人那里收集视觉问题。在IEEE计算机视觉和模式识别会议论文集，第3608-3617页，2018年三、四、六、七[26] C. Jayant，H.Ji，S.White和J.P. 比格姆支持盲人摄影。在第13届国际ACM SIGACCESS计算机和兼容性会议的会议记录中，第203-210页。ACM，2011年。一、二[27] J. 约翰逊湾哈里哈兰湖范德马滕湖飞飞C. L. Zitnick和R.娘娘腔。CLEVR：用于合成语言和基本视觉推理的诊断在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第1988-1997页。IEEE，2017年。3[28] H. Kacorri，K. M. Kitani，J. P. Bigham和C.浅川有视觉障碍的人训练个人物体识别器：可行性和挑战。在2017年CHI计算机系统人为因素会议集，第5839-5849页。ACM，2017。1[29] K. Kafle和C.卡南可视化问答算法分析。在计算机视觉（ICCV），2017年IEEE国际会议上，第1983IEEE，2017年。3[30] L. D.孔茨隐私：存在增强个人身份信息保护的替代方案。Diane Publishing，2008. 3948[31] W. S. Lasecki，P. Zhong，E. Brady和J. P·比格姆。用会话人群助手回答视觉问题。在第 15 届国际 ACMSIGACCESS计算机和兼容性会议的会议记录中，第18页。ACM，2013年。1[32] X. Li，D.Li，Z.Yang和W.尘一种用于评估照片中物体视觉隐私级别的基于块的显著性检测方法 IEEEAccess，5：24332-24343，2017。3[33] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐

下载后可阅读完整内容，剩余1页未读，立即下载