1206PP4AV:隐私保护自动驾驶的基准数据集Linh TrinhR1,Dongong Pham1,Hoang Trinh1,NguyenBach1,Dung Nguyen2,Giang Nguyen1和Huy Nguyen11VinFast,河内,越南诉{linhtk13,phuongpadong,hoangtn,nguyenbh1,giangnd2,vantix01} @ vinfast.vn2FPT Software,越南人工智能中心dungnt20@fsoft.com.vn摘要在公共道路上收集的用于自动驾驶的大量数据在世界上许多地方变得越来越流行。更多收集的数据导致对数据隐私的更多关注,包括但不限于行人面部和周围的车辆牌照,这迫切需要用于在真实的道路驾驶场景中检测和匿名化它们的鲁棒解决方案。现有的人脸和车牌检测公共数据集要么不关注自动驾驶,要么只关注停车场。在本文中,我们介绍了一个具有挑战性的公共数据集,用于自动驾驶领域的人脸和车牌检测。该数据集是从公共领域可用的视觉数据中聚合而成的,涵盖了来自六个欧洲城市的场景,包括白天和夜间,用人脸和车牌进行了注释。所有的图像都有各种各样的姿势和大小的脸和车牌。我们的数据集不仅提供了评估数据匿名化模型的基准,以获得更多关于保护隐私的自动驾驶的见解。实验结果表明,1)目前通用的最先进的人脸和/或车牌检测模型在像我们这样的现实和多样化的道路驾驶数据集上表现不佳,2)我们的模型用自动驾驶数据训练(即使使用软标签数据)表现出强大但通用的模型,以及3)面部和牌照的尺寸是评估和优化隐私保护自动驾驶的性能的重要因素。 数据集的注释也是如此基线模型和结果可以在我们的github上找到:https://github.com/khaclinh/pp4av。1. 介绍保护自动驾驶数据中的隐私是一个需要解决的现实而重要的问题。当妈妈-中国学习已经越来越多地用于自动驾驶,公司和研究团体已经开始收集大量数据用于开发和验证。自2018年以来,Waymo已经收集了500万英里[12]。Cruise仅在2020年就积累了超过770,000英里[5]。收集的数据越多,对数据隐私的责任就越大。例如,在公共道路上收集的数据必须符合欧洲GDPR [6]、加利福尼亚州CCPA [3]、中国CSL [4]或日本APPI [1]的规定。条例要求保护所收集数据中参与者的个人身份信息,例如:在要求时删除。作为对这些法规的回应,已经引入了几种商业产品来对收集的数据进行去识别(主要是 通 过 模 糊 相 机 数 据 ) 。 更 亮 的 AI1 、 FacebookMapillary2或UAI Anciliator [11]可以匿名化人脸和车牌。Celantur3更进一步,可以匿名化人脸、车牌、人体和整辆车。另一方面,标记数据集和基线模型的稀缺或缺乏正在阻碍解决自动驾驶中的匿名化问题的创新和进展。就上述商业系统而言,其培训和评价数据集一般不向公众开放。与此同时,学术研究界对这一问题的关注还不够。据我们所知,没有用于自动驾驶用例的人脸和车牌检测的公共数据集。例如,有许多公共人脸检测 数 据 集 , 如 PASCAL FACE , FDDB , UFDD ,MALF,以及最近的WIDER FACE [22,26,30,36,37],其中没有一个包括来自道路驾驶场景的数据。类似地,对于车牌检测,有几个公共数据集,例如SSIG-SigPlate,UFPR-ALPR,CCPD [24,27,35]。 大多数公共数据集都使用normal-moscam-1https://brighter.ai/video-redaction-in-automotive/2https://www.mapillary.com/geospatial3https://www.celantur.com/1207时代,而在自动驾驶中,广角摄像机时代(例如,鱼眼)通常用于提供汽车周围的全景。此外,只有少数开源模型可用于自动驾驶中的数据匿名化,例如。了解AI社区版[11]。在本文中,我们介绍了一个新的数据集,命名为隐私保护自动驾驶(PP4AV),在自动驾驶中的人脸和车牌检测PP4AV包含前置摄像头图像和鱼眼摄像头图像。我们从六个欧洲城市的驾驶场景的前置摄像头视频中收集前置摄像头图像。为了使数据集更具挑战性,我们选择了来自城市驾驶的数据,其中不同的姿势和大小目标面部和车牌的信息鱼眼相机图像来自WoodScape数据集[38],这是一个用于鱼眼相机时代自动驾驶的公共数据集。与以前的数据集不同,其中人脸车牌没有被注释在一起,并且不特定于自动驾驶,PP4AV为人脸和车牌提供了3,447个注释的该数据集可用作自动驾驶中数据匿名化模型的基准套件(评估数据集)。PP4AV中数据的性质也使我们能够发现边界框大小是自动驾驶中数据匿名化的一个有趣因素。除了PP4AV之外,我们还提供了一个匿名化模型,该模型以自动驾驶系统为基线进行训练由于缺乏标记数据,我们使用知识蒸馏方法来训练来自两个教师的基线模型,即YOLO5Face [31]和Understand AI社区版。总之,这项工作的主要贡献有三个方面:• 我们介绍了PP4AV,一个隐私保护自动驾驶数据集。 据我们所知,PP4AV是第一个带有人脸和车牌的公共数据集,其中标注了驾驶场景。PP4AV可用作隐私保护自动驾驶的评估套件。• 我们提出了一个基线匿名化模型的自动驾驶。虽然我们的基线是在没有实际注释数据集的情况下训练的,但实验结果表明,基线的性能优于亚马逊或谷歌的其他强大但通用的• 在深入分析中,我们发现人脸和车牌的边界框大小对匿名模型的性能起着重要的作用。有趣的是,许多模型在大脸或车牌的情况下表现不佳,这是隐私保护的红旗,因为脸或车牌可以很容易地识别。本文的其余部分组织如下:第二节介绍了相关工作的概况。然后我们在第3节中介绍PP4AV。在第4节中,我们提出了一个提炼的知识模型作为基线,没有注释的数据集。第五章介绍了试验情况、试验结果和失效原因分析.最后,第六部分是对本文的总结.2. 相关工作2.1. 数据分析数据集现有的公共数据集分别注释人脸和车牌此外,大多数人脸检测数据集不关注甚至不包括驾驶场景,而大多数车牌检测数据集只关注停车场区域,而不是高速公路或城市场景。人脸检测数据集。公共人脸检测数据集大多是从互联网或自然场景中收集的。数据集的大小范围从几百个图像(例如,AFW[40]具有205个图像或具有851个图像的PASCAL FACE数据集[22])到几千个图像(例如,WIDER FACE [37](32,203张图像)或MALF [36](5,250张图像)。图像用包围面部和其他面部属性的边界框进行注释(例如,偏航、俯仰和滚转)。虽然提供了广泛的条件(新闻中的名人[22],基于天气的退化和运动模糊[30]),但现有的公共人脸检测数据集都不专门用于驾驶场景。由于本车与交通参与者之间的距离,街道场景中的人脸通常较小,并且可以从不同的视角看到。这些差异对自动驾驶中的我们的实验表明,用特定的自动驾驶数据训练的模型可以在这项任务中表现出强大但通用的模型。车牌检测数据集。车牌检测的数据集大多来自交通监控系统、高速公路收费站或停车场的图像Zemris [13]提供了一个数据集,其中包含不到700张图像,每张图像中只有一辆车。SSIG- SegPlate [24]和UFPR-APLR[27]通过道路上的摄像机捕获图像。这些照片是在一个阳光明媚的日子里拍摄的。CCPD数据集[35]是从中国收集的超过20万张图像,它已成为最大的车牌识别数据集。我们的数据集PP4AV与其他公共车牌数据集不同,因为它具有来自真实驾驶情况的图像,这对未使用此类数据训练的最先进模型提出了新的但实际的挑战。鱼眼相机数据集。 虽然来自鱼眼相机的数据不像普通相机那样受欢迎,但它们通常用于自动驾驶系统,例如,360-度环绕视图功能或智能停车功能。有一些人脸或车牌检测数据集与鱼眼相机。360.第360章:你是我的女人1208分别对FDDB和WIDER FACE的原始图像和注释进行变换,得到鱼眼图像和鱼眼注释。据我们所知,在驾驶场景中没有鱼眼相机的公共车牌检测数据集。PP4AV提供来自WoodScape数据集的车牌注释[38],这是一个用于自动驾驶的多相机鱼眼数据集最后但并非最不重要的是,现有的人脸检测和车牌检测数据集是相互排斥的。在同一图像上同时具有人脸和车牌检测标签将为自动驾驶中的数据匿名化任务提供完整的评估结果。据我们所知,PP4AV是第一个用于保护隐私的自动驾驶的公共数据集,它为同一图像上的人脸和车牌提供注释,并包括从普通和鱼眼相机收集的数据。2.2. 数据分析模型商业制作。为了响应对数据隐私合规性的需求,已经出现了用于自动驾驶中的数据匿名化的商业产品Brighter AI最近宣布了他们的产品,专门用于自动驾驶中的数据匿名化。深度学习模型被命名为基于R-CNN的深度自然匿名化(DNAT),以进行人脸,车牌和人体匿名化。更明亮的AI为普通和鱼眼相机的图像提供数据匿名化。该模型在他们的私人数据集上达到了99%的准确率。Celantur推出了他们的产品,以匿名的人,车辆,面孔和车牌。他们的技术基于实例分割(Mask-RCNN)和关键点检测。2020年被Facebook收购的Facebook他们分享了一个比较分析,证明了他们的产品相对于Ama-zon,Google和Microsoft的其他公共API的优越性[8]。dSpace Understand AI已经发布了Ancherizer的beta版本[11]。该模型在数百万街景样本上进行了训练,达到了99%以上的检测率。四维图新提 供 了 符 合 GDPR [6] , CCPA [3] 和 CSL [4] 的Ancurization产品4,通过从图像数据中检测和模糊人脸和车牌来进行ADAS验证。他们在CCPD上对车牌的报告性能分别为98.5%,99.42%和98.96%(平均精度,平均召回率和F1分数)。对于人脸检测,在IJB-C数据集 上 , 这 些 数 字 分 别 为 95.59% , 98.05% 和96.80%[29]。上述所有产品都不发布其用于人脸和车牌匿名化的模型和私有数据集,但四维图新除外,该公司报告了其在公共数据集上的模型性能4https://www.navinfo.eu/services/ai-business-solution/anonymization/然而,正如我们在第2.1节中指出的那样,这些数据集通常不适合评估自动驾驶中的数据匿名化。此外,CCPD数据集仅在中国收集,因此不适合在欧盟或美国对GDPR进行基准测试。此外,除了Brighter AI之外,上述所有解决方案都不适用于鱼眼图像数据。开源项目。有一些开源项目可用于数据匿名化任务。[11]是dSpace Understand AI的社区版本。在本文中,我们使用Understand AI的社区版本作为我们的基线之一。针对缺乏自动驾驶数据匿名化的基线模型,我们开发了一个基线模型,并将其提供给社区。由于驾驶场景的注释数量有限,我们选择了一种知识提取的方法来训练我们的基线模型。使用当前最先进的模型作为教师模型,我们可以获得大量的软标签,并训练我们的基线,以实现这项任务的合理性能。3. PP4AV数据集3.1. 数据收集我们的目标是建立一个基准数据集,可用于评估自动驾驶的人脸和车牌检测模型。对于正常的摄像机数据,我们从现有的视频中采样图像,其中摄像机安装在移动的车辆上,在欧洲城市周围运行。为了提供足够的车牌和行人样本,我们重点关注城市地区的采样数据,PP4AV中的图像在一天中的不同时间(包括夜间)从6个欧洲城市采样。鉴于我们的目标,我们确保所有图像至少包含一个对象,如车牌或人脸。我们使用来自Wood-Scape数据集的鱼眼图像来选择来自前、后、左和右相机的244个图像总共选择了3,447张图像并在PP4AV中进行了注释。数据收集结果总结见表1。相机城市条件道路类型决议图像脸板正常荷兰白天城市1,920×1080388753498正常荷兰夜间城市,高速公路1,280 ×7208240884正常巴黎白天城市1,280 ×7201,4502,3015,571正常斯特拉斯堡白天城市2,048×10245020782正常斯图加特白天城市2,048×102469132185正常瑞士白天城市1,280 ×72037252449正常苏黎世白天城市2,048×102450154118鱼眼欧洲白天城市1280×966244296241总3,4473,8958,028表1:数据收集和注释PP4AV数据集的总结。12093.2. 数据注释注释政策。我们在图像中注释面部和车牌对象。对于面部对象,我们定义了从前额到下巴到耳朵的所有可检测人脸的边界框我们用不同的尺寸、肤色和被透明材料(如汽车挡风玻璃)部分遮挡的脸来标记脸。具有正面优势的基准数据集将提高评估数据匿名化技术的准确性和有效性对于车牌对象,我们检测具有高度可变性的所有可识别车牌的绑定框,例如不同的大小,国家,车辆类型(摩托车,汽车,公共汽车,卡车)以及其他车辆的遮挡。此外,我们还对移动交通中涉及的车辆牌照进行了注释。为了确保注释的质量,我们采用了两步流程。在第一阶段,两组注释者将独立地注释相同的图像集。在它们的注释输出完成之后,将应用基于两个注释的两个边界框之间的IoU分数的合并方法。IoU分数高于阈值的注释对将被合并并保存为单个注释。IoU分数低于阈值的注释对将被视为冲突。在第二阶段,两个评审团队将在应用与第一个相似的第二个合并方法之前检查冲突的注释对以进行修订。这两个阶段的结果将结合起来,形成最终的注释。所有工作都在CVAT工具5上进行。可识别的物体。人眼只能识别图像中超过一定尺寸的物体。这意味着出于隐私目的,我们可能不需要模糊面部或使板小于某个阈值。为了估计这个阈值,我们对7名参与者(年龄22-我们为调查创建了7个不同的集合,每个集合包含7个大小组的35个面孔和6个大小组的30个车牌。我们随机将每个参与者分配到一组,并要求他们将每个物体评为可识别,难以识别或无法识别。(a) 在正常摄像机图像上标注人脸和车牌的示例(b) 在鱼眼图像图1:PP4AV数据集中的注释示例。(粉色:脸,绿色:牌照)。对于牌照)和评级频率在表3和2中。调查结果表明,边界框需要有至少10个像素的人脸和8个像素的车牌的最小边缘,以便可识别(由人类)。因此,我们通过人脸宽度和车牌高度来过滤基础注释,以生成新的注释,用于测试人脸和车牌检测方法。面宽(像素)<78-1112-1415-1920-2425-29>30面目全非35281713253难辨认071510191010可识别00312142022板高(像素)<56-78-910-1415-19>20个面目全非3529191120难辨认06161501可识别00093334表2:不同车牌高度下的车牌识别率调查。我们总结了对象大小(面宽和高度5https://github.com/openvinotoolkit/cvat表3:不同人脸宽度下的车牌识别率调查。与其他基准数据集进行比较。表4显示了我们的数据集和其他基准数据集之间的详细比较。据我们所知,在交通场景中没有特定的公共数据集用于人脸识别。人脸识别基准数据集从各种在线来源获得,而交通道路场景用于生成用于车牌检测的开放数据集。这个数据集更集中于场景1210i,ci,c∈=−p′p′p′不i、jΣi、jclsobj有车牌,人少一点因此,我们创建了自己的基准数据集,因为向现有数据集添加额外的人脸注释是不可行的。在为我们的数据集收集数据时,我们另一个优势是,我们的数据集是第一个为不同欧洲城市的车牌和人脸检测提供数据的数据集从互联网上获得的数据由于涉及多个来源而具有不同的分辨率。我们的数据选择比车牌的开放数据集具有更广泛的图像分辨率,后者具有固定的分辨率。我们没有将数据集分为train、val和test,因为我们的目标是提供一个基准数据集来评估在其他数据集上训练的模型的性能。最后但并非最不重要的是,PP4AV是第一个注释普通车辆的面部和车牌,如汽车,公共汽车,卡车,货车,拖车和摩托车在正常的摄像头时代和鱼眼图像。4. 基线模型4.1. 模型训练损失。我们的方法是基于Hinton等人提出的知识蒸馏技术。[25]第20段。教师模型的类概率被提取到学生模型中。Kullback-Leibler(KL)散度用来度量学生概率ps和教师概率pt之间的距离其中c 1,2,..,C是类号。然后用公式表示KL损失,以使KL发散最小化:面部或车牌检测任务。 我们还评估了我们的PP4AV上的模型,以检查在街道场景中的人脸和车牌检测的性能。据我们所知,UAI Anonymizer是自动驾驶数据匿名化的唯一公共模型。在UAI Anchorizer中,有单独构建的人脸和车牌模型。对于人脸检测,如Yanget al.[37],大多数最先进的方法使用WIDER FACE作为训练数据集。基于这一论点,我们选择的算法中取得的最高性能的WIDER FACE。第一个老师是YOLO 5Face的yolo-l版本[31]。接下来,RetinaFace [20]是Meta的DeepFace 6的面部检测器对于车牌,我们只使用UAIAncherizer的车牌检测模型作为教师模型,因为训练数据是为EU设计的。学生模型。YOLOX [23]证明SOTA是COCO对象检测中排名最高的方法。因此,我们使用YOLOX作为我们的基线,并针对人脸和车牌检测进行优化。我们将YOLO5Face [31]的修改思想应用于YOLOX,以检测小型和大型物体。我们对YOLOX网络结构做了3处修改:(1)用主干块结构代替Focus层;(2)改变SSP块以使用更小的内核;以及(3)添加具有64步长的P6输出块。由于人脸和车牌距离较远,交通场景非常小,因此我们禁用了Mixups并关闭了数据增强中的马赛克比例我们在数据增强中使用剪切、4.2. 培训数据准备哪里损失KLCti,cc=1exp(psSlog(i,c)(1)i,c/T)我们从现有的自动驾驶开放数据集这些数据集涵盖了广泛的环境,但缺乏人脸和车牌注释,这是我们任务的缺点。由于我们专注于自动驾驶汽车的公共数据集,ps=i,c(二)i,c′Cj=1 exp(ps/T)忽略所有通用公共数据集,因为它们与驾驶场景无关。另一个问题是exp(pt/T)在所有的公共场所pt=i,c(三)i,c′Cj=1 exp(pt/T)自动驾驶汽车的数据集。在我们的方法中,我们尝试使用预训练的模型(然后我们将此模型用作其中T是温度。 去处理阶级矛盾-由于分辨率的高尺度和图像中的小对象,我们用焦点损失代替交叉熵损失新的总损失函数如下:loss=λ·lossiou+lossfl+lossfl+γ·lossKL(4)其中λ是IoU损失lossiou,γ是KL发散损失KL的权重因子,lossfl、lossfl是用于分类的病灶损失,一个教师模型来训练我们的模型),正如我们已经研究过的那样,通过它的预测来教授我们的模型,而不是注释和将这些模型的预测输入我们的模型。表5总结了本实验中的训练集和验证集。我们收集了自动驾驶的公共数据集。虽然测试集仅在欧洲城市收集,但训练集包含的数据不仅在欧洲。数据集BDD100K [39],Comma2K19 [32] , Bosch [18] , India Driving [17] 和LeddarPixset [21]是CLSobj在欧洲以外收集我们还利用CrowdHu-分别。人[33],以丰富街景中的面部对象的教师模特。 我们考虑选择候选人教师模范是一个具有良好的表现6https://en.wikipedia.org/wiki/DeepFaceΣ1211L数据集数据收集数量的样本注释对象采集源位置相机决议距离Train/val测试总[37]第三十七话www-正常变化-16k16k32,203面临[26]第二十六话雅虎-正常变化--2,8452,845面临IJB-C [29]www-正常变化--8.3k130k面临MALF [36]Flickr,www-正常变化--5,2505,250面临AFW [40]Flickr-正常变化--250250面临民主力量联盟[30]www-正常变化--6,4246,424面临UFPR-ALPR [27]泊车位巴西正常1,920× 1,080密切1,800/9,0001,8004,500汽车、摩托车卢西恩[10]交通道路罗马尼亚正常1,280× 720近,远427107534汽车牌照CCPD [35]泊车位中国正常1,160×720密切100k/100k-200k汽车牌照[24]第二十四话交通道路巴西正常1,920×1080近,远800/4008002,000汽车牌照我们道路4个欧盟国家正常,鱼眼变化近,远-3,4473,447车辆的表面、牌照表4:我们的数据集与其他基准数据集的比较跨数据集的分辨率的多样性将有助于模型的多尺度适应,而不是仅在一个分辨率上进行所有收集的公共数据集都保证了不同的条件,例如天气条件,一天中的各种时间范围我们在创建PP4AV时没有使用任何这些图像,因为用于自动驾驶的鱼眼数据集很少,除了WoodScape之外,我们没有发现其他鱼眼相机的数据集。算法一:处理训练集的伪标签输入:训练图像T教师模型θ ={θ1,θ2,.,θ n}IoU阈值Vt输出:伪标签L1L={}2B={Bi|Bi←θi(T)}3,对于s∈T,4,而B(s)=05(i,p∈B(s)CF(s)6B=B(s)−{p}其中p∈Bi(s);p=p7f或p∈Bdo8如果IoU(p,p)≥Vt,则9B(s)=B(s)−{p}10L=L+{p}11B(s)=B(s)− {p}表5:基线模型的训练和验证集中的图像概述和数量4.3. 数据预处理为了通过蒸馏为训练模型准备数据,我们提出了一个集成多个教师模型的框架。我们提出了一种算法,用于生成训练集的伪标签。在我们的算法中,对于每一类目标对象,我们处理训练集T中的每个图像s。表示B(s)是图像s上所有教师模型的预测集,p是B(s)中的预测,包含边界框,类和置信度得分。我们通过对图像s的CF(s)中的置信度得分及其对应的模型θi的索 引i进行 排序来 找到最 佳预测p。我们将这个p_i与模型的所有预测p_i进行我们收集一个训练图像T,我们使用一个n-教师模型,θj,ji通过检查IoU分数。 如果IOU得分为θ1,θ2,…θ n来创建伪注释。对于每个模型Mi,我们生成一个伪标签Bi,其中包含边界框,对象类和置信度得分。在此步骤中,将处理每个教师模型的输出,以使其预测更加稳健。我们消除了具有低置信度分数的边界框或具有如此小的边界框大小的边界框。在下一步中,增强伪模型的关键思想是将包围盒的候选者从教师模型中以最高的置信度得分选择。在算法1中,如果一对p
和p
大于阈值Vt,则我们认为这两个预测是针对同一对象的,则我们elim-使用较低的置信度得分来指定边界框。我们在每个图像上重复这个过程,直到所有的预测都被处理完毕。算法包含有关每个对象的边界框、类和置信度得分的信息。我们将置信度分数保留在伪标签中,用于稍后的蒸馏任务。我们还考虑在没有人脸的后脑勺的情况下处理数据,以训练专注于正面脸和执照的模型数据集位置决议火车Val城市景观[19]50个城市欧元2,048×10242,921488BDD 100K [39]美国1,280 ×72041,5687,370[32]第三十二话加州1,164 ×8746,3581,414博世[18]美国2,464×20563,500750印度驾驶[17]印度1,920×10805,332819[21]第二十一话加拿大1,440×10801,062228[14]5城市欧元1,240 ×3767,5180[33]第三十三话变化变化5,332819卢西恩[10]罗马尼亚1,280 ×720427107总74,01811,7951212平板检测在这种情况下,我们保留只检测正面的教师模型,然后执行算法1。在对上述训练数据集进行数据预处理后,我们没有在所有数据上训练模型,而是为最终训练挑选了一个小的有意义的子集。基于处理后的数据集,我们按照以下顺序策划了三个子集:(i)首先,我们根据人脸和车牌的最大数量选择每个数据集上前20%的图像;(ii)之后,我们通过随机选择来选择每个数据集中剩余的图像数量的接下来的20%;以及(iii)最后,我们的训练数据集已经承载了原始选择数据集的大约40%。数据集的管理将有助于模型更快地训练,但保持性能与整个数据集的训练几乎相同。最终训练数据集如表5所示。5. 评价与分析实验设置。在我们的实验中,我们比较了我们的基线方法与无约束方法和约束方法。无约束的方法包括Google API [7],用于人脸检测的AWS API [2]和用于人脸和车牌检测的UAI Anomalizer。约束方法包括RetinaFace 和 YOLO5Face , 它 们 在 用 于 面 部 检 测 的WIDER FACE数据集上进行训练,以及用于车牌检测的ALPR [34]、NVIDIA LPDnet [9]模型 对于超参数,λ、γ和T都被设置为1,并且V t被设置为0。二、所有的实验都是在一台具有8个GPU的NVIDIA DGX A100服务器上进行的。方法正常图像鱼眼图像AP 50AR 50AP 50AR 50脸[11]第十一话42.62%83.7%43.98%53.33%AWS API [2]63.69%73.33%40.72%46.67%谷歌API [7]7.97%8.99%7.64%8.89%[20]第二十话62.71%88.28%43.82%62.96%[31]第三十一话69.31%百分之九十三点九六69.59%82.96%我们76.22%92.52%百分之五十九点二63.92%板ALPR [34]38.79%41.68%17.26%31.21%NVIDIA LPDnet [9]57.41%58.44%百分之二十四点九26.24%[11]第十一话84.89%85.61%44.14%百分之五十三点九我们88.12%91.88%49.53%58.17%表6:在面部宽度和车牌高度大于8像素的PP 4AV数据集上对应于不同方法的平均精确度(AP)和平均召回率(AR)得分(“-”:模型没有检测)。结果表6显示了在PP4AV数据集中正常和鱼眼图像上人脸和车牌检测方法各种最先进型号的性能表明了使用相同域的训练数据,以实现高性能。实验结果表明,正常图像的人脸和车牌检测性能优于鱼眼图像。这种趋势将来自于鱼眼相机的训练(标记)数据不如来自普通相机的数据那样可用的事实。对于人脸检测,很有趣的是看到一些强大但通用的基线模型(无约束模型)在PP4AV上实现了相当低的性能 ( 在 精 度和 召 回 率 方 面 ) 。 另 一方 面 , 像 UAIAnchorizer ( 专 门 为 匿 名 化 训 练 ) 或 RetinaFace 和YOLO5Face(它们是大型人脸检测基准套件中表现最好的)这样的模型在我们的数据集上表现出更好的性能。我们的模型,从Reti- naFace和YOLO 5 Face学习,并在未标记的驾驶场景中训练,在普通摄像头时代达到了最好的精度,在鱼眼摄像头中排名第二。重要的是要注意,我们没有使用鱼眼数据来训练我们的基线。因此,我们的基线在鱼眼相机中的表现并不优于YOLO5Face模型。对车牌检测结果进行了同样的实验。在正常图像和鱼眼图像上,UAI Ancesterizer的性能优于ALPR和NVIDA LPDnet。这两种方法都有两个阶段,车牌检测阶段在汽车检测阶段之后,并且由于汽车检测阶段而导致的低性能。我们的模型,其中包括数百个地面实况样本从卢西恩,已经超过了UAIAncestrizer在perfor- mance方面。尽管一些SOTA模型在PP4AV上实现了相当不错的性能,但在这个问题上仍有很大的改进空间这为新的隐私保护模型引入了新的挑战。为了进行更严格的分析,我们在物体尺寸超过一定阈值的条件下进一步评估模型我们使用面宽来过滤面的对象大小,因为具有小面或倾斜面的面将具有较小的面。我们应用高度作为标准来过滤车牌的对象大小,因为车牌通常具有小于宽度的高度。虽然图3是鱼眼图像,图2显示了通过过滤正常和鱼眼图像中不同对象大小检测到的对象的平均精度和召回率除了Google API,其他模型在面部尺寸增加时会降低AP和AR。这种趋势对于隐私保护来说是一个大问题,因为脸越大,就越容易识别这个人。当对象大小增加时,即使是Google API也会增加AP和AR。UAI Anchorizer保持最高召回率,因为它已经学会了检测人类头部。在AP分数方面,我们的模型继续比其他模型表现得更好。无论是UAI Ancherizer和我们的模式,为lincense板保持良好的性能与各种板的高度。当印版尺寸增加时,NVIDIA LPDnet可提高查全率和查准率。我们的模型是100%准确的1213(a)面平均精度(b)面平均召回率(c)板平均精度(d)板平均召回率图2:正常图像中人脸(a-b)和车牌(c-d)检测的平均精度和平均召回率与对象大小(人脸宽度和车牌高度)的关系(a)面平均精度(b)面平均召回率(c)板平均精度(d)板平均召回率图3:鱼眼图像中人脸(a-b)和车牌(c-d)检测的平均精度和平均召回率与对象大小(人脸宽度和车牌高度)的关系并且在具有大于55像素的高度的板上召回。鱼眼图像中人脸和车牌检测的AP和AR曲线图3a和3b表明,随着面部宽度的增加,所有算法都快速降低了用于面部检测的AP和我们的模型和UAI Anchorizer的性能一直在慢慢下降。当车牌高度增加时,所有方法的AP和AR都减小。它表明模型无法识别大的,扭曲的板块。这可能很困难,需要在未来做更多的工作6. 结论我们在本文的自动驾驶背景下提出了第一个数据集(PP4AV)的人脸和车牌注释PP4AV在实验结果中展示了对当前最先进的人脸和车牌检测模型的挑战我们希望PP4AV将鼓励进一步研究自动驾驶的隐私保护模型。此外,通过改进基于YOLOX的最先进的深度学习方法,我们提出了自动驾驶中人脸和车牌检测的新基准。虽然不需要任何标记数据,但我们的模型优于一些强大但通用的SOTA模型。我们还发表了一份全面的失败分析,调查了现有人脸和车牌方法的局限性,以便为未来算法的发展提供指导。未来的计划包括为数据匿名提供更多样化的环境数据集。我们提出的数据集和方法具有与大型视觉模型相关的风险。我们的数据集有可能传播攻击性,社会偏见和刻板印象图像和Meta数据。为了过滤掉现实世界中的攻击性数据,我们可以使用基于规则的方法或训练特定的分类器。这是我们打算进一步研究的一个领域。7. 致谢如果没有Vingroup的技术和汽车公司Vantix Inc和Vinfast LLC的支持,这项工作是不可能完成的我们在项目中遇到的技术挑战使我们能够进行有意义的研究。我们亦感谢在研究过程中有机会与我们磋商的同事及专家,感谢他们提出宝贵意见及建议。1214引用[1] 个人信息保护法。https://www. ppc. 走了jp/files/pdf/APPIenglish.PDF.[2] 亚马逊重新认知。https://docs. AWS. 亚马逊com/rekognition/latest/dg/faces. HTML.访问时间:2022-07-12。[3] 加 州消 费 者隐 私法https://www. 奥格。约gov/sites/all/files/agweb/pdfs/privacy/oal-sub-final-text-of-pages. PDF.[4] 中国网络安全法。网址:http://www. CAC。州长cn/2016-11/07/c1119867116. htm.[5] Cruise在加州创下2020年自动驾驶汽车测试里程纪录。网址://www. 政府科技com/fs/cruise-sets-2020-mileage-record-for-av-testing-in-california. HTML.访问时间:2022-07-12。[6] 一般数据保护条例(gdpr)。https://gdpr-info. 欧盟/。[7] 谷 歌云愿 景脸侦 测 。https://cloud. Google.com/vision/docs/detecting-faces.访问时间:2022-07-12。[8] 地图脸和车牌检测性能。https://blog. 马皮里。com/update/2019/09/12/protecting-privacy-better-maps. HTML.访问时间:2022-07-12。[9] Nvidia许可证板检测(lpdnet)。https://catalog. 国家地理委员会。英伟达com/orgs/nvidia/models/tlt lpdnet。访问时间:2022-07-12。[10] 罗马尼亚(欧盟)牌照数据集。https://github.com/RobertLucian/license-plate-dataset.访问时间:2022-07-12。[11] 了解AIAnonymizer。https ://github.com/understand-ai/anonymizer. 访 问 时 间 :2022-07- 12。[12] Waymo自动驾驶里程突破500万英里https://blog. waymo。© 2019 www.waymo-reaches.com版权所有500万自动驾驶HTML. 浏览次数:2022-07-12.[13] Zemris:Zemris 牌照数据集。网址:http://www. 泽姆里斯费hr/projects/LicensePlates/hrvatski/rezultati. shtml。[14] 视觉与机器人技术的结合:Kitti数据集。国际机器人研究杂志,2013年32日。[15] 鱼眼图像中人脸和物体检测的数据集数据简报,2019年27日。[16] Fddb-360:360度鱼眼图像中的人脸检测2019年第二届多媒体信息处理与检索国际会议,MIPR 2019,[17] Idd:用于探索无约束环境中自主导航问题的数据集。会议记录- 2019年IEEE计算机视觉应用冬季会议,WACV2019,2019。[18] 卡斯滕·贝尔德大图像中的Boxy车辆检测。会议记录-2019年国际计算机视觉研讨会,ICCVW 2019,2019。1215[19] Marius Cordts,Mohamed Omran,Sebastian Ramos,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。IEEE计算机协会计算机视觉和模式识别会议论文集,2016年12月。[20] Jiankang Deng , Jia Guo , Evangelos Ververas , IreneKotsia,and Stefanos Zafeiriou. Retinaface:在野外进行单次拍摄多层次面部定位。IEEE计算机协会计算机视觉和模式识别会议论文集,2020年。[21] Jean Luc Deplant、Pierre Merriaux、Francis Tremblay、DaveLessard、DominiquePlourde、JulienStanguennec、Pierre Goulet和Pierre Olivier。 Pixset:一个机会,3d计算机视觉超越点云与全波形激光雷达数据集。IEEE智能交通系统会议,会议记录,ITSC,2021年9月。[22] Mark Everingham , S.M.Ali Eslami,Luc Van