高效PolyFace: 计算预算下的ICCV19轻量级人脸识别竞赛突破

需积分: 0 0 下载量 68 浏览量 更新于2024-08-04 收藏 615KB DOCX 举报
面向触发器约束的人脸识别是一项针对轻量级计算环境的挑战,特别是在大规模面部识别任务中,尤其是当计算预算有限时。ICCV19的轻量级面部识别挑战[2]作为开放源代码面部识别竞赛中的佼佼者,强调了模型的效率和一致性,要求提交的模型在1GFLOPs和30GFLOPs的计算路径下运行,且需在不同数据格式(如小型图像和大型视频)上表现优秀。 在这个挑战中,研究团队由刘瑜等人组成,他们专注于基于图像和视频的两条主要路径。首先,基于图像的基线模型采用两种不同的CNN架构,即R100[1]和他们提出的创新网络架构PolyFace。PolyFace的设计灵感源自PolyNet[11],它通过重复其基础模块(如图1所示)来构建,以实现深度学习特征的有效提取。该模型的主要结构包括一个上采样和卷积层组成的“主干富集块”,用于处理原始数据并将其扩展到235×235的空间大小,然后压缩回112×112。 在PolyFace的主干部分,最后采用一个具有256个外通道的全连接层来生成面部识别特征向量,接着是BatchNorm1d层以提升模型性能。值得注意的是,为了满足挑战的限制,团队还提出了一种新颖的损失函数ArcNegFace,以及帧聚合方法QAN++,这些技术旨在进一步提高模型的效率和识别精度。 基本模型EfficientPolyFace在112×112输入尺寸下,仅需28.25GFLOPs就能达到94.198%的准确率(@1e-8),显示了其在轻量级计算条件下的强大能力。另一方面,通过将PolyFace与QAN++相结合的解决方案“PolyFace+QAN++”,则针对基于视频的大型轨道,仅需24.12GFLOPs就实现了72.981%的准确率(@1e4),这在比赛中创造了新的记录。 团队在实现过程中还应用了一系列优化技巧,如增强效果、规则人脸处理、标签平滑和锚点微调,这些都在保证模型性能的同时,有效控制了计算成本。这项研究不仅展示了如何在轻量级人脸识别领域取得突破,也为其他领域的低资源计算任务提供了有价值的经验和方法论。