Facebook的PDQ与TMK+PDQF:大规模视频与图像哈希检测技术

需积分: 9 1 下载量 141 浏览量 更新于2024-07-16 收藏 26.39MB PDF 举报
"PDQ和TMK + PDQF是Facebook用于检测有害内容的工具,包括图像和视频哈希算法,可以有效地将文件转化为短数字哈希,以便在不同平台间共享,用于识别相同或相似的文件。这两种技术设计时考虑了大规模运行、视频帧哈希和实时应用的需求,基于Facebook在处理数十亿条帖子中滥用情况的经验。" PDQ(Perceptual Difference Quantization)是一种通用的照片哈希算法,生成256位的哈希值,具有汉明距离,能量化图像细节,如模糊或无特征的图像。计算哈希的时间与读取图像文件的时间相当,这使得PDQ在效率和效果之间找到了平衡。 TMK+PDQF(Temporal Matching Key + Perceptual Difference Quantization Fast)是针对视频哈希的通用算法。它基于PDQ,但省略了最终的二进制量化步骤,因此称为PDQF(浮点版本)。TMK算法用于收集时间序列的帧信息。每个视频的哈希值为256KB,但前1KB就能区分几乎所有的视频。然而,计算哈希的时间大约是视频播放时间的30倍,这可能取决于存储密度。 设计这两个算法的主要目标是在实践中应对Facebook遇到的滥用检测模式,确保它们能够在大规模操作中高效运行。TMK的特点包括匹配性能、哈希长度和许可条件。PDQ的特点则可能涉及到其质量度量、对图像细节的敏感性以及计算效率。 TMK的匹配性能是关键,因为它需要在大量数据中快速准确地找到匹配项。哈希长度影响存储需求和比较效率,较短的哈希可以更快地进行比较,但可能会降低唯一性的保证。至于TMK的许可条件,这可能涉及到算法的开源或专有性质,以及可能的使用限制。 PDQ的特性可能包括其对图像感知差异的量化能力,这有助于区分视觉上相似但实质不同的图像。其提供的0-100的质量指标能够量化图像的细节级别,这对于识别模糊或不清晰的图像特别有用。此外,PDQ的计算效率也是一大优点,使其在实际应用中更具吸引力。 PDQ和TMK + PDQF是Facebook在处理有害内容检测中的关键技术,它们利用高效的哈希算法在大规模数据中进行相似内容的查找,同时满足实时性和存储效率的需求。这些技术的发展和优化,反映了社交媒体平台在应对在线滥用和保护用户安全方面的重要努力。