没有合适的资源?快使用搜索试试~ 我知道了~
4361基于对比相关反馈的犯罪嫌疑人识别框架Devansh Gupta,Aditya Saini,Sarthak Bhagat,Shagun Uppal,RishiRaj Jain MIDAS Lab,印度理工学院德里{devansh19160,aditya18125,sarthak16189,shagun16088,rishi18304} @ iiitd.ac.in德里什蒂·巴辛·鲁尔基b@me.iitr.ac.inPonnurangam KumaraguruPrecog Lab,IIIT海得拉巴pk.guru.iiit.ac.inRajiv Ratn ShahMIDAS实验室,印度理工学院,德里rajivratn@iiitd.ac.in摘要犯罪嫌疑人辨认是法医和刑事调查中最关键的环节之一。大量的时间和技能被用于为它创建草图,并需要证人提供一个有用的草图相当多的回忆我们设计了一种方法,旨在自动化的过程中,嫌疑人识别和模型这个问题,通过迭代检索图像从用户提供的反馈与标准的图像检索任务相比,交互式面部图像检索特别具有挑战性,这是由于在描述人的面部属性时所涉及的高度主观性我们的方法使用了一种相对简单的监督形式,利用用户我们验证了我们提出的方法的有效性,使用精心设计的测试平台,以模拟用户反馈和大规模的用户研究。我们的经验表明,我们的方法迭代地提高个性化,导致更快的收敛和增强的推荐相关性,从而提高用户满意度。我们提出的框架是专为实时使用的大都市犯罪调查部门,因此也配备了一个用户友好的网络界面,实时的经验,嫌疑人检索。1. 介绍交互式面部图像检索在数字取证领域显示出巨大的潜力,用于面部识别[13]和嫌疑人识别[14,8]等任务。这些系统的目标是通过缩小搜索空间来检索与查询图像最相似的图像,图像属性描述。实时地,不存在关于该查询图像的确定性知识,但是存在关于用户的视觉记忆中的图像的某些方面的查询这种监督可以以详细的自然语言描述[6]或渐进式属性[25]的形式提供,这可能是昂贵的注释或容易出错,特别是在嫌疑人检索等任务中,证人往往只依赖于他们的视觉记忆。此外,不同面部图像中存在的包括姿态、照明、表情和遮挡的属性的高度变化增加了开发这种系统的挑战。在这项工作中,我们通过开发一个弱监督的人脸图像检索系统来解决这些挑战。为此,我们利用高层次的分类特征属性作为一种较弱的形式的监督捕捉用户面部图像检索领域的先前工作集中在利用预定义的注释特征从数据库中检索图像[26,25]。这种方法将用户的可表达性限制在有限数量的可切属性上,并且由于需要特征注释而训练起来很昂贵。为了缓解这个问题,用户反馈已经被用于以在线方式获得相关图像。在这种情况下,面部特征会受到用户一些方法[25,26,18]利用用户反馈,明确地将更改作为查询和建议的图像。这些方法倾向于对用户施加更高的认知负荷,因为它们要求用户从他们的视觉记忆中回忆图像更用户友好的方法,如[9,2,17],通过要求用户根据某些预定义的参数对心理图像进行分类,成功地减少了认知负荷。SeekSuspect[8]利用基于相似性的用户反馈机制来学习相似和不相似图像之间的差异4362提供给用户的图片迭代1迭代2迭代3迭代4迭代5用户检索的图像(a) 说明我们提出的框架FaIRCoP的面部图像检索。我们在等式2中定义了对比个性化学习的SCLoss。(b) 用户在我们的系统上研究的搜索结果,显示在每次迭代中选择的相似图像。图1:FaIRCoP-使用对比个性化系统的面部图像检索出于安全目的,我们不显示来自Criminal数据集的图像,只使用CelebA数据集进行演示。相对于用户的心理图像模型。尽管试图学习旨在个性化用户偏好的表示,但这些方法未能学习封装图像内的各种变化因素之间的可变性的适当距离度量在这项工作中,我们提出了一个对比学习框架,嫌疑人识别,适应每个证人的个性化概念的相似性。我们的损失函数,称为分离聚类损失,聚类证人选择的图像,同时建立选定和非选定图像之间的二分法。我们还利用非监督解纠缠表示学习来获得鲁棒的图像嵌入,该嵌入将多个面部属性分离到分区的潜在空间中。这使得表示更加可解释,并且还有助于有效地缩小搜索空间,而不显式依赖于标签,这可能是昂贵的以及嘈杂的。由于我们的方法需要人类交互作为我们的管道的一部分,我们提出的算法被称为面部图像检索使用对比个性化(FaIRCoP),配备了一个用户友好的基于Web的界面,用于实时检索图像1。我们还设计了一个定制的用户模拟器,模拟人类反馈,比较我们的方法与各种基线和设计选择,然后在两个广泛的面部图像数据库上进行广泛的用户研究。该方法在从犯罪数据库中检索嫌疑人方面优于其他方法,有效地处理了数据集图像中的高噪声。这种方法也已在大都市犯罪调查部门进行了测试,1我们在补充资料中提供有关网络界面的更多详情将被实时部署使用。图1a显示了我们提出的框架的管道。我们将我们的贡献总结如下:(1) 一 相关性 反馈 框架, 提述 为FaIRCoP,用于自动识别嫌疑人。(2) 基于对比学习的损失函数,称为分离聚类损失,用于通过对选定和非选定图像进行聚类来迭代修改(3) 一个自定义模拟器,用于自动化用户反馈,以将所提出的可疑检索方法与其他算法进行比较。(4) 一个响应式的基于网络的接口,实时嫌疑人检索配备了我们提出的算法。2. 相关作品解纠缠表示学习。解纠缠表示学习是一种将高维数据编码为独立的低维潜在空间分区的方法,每个分区捕获不同的变异因子。几个作品[10,20]通过利用有限的监督来从变化的其余潜在因素中提取指定的由此产生的嵌入提供了增强的可解释性和下游任务性能的模型。然而,由于它们依赖于单个或多个因素的指定特征注释,因此它们受到固有偏差的影响。由于这些原因,无监督的无纠缠表示学习在社区中获得了牵引力。各种先前的工作[7,15]专注于以完全无监督的方式学习因子表示这种将每一个有形特征捕捉到一个数字中的表现形式,4363潜在空间压缩器内的具体块将数据表示为低维嵌入,该低维嵌入可用作若干底层下游任务的有效初始化。对比学习对比学习范式通常用于通过使用距离度量比较数据集中的不同样本来学习表示,以将潜在空间结构化为相似和相异的嵌入[1,21]。Simplified [3]利用这一思想来最大化相同输入的两个视图之间的相似性,同时最小化从一批中的其他图像获得的表示之间的相似性,从而导致更强形式的自我监督。对比学习的目的是学习有意义的代表性的基础上积极和消极的嵌入对。因此,在迭代图像检索的情况下,我们可以通过用户的选择来对正对和负对进行建模,其中用户选择的所有图像对都可以被建模为正对。另一方面,未被用户选择的图像充当与所有选择的图像的负对。因此,使用这作为一个弱监督,我们应用这个概念来学习表示映射的概念,特定于用户的相似性在潜在空间中的一个已知的相似性度量。图像检索图像检索的任务,使用用户的线索是一个具有挑战性的任务,由于高层次的主观性和个性化的用户的概念,不同的视觉特征。[25]通过自然语言使用更高形式的超视来检索图像。其他方法[26,18]通过基于一组属性检索与当前查询图像相关的图像来放松这些约束,这些属性要么是在系统制定过程中决定的,要么是由用户指定的。类似地,[26]找到了最近的正交向量集作为潜在空间中独立属性的代表,并通过属性偏好对其进行加权以获得修改的[2]探索了基于用户反馈的任务相关投影空间中的学习相似性度量的概念。即使这些系统生动地利用了面部图像的一些基本特征,它们也没有考虑从用户所选择的谨慎选择的图像中获得的信息。在这项工作中,我们利用相似性(或不相似性)的概念作为用户反馈的一种形式,类似于[9,2]。通过我们的框架,我们突出了映射的相似性概念的一个特定的用户在潜在空间的距离,使图像推荐最接近用户[14]采用了类似的用户个性化方法,但是,它依赖于标记监督。3. 该方法我们提出了一种方法,在该方法中,用户选择和未选择的图像可以被视为积极和消极的,的样本,以捕捉用户心目中的相似性的概念我们试图将这一概念与图像表示的投影潜在空间中的某个各向同性度量相关联。因此,我们在这个低维空间中设置了一个约束,即用户选择的图像的嵌入比未选择的图像更接近。我们通过使用完全连接的神经网络将预训练的基本表示投影到低维空间来合并这样一个框架,并制定SCLoss来训练投影网络,以便它学习分离与当前查询图像相关和不相关的图像的投影我们还在在线训练期间引入锚定的概念,以保留相似性的概念,并确保仅形成一个对应于相似图像的聚类,并且所有未被选择的图像理想地远离聚类,其中训练所需的图像数量恒定。我们描述了我们提出的相关反馈算法FaIRCoP的补充,并强调其重要组成部分在接下来的部分。3.1. 分离表征学习我们的相关反馈框架需要良好的基础表示,以确保编码器和投影网络没有额外的开销,共同学习良好的表示,从而导致更快的收敛和改善的延迟。解纠缠表示由于其能力而充当有效的初始化将不相交的变化因素封装在特定的固定大小的块中,从而提高下游任务的性能。这一步变得非常重要,因为我们已经设计了实时使用的系统,如第1节所述,这涉及到即使经过充分的预处理,也会失真和噪声的图像。Shukla等人[16]通过大量的实验经验性地表明,即使解纠缠表示将远离欧几里得空间的几何形状作为与失真和噪声图像的非解纠缠表示的互补,它们也对关于图像的更多信息进行编码,这些信息对噪声是鲁棒的,并且反过来,在泛化、公平性和可解释性方面带来好处,从而提高性能。我们在第6节中讨论了他们对我们数据库的具体分析。这为我们的框架设置了一个有利的基本表示,但要求投影网络将这些表示编码到一个空间中,该空间模拟用户的相似性概念。由于我们的框架是在线优化的,因此表示本身不受标签的影响,以便更快地捕获证人所表达的更高级别的相似性概念。因此,一个无监督的解纠缠表示学习方法是理想的提取表示为我们的任务。 我们利用[7](MIX)为IM数据库提取表示,4364′年龄在我们的例子中,这种方法在计算上也非常高效,因为标准的ResNet-18表示需要大约18层以及跳过连接来表示图像,而我们能够用5个简单的卷积层提取良好的3.2. 分离群集损失我们提出了一个分离的集群损失(SCLoss)创建一个集群的图像由用户选择的投影空间,并确保所有的非选择的图像是远离由用户选择的图像。它基于N对损失目标的概念[19],该目标量化了最大化给定嵌入对(称为正对)之间的相似性并最小化与所有其他嵌入的相似性的正对e和e′以及集合U由所有向量组成,当与e形式负配对时,具有缩放因子τ [3]的有效对由等式1给出。在这种情况下,因为没有办法将新图像与先前的选择相关联,所以可以独立于类似的先前图像为两个集合创建聚类。为了规避这个问题,我们提出了一个训练技巧,称为anchoring,它确保新的类似图像的投影表示被训练成投影空间中先前形成的集群的一部分在训练过程中,为了确保我们有足够的图像来更新我们的表示,我们将一定数量的先前选择的相似和不相似图像添加到当前迭代中获得的相应集合中。这个特殊的技巧将新的嵌入锚定到先前形成的集群,因为网络已经学会将先前的嵌入投影到相应的集群,避免在潜在空间中形成多个4. 实验我们评估我们的方法对国家的最先进的基础-lU(e,e)=−logesim(e,e′)/τk∈Uesim(e,k)/τ(一)行的人脸图像检索任务,使用一组定性和定量的实验。因此,我们可以将这一概念扩展到我们的设置中,其中,我们最大化相似图像的所有投影嵌入之间的成对相似性,并确保不相似图像的所有投影嵌入远离相似图像的投影嵌入。可以观察到,我们的损失不需要相同数量的相似和不相似的图像,因此可以在在线训练期间灵活使用。下式中的集合S表示用户选择的图像,而D表示用户未选择4.1. 数据集我们利用一组两个数据集,即Criminal Dataset和CelebA Dataset[11],来评估我们的方法在面部图像检索方法中对最先进技术的有效性。4.1.1犯罪数据集:提出的框架制定的目标是优化嫌疑人图像检索的任务,以协助刑事调查的基础上证人SCLoss(S,D)=1阿格里尔D(x,y)(2)罪犯同样,我们利用犯罪数据档案|(|S|− 1)x ∈ S y ∈ S −{ x }|− 1)x∈S y∈S−{x}3.3.在线培训和推理SCLoss的目标是以这样的方式训练投影网络,使得与用户的心理图像相似的图像因此,我们使用在等式3中指定的评分函数。 集合Sa表示用户选择的所有相似图像。提供给我们的信息独特的罪犯谁是无辜的任何形式的犯罪指控或目前在与正在进行的犯罪部门参与的mugshots。档案中的每个数据点都与描述罪犯物理属性的属性相关联该数据集具有相当数量的对齐和模糊形式的噪声,使用score(u)=sim。u,1|Sa|x∈Sa(三)一个预先训练的VGGNet[13]对我们的数据集进行微调,而无法识别的模糊图像必须被丢弃,使最终的数据集计数达到39,196张面部图像。我们可以观察到,随着迭代次数的增加-增加,相似图像、不相似图像或两者的数量都将增加。在这种情况下,损失所需的计算将变得更高,并且在一定限度之后可能在计算上不可行。相反,假设仅使用当前迭代的相似和不相似图像来创建聚类。在然后从面部照片中提取面部区域,[24]第二十四话4.1.2CelebA数据集:我们采用CelebA[11]面部数据集,以描绘我们的亲,X轴4365构成框架。CelebA数据集包含来自10177个身份的202599张每个面部图像都标记有40个二进制属性,例如尖鼻子和波浪头发。然而,我们选择丢弃同一个人的所有重复图像,以保持与犯罪数据集的一致性,该数据集为每个人提供了唯一的图像。CelebA数据集包括各种种族和性别的详尽覆盖,使其在研究人员中得到广泛接受。4.2. 用户模拟器我们利用一个用户模拟器来比较不同的相关反馈算法。用户模拟器模仿一个有目标图像的人类用户,并在每一轮提供反馈每个用户模拟平均需要30分钟才能完成我们对每个算法进行10次模拟,并比较这些模拟的平均我们设计了一个用户模拟器来复制我们的用户在环框架。为了模拟两个图像之间的相似性的概念,我们设计了一个度量,比较每个图像的不同表示之间的余弦相似性的平均值如果目标图像和所考虑的图像之间的相似性大于某个阈值,则模拟器将其标记为相似,而其余图像被认为是不相似的。我们使用了三种图像嵌入的 组 合 , 即 方 向 一 致 性 直 方 图 ( HOG ) [4] ,FaceNet[13]和MIX[7]来提供代表。为了计算平均相似度。相似性阈值在每次模拟开始时通过从数据库中随机采样恒定数量的图像并从所选目标图像计算相似性来确定。然后对这些相似性进行平均以获得相似性的初始阈值在每一个常数的迭代次数后,阈值被更新。用户模拟器的精确算法可在补充资料中找到。4.3. 度量平均收敛迭代(ACI)。我们的用例对不同用户提出的每个查询都有一个唯一的解决方案。该解决方案是从巨大的数据池中以高度过滤的间隔由于在相关性反馈期间存在人在回路中,所以重要的是以最低可能的迭代次数检索目标图像我们计算每次模拟达到目标图像所需的平均迭代次数,以获得平均收敛迭代。其大小与模型的精度平均相关性(AR)。我们还使用平均相关性来量化建议图像的相关性与用户的心理图像进行比较它指示模型能够根据用户的需求进行个性化的程度我们计算每个模拟的相关性,它是用户在整个过程中显示的总图像中选择的相似图像的分数所有迭代的平均值为我们提供了平均相关性。4.4. 用户模拟器我们将模拟器上的结果与FaceFetch进行[14]和Rocchio算法[17],类似于[14]中提到的具有MIX嵌入的中间过程。我们计算4.3节中提到的所有上述图像嵌入组合的度量。这些结果显示在表3中。在图3中,我们使用t-SNE[22]以可视化用户模拟器为四个不同模拟选择的相似图像的集群。定义良好的聚类表明,每个用户模拟的相似性概念被不同地捕获,因此,定性表示个性化水平。图2表明,随着迭代的进行,FaIRCoP模拟的目标图像在每个模拟的算法中是一致的。对于每个实验,我们考虑10次模拟结果的平均值。因此,对于每个算法,使用10个目标图像。我们确保对于每个模拟,初始迭代中推荐的图像在算法中完全相同。这些初始图像是在整个数据集上使用k均值聚类选择的,并从每个聚类中采样两个图像。模拟器被提供有在每次迭代中由每个算法适当地推荐的16个图像,并且模拟器可以在迭代中选择这16个图像中的任何数量的相似图像5. 用户研究我们进行了一项用户研究,以测试我们的方法在实时场景中的有效性,实际的人在循环中算法PREFRELRESPCONV犯罪数据集Rocchio0.400.410.410.08FaceFetch0.400.590.570.28FaIRCoP0.700.720.810.44CelebA数据集Rocchio0.260.430.420.14FaceFetch0.50.630.580.29FaIRCoP0.630.710.670.36表1:从对Criminal和CelebA数据集进行的用户研究中获得的累积指标。4366(a)CelebA-初始(b)CelebA-最终(c)犯罪数据-初始(d)犯罪数据-最终图2:初始(顶部)和训练(底部)投影网络的所有相似(蓝色)和不相似(红色)图像的投影嵌入的可视化,用于两个数据集的FaIRCoP度量犯罪数据集CelebA数据集ResNetFaIRCoPResNetFaIRCoPDCI0.230.120.890.300.150.890.270.210.880.360.270.90表2:可解释性 度量 评分 的比较ResNet和FaIRCoP嵌入。(a)CelebA数据集(b)犯罪数据集图3:使用FaIRCoP在模拟器上检索图像,在投影空间中可视化在这些图中,每种颜色都描绘了一个不同的用户。并将其性能与使用相关反馈的迭代图像检索这项研究涉及20名参与者,每个人都从数据库中分配了一张向每个用户显示他们的图像40秒,以生成所分配图像的适当视觉记忆。根据他们的视觉记忆,他们使用四个独 立 的 系 统 搜 索 图 像 , FaIRCoP , Rocchio[17] 和FaceFetch[14]在各自的后端运行。对于每次搜索,用户最初需要选择用于初始化搜索的属性,随机设置的图像与所提供的属性具有适当的相似性该算法在每次迭代中向用户展示16幅图像,用户从中选择相似的图像,并通过上述方法重复该过程,直到用户报告与用户的视觉记忆高度匹配的图像在犯罪数据集的情况下,搜索被削减到最多30次迭代图4:使用FaIRCoP从用户研究中获得的另一次运行。每个框包含用户在每次迭代时从推荐图像中选择的相似图像,直到收敛。[8]的一项建议。相比之下,在CelebA的情况下,它们被修剪最多25次迭代[11]。 在每次检索结束时,要求用户填写一份调查问卷,并根据该问卷计算一些性能指标,如第5.1小节所述。所有用户的平均结果如表1所示。用户研究结果与我们获得的关于所采用的度量的模拟结果5.1. 性能度量由于在相关反馈机制中存在人在回路,我们进行了用户研究,并评估了我们的模型的性能比较提供给用户的图片迭代1迭代2迭代3迭代4迭代5未选择图像迭代6次迭代7用户检索的图像4367.−表示ACIAR犯罪数据集FaceNet 混合生猪 Rocchio FaceFetch FaIRCoP Rocchio FaceFetch FaIRCoP✓✓✓✓✓✓✓✓✓✓804.22450.80550.95565.60441.30691.00506.50152.50457.75380.7557.2568.3341.6698.3389.000.290.450.520.340.590.150.270.380.170.360.820.830.790.790.88CelebA数据集FaceNet 混合生猪 Rocchio FaceFetch FaIRCoP Rocchio FaceFetch FaIRCoP✓✓✓✓✓✓✓✓✓✓351.2358.8299.8309.00158.4263.00222.8255.20249.00227.0040.527.450.098.220.20.370.360.540.360.530.400.400.370.380.430.610.700.870.540.82表3:使用Criminal和CelebA数据集上的不同方法从用户模拟中获得的定量指标根据研究后调查问卷,其中涵盖了用户对下文讨论的指标的反馈。相关性(REL)。由于该机制的迭代性质,在用户的视觉图像和随着迭代进行而推荐的图像之间必须存在增加的相似性是至关重要的。系统的相关性测量用户在每次迭代时推荐的图像集合与用户的视觉记忆之间感知的相似性的变化我们要求用户量化他们选择相似图像的容易程度,因为迭代在1到5的范围内进行,其中1表示选择时的高水平精神压力,而5表示随着迭代的进行而增加的我们将分数标准化为介于0和1之间。响应性(RESP)。 对于迭代图像检索,用户观察到他们以前的响应被有效地使用并且图像不是随机推荐的也是至关重要的。我们要求用户量化他们感知到的推荐随机性,范围为1到5,其中1表示大量的随机性,而5表示有效使用以前的查询。我们将分数标准化为介于0和1之间。收敛(CONV)。 作为一个图像检索系统,我们必须确保系统可以在更少的迭代收敛。为了衡量这一点,我们计算收敛(C)的搜索收敛在N次迭代,最大限度的最大iter允许在方程4中给出。图5:用于比较FaIRCoP公平性的修改组人口统计学奇偶性度量(左,F=0. 04)和ResNet(右,F= 0.05)的情况。可重复性(PREF)。由于每个用户都对所有算法进行了图像检索,因此我们要求他们报告如果检索到的图像与确切的目标图像不匹配,他们是否愿意继续使用该系统。捕捉用户使用系统的偏好。如果用户不愿意继续,我们将偏好度评分设为0. 如果用户想继续,则为75,如果用户检索到准确的图像,则为16. 可解释性和公平性对于任何给定的数据集,语义上有意义的特征学习要求学习的表示是可解释的。由于问题的交互性质,学习的表示应该是公平的,以避免在与系统交互的用户之间引入任何反馈偏差6.1. 解释性1NC=maxiter+50如果用户报告的图像不同(四)我们使用解纠缠(D),COM-性别互补眼睛脸头发鼻子胡子疤痕痣白癜风烧糊畸形性别互补眼睛脸头发鼻子胡子疤痕痣白癜风烧糊畸形性别互补眼睛脸头发鼻子胡子疤痕痣白癜风烧糊畸形4368DCI−Ri,jCΣkΣΣ|∈∈−Σ我我Ri,jpleteness()和Informativity()(DCI)度量[5]。这些指标中的每一个的高值都描绘了与数据集中的有形特征相关的高语义含义[23,27]。考虑F作为数据集中的变异因子的总数,我们为数据集中的每个表示训练F个梯度提升回归器作为特征集,并生成重要性矩阵R,使得对于给定的潜在因子j,Ri,j表示在输出中具有第j个变异因子的表示集上训练的线性回归器的第i个Disentanglement(). 度量的解纠缠得分表示给定表示解纠缠变异的潜在因素的程度。变异系数的总解缠结评分计算如下:D=0。1−H(P)Ri,j,(5)我i、j变化.表2说明了FaIRCoP嵌入在两个数据集的所有三个指标上都优于预训练的ResNet 186.2. 公平我们说明了一个广泛的公平性研究的数据集上提供一个想法的标签分布在数据集中。为了评估表示生成器在公平性方面的有效性,我们基于两个度量– 我们使用了修改后的组人口统计学均等度量[12],并在图5中描述了我们获得的结果。对于组公平性,我们使用了基于自定义人口统计学均等的测量,其中,低度量值(本质上是样本集中每对的成对差异平均值,由t和s的联合分布跨越)表示每个少数群体(由s表示)相对于每个目标群体(由t)。这些步骤包括将生成的表示划分为训练集和测试集,并生成每个位置。其中H(Pi)表示Pi分布的熵。其中,Pi是j×1向量,使得Pi,j=Ri,k。 分数直接表示解纠缠,因为只有当每个表示被认为对于预测不同变异因子中的仅1个重要时,分数才等于1完整性()。完整性分数测量表示捕获单个变化因子j的程度,并计算如下:Cj=1−H(Pj),(6)其中H(Pj)的计算方式与前一节中所述的相同如果只有一个表示对于预测第j个变异因子是重要的,则得分Cj等于1,如果所有表示的贡献相等,则得分Cj等于0对于所有F变异因子,最终得分计算如下作为敏感变量s和目 标 变 量 t 连 续 。 对 于 每 一 对 , 将 K- 最 近 邻(KNN)聚类模型拟合到训练集上,其中t作为输出,并且所有ti的条件概率p(tisj)t和sj计算得到最终的热图。F=E[ti,sj]∈[t,s]p(ti|sj)。(9)结果见图10。5,其中,我们针对预训练的ResNet18评估了FaIRCoP嵌入在我们整个训练集上。我们还评估了分布-通过模拟器选择的不同图像与整个训练集之间的相似性来评估聚类过程中的任何偏差分布相似性结果见补充材料。7. 结论FC=C j。(七)j=1信息性()。信息得分表示由表示法捕获的所有潜在变异因子的信息程度,并计算如下:I=Ej∈(Z∈[1. F])1−zj−zj′,(8)其中zj表示第j个变量的真实分布,zj′表示由第j个线性回归预测的分布。 当表示完全能够预测的所有因素时,该度量等于1。在这项工作中,我们使用用户反馈的对比学习来解决嫌疑人识别问题,这是系统监督的一种较弱形式。为此,我们提出了SCLoss,以及在线推理策略。我们的系统迎合了个性化的功能,每个用户由于高度的主观性,在证人的心理视觉记忆的概念。配备了一个用户友好的Web界面,我们提出的算法优于其他国家的最先进的基线定性和定量,通过用户研究验证。8. 确认Rajiv Ratn Shah部分得到了印孚瑟斯人工智能中心和印度理工学院德里设计与新媒体中心的支持。4369引用[1] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展,第32卷,2019年。[2] Binod Bhattarai,Gaurav Sharma 和Frederic Jurie。CP-MTML:用于大规模人脸检索的耦合投影多任务度量学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月[3] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。第37届国际机器学习会议论文集,机器学习研究论文集,第1597-1607页。PMLR,2020年7月13日[4] N. Dalal和B. Triggs用于人体检测的定向梯度直方图CVPR 2005,第886-893页[5] 作者声明:Christopher K. I.威廉姆斯解纠缠表示的定量评价框架。在ICLR,2018年。[6] Xiaoxiao Guo,Hui Wu,Yu Cheng,Steven Rennie,Gerald Tesauro,and Rogerio Schmidt Feris.基于对话框的交互式图像检索。在第32届神经信息处理系统集,NIPS'18,第676-686页,Red Hook,NY,美国,2018年。Curran Associates Inc.[7] QiyangHu,AttilaSzabo',TizianoPortenier,MatthiasZwicker,and Paolo Favaro.通过混合各种因素来解开它们2018 IEEE/CVF计算机视觉和模式识别会议,第3399-3407页[8] Aayush Jain , Meet Shah , Suraj Pandey , MansiAgarwal,Ra- jiv Ratn Shah和Yifang Yin。寻找嫌疑犯2021年第二届ACM亚洲多媒体国际会议论文集[9] 杨均章和南益曹相似性引导的深度人脸图像检索。2021年。[10] Ananya Harsh Jha , Saket Anand , Maneesh KumarSingh,and V. S.拉奥·维拉瓦萨拉普用周期一致的变分自动编码器解开变分ArXiv,abs/1804.10469,2018。[11] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议(ICCV)的会议记录中[12] FrancescoLocatello,Gabriele Abbati,Tom Rainforth,StefanBauer , BernhardSchoülkopf , 和 OlivierBachem。论解缠表象的公平性。NeurIPS,2019。[13] F. Schroff,D. Kalenichenko和J.菲尔宾Facenet:用于人脸识别和聚类的统一嵌入在CVPR,第815-823页[14] Harsh Shrivastava , S RamaKrishnaP.V.N. , 作 者 :Karmanya Ag-garwal,Meghna P. Ayyar,Yifang Yin,Rajiv Ratn Shah,and Roger Zimmermann. Facefetch:一个利用视觉记忆的高效可扩展的人脸检索系统2019 年 IEEE 第 五 届 多 媒 体 大 数 据 国 际 会 议(BigMM),第338-347页,2019年。[15] Ankita Shukla,Sarthak Bhagat,Shagun Uppal,SaketAnand , and Pavan K. 图 拉 加 Prose : Product ofOrthogonalSpheresparameterizationfordisentangledrepresentation learning. ArXiv,abs/1907.09554,2019。[16] Ankita Shukla、Shagun Uppal、Sarthak Bhagat、SaketAnand和Pavan Turaga。解纠缠表示的深层生成模型的几何学。在第11届印度计算机视觉,图形和图像处理会议论文集,ICVGIP 2018,纽约,纽约,美国,2018。计算机协会.[17] IndahAgustienSiradjuddin , AryandiTriyanto 和Mochammad Kautsar S.基于二维图像特征表示的rocchio算法相关反馈图像检索。在2019年第二届机器学习和机器智能国际会议论文集,MLMI 2019,第16-20页计算机协会。[18] 布兰登·M Smith,Shengqi Zhu和Li Zhang。基于形状操作的人脸图像CVPR,2011。[19] 孙奇赫改进的具有多类n对损失目标的深度度量学习。在神经信息处理系统的进展,2016年。[20] AttilaSzabo',QiyangHu,TizianoPortenier,MatthiasZwicker,and Paolo Favaro.解开变异的独立因素ArXiv,abs/1711.02245,2018。[21] AaéronvandenOord,YazheLi,andOriolVin yals. 使用对比预测编码的表示学习CoRR,abs/1807.03748,2018。[22] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化 数 据 。 Journal of Machine Learning Research , 9 :2579[23] Sjoe rdvanSteenkiste,FrancescoLocatello,JürgenSchmid-huber,and Olivier Bachem.解缠表征对抽象视觉推理有帮助吗NeurIPS,2019。[24] Paul A.作者:Michael J.琼斯使用简单特征的增强级联快速目标检测。见CVPR(1),2001年。[25] Xinru Yang,Haozhi Qi,Mingyang Li,and Alexander G.豪普特曼从一瞥到“抓到你”:渐进式相关反馈交互式人脸图像检索。2020年。[26] Alireza Zaeemzadeh,Shabnam Ghadar,Baldo Faieta,Zhe Lin , Nazanin Rahnavard , Mubarak Shah , andRatheesh Kalarot.基于属性操作的人脸图像检索。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第12116-12125页[27] 朱利安·扎伊迪,乔纳森·博伊拉德,吉斯林·加尼翁和马克·安德烈·卡本诺。测量解缠:对Metrics的评论。ArXiv,abs/2012.09276,2020。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功