未标记目标域的代理模型性能评估

98 浏览量更新于2023-10-08 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11761答：评估于最好秩最糟糕…目标（未标记）如何找到一个标记的代理，以及反映真实的排名？B：最好的请改用源模型最差代理（标记）未标记新环境中的排序模型Xiaoxiao Sun，Yunzhong Hou，Weijian Deng，Hongdong Li，LiangZheng澳大利亚国立大学{名字.姓氏}@ anu.edu.au摘要考虑一个场景，其中我们提供了在某个源域上训练的许多现成的模型，并且希望基于模型的相对性能将最合适的模型直接应用于不同的目标域。理想情况下，我们应该在每个新的目标环境中为模型性能评估注释一个验证集，但是这样的注释通常非常昂贵。在这种情况下，我们介绍了在未标记的新环境中的排名模型的问题对于这个问题，我们建议采用一个代理数据集，1）完全标记和2）很好地反映了在给定的目标环境中的真实模型排名，并使用代理集上的性能排名作为代理。我们首先选择标记的数据集作为代理。具体地，发现与未标记的目标域更相似的数据集更好地保持相对性能排名。出于这一动机，我们进一步建议通过从具有与目标相似的分布的各种数据集中采样图像来搜索代理集我们分析的问题及其解决方案上的人重新识别（重新ID）的任务，其中足够的数据集是公开的，并表明，精心构造的代理集有效地捕捉在新的环境中的相对性能排名。代码可在https://github.com/sxzrt/Proxy-Set获得。1. 介绍在现实世界的应用中，在源域上训练的模型（以下称为源模型）直接应用于未标记的新目标环境（以下称为目标域）并不罕见，其代价是采用一些无监督域自适应（UDA）技术[15，32，19]。假设一个人可以访问一个源模型池，并可以选择适当的模型。在此上下文中，期望获得目标域上的不同模型的相对性能，而不必注释目标环境中的数据。为了找到合适的模型，我们通常在标记的分区上评估每个单独的模型（例如，验证图1：提出的问题和一般解决方案的图示。给定在源数据上训练的各种模型（蓝色圆圈）（在此表示为源模型）和一个未标记的目标域，我们的目标是对它们进行排名，并找到直接部署到目标的最佳模型答：如果不访问图像标签，仅使用目标数据不太可能实现此目标B：我们找到一个代理来对模型的性能进行排名，并将此（红色）排名用作替代门。具体来说，这个代理应该1）完全标记，2）很好地反映了（绿色）在目标上的真实排名设置）的目标环境，并排名他们找到最好的一个（见图。1A）。然而，注释通常是昂贵的，如果我们考虑为每个新的应用程序场景的数据标记，它变得令人望而却步。因此，一个有趣的问题出现了：我们能否在没有地面真实标签的情况下估计新环境中的模型在这项工作中，我们的目标是找到一个代理（或代理）排名的模型，回答上述问题。具体来说，我们专注于人的重新识别（重新ID）的任务，其目的是检索跨多个摄像机的相同身份的人。对于该问题，期望代理可以提供类似的模型排名，因为在实践中难以获取目标验证集为此，代理人应满足：1）有评价标签和2）很好地反映了真实的模型排名（见图2）。第一章B节）。对于第一个要求（标签），我们可以使用带有伪标签的目标数据集，也可以使用其他标记的数据集。然而，由于伪标签的性质，其中一些可能不准确。现有的工作发现，inaccu-……11762i=1--当用于训练时，速率伪标签极大地影响模型精度[13]。我们怀疑这种不准确的伪标签在用于评估时甚至可能造成更大的伤害。因此，我们考虑使用真实的并且不是来自目标域的标签。对于第二个要求（很好地反映真实排名），我们应该考虑目标数据分布。如果我们直观地使用源域上的模型排名（假设标记的源验证集）进行排名估计，我们可能会这通常可归因于分布差异。例如，一个模型在特定场景中可能优于另一个模型，但它们的性能在不同的场景中可能不相似甚至相反因此，为了在目标域上获得准确的模型排名，应该考虑目标数据分布我们探索代理集，满足这两个要求。首先，我们使用现有的数据集，其中ID的标签可用。它可以是源数据集、源数据集或目标数据集以外的任意数据集，或者是复合数据集。这使我们能够方便地使用其标签计算模型精度。第二，在两个分布差异测量方面，代理接近目标分布： Fr e´ chet 起始距离（FID）[18]和特征变化间隙[12，23]。这是基于我们的观察，即与目标域更相似的数据集（即，小FID和小方差间隙）更可能形成更好的代理。这一观察与领域适应中的一些关键发现有着相似的精神，即减少领域差距有利于模型训练。然而我们从另一个角度推导出它，用于性能排名的代理集的质量。在数据集搜索过程中进一步研究这两个测量。从现有数据集中收集图像池，并将其划分为聚类。从每个聚类中以与聚类和目标之间的相似性（FID和方差间隙）成比例的概率对图像总体而言，本文包含以下主要观点。• 我们研究一个新问题：对未标记目标域上的源模型性能进行排序。• 我们建议使用一个标记的代理，可以给我们一个很好的估计模型的排名。它通过搜索过程构建，使得代理数据分布接近目标。• 实验验证了我们的方法的有效性，重要的是，为我们提供了洞察数据集的相似性和模型评估。2. 相关工作无监督域自适应（UDA）是一种常用的提高源模型性能在不需要标记过程的靶域上。该目标可以在特征级[32]、像素级[63，10]或基于伪标签[13，61，42]上实现虽然UDA的目标是学习目标场景的有效模型，但我们的目标是比较直接转移到目标域的不同模型的性能。预测模型泛化能力。我们的工作也涉及到这一领域，在未见过的图像模型泛化误差估计。一些工作使用训练集和模型参数来预测泛化差距[2，5，21，37]。例如，Corneanuet al. [5]使用持续的拓扑测量来预测训练和测试错误之间的性能差距。还有一些工作旨在基于几个分类器的预测之间的一致性得分来预测未标记测试样本的准确性[34，39，38，11]。Platanios等人[38]使用概率软逻辑模型来预测分类器错误。最近，Denget al.[9，8]尝试在各种未标记的测试集上估计分类器的准确性。我们的工作不同于上述工作。我们研究一个新问题：在未标记的测试域中对不同的模型进行排序。学习模拟合成数据。该领域的目标是通过优化与合成器接口的替代函数的一组参数来弥合合成图像与真实世界图像之间的差距[53，51，24]。它可用于制作定制数据，但需要使用特定的引擎和类似于目标对象的3D模型，而目标对象通常无法访问。一些最近的作品[27，52]从网站或数据服务器中搜索数据集进行模型训练。受他们的启发，我们试图搜索一个代理集与注释的数据排名模型的目标域。学习排名已经在信息检索[40，48，20]，数据挖掘[22，3]和自然语言处理[47，17]领域进行了研究通常，给定一个查询，目标是学习从集合中对数据进行排名并返回排名最高的数据。在计算机视觉中，在基于内容的图像检索[14，20]和度量学习[16，3，31]中研究了学习排名。这些作品都与学习，ING指标，使相关的样本被映射到更接近的查询比不相关的。虽然他们的工作在数据（图像）的水平，我们的论文涉及模型的排名，这是在模型的水平。3. 问题和基线3.1. 问题定义令miM表示在源域上训练的M个模型的集合（我们称它们为源模型）。T是从目标域收集的用于性能排名的未标记图像为了找到直接应用于目标域的最佳模型，理想情况下，我们应该在标记所有图像后在T上对模型性能进行排名。然而，考虑到注释成本很高，11763i=1i=1··i=1M我Mi=1--A最佳目标B最佳目标C最佳命中率D最佳命中率MSMT17（源验证）CUHK03市场-1501 PersonX图2：给定目标集上的模型准确度（mAP，%）与代理集。具体来说，我们使用MSMT 17作为源域，DukeMTMC-reID作为目标来训练模型。研究了四种代理选择，即从左到右：A。源（MSMT17）验证集，B. CUHK03、C.Market-1501和D. PersonX 对于每个模型（蓝色圆圈），我们在目标测试集和代理集上评估其mAP得分，然后将其用于绘制2-D相关子图。对于每个子图，我们使用Spearmanρ（或τ）的较高绝对值指示较强的相关性。还显示了目标（绿色圆圈）和代理（红色圆圈）上的最佳模型。我们清楚地看到，源是一个相对较差的代理（ρ=0）。320，τ=0。229），而PersonX（ρ=0. 816，τ=0。637）和Market-1501（ρ=0. 778，τ=0。622.第622章更好的选择除了增加的相关性（从左到右），我们还发现目标和代理的最佳模型它表明目标上的最佳模型更有可能是代理上的最佳模型（误差较小）。所有上述相关系数由于其p值0而具有非常高的统计学显著性<。001。很吸引人的选择在本文中，我们调查是否有可能估计的模型精度排名的目标域（在此表示为地面实况精度排名），而不标记的图像在T。具体来说，给定未标记的目标数据集T和模型mi，我们的目标是找到标记的代理集P 其性能等级很好地代表了T.因此，我们将这个问题的目标表述为，找到P，3.2. 基线：作为代理的源验证设置为代理。我们首先研究源（MSMT17[50]）验证集（我们使用测试分区）上的模型性能之间的关系在没有验证的情况下）和目标（DukeMTMC-reID [59，41]）测试集。具体地，考虑在MSMT 17上训练的280个re-ID模型，其由图1B中的蓝色圆圈示出。二、我们根据它们在代理（MSMT17）和目标（DukeMTMC-reID）上的准确度绘制这些圆。我们在这里只报告平均精度（mAP），并省略了秩-1精度，因为两者都S.T.等级{mi}M哪里，PΣ→秩。{mi}M，TΣ，（一）度量共享非常相似的趋势。秩相关系数为：ρ=0。320且τ=0。229，表明代理和目标之间的弱等级相关性[1，36]。作为一个-rank（，）表示cer的性能排名在某个数据集上建立模型。对于每个代理数据集，我们使用模型准确度来创建性能排名，并评估代理集的质量，作为其与目标域上的地面真实准确度排名的排名相关性为了定量评估代理的质量，我们使用两个等级相关系数：Spearman秩相关ρ [ 43 ]和Kendall秩相关τ [ 25 ]。ρ和τ都落在[-1，1]，以及更高的绝对值ind i。catesastrong eΣrco r-等级之间的关系，即，秩得双曲余切值.和{mi}i=1直观理解，最好的模型根据代理（源码验证）有mAP5。5%，低于目标设定的最佳值。我们还使用不同的源和目标数据集目睹了类似的现象。这些结果表明，源是一个不太有吸引力的选择代理。其他数据集作为代理。来自其他域的带注释的数据集也可以是代理。例如，当分别使用MSMT 17和DukeMTMC-reID作为源和目标时，第三数据集Market-1501 [56]可以用作目标代理。也有其他容易获得的选择，如PersonX [44]和RandPerson [49]（见图1）。2B-等级{m}M，TΣ。因此，较低的D）。与源验证集（MSMT17，图2A），这些数据集始终实现较高的排名相关性得分的绝对值（0为最低）指示弱（或无）相关性。相关性例如，当使用CUHK 03时，Market-1501，和PersonX作为代理，我们获得斯皮尔曼=0.816=0.637=0.778=0.622=0.529=0.367=0.3200.229目标集最佳代理最佳代理最佳代理最佳代理11764−−K--k=1k=1k=1Kk=1k=1K·∈--KK联系我们0的ρ。529，0。778和0。816，Kendall的τ为0。367，0。622和0。637、分别这些数字是consis- tently高于那些计算使用源作为代理。同时，相关系数表明，Market-1501和PersonX与模型当使用不同的源和目标组合时，我们还发现，与相应的源验证相比，来自不同领域的这些数据集在这种情况下，除非特别说明，否则我们不会在进一步的实验中使用源验证作为代理更多讨论见第4.3A BCFIDFIDV4. 方法：搜索代理集4.1. 动机当使用不同的数据集（除了源和目标）作为代理时，我们发现一些代理集比其他代理集具有更高感兴趣的是什么原因导致这种代理质量的差异，我们进一步调查的潜在原因。受领域适应工作的启发[10，63]，我们研究了代理集P和目标集T之间的分布差异。具体来说，我们通过两个度量来测量分布差异，Fre'chetInceptionDistance （ FID ） [18] 和特征方差差距[23]。FID（T，P）测量代理集合P和目标集合T之间的域间隙。另一方面，特征方差间隙测量两个数据分布在多样性和变化方面的相似程度我们将特征方差间隙计算为P和T的特征方差之间的绝对差，V gap（P，T）= |v（P）− v（T）|、（二）其中v（·）计算方差。值得注意的是，计算图3：FID、方差差距和代理集质量之间的关系（使用ρ评估）。FID和方差差距对代理集质量的影响。B：FID与代理集质量。有非常强的负相关性（0的情况。88），具有非常高的统计学显著性（p值<0的情况。001.他们之间C：方差差距与代理集质量。它们具有相对较强的负相关性（0。65）具有较高的统计学显著性（p值<0. 05）的情况。这三个子图验证了FID和方差差距af-影响代理质量。得到集合T，我们的目标是从D中采样数据并组成一个具有小FID（T，P）和Vga p（T，P ）的代理集合P。根据第4.1节中的结果，我们认为这可以从而为目标域提供高质量代理集如图4，我们在代理搜索方法中经历以下三个步骤：第一、我们将数据池D聚类为K个子集Skk=1。为此，我们对属于同一身份的所有图像特征进行平均，并使用此ID平均fea。真实地表示所有对应的图像。然后我们使用FID和V间隙，我们使用Inception-V3 [46]在Im上预训练k-意味着[29，35]将ID平均特征聚类到K组，并通过包括的所有图像构建K个子集ageNet来提取图像特征。使用这两个度量，我们进一步示出了FID、V间隙和代理质量之间的关系（与地面实况排名的相关性）。如图在图3A中，我们可以发现总体趋势，即较小的FID和V间隙值通常伴随较高的代理质量（排名相关系数）。此外，从图。在图3B和C中，在两个度量中的任一个与代理集的质量之间也存在相对强的相关性。这些实验表明，如果代理集由分布更类似于目标（就FID而言）的图像组成，则可能存在质量甚至更好的该组中的相应ID。其次，我们计算了FID（T，Sk）和V间隙（T，Sk）在每个子集和目标集合T之间。最后，我们为每个子集计算采样分数wk，然后基于权重为每个ID和样本ID分配概率权重，形成数据池D具体来说，我们根据以下公式计算抽样得分FID（T，Sk）和 V gap（T，Sk）. 当根据FID和方差差距值与代理质量之间的负相关性计算抽样得分时，我们取FID和方差差距值的负值（见图1）。（3）第三章。的和V间隙）. 受此观察的启发，我们探索如何采样分数被写为，在下一节中通过搜索图像创建代理集。{wk}k=1 =λsoftmax（{−FID（T，Sk）}K）（三）4.2. 搜索算法给定包括多个数据集（除了源和目标之外）和未标记的tar的数据池D+（1−λ）softmax（{−Vgap（T，Sk）}K），其中softmax（）表示softmax函数，并且λ[0，1]是加权因子。λ=0或1仅表示us。Spearman的评VSpearman的评Spearman的评11765||图4：代理搜索过程中的三个步骤首先将数据池聚类为K个类，然后计算类与目标的分布差异，最后计算样本得分并据此构造代理集使用FID或方差差计算抽样得分。基于聚类的抽样得分，每个聚类的每个IDter被分配概率加权wk。在这里，|SK|是表1：数据池组成。七个真实世界的数据集和三个合成数据集被认为是。D中的#ID表示数据池中使用的标识数。它使用协方差矩阵。然而，在实验中--群集的ID数SKSk. 代理集是con-我们发现，只使用FID或方差差距会导致比它们组合更差的结果（见图1）。（6），其中sug-通过以预定的采样速率从数据池D中采样N个根据ID的概率加权来计算速率。此外，如果目标集合的摄像机注释可用，则我们可以进一步将搜索过程分成针对目标中的N个摄像机的N个步骤，然后将最终结果组合为代理集合P（。具体地，我们重复上述过程N次（每个相机一次）以得到N个代理集。值得注意的是，如果一个身份被多次采样，则我们在最终代理集中仅保留该身份的图像的一个副本。我们相信这种特定于任务的设计将是有帮助的，因为它与re-ID问题的多相机匹配性质一致[57]。4.3. 讨论为什么来源往往是一个贫穷的代理？两个原因可以解释图中的趋势。凌晨2首先，在我们的实验中，在源（例如， MSMT17 ）和靶（例如， DukeMTMC-reID）。能够区分源上的细粒度类的强模型可能由于它们的分布差异而失去对目标的这种区分能力。第二，模型可能或多或少地过拟合源。在[26]中显示，当在ImageNet [7]上进行预训练时，在ImageNet上具有更高准确度的模型在微调后在其他分类任务上具有更高的准确度。虽然ImageNet预训练模型的过拟合问题似乎较少，但相对较小的源数据集（例如，MSMT17）可能导致过拟合，使得源上的良好模型在不同环境下可能较差。分布差异测量。本文根据FID和方差间隙（V间隙）计算采样权重。有趣的是，FID的计算还包括两个分布之间的多样性项，如两者缺一不可。这表明所采用的特征方差间隙可以真正有益于搜索过程，因为它可以为数据分布的多样性差异度量提供不同的角度。适用范围。例如，所提出的问题和解决方案允许我们为新环境选择最合适的模型。如图2和以后的实验中，选择过程是相当可靠的。对于像对象识别这样的应用程序，我们要求代理具有与目标和源相同的类别，以便可以评估源模型。这种分类数据集的数量目前是有限的（参见补充材料）。对于像人员重新识别这样的应用，我们可以利用可用于代理构造的丰富数据集，因为在具有完全不同类别的代理集上评估源模型是可行的。此外，由于所提出的任务是新的和具有挑战性的，我们目前专注于直接应用于目标数据的模型，以避免使问题复杂化因此，我们不考虑在训练中包含目标样本的UDA模型[10，62]，但它们值得研究，我们将在未来的工作中研究这些模型。5. 实验5.1. 实验细节数据库。本文使用了广泛的真实世界和合成的人re-ID 数据集。真实世界的包括 Market-1501 [56] ，DukeMTMC-reID [59，41]，MSMT17 [50] ， CUHK03 [28] ， RAiD [6] ， PKU-Reid[33][58]《易经》：使用的合成数据集是PersonX [44]，Randperson [49]和UnrealPerson [54]。这些数据集的一些重要细节如表1所示。从这些（一）12数据池集群（三）样品K子集1=SC石P�代理FID（T，）V（T，）不目标（二）…数据集编号图片数量#DMSMT174,101126,4413,060dukemtmc-Reid1,81236,411702Market-15011,50132,668750CUHK031,46713,164700RAiD431,26443iLIDS119476119PKU-Reid1141,824114PersonX1,266227,880856RandPerson8,000228,6551,000UnrealPerson3,000120,00080011766- -i=1M--源目标个体数据集其他方法我们CUHK03 公爵市场MSMT17 RandPerson PersonX UnrealPerson随机Attr. [第53话]StarGAN [4] 伪标签[13]无凸轮带凸轮MSMT17公爵ρτ0.5290.367--0.7780.6220.3200.2290.7750.6020.8160.6370.8370.6550.7250.5370.7560.5690.7000.5180.7890.6250.8580.7130.8820.725市场ρτ0.1800.1260.7780.622--0.3350.2450.8030.6160.8740.6900.8540.6640.6430.5070.6380.4670.8110.6150.8230.6480.8840.7150.9120.753市场公爵ρτ0.3740.260---0.119-0.0480.9320.7900.9050.7740.8050.6260.9330.8080.7130.5380.7400.5510.8480.6620.8990.7420.9390.8100.9500.824MSMT17 ρτ0.3310.2540.9320.790-0.173-0.092--0.8760.7050.7270.5480.9410.8170.7110.5530.7900.6120.8070.6240.8460.6980.9490.8220.9580.829表2：不同源-目标配置上的不同代理集的比较。我们搜索代理集（数据集，我们可以选择一个作为源，另一个作为目标。其余部分将形成数据池（第4.2节）。在创建数据池时，我们只使用一部分标识及其对应的图像。这限制了我们搜索过程中的总的来说，我们在数据池中考虑了8，144个身份。模特要排名。我们考虑了28个代表性的基线和方法，包括ID-判别嵌入（IDE）[55]，基于部分的卷积基线（PCB）[45]，并在其训练过程中记录每个模型的10个不同版本。对于超参数，我们遵循它们的原始设置（参见补充材料以获得模型的更多细节）。我们总共有280个型号，即m中N=280。所有模型都是在源域上从头开始训练的。已搜索代理。在这项工作中，我们选择用于代理集搜索的超参数为λ=0。对于加权因子，K=6，对于簇号，K = 20。被搜索的代理集的标识的数量被设置为500（参见第5.3节）。有关搜索的代理集的更多详细信息，请参阅补充材料。我们使用一个 RTX-2080TIGPU 和一个 16 核 AMDThreadripper CPU@3.5Ghz执行搜索。5.2. 拟定方法在表2中，我们比较了我们搜索的代理与替代代理选择的质量，包括单个标记数据集（表1中的数据集），基于引擎的合成图像[53]，基于GAN生成的图像[4，60]，目标验证上的伪标签[13]，以及来自所有单个标记数据集的随机样本我们有以下几点意见。搜索的代理对个人数据集的有效性。我们的主要观察是，搜索的代理是非常有竞争力的个人数据集作为代理。当使用MSMT 17作为源并且使用DukeMTMC-reID作为目标时，搜索到的代理（表2）实现了非常好的排序相关性（ρ= 0. 858和τ=0。713），优于个人数据集和其他方法至少+0。021的ρ和+0。060的T。当选择Market-1501作为目标时，也可以发现类似的结果，其中所提出的搜索方法达到ρ=0。884和τ=0。715，比每一个替代品至少+0。010的ρ和+0。第024章我的此外，搜索方法优于单个数据集的随机组合如表2所示，“随机”可能落后于一些性能更好的个体数据集多达0。343的ρ和0。300的τ。另一方面，我们的搜索方法不断地比这个随机组合的性能高出至少+0。133的ρ和+0。176的τ，同时实现与单个数据集竞争甚至利用目标域的摄像机注释产生代理的最佳性能例如，当MSMT 17和DukeMTMC-reID被用作源和目标时，重复地，在我们的搜索方法中使用相机信息进一步将整体代理质量（排名相关性）提高到ρ=0。882且τ=0。七三五这示出了以任务为中心的搜索方法设计的优点，其与匹配人员重新ID问题的性质的交叉相机很好地对准。代理集的合成研究。在图5中，我们检查了搜索到的代理集的组成。在MSMT 17数据集作为源并且DukeMTMC-reID数据集作为目标的情况下，与合成数据相比，搜索过程最终使用更多（63.7%）的真实世界数据，因为真实世界数据可能看起来更类似于DukeMTMC-reID的真实世界目标。总的来说，我们搜索的代理采样ID和图像在照明和颜色方面与目标域中的相似。与生成图像和伪标签方法的比较。被设计用于生成或合成训练数据的方法被发现不如代理集有效。例如，基于引擎的合成[53]实现了秩相关性的0.756的ρ和0.569的τ（MSMT17作为源11767合成数据28.8% UnrealPerson6.4% PersonX1.2% RandPerson真实世界数据47.6%市场-150113.2%中大032.8%其他图5：检索到的代理的图像样本和组成统计（MSMT17作为源，Duke作为靶）。左：未标记的目标;中：搜索的代理;右：搜索的代理的组成统计我们观察到，搜索的代理整体显示类似的照明和配色方案相比，目标。答：与代理集0.90B：对于每个聚类，其样本得分相对于其FID和具有目标集的V子集（簇）代理集0.850.800.750.750.700.650.600.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0FIDFIDFID=0.0= 0.5= 1.0图6：等式6中的加权因子λ的影响3 .第三章。A：在不同λ值下搜索的代理质量然后，当λ = 0时，总体样本得分wk仅考虑方差间隙，并且当λ = 1时，仅考虑FID。 B：在不同的λ值下，每个聚类的采样分数及其对搜索到的代理集的贡献。深颜色表示聚类（点）的较高采样分数和对搜索的代理（线）的较高贡献这里，将簇编号K设置为20。MSMT 17和DukeMTMC-reID分别用作源和目标。和DukeMTMC-reID作为靶标）。这不仅落后于我们搜索的代理集，而且落后于一些性能更好的单个数据集作为代理。至于基于GAN的方法[60]和伪标签方法[13]，它们都使用网络创建图像标签对，这可能会引入不准确的标签（网络决定的图像标签对比注释的图像标签对更不可靠）。出于这个原因，这些方法的秩相关性也是次优的。搜索代理的计算成本如图4、我们的代理搜索过程涉及三个步骤当使用MSMT 17作为源并且使用Market-1501作为目标时，特征提取和聚类花费大约200秒。然后，需要大约188秒来计算FID和方差间隙。图像采样过程的时间可以忽略不所以我们的算法总共消耗了大约400秒。当相机注释可用时，搜索过程在第一步中没有额外的成本。事实上，特征提取和聚类结果可以重用。整个搜索过程需要对于目标组中的所有6个摄像机大约1772秒。5.3. 参数分析抽样得分的加权因子λ。当计算采样分数时，λ编码FID和V间隙如图6（如在我们当前的设计中）给出了代理集的最佳总体质量仅使用FID或方差间隙（将λ设置为1或0）导致所搜索的代理集的质量下降。有趣的是，仅使用FID提供了比仅使用方差差距稍好的结果。一个可能的原因是FID在计算期间也考虑协方差，这可能与方差间隙有轻微的重叠在这种情况下，当仅最小化FID时，方差间隙也减小，这可能为仅使用FID的变体提供比仅使用方差间隙的轻微优势为了更直观的理解，我们发现只有考虑方差间隙（λ=0）才能创建一个代理集36.4%63.7%评分评分评分Kendall'sSpearman'sVVV11768- -0.900.850.800.750.705101520253035 40K0.880.860.840.82100 200 300 400 500 600 700 800N0.90.70.50.3A：（簇数）对搜索代理质量的影响B：N（ID的数量）对搜索的代理的质量的影响C：有和没有风格转移的代理质量图7：A：杂波数量K、B：ID数量N和C：风格转移对代理集质量的影响。（MSMT 17和DukeMTMC-reID分别用作源集和目标集。表3：使用不同训练集对DukeMTMC-reID的性能。这里，Rk表示rank-k精度。与主要对代理有贡献的聚类相比，方差差距甚至更高（图2）。6Bλ=0。0）。仅考虑FID（λ= 1）样本主要来自仅一个聚类，并且导致在FID方面非常相似的代理（图2）。 6B λ= 1。0）。当联合考虑FID和方差间隙（λ=0. 5），与对其有贡献的聚类相比，所得到的代理具有甚至更低的FID和方差差距，进一步表明所提出的方法的有效性（图5）。 6 λ = 0。（五）。代理集的群集数量K和IDN。该方法根据数据池的ID平均特征将数据池聚类为K个组，并对N个身份进行采样以构建代理集。在这里，我们进一步研究了簇数K和身份数N对搜索的代理质量的影响如图如图7A-B所示，我们发现1）太小或太大的K可能导致稍微差的代理质量（这里，N被设置为400），以及2）当N逐渐变大时，结果趋于稳定，因此我们将聚类数K设置为中间值20，并且将ID数设置为500，以提供相对好的结果。5.4.进一步了解我们可以通过风格转换来改进代理吗？像素级对齐[10，50，30]通常用于通过将一个域的图像风格转移到另一个域的图像风格来减少域间隙。对于不同的代理集（单个数据集或搜索的数据集），我们采用SPGAN [10]将它们转换为目标域的样式。我们在图中给出了相关系数。7摄氏度。以DukeMTMC-reID数据集为目标数据，我们通过SPGAN [10]将结果发现，SPGAN不能带来一致的改进模型的排名代理。尽管有这些混合的结果，我们注意到，最好的性能仍然是由搜索的代理（没有风格转移）。我们能在特定目标的代理集上训练re-ID模型在表3中，我们发现直接应用在搜索的代理集上训练的re-ID模型（IDE [55]）不会导致目标域上的竞争性能尽管事实上专门针对该目标搜索代理集。相比之下，伪标签[13]是一种在构建模型排名代理集方面表现不佳的方法，实际上在构建领域自适应模型的训练集方面取得了最佳结果。这表明我们的问题与训练数据搜索完全不同，尽管它们乍一看可能很相似。MMD替代FID的有效性。我们在等式中用MMD代替FID。3，这是计算两个数据集之间的分布差异的另一种方式。我们分别使用MSMT 17和DukeMTMC-reID作为源和目标。我们观察到用MMD代替FID产生0。0056 Spearman的ρ和0。0161Kendall6. 结论本文研究的是一个重要而实际的问题：当一些源模型被直接应用到一个看不见的目标域时，我们是否可以在不必知道目标域（的代表性子集）的真实标签的情况下对其性能进行排名？我们回答这个问题，通过使用所谓的目标代理的未引用的模型评估。我们首先提出了一些基线方法，即，使用源数据作为代理，或者使用各种跨域数据集作为代理。我们分析了这种基线有效性的潜在原因，并确定域差距和多样性差距是影响代理质量的两个重要因此，我们采用的搜索策略，使用这两个指标的加权组合作为目标。在公众人物身份识别数据集上的实验验证了我们的策略，并让我们对数据集相似性和模型泛化有了丰富的确认这项工作得到了 ARC 发现早期职业研究者奖（DE200101283）和ARC发现项目（DP210102801）的部分支持。Hongdong Li不含SPGANSpearman的评论Spearman的评论Kendall's餐厅训练数据R1R5 地图MSMT1758.0 71.6 36.5Market-150142.1 56.1 23.9合成数据[53]21.2 39.7 13.5伪标签[13]67.5 80.5 50.4我们的（搜索代理） 47.9 63.2 27.911769引用[1] 哈尔顿·阿克格鲁相关系数用户指南。土耳其急诊医学杂志，18（3）：91三、四[2] Sanjeev Arora 、 Rong Ge 、 Behnam Neyshabur 和 YiZhang。通过压缩方法获得深度网络的更强泛化界。arXiv预印本arXiv：1802.05296，2018。2[3] Kunh Cakir，Kun He，Xide Xia，Brian Kulis，and StanScaroff.深度度量学习排名。在CVPR，第1861-1870页，2019年。2[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络在IEEE计算机视觉和模式识别会议录中，第8789-8797页6[5] Ciprian A Corneanu ， Sergio Escalera ， and Aleix MMartinez.在没有测试集的情况下计算测试误差。在CVPR中，第2677-2685页，2020年。2[6] Abir Das ， Anirban Chakraborty ， and Amit K Roy-Chowdhury.摄像机网络中的一致重新识别。欧洲计算机视觉会议，第330-345页，2014年。5[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页，2009年。5[8] Weijian Deng，Stephen Gould，and Liang Zheng.在不同的测试环境下，旋转预测告诉我们分类器的准确性是什么在ICML，2021。2[9] Weijian Deng和Liang Zheng。分类器精度评估是否需要标签？在IEEE计算机视觉和模式识别会议论文集，2021年。2[10] Weijian Deng，Liang Zheng，Qixiang Ye，Yi Yang，and Jinbin Jiao.相似性保持图像-图像域自适应用于人物再识别。arXiv预印本arXiv：1811.10551，2018。二、四、五、八[11] Pinar Donmez ， Guy Lebanon ， and KrishnakumarBalasub- ramanian.无监督监督学习i：估计分类和回归误差无标签。Journal of Machine Learning Research，11（4），2010. 2[12] Abhimanyu Dubey，Otkrist Gupta，Ramesh Raskar，andNikhil Naik.最大熵细粒度分类。在NIPS，2018年。2[13] 范呵呵，梁铮，严成刚，杨毅。无人监管人员重新识别：聚类和微调。 ACM Transactions on MultimediaComputing ， Communications ， and Applications ， 14（4）：1-18，2018. 二、六、七、八[14] 风松鹤、风哲云、容靳。学习用有限的训练样本对图像标签进行排名。 IEEE Transactions on ImageProcessing，24（4）：1223-1234，2015. 2[15] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。1[16] 葛伟峰。深度度量学习与分层三元组丢失。欧洲计算机视觉会议论文集，2018年。2[17] 约阿夫·戈德堡自然语言处理的神经网络方法。人类语言技术综合讲座，10（1）：1-309，2017。2[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreit

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

未标记目标域的代理模型性能评估

目前有哪些半监督目标检测模型

CNN是用来评估模型性能的还是训练模型的

python编写基于DCNN的滚动轴承迁移诊断代码，以同时减少源域分类损失和源域与目标域的MMD损失为总的损失训练神经网络

介绍一下TransductiveTransfer Learning

unsupervised domain adaptation

如何在自己的数据集上训练一个目标检测模型？

域自适应中的域由什么组成

将拿到6000个有标记的样本文件，其中标记信息为该样本是否是挖矿样本；此外选手还将拿到6000个未标记的待检测样本文件。选手需要对有标记的数据集进行分析，研究挖矿样本的判定方法

构建以及评估模型的一般流程，流程中重要步骤的作用、主要研究方法、关键函数

能够进行差异学习，来实现标记文本位置的模型

用相似度从源域数据集迁移样本到目标域形成新的数据集pytorch

什么是半监督学习？它有什么好的模型吗？举3个不同的例子，加以说明

sam模型训练自己的数据

使用tensorflow训练目标分割模型

半监督学习是机器学习

那么是否使用半监督学习时，只需要有部分图片有标签即可

半监督学习的总体框架

目标检测怎么用dpn模型实现

半监督目标检测深度学习方法综述

KKобтьу╬kkx.net.url

最新资源