无标记图像中的重要人物半监督检测方法

163 浏览量更新于2023-10-23 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4146学习在无标记图像中检测重要人物用于半监督重要人物检测Fa-Ting Hong1，4，5，Wei-Hong Li3，and Wei-Shi Zheng1，2，51中山大学数据与计算机科学学院2鹏程实验室，深圳5180053英国爱丁堡大学信息学院VICO Group深圳市新世纪科技有限公司公司5机器智能与先进计算教育部重点实验室。hongft3@mail2.sysu.edu.cn，w.h.li @ ed.ac.ukwszheng@ieee.org摘要重要人物检测是自动检测出在社会事件图像中扮演最重要角色的人物，这就要求设计的模型能够理解高层模式。然而，现有方法严重依赖于使用大量标注的图像样本的监督学习，收集这些样本用于重要人物检测比用于个体实体识别成本更高对象识别）。为了克服这个问题，我们提出了在部分注释图像上学习重要人物检测。我们的方法迭代地学习为未注释图像中的个体分配伪标签为了解决伪标签不平衡问题，我们引入了用于伪标签估计的排名策略，并且还引入了两种加权策略：一个用于加权个人是重要人物的置信度以加强对重要人物的学习而另一个用于忽略有噪声的未标记图像（即，没有重要人物的照片我们收集了两个大规模的数据集进行评估。大量的实验结果清楚地证实了我们的方法通过杠杆老化未标记图像来提高重要人物检测性能的有效性1. 介绍重要人物检测的目标是自动识别出在社会事件图像中扮演最重要角色的重要人物执行这项任务对人类来说是自然和容易的由于其具有广泛的现实应用价值，这一课题日益受到人们的*同等缴款。†通讯作者图1.收集大量标记数据用于重要人物检测是困难和昂贵的。此外，由于社会事件图像中总是存在重要人物，我们设计了一种半监督方法，该方法学习自动选择可用的未标记图像，以及防止噪声未标记图像和检测未标记图像中的重要人物，以适应由仅使用标记数据训练的模型初始化的重要性分类超平面。包括事件检测[21]、活动/事件识别[24，21]、图像字幕[23]等。开发一个模型来检测图像中的重要人物仍然具有挑战性，因为它需要模型理解更高级别的模式（例如，图像中的人之间的关系）与其他视觉任务中所需的信息（例如，分类或对象检测中的对象级信息现有的重要人物检测方法需要大量的标记数据，这是困难的，非常昂贵的收集这项任务，因为它需要人类投票的重要人物[18，6]。因为在社交活动中总是有重要的人物，输入标记图像标记图像输入无标号图象基于排序抽样停止使用噪声图像标签重要人物无标记图像调整超平面使用未标记的数据分类空间无标号图像噪声图像4147随着年龄的增长，人们自然会问，是否可以建立一个重要的人检测模型来从部分注释的数据中学习，即，有限数量的标记数据与大量未标记图像。然后，问题就出现了，如果我们用未标记的图像来增强有限的标记训练数据，则可以从部分注释的数据中学习重要人物检测的模型的设计。然而，学习在未标记的图像中检测重要人物具有其自身的挑战性特征。首先，它不是一个单独的实体（例如，物体）识别任务(a) 通过我们的方法估计的重要性分数(b) 由我们的方法生成的伪标签而是一个特定的分类问题[7]，依赖于图像中人与人之间的关系。第二，如图3所示的两个重要人物检测数据集的统计，大多数图像包含两个以上的人物，导致重要人物的数量总是远小于非重要人物的数据不平衡问题;当伪标记被分配给未标记的图像时，这将产生伪标记不平衡问题，这将妨碍半监督学习的性能，因为在伪标记期间所有个体都很可能被认为是“不重要的”（图2（c）（d））。第三，并非所有未标记的图像都包含重要人物;没有这些人物的图像在学习过程中代表噪声未标记的样本。到解决的上述挑战半-(c) 伪标签由Mean Teacher预测（d）通过标签传播估计的伪标签图2.我们的方法的结果和在训练过程中通过不同方法估计的伪标签的例子。图（a）中的蓝色面框与数字一起显示了我们的方法生成的重要性分数在图（b）、（c）、（d）中，通过我们的方法和相关方法生成的伪标签以“重要”类别的概率数和不同颜色的面框表示。在这里，标记有红色面部框的个体被分配有监督重要人物检测，我们开发了一个迭代学习过程（图1），迭代地训练人数(a) EMS统计人数(b) ENCAA统计一个重要的人检测模型对带有标签或伪标签的数据进行检测，随后再次生成未标记图像中所有个体的伪标签。特别是，我们引入了一种基于排名的采样策略来克服伪标签学习中的不平衡问题，其中我们根据重要类的得分对每个未标记图像中的所有个体进行排名，并考虑得分相对较高的个体（即，，高于阈值）作为重要人物（即，，伪标签为“重要”），而将其余的视为不重要的个人（即，具有“非重要”的伪标签通过使用所提出的基于排名的采样，我们避免了将未标记图像中的所有个体分类为为了进一步缓解“非重要”数据主导学习损失的伪标记不平衡问题最后，为了解决由噪声未标记图像（图像中没有任何重要人物）引起的问题，我们引入了有效性权重，一个从0到1的连续标量，其指示关于包含重要人物的未标记图像的置信度（即，，0表示图像中没有重要人物，而不是1）图3.EMS和ENCAA中的社会事件图像统计数据集。Y轴是包含相应人数的图片的数量（X轴）。过滤掉这些图像（图1）。这里，在每个迭代中以前馈方式估计两个建议的权重，并且不需要任何监督。虽然没有关于从部分标记数据中学习重要人物检测的研究，但我们贡献了两个大型数据集，称为Extended-MS（EMS）和Extended-NCAA（ENCAA），用于通过增强现有数据集（即，，MS和NCAA数据集[18]），其中大量未标记的图像从互联网上收集。大量的实验验证了我们所提出的方法的有效性，通过使标记和未标记的数据相互作用，并利用未标记的图像的信息，以协助整个重要的人检测模型的训练。我们已经进行了一项消融研究，以调查我们的方法的每个组件（即，基于排序的采样、重要性分数加权和有效性加权）对基于半监督学习的重要人物检测的影响。此外，我们的方法结合现有的半监督学习方法（例如，，平均教师（MT）[25]和标签传播（LP）[9]）表明，我们提出的方法是通用的和稳定的半监督0.044000.890100.3390.0010.0210.0350.082 0.2780.0340.0050.2500.098数量的图像数量的图像4148J我我i=1基于学习的重要人物识别2. 相关工作2.1. 重要人物/物体检测重要人物/物体检测已经在先前的工作中进行了探索[1，11，13，14，18，21，23，17，6]，但我们的研究与重要人物检测的研究更相关[21，17，6，18，23]。为了促进重要人物检测的研究，这项工作[18，6]收集了三个小数据集，但它也表明为这项任务注释大量数据是困难和昂贵的。这些工作主要集中在开发完全监督的方法。特别地，Ghosh et al.[6]提出一种由粗到精的重要人物检测策略; Li等人[18]建立了一个混合图，对图像中的人之间的交互进行建模，并开发了一个名为PersonRank的图模型，根据混合图的重要性得分对个体进行排名;在[17]中，Li et al.提出了一种称为POINT的端到端网络，该网络可以自动学习个体之间的关系，以鼓励网络形成更有效的重要人物检测特征。与上述方法相比，我们主要关注设计一种半监督方法，利用大量未标记样本的信息来帮助在有限的标记数据上训练模型，以执行重要的人员检测2.2. 从部分标记的数据中从部分注释的数据中学习最近已经成为计算机视觉研究的重要组成部分，因为它使机器学习模型（深度模型）能够从大量数据中学习，而无需昂贵的标签。最近关于半监督学习的工作[25，12，5，4，9，2，8，19，10，26]主要遵循[ 27 ]中引入的众所周知的迭代自举方法（即，在当前一组标记样本上训练的分类器用于在每次迭代中为未标记数据生成标记）。在这些研究中，Grandvalet et al.[8]提出添加一个损失项，以基于聚类假设最小化未标记数据的生成标签的熵[3]。Ac-表示每次迭代模型的指数平均值的教师网络（即，，学生模型）来解决[10]中提到的使用时间集合的限制。相比之下，Iscen et al.[9]提出了一种利用标签传播技术正则化未标记样本预测与猜测标签之间一致性的方法。遵循一致性正则化策略，最近的方法MixMatch [2]和UDA [26]将数据增强技术的思想嵌入一致性正则化中，其中它们将模型正则化为在相同未标记图像的两个增强上除此之外，Li et al.[16]设计一个元学习框架，学习估算未标记的数据，以便可以提高在这些估算数据上训练的模型的验证数据的性能。与主要针对标准图像分类提出的上述方法不同，在这项工作中，我们主要关注于对用于重要人物检测的半监督方法进行去噪，其中这些方法是不适合的。特别地，图像中的人的重要性与同一图像中的其他人的重要性相关。相比之下，目前的半监督方法将未标记图像中的所有未标记样本视为独立样本，忽略了它们之间的关系。在本文中，我们设计了一种方法，可以自动利用模式在未标记的图像，并使用有限数量的标记数据，以协助在一个重要的人检测模型的整体训练3. 方法开发用于重要人物检测的深度学习方法需要大量标记的训练数据，这是困难且昂贵的。为了解决这个问题，我们的目标是利用来自未标记数据的信息来帮助训练用于部分注释数据的重要人物检测的模型。我们的方法的说明如图4所示，并在下面详细介绍3.1. 半监督流水线考虑标记的重要人物图像数据集，包含|不|标签图像T={IT}|不|在那里，我-N年龄IT={xT，yT} i 有N i个检测到的人xT根据后者，[12]中的工作提出了一种方法，ij jj=1j以及相应的重要性标签yT，使得yT=0所谓的每个未标记样本的概率，并将其用作J J对于真正的标签。另一个众所周知的假设[3]是关于平滑，研究人员将其方法建立在portant 我们还有一组未标记的图像U={IU} |U|，其中对于每个图像Iu，存在N ide。我i=1i一致性正则化策略使模型能够受保护的个人，无任何重要注释IU=对所添加的噪声保持不变Miyato等人[19]介绍-{xU}Ni . 在这项工作中，我们的目标是设计一种方法，j j=1根据对非一致性损失的预测，具有和不具有学习噪声的标记样本，以鼓励模型对学习噪声不变。在[10]中，作者提出了一种新的模型，通过使用时间系综来正则化与先前迭代模型的一致性，而Tarvainen等人。[25]介绍可以从部分注释的数据中学习。换句话说我们目的是建立一个模型y_j=fθ（{x_j}x_j∈I），从扩充的训练集（即，T U）.这里，由θ参数化的模型fθ将所有检测到的个体作为输入{xj}xj∈I，并预测所有输入人员的重要性标签。4149JJ基于排序抽样未标记图像重要性分数排名标签采样importance重要功能��模块特征编码器“”不重要关系图联系根据基于排名的抽样程序1−K（M）钾（钾+）中文重要性预测特征^、、、标记图像��中国（��中国（1）2）3⊕⨂）⨂特征编码器预测��^��➚L=L+��Lℓ➚ (,ℓ➚ (,ℓ➚ (,）））⊕��➚关系图图4.说明我们提出的框架。我们将所有检测到的人送入fθ，根据排名和阈值，通过基于排名的采样（RankS）来估计伪标签我们根据标签或伪标签在每个标记图像或未标记图像中抽取固定数量的个体进行训练。在RankS期间，我们还估计重要性得分权重w以及有效性权重ε，其指示未标记图像特征重要人物（即，，ε= 1表示图像中有重要人物，而ε= 0表示相反），以防止添加太多“不重要”的人，形成采样个体集合ST={x}Kij j=10.50(a) “重要”的分数(b) 当前半导体中的伪标记(c) 我们的排名抽样如[17]。然后，训练的模型用于生成在未标记图像批次的每个未注释图像中识别的K个采样个体的伪标记，z=g（fθ，{xU}xU∈SU），其中zj∈z是伪标号无标号象中的类监督学习方法ji未标记自适应超平面未标记由伪标记估计函数g（·）估计的xU，SU是IU中随机抽样的个体的集合。为个人个人i i(d) 分类空间中的标记数据(e) 通过当前半监督方法（f）通过我们的基于排名的抽样添加未标记的数据实例化g（·），我们简单地将softmax运算符应用于预测fθ（{xU}xU∈SU）。最后，我们输入非-图5.我们的方法（RankS）和当前半监督方法之间的伪标记过程的比较。在这里，点是图像中的个体：红点代表“非重要人士，绿点代表“重要人士。现有的半监督方法遭受不平衡的伪标记问题，即图像中的所有人总是被分配为jji将有标签的人及其伪标签转化为模型fθ，训练通过这种方式，我们可以将整个训练过程统一为优化θ以最小化以下损失：L=LT+λLU标签相比之下，我们的方法通过分配的排序策略来解决这个问题1 Σ|不|=ΣT（yλ Σ|U| ΣU（y根据排名分数和阈值的伪标签（图|K|Ki=1xT∈STJJ|U|KJi=1xU∈U(c)和（f））。我的我的（一）为了在T U上训练模型fθ，我们采用了一个完全监督的模型POINT [17]，并制定了一种迭代学习方法来更新该模型。更具体地说，我们首先在一批标记数据上训练模型（对于一个迭代），以最小化每个标记数据中K个样本个体的分类损失（在本工作中K为8，如[17]所示）形象对于每个标记的图像，我们选择地面真实的重要人物，并随机选择K-1个不重要的人物10阈值10.50softmax分类器“重要”课成绩“重要”课成绩排名分数14150JJJJ我我其中，RNT（ ·）和RIU（ ·）是分类函数（i. e. 交叉熵）的标记数据和损失函数的非-标记数据（例如，，均方误差），如[25，2，26]中所述。另外，y、yT和yU分别是标记图像IT和未标记图像IU中的采样个体x T和x U的预测。λ是未标记数据丢失的权重;它被初始化为0，在固定数量的时期内增加到其最大值，这是众所周知的线性时间表[2，26，20]。Ac-4151我我K我JJ我Jijji相应地，标记数据和未标记数据之间的相互作用被初始化为0并且逐渐加强（即，在训练期间，模型越来越自信，并且未标记图像的伪标签变得更加可靠）。3.2. 基于排序抽样的伪标记生成图像的伪标签（“重要”人或“不重要”人）的直观方式然而，在一幅图像中，重要人物和非重要人物的数量往往是不平衡的，前者远远少于后者;这将产生伪标记不平衡问题，即所有个体都很可能被认为是“不重要的”。为了解决这个问题，我们设计了一个基于排序的抽样（RankS）策略来预测分类器的伪标签直觉上，如果在未标记的图像中存在重要人物，则某些人必须比其他人更重要，这形成了图像中检测到的人物的排名列表，如图5所示。因此，我们将标签猜测函数引入为SU，z<$=RankS（fθ，{xU}xU∈IU，α，K），（2）通过这种方式，我们正则化从全关系图（即，，IU中所有个体的关系图）和来自子图（即，SU）的关系图，如图4所示。也就是说，我们强迫一个约束条件是，在由我们的排名抽样选择的人的子集上，应该接近从图像中检测到的所有人估计的人。由于RankS中的排名和标签，伪标签z在一定程度上避免了不平衡问题3.3. 通过重要性分数加权平衡损失尽管如此，我们平等地对待未标记图像中的各个人，而在未标记图像中存在比“重要”样本多得多的为了进一步缓解伪标记不平衡问题，代替为每个未标记图像中的每个人分配相同的权重（即，，1为K个抽样个体，其中，RankS（·）是基于排名的采样过程，用于通过使用先前迭代的训练模型f θ，基于IU中所有个体的重要性得分生成伪标签z在每个未标记的图像中，如第3.1和α是用于分配硬伪标签的超参数图像），我们引入一个人的特定权重w，称为重要性得分权重（ISW），到方程中的未标记的数据丢失项3.加强“重要”人物的贡献，削弱“不重要”人物的为此，我们可以重写Eq。3作为根据排序对K个为了详细说明，我们使用[17]中的关系网络作为LU=1|U| Σ|U| ΣwjU（yU，zj），s.t. ΣKw j = 1，w j>0.主干（即，，fθ），它以一组人作为输入，i=1xU∈Uj=1J I图像以建立关系图并对重要特征进行编码（四）从关系图中分类。我们首先应用在前一次迭代中训练的模型和softmax为了估计人xU的重量wj，我们首先将考虑x U的“重要”类z +的概率运算符来计算“重要”猫的概率作为重要性分数，通过以最大分数缩放重要性分数，以重要性分数的降序对在同一未标记图像中检测到的所有个体进行然后，我们将“重要”伪标签分配我们选择最重要的一并随机选择K−1个因此，用由RankS生成的伪标签替换伪标签1改写为并治疗z j 作为重要性分数。正如我们提到节中3.2，给定一个未标记的图像，K个人是采样，并且它们的重要性分数形成重要性分数向量z+。然后，我们将归一化函数应用于z+，这导致归一化的重要性得分权重w=σ（z+）=（w1，w2，···，wK），其中σ（·）是应用于z+的归一化函数，使得在Eq. 四是满意。在这项工作中，而不是使用硬重要性得分权重（即。e. ，wj∈{0，1}），我们使用softmax来获得软重要性得分权重（即，，wi∈[0，1]），使得我们的模型对计算重要性分数的偏差在这里，我们不适用于重要性分数加权到标记的数据，为夫妇的原因。首先，未标记图像的数量要大LU=1|U|KΣ|U| ΣU（y（三）与标记数据相比，重要性分数加权大大缓解了不平衡问题。秒-i=1xU∈U第二，作为J I4152J地面实况注释，我们考虑使用这种更可靠的信息，并削弱未标记的“不重要”个体的影响3.4. 检测噪声未标记图像除了不平衡的问题，重要的是模型应该能够检测和忽略没有检测到重要人物的噪声图像。对于未标记的图像，不能保证所有图像都包含重要人物。为了解决这个问题，我们进一步估计有效性权重（EW）ε，这是一个在0和1之间连续变化的值，反映了未标记图像具有重要人物（即，，ε=1表示图像中有重要人物，而ε=0表示相反）。我们将这个权重应用到Eq中。4如下：加权）到基本的半监督学习管道，我们提出的方法使得标记数据和未标记数据之间的协作有利于整个模型训练。4. 实验在这项工作中，我们在本研究过程中收集的两个大型数据集上进行了广泛的实验，以研究使用未标记图像对重要人物检测的影响，并评估我们提出的半监督重要人物检测方法。关于数据集、基本网络（即，POINT）和其他实验结果在补充材料中报告LU= 1|U|Σ|U|i=1ΣεixU∈SUwjU（yU，zj）（五）4.1. 数据集由于缺乏半监督学习的数据集基于重要人物检测，我们增加了两个数据集，S.T. wj∈w=σ（z+），0≤εi≤1，其中εi充当门，使模型能够选择或忽略第i个未标记的图像。受[9]的启发，我们考虑使用重要性得分z+的熵来指定ε。特别地，如果存在重要的人，则这些人的重要性分数将是高的，并且其他人的重要性分数将保持低（即，熵会很低）。相比之下，如果不存在重要人物，则相应未标记图像中的所有人物的重要性分数将几乎一致（即，熵将是高的）。为了将ε限制在0和1之间，我们将ε指定为H（z+）ε=1−，（6）H（M）其中H（·）是熵函数。另外，y，M是具有与z+相同维度的向量，并且M相等。方程中的矢量M6模拟了没有重要人物的可能情况，因此，H（M）是每个未标记图像的最大可能熵。在这个等式中，如果在未标记的图像中没有重要的人，则H（z+）将等于H（M），导致ε=0，即噪声未标记的图像将被忽略，或其效果将被削弱。因此，替换等式中的未标记数据丢失项。1、Eq。5，我们将完整的方法公式化为L=LT+λLU即[18]中的MS和NCAA数据集，通过从互联网上收集大量未标记的图像，并形成扩展MS（EMS）和扩展NCAA（ENCAA）数据集。EMS数据集包含10，687幅具有六种以上类型场景的图像，其中2310幅图像来自MS数据集，8377幅图像通过直接抓取web1获得。对于标记数据和未标记数据，使用人脸检测器[15]来检测所有可能的人，并提供边界框。与[17]类似，EMS数据集分为三个部分：训练集（8607个图像，包括690个标记样本和8377个未标记样本）、验证集（230个标记样本）和测试集（1390个标记样本）。ENCAA数据集。基于来自NCAA数据集的9736张标记图像，我们从互联网上收集了19062张图像，从大量篮球视频中提取帧，并过滤掉不具有多名球员的图像。与EMS数据集的构建类似，我们也将ENCAA数据集分为三个部分：随机抽取2825个标记样本和所有未标记样本组成训练集;941个随机选择的标记样本用作验证集;而剩余的标记样品（即，5970个图像）构成测试集。每个人4.2. 基线1 Σ|不|=ΣT（yλΣ|U|εi Σwj U（yU，zj）在这项工作中，我们使用最先进的完全监督|不|Ki=1xT∈STJJ|U|i=1JxU ∈SU方法作为基准来评估我们的方法。此外，本发明还提供了一种方法，我的我的我们采用三种最近的半监督方法，即，S.T.WJ∈w=σ（z+），εiH（z+）=1 −。H（M）（七）伪标签（PL）[12]，平均教师（MT）[25]和标签传播（LP）[9]，用于重要人物检测。通过引入三种策略（即：基于排序的抽样、重要性评分加权和有效性41531我们通过搜索各种社会事件主题（如“毕业典礼”）从互联网上收集了未标记的图像4154点我们采用POINT [17]方法，这是一种最先进的重要人物检测方法，作为基线，我们仅使用完全监督学习方法在标记数据上进行训练。伪标签是一种简单而有效的半监督学习方法，用于普通的分类任务，它选择具有最大预测概率的类作为每个未标记样本的真实标签。Mean Teacher有两种模式：学生和老师。给定未标记的样本，教师模型的输出被用作伪标签。一致性损失由学生模型预测的未标记图像的预测和教师模型生成的伪标签确定，使得学习模型可以对学生模型和教师模型之间的随机噪声不变性。标签传播从最近邻图中推断未标记样本的伪标签，该最近邻图是基于标记样本和未标记样本的嵌入构造的。4.3. 实现细节我们在PyTorch中实现了所有方法。为了公平起见，我们采用POINT（我们在补充材料中详细介绍了它）作为基本网络，SGD用作我们方法中的优化器以及其他半监督基线（即，、PL、MT和LP）。我们运行所有方法200个epoch，并为所有方法使用相同的超参数α是在验证数据上学习的，并且对于所有实验都设置为0.99。权重衰减为0。0005动量为0 9在所有的实验中学习率初始化为0。001，我们遵循[ 17 ]的学习率更新策略，即，学习率按因子0缩放。每20个时期5个。我们采用常用的线性时间表来更新权值λ，即，我们将λ从0线性增加到其最大值（即，1）超过35个历元。我们遵循[ 17 ]中的标准评估指标，即报告平均精密度，以衡量所有方法的性能。4.4. 与相关方法的比较我们首先将我们的方法与当前适用于重要人物检测的半监督学习方法和全监督学习基线进行比较。从表1中，值得注意的是，最近的半监督学习方法获得了类似的结果（例如，结果表明，LP与LP相比，LP与LP相比，LP与LP相比，P <0.05。这一点是88。61%对88。如果使用66%的标记图像，则ENCAA数据集上的21%），但有时会低于完全监督的基线（例如结果表明，LP与这一点是86。66%，88岁如果使用所有标记的图像，EMS数据集上的48%相比之下，我们的方法在基线上实现了显著和持续的改进;例如。在添加unla之后球形图像，我们的方法优于完全监督基线4。45%和4。EMS和ENCAA的15%数据集EMS ENCAA#标签图像百分之三十三百分之六十六百分百百分之三十三百分之六十六百分百全监督（FullySupervised）83岁36八十五9788岁4884. 6088岁2189岁。75伪标签（PL）83岁37八十五3588岁57八十五7088岁43九十56标签传播（LP）82岁3486岁。3386岁。66八十五3688岁61九十18平均教师（MT）84. 5086岁。2987岁5583岁3384. 6687岁55我们87岁8188岁4489岁。7988岁75九十8692. 03表1.在两个数据集上与相关方法进行比较数据集，分别在制度与较少的标签（33%）. PL，LP和MT的这些结果清楚地表明，独立地对待每个人无法从未标记的图像中提取有价值的信息来帮助训练。相反，我们的方法的结果表明，提出的三种策略使我们的方法能够有效地利用未标记图像的信息，以帮助在有限数量的标记数据上进行训练，并显着提高性能。4.5. 标签图像比例的影响为了进一步了解影响半监督重要人物检测性能的因素，我们使用标记图像的不同部分来评估我们的方法我们随机选择33%、66%和100%的标记图像，剩余的标记图像和未标记图像一起使用，不带标签。我们在表1、表2和表3中报告了结果。可以清楚地观察到，使用更多的标记数据可以提高重要人物检测的整体性能，这也使半监督模型能够为未标记图像估计更准确的伪标签，并进一步提高性能。它还表明，开发一个半监督模型，可以正确地预测伪标签，并将它们与标记的训练集相结合是必要的。从另一个角度来看，表2中显示的结果意味着我们的方法可以始终优于完全监督的方法以及相关基线，并清楚地证明了三种提议策略的一致有效性4.6. 消融研究我们进行了消融研究，以调查三种建议的策略（即，基于排名的采样（RankS）、重要性分数加权（ISW）和有效性加权（EW）），并在表2中示出了结果，其中“我们的w/o ISW和EW“指示我们的方法仅使用RankS。在表2中，很明显，所有策略都可以提高大多数标签制度的性能，基于排名的抽样策略获得最大的改善;例如，在ENCAA数据集上，如果使用33%的标记图像，则方法 “Ours w/o ISW 和 EW“ 比 “Ours w/oRankS、ISW和EW“好2倍。百分之七十八这一结果清楚地表明，基于排名的抽样使得相对较高的分数应被标记为4155数据集EMS ENCAA表2. 两个数据集的消融研究。RankS代表基于等级的抽样，而ISW和EW分别表示重要分数加权和有效性加权。我们的w/o ISW和EW是指我们的模型不使用ISW和EW。我们的LP87岁5188岁1089岁。6588岁9591. 0691. 98OursMT87岁2388岁56九十7288岁97九十9391. 62我们87岁8188岁4489岁。7988岁75九十8692. 03表3. 对不同技术的评估（即、LP和MT），当用于实例化伪标记估计函数（即，，g（·））而不是使用Softmax函数。当预测每个未标记的图像内的伪标记时，其余部分保持这也通过图2得到了验证，其中我们的方法在训练期间正确地预测了所有个体的伪标签（图2（b）），并在最后估计了准确的重要性分数（例如，，图 2（a）），而当前的半监督学习方法（即，、LP和MT）将所有个体指定为从表2中，我们还观察到，添加重要性分数权重（ISW）可以始终但略微提高性能（例如，，“我们的无电子战”与“我们的无ISW和电子战”的结果分别为89。67%对88。如果使用所有标记的图像，则EMS上为53%）。这表明ISW能够缓解数据不平衡的问题，最大限度地有利于重要人物检测的训练。此外，比较完整模型和我们的模型，使用RankS和ISW，我们清楚地观察到，估计的有效性权重（EW，定义在方程。 6）提高性能（例如，，“Ours”将“Ours w/o EW“的性能从86. 34%对87。如果使用33%的标记图像，则EMS上为81%）。这意味着我们的有效性加权策略能够检测和忽略没有重要人物的噪声未标记图像，这有利于重要人物检测。为了更好地理解有效性权重的工作原理，我们将几个未标记图像的EW可视化，并在图6中显示它们。我们清楚地观察到，如果未标记的图像中没有重要人物，则EW很小（如图6中的第二行所示），而如果重要人物存在，则EW接近1（如图6中的第一行所示）。这一结果再次清楚地证明了我们提出的EW在检测噪声图像和忽略训练过程中的噪声样本的功效。此外，我们还评估了不同技术（即，、LP和MT）用于估计重要性= 0.98= 0.13图6.我们的方法自动估计的未标记图像及其有效性权重的例子。表3中的伪标记期间我们的方法中的重要性得分，其中表3清楚地表明，使用不同技术进行重要性得分估计的方法的变体产生类似的结果，这证明了我们的方法的稳定性。5. 结论在这项工作中，我们研究了半监督学习的背景下，重要的人检测，并提出了一个半监督学习方法，这项任务。与最近的半监督学习方法相比，我们的方法被证明能够有效地利用未标记图像的信息来帮助模型训练。我们还利用半监督学习方法对重要人物检测进行了大量的实验，实验结果证实：1）在给定的未标记图像中，个体的伪标记应该具有重要人物检测中的特殊模式（即：，得分较高的应列为“重要”，其余的则列为“不重要”），而我们建议的排名抽样方法，可以达到这个目的; 2）我们的重要性分数加权可以缓解不平衡问题并提高性能;以及3）使模型能够忽略没有重要人物的噪声未标记图像在半监督学习期间是重要的。通过我们的学习，我们能够避免昂贵的标签上的重要人物检测，并取得令人满意的性能。6. 确认这项工作得到了部分支持国家重点研发计划（ 2018YFB1004903 ），国家自然科学基金（U1911401，U1811461），广东省科技创新领军人才（2016TX03X157）、广东省国家自然科学基金项目（编号：2018B030312002）、广州研究项目（201902010037）、浙江省实验室研究项目（2018B030312002）。2019KD0AB03）。数据集EMSENCAA标签图像数量33% 66% 100% 33% 66% 100%#标签图像百分之三十三百分之六十六百分百百分之三十三百分之六十六百分百Oursw/o Ranks，ISW and EW83岁7086岁。8187岁6784. 3587岁6689岁。934156引用[1] Alexander C Berg，Tamara L Berg，Hal Daume，JesseDodge ， Amit Goyal ， Xufeng Han ， Alyssa Mensch ，Margaret Mitchell，Aneesh Sood，Karl Stratos，et al.理解和预测图像的重要性。在计算机视觉和模式识别，2012年。[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。[3] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习（chapelle，o例如，eds.; 2006）[书评]。Transactions on Neural Networks，20（3）：542[4] 陈燕北，朱夏天，龚少刚。带记忆的半监督深度学习。在欧洲计算机视觉会议上，2018年。[5] 魏王冬冬陈、周志华魏高。用于半监督深度学习的三层网络在2018年国际人工智能联合会议[6] 史瑞雅·高希和阿比纳夫·多哈尔群体水平的作用影响找到最有影响力的人的形象。2018年欧洲计算机视觉会议[7] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习MIT Press，2016.[8] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统的进展，2005年。[9] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在计算机视觉和模式识别，2019。[10] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。[11] Duy-Dinh Le ， Shin'ichi Satoh ， Michael E Houle ， DJiangoc，and Tat Nguyen.使用多模态和聚类分析在大型新闻视频数据库中发现重要人物。在2007年国际数据工程研讨会上[12] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。在2013年国际机器学习研讨会上，代表学习的挑战[13] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。在计算机视觉和模式识别，2012年。[14] 李勇在和克里斯汀·格劳曼。自我中心视频摘要的重要对象预测。International Journal of Computer Vision，114（1）：38[15] Jian Li ， Yabiao Wang ， Changan Wang ， Ying Tai ，Jianjun Qian，Jian Yang，Chengjie Wang，Jilin Li，andFeiyue Huang.双镜头人脸检测器。在计算机视觉和模式识别，2019年。[16] Wei-Hong Li，Chuan-Sheng Foo，and Hakan Bilen.学习归罪：半监督学习的一般框架。arXiv预印本arXiv：1912.10364，2019。[17] Wei-Hong Li，Fa-Ting Hong，and Wei-Shi Zheng.学习静态图像中重要人物检测的学习关系。在计算机视觉和模式识别，2019。[18] Wei-Hong Li，Benchao Li，and Wei-Shi Zheng.人员-职级：在图像中检测重要人物。在自动人脸手势识别国际会议（FG 2018），2018年。[19] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin Ishii。虚拟对抗训练：用于监督和半监督学习的正则化方法。模式分析和机器智能，41（8）：1979[20] Avital Oliver、Augustus Odena、Colin A Raffel、EkinDogus Cubuk和Ian Goodfellow。深度半监督学习算法的现实评估。在神经信息处理系统的进展，2018年。[21] Vignesh Ramanathan ， Jonathan Huang ， Sami Abu-El-Haija，Alexander Gorban，Kevin Murphy，and Li Fei-Fei.检测多人视频中的事件和关键演员。在计算机视觉和模式识别，2016年。[22] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。[23] Clint Solomon Mathialagan，Andrew C Gallagher和DhruvBatra。VIP：在图像中找到重要人物。在计算机视觉和模式识别，2015年。[24] Yongyi Tang，Peizhen Zhang，Jian-Fang Hu，and Wei-Shi Zheng.集体活动识别的潜在嵌入。在2017年的高级视频和基于信号的监控中。[25] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。在神经信息处理系统的进展，2017年。[26] Qizhe Xie ， Zihang Dai ， Eduard Hovy ， Minh-ThangLuong，and Quoc V Le.无监督数据增强。arXiv预印本arXiv：1904.12848，2019。[27] 大卫·亚罗斯基无监督词义消歧与监督方法相媲美。1995年第33届计算语言学协会年会

下载后可阅读完整内容，剩余1页未读，立即下载