基于熵滤波的半监督旋转回归方法

145 浏览量更新于2023-10-25 收藏 1005KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11164FisherMatch：基于熵滤波的半监督旋转回归英达尹英成王采和<$陈宝泉<$北京大学摘要从单个RGB图像估计3DoF旋转是一个重要但具有挑战性的问题。最近的作品实现了良好的性能，依赖于大量的昂贵的获得标记的数据。为了减少监督量，我们首次提出了一个通用的框架，FisherMatch，用于半监督旋转回归，而无需假设任何特定领域的知识或配对数据。受流行的半监督方法FixMatch的启发，我们提出利用伪标签过滤来促进教师-学生相互学习框架中从标记数据到未标记数据的信息流。然而，将伪标签过滤机制结合到半监督旋转回归中是非常重要的，这主要是由于缺乏用于旋转预测的可靠置信度度量。在这项工作中，我们建议利用矩阵Fisher分布来建立旋转的概率模型，并设计一个基于矩阵Fisher的回归器，用于联合预测旋转及其预测不确定性。然后，我们建议使用预测分布的熵作为置信度测量，这使我们能够执行旋转回归的伪标签过滤。为了监督这种类分布的伪标签，我们进一步研究了如何在两个矩阵Fisher分布之间实施损失的问题。我们广泛的实验表明，我们的方法可以很好地工作，即使在非常低的标记数据比率在不同的基准，实现了显着和一致的性能改善监督学习和其他半监督学习基线。我们的项目页面位于https://yd-yin.github.io/FisherMatch。1. 介绍利用深度神经网络来执行旋转回归正在计算机视觉、图形学和机器人技术中产生越来越重要的影响。这现在是实现多种应用的关键技术之一，例如相机重新定位和视觉里程计[6，11]，ob-†He Wang和Baoquan Chen为通讯作者（{hewang，baoquan} @pku.edu.cn）。物体姿态估计和跟踪[41，44]，以及6DoF机器人抓取[5，15]。改进旋转回归的主要障碍之一是昂贵的旋转注释。尽管许多大型图像数据集已经用足够的语义注释进行了管理，但获得具有旋转注释的大型真实数据集可能非常费力、昂贵且容易出错[43]。由于标记数据的数量成为瓶颈，因此需要能够利用未标记数据的方法。关于具有较少标签的训练模型，半监督学习（SSL）一直是一种强大的方法，通过提供利用未标记数据的手段来减轻对标记数据的需求，从而吸引越来越多的关注。近年来，已经见证了半监督分类[4，12，20，36，37]、半监督对象检测[25，40]以及半监督人体和手部姿势估计[17，32]中的许多过程。然而，只有很少的工作解决半监督旋转回归，其中大多数利用特定领域的知识，例如。，物体姿态的时间平滑度[24]和强假设，例如，，不同视角的成对图像[27]。在这一领域工作很少的根本原因是旋转回归非常独特和具有挑战性。首先，将旋转回归转化为分类问题是不可取的。鉴于3D旋转空间是连续的，将空间离散化为少量的仓将导致有限的精度，这对于涉及旋转估计的许多应用是不可容忍的。此外，旋转回归甚至不是一个标准的回归问题。假设旋转空间SO（3）是一个非欧几里德流形[51]，则需要考虑旋转空间的非线性结构来定制一般的回归算法这进一步使得半监督旋转回归成为一个更具挑战性且研究较少的主题。在这项工作中，我们第一次提出了一个通用的框架，即FisherMatch，半监督旋转回归。我们解决的问题是非常普遍的：使用神经网络从单个RGB图像回归旋转。受流行的半监督学习方法FixMatch [36]的启发，最初是为分类任务开发的，我们试图在11165相似的味道。FixMatch成功的关键思想是过滤掉分类置信度低的伪标签，只监督具有高置信度标签的模型输出。该机制保证了伪标签的质量，从而显著提高了半监督学习的性能。潜在的假设是，伪标签越有信心，这个标签就越接近地面真相。或者，换句话说，这个系统需要预测一个可以很好地指示其预测的正确性的置信度。幸运的是，分类输出自然携带信息：其预测的概率可以用作其预测置信度。我们认为，这样一个可靠的信心措施的可用性是至关重要的半监督分类任务的FixMatch的成功。类似地，当采用FixMatch进行3D对象检测时，3DIoUMatch [40]构建一个单独的分支来预测预测边界框和地面实况边界框之间的3D IoU，作为局部化置信度，以过滤掉不良预测。虽然3D IoU估计是一项回归任务，但3DIoUMatch可以作为增强技巧在预测的边界框周围移动，从而为该置信度估计模块创建无限数量的训练这种增强对于这样的置信度估计模块是至关重要的，因为置信度估计模块只能使用标记的数据来训练，并且必须对未标记的数据进行工作。然而，我们认为采用FixMatch进行旋转估计是非常重要的。最大的障碍是如何估计旋转回归的预测置信度对于旋转回归，我们正如[35]所指出的，旋转的概率建模是对旋转回归的不确定性建模的正确方法。方向统计的参数统计方法早已建立[9，16，19，33]。为了更好地利用R N中具有不同于无约束值的拓扑的SO（3）流形，Deng etal. [8]和Mohlin et al. [28]分别结合Bingham分布和矩阵Fisher分布，自动学习预测的不确定性，无需进一步监督。因此，这样的网络可以提供关于预测质量的有价值的信息。我们更喜欢矩阵Fisher分布而不是Bingham分布，因为它的旋转表示是连续的，并且它的损失是有界梯度幅度的凸，从而导致神经网络的稳定训练[22，28]。因此，我们设计了一个基于Fisher的矩阵旋转回归器，它输入单个RGB图像并输出参数。矩阵Fisher分布鉴于预测的dis-dish，我们建议使用这个分布的熵作为伪标签过滤的置信度。基本上，只有具有高置信度的伪标签，即比阈值τ熵更低的熵，将通过过滤并用于监督训练中的模型。我们的实验一致地证明了熵是预测性能的有效指标，不仅在100%标记数据的情况下，而且在低数据率（低至5%）的情况下。由于FisherMatch输出的是一个分布而不是一个旋转，因此我们的伪标签变成了一个分布，这就需要研究两个分布之间的无监督损失。在这项工作中，我们研究交叉熵损失和负对数似然损失，绘制它们之间的连接，并找到它们在我们的实验中的正确使用。在各种标记数据比率下，基于RGB图像（ModelNet10-SO（3）和Pas-cal 3D+）的对象旋转估计的常见基准数据集上，我们的实验表明，与监督学习和其他半监督学习基线相比，我们的性能得到了显著且一致2. 相关工作旋转回归旋转表示的选择是旋转回归的核心问题之一常用的表示法包括欧拉角、轴角、单位四元数等。然而，欧拉角存在万向节锁定，四元数具有双重嵌入，导致存在两个不连通的局部极小值。此外，[51]认为，小于4维的表示为此，分别提出了具有Gram-Schmidt正交化的连续6D表示[51]和具有SVD正交化的9D表示[22]，从而在旋转回归中具有优异的性能。一些工作建议使用概率分布旋转，以进一步模型预测的不确定性，随着旋转回归。在Prokudin等人 [35]中，使用双元数网络估计了Von Mises分布的混合参数。Deng等人 [8]使用单位四元数上的Bing- ham分布来联合预测旋转以及不确定性。使用ma-Fisher分布的估计[28]学习在具有无约束参数的旋转矩阵上构建概率分布。为了进一步表达任意旋转分布并更好地处理对称对象的旋转回归，Implicit-PDF [29]选择通过神经网络来表示分布，而不是分布参数，其中SO（3）空间在Hopf纤维化的帮助下均匀离散[48]。11166我我i=1我.Σi=1努卢--半监督分类半监督学习是一个长期研究的领域，有多种方法，其中许多是在分类领域。一致性规则化和伪标记是两个深入探索的措施一致性正则化最早是在[2]它强制模型在多个扰动中进行一致的预测[18，20，37，45，46]。伪标签[21]是由模型本身生成的人工标签，用于进一步训练模型，通常与基于置信度的阈值化以确保伪标签质量。Mixmatch [4]、ReMixmatch[3]和FixMatch [36]是利用各种增强和标签锐化策略的整体方法。最近，SimPLE [13]提出了配对损失最小化置信和相似伪标签之间的统计距离。SemCo [31]考虑了标签语义，以防止以共同训练的方式降低视觉相似类的伪标签质量。Dash [47]和FlexMatch [49]提出了动态和自适应伪标签过滤，更适合于训练过程。半监督回归与分类相比，半监督回归是一个较少涉及的领域，其中大多数作品都处理回归欧几里得变量，例如，帕金森Correg的早期工作[52]利用具有不同距离度量的多个k-最近邻回归量，并利用一个回归量的预测来以共同训练的方式标记其他回归量。SSDKL [14]通过神经网络的组成和高斯过程的概率建模，通过最小化后验正则化框架中的预测方差来自/半监督旋转估计若干工作以自监督方式解决旋转估计。Mustikovela等人。 [30]利用合成分析技术，该技术需要大量额外的图像来训练生成模型。ViewNet [27]假设配对数据的可用性（相同对象，不同姿势）。最相关的半监督学习工作是NVSM [39]，它与我们共享相同的数据和标签假设。与回归相反，NVSM使用特征向量构建类别级3D立方体网格，并通过基于距离的旋转检索在渲染和比较技术中估计对象旋转。在半监督旋转回归领域的文献较少Mariotti等人。 [26]需要对象的成对图像，并通过旋转编码的神经潜变量以分析和合成的方式实施交叉重建。我们的工作从上面介绍的方向统计学和半监督学习技术中汲取了见解，致力于将两种技术相互关联，探索领域，以解决问题的一般设置的半监督旋转回归。3. 方法在这项工作中，我们解决了学习在半监督设置下从单个RGB图像预测3D对象旋转的问题，其中我们只有一个（小）标记数据集xl，ylNl和一个较大的未标记数据集。数据xu。这里，x和x分别表示标记和未标记的RGB图像，并且yl表示SO（3）中标记数据的地面真实旋转;Nl和Nu分别是标记和未标记图像的数量。遵循流行的半监督学习方法FixMatch [36]，我们采用了师生相互学习框架，我们在第3.1节中进行了总结。在第3.2节中，我们使用两种旋转概率模型来描述旋转预测中的不确定性，即Bingham分布和矩阵Fisher分布[8，28]，并提出使用预测矩阵Fisher分布的熵作为伪标签过滤的预测置信度;在第3.4节中，为了加强教师和学生之间的损失，我们构建了伪标签和预测分布之间的两个损失函数;最后，在第3.5节中，我们详细介绍了我们的训练协议。3.1. 重温FixMatch师生互学框架是一种流行的半监督学习方法。刻薄老师[37]提出了第一个版本，包含两个共同学习的模型-教师和学生。教师模型的参数是通过随机梯度下降更新的学生模型参数对于标记数据，学生模型由地面真值标签进行训练，对于未标记数据，教师模型的预测作为伪标签并用于监督学生网络，通过该网络，在两个模型之间强制执行历史一致性。FixMatch [36]通过提出两种策略进一步发展了这种方法非对称数据增强意味着教师模型由弱增强的未标记样本提供，而学生模型采用强增强的未标记样本，这导致教师和学生之间的性能差距，促进正确的信息流向学生。可以说，FixMatch最重要的贡献是证明了基于置信度的伪标签过滤的有效性。对于一个非平凡的半监督学习任务，以前的工作认识到，伪la-11167MF. -是的日本MF∈×S≥.ΣB∈∈×× ≥≥关于我们教师简介图1. 管道概述。我们的基于Fisher的矩阵旋转回归器Φ将RGB图像x作为输入，并输出预测矩阵Fisher分布的参数A。我们利用一个教师-学生相互学习的框架，由一个可学习的学生模型和一个指数移动平均（EMA）教师模型。在标记数据上，学生网络由具有监督损失的地面真实标签进行训练;而在未标记数据上，学生模型从EMA教师那里获取伪标签。我们利用基于熵的过滤技术来过滤掉嘈杂的教师预测。分布可视化借用自[28]，其中黑色轴中显示的x，y和z对应于R3的标准基础，并且pdf在球体上显示为喷射颜色编码。有关可视化方法的详细信息，请参见补充材料D部分。由教师输出产生的贝尔遭受显著的噪声[36，40]。为此，FixMatch建议过滤掉低质量的预测，只监督具有高置信度预测的学生模型。这种策略避免了对学生模型的错误监督，并已被证明对具有挑战性的任务非常有效，例如。，目标检测[25，40]。考虑到旋转回归的困难，我们进一步建议利用FixMatch作为旋转回归任务框架的基础。3.2. 旋转的概率模型为了模拟旋转估计的不确定性，我们利用矩阵Fisher分布来建立旋转预测的概率模型，遵循Mohlin等人。[28]第10段。矩阵Fisher分布[19，34]（R;A）是SO（3）上旋转矩阵的概率分布，其概率密度函数的形式为p（R）= （R;A）=1ExptrATR（1）F（A）其中参数AR3×3是任意的33矩阵，F（A）是归一化常数。通过计算参数A的奇异值分解可以计算出分布的众数和方差。假设A=USVT，奇异值按降序排序，分布的众数计算为：ˆ1 0 0不奇异值S=diag（s1，s2，s3）表示集中的强度。奇异值si越大，沿相应轴（模R的第i列）的分布越集中。旋转的另一个重要概率模型是单位四元数在3上的宾汉分布。概率密度函数定义为：（q;M，Z）=1expqTMZMTq（3）F（Z）其中MO（4）是一个44正交矩阵和Z =diag（0，z1，z2，z3）是44对角矩阵0 z1z2z3。参数M的第一列表示模式，其余列描述色散的取向，而相应的z i（i1，2，3）描述色散的强度F（Z）是归一化常数。众所周知，旋转矩阵R和四元数q是旋转的两种不同表示.类似地，如[34]中所讨论的，矩阵Fisher分布和Bingham分布是等价的，只是参数化和旋转表示不同。然而，鉴于四元数不是旋转的连续表示[51]，使用矩阵表示来学习深度旋转估计模型具有内在优势，通常会产生更好的性能。[28]进一步表明，矩阵Fisher分布具有有界梯度，这受到深度神经网络的青睐。因此，我们认为，R=U0 1 0V00检测（UV）（二）9D旋转矩阵被选择作为我们的表示，并且学生宿舍监督GT标签NLL损失强增强。基于Fisher的回归选择性监督��˜��伪标签重量EMACE损失/ NLL损失��ℳℱ(�� ) τ?��增强垫块薄弱基于Fisher的回归基于熵的滤波11168∼MF MF4不不S.Σ。.ΣΣ不不L不不不我JFG我我i=1S.Σ不我们使用了Fisher分布来建立我们的概率旋转模型。3.3. 基于熵的伪标签过滤受FixMatch的启发，我们只需要教师模型的准确否则，噪声伪标签可能会减慢训练过程，甚至对整个过程造成损害。为了描述预测分布的置信度，我们建议使用熵作为不确定性的度量，熵在统计学中被广泛使用，作为系统中的无序或随机程度。较低的熵通常表示更高的峰值分布，其表现出更少的不确定性和更高的置信度。交叉熵损失LCE在分类问题中，两个离散分布之间广泛使用的损失函数是交叉熵损失LCE，其梯度等于两个分布之间KL散度的梯度[10]。因此，我们扩展了交叉熵损失LCE，以加强伪标签和学生输出之间的一致性：LCE（pt，ps）=H（pt，ps）（7）为了计算SO（3）上两个连续分布之间的LCE，我们导出了两个矩阵Fisher分布f之间（Af）和g（Ag），如下所示：设Af=UfSfVT，Ag=UgSgVT，γ为在这项工作中，我们提出了一个基于熵的滤波fg利用SO（3）上的旋转估计的概率建模的机制。我们设计了一个旋转回归器Φ，它采用单个RGB图像x并输出参数。从单位四元数到旋转矩阵的标准变换，ei是I4的第i列，且ei=γ（ei），则我们可以导出矩阵Fisher分布的参数A∈R3×3H（f，g）=logFg−zgi.b2+1。a2−b2 2011年1月1日A=Φ（x），（4）其不仅包含作为模式的预测旋转i=1伊伊季j=1iF f zfj（八）这种分布，但也编码的信息，其中zgi=tr（ETSg）zfj=tr（ETSj）分布集中然后，我们计算这个预测分布的熵（参见等式9）。aij=γ−1（UfEiVT）·γ−1（UgEjVT）bi=γ−1（UfEiVT）·γ−1（UgEiVT）对于伪标签过滤，我们设置固定的熵阈值-fgoldτ，并且仅在预测的熵低于阈值的情况下将其保留为伪标签具体而言，对于未标记数据xu，假设pt=MF（Au）是教师输出其中Au=Φt（xu）且ps=MF（Au）是学生F f和F g是常数wrt。参数Z。有关推导，请参见补充材料B节注意，当f=g时，我们也可以得到矩阵Fisher分布的熵H（f），如下所示：输出为Au=Φs（xu），因此未标记数据的损失为：u不不 SH（f）=logFf− .zfi1000FfF f zfi（九）L（xu）=1（H（p）≤τ）L（p，p）（5）我们将在3.4节讨论两个分布L（pt，ps）之间的损失函数.3.4. 分布之间的损失函数对于标记集xl，ylNl，我们采用最常见的损失函数，负对数似然（NLL）损失来学习旋转的概率模型，如[8，28]所示。这种损失最小化了预测分布中地面真实旋转的负对数似然，如下所示Llxl，yl=−logMFyl;Al）（6）其中A（xl）表示馈送有输入xl的网络输出。对于未标记的数据，我们的网络预测和i=1损失的另一种选择是考虑由教师预测的模式在由学生预测的分布中的负对数似然，这基本上是将教师预测视为基础事实的NLL损失，就像在标记数据的情况下一样。LNLL（pt，ps）=−logps（yu），（10）其中yu是教师预测的模式，可以通过Au的SVD计算（见3.2节）。NLL和LCE之间的关系在这里，我们打算连接北陆线及中环线。我们发现，当色散t的色散减小到Dirac分布δ（R;yu）且模位于yu时，LCE变为LNLL.我们给出一个简单的证明如下：伪标签是分布，因此我们需要强制两个分布之间的损失，这对于一个LCE （Dirac（pt），ps）=H（δ（yu），ps）44Σ11169不不回归问题我们研究两种类型的损失，即。、负对数似然（NLL）损失和交叉熵（CE）=−∫高级官员（3）δ（yu）logpsdR损失=− log ps（yu）= LNLL（pt，ps）.11170不不MF×我.Σi=1我. Σi=1Bu--这完全类似于半监督分类中使用的标签锐化技术[4，36]，其中教师具体来说，当我们把一个预测分布（Au）转换成硬标签yu，LCE变成LNLL。我们在实验中使用LCE，并在4.4节中研究这两种损失的不同行为。3.5. 训练协议我们的训练由两个阶段组成：预训练阶段，我们在标记数据上训练我们的旋转回归器，然后是SSL阶段，使用标记和未标记数据。我们的基于矩阵Fisher的旋转回归器被馈送RGB图像x，并输出3 3矩阵A作为矩阵Fisher分布的预测参数。我们将分布的众数作为预测值。预训练我们从标记集上的监督训练过程开始，监督损失为Eq。六、我们克隆旋转回归，以获得一对教师和学生网络具有相同的初始化，一旦收敛。在SSL阶段，我们同时使用标记数据和未标记数据。训练批次包含xlBl标记的样本的混合物，xu未标记样品。损失函数由应用于标记样本的监督损失和应用于未标记样本L=Llxl，yl+λu Lu（xu）（11）其中，Ll被计算为Eq. 6，Lu为Eq. 7，λu是无监督损失重量。在这个阶段，我们采用不对称增强和指数移动平均教师，如第二节所述。第3.1条4. 实验4.1. 数据集ModelNet 10-SO（3）[23]是通过渲染ModelNet-10[42]的3D模型创建的，这些模型通过SO（3）中的均匀采样随机旋转进行旋转。在[7，28]之后，我们专注于椅子和沙发类别，它们在数据集中表现出在实验中，我们将标记数据的比例设置为训练集的5%和10%。Pascal3D+[43]包含来自Pascal VOC和ImageNet的12个刚性对象类的真实图像。根据NVSM [39]，我们评估了6种车辆类别（飞机，自行车，船，公共汽车，汽车，摩托车），这些类别在方位角上具有相对均匀分布的姿态，并将每个类别的标记图像数量分别设置为7，20和50。我们共享与NVSM相同的7个选定图像，以便它们分布在姿势空间周围。我们遵循原始的训练-测试分割，并进一步将训练分割分为具有地面真值的标记集和不具有地面真值的未标记集。4.2. 评估设置基线据我们所知，我们是第一个在这种情况下处理半监督旋转回归Supervised-L1使用正态回归量，仅在具有L1损失的标记集上使用9D-SVD [22]旋转表示进行训练，而Supervised-Fisher使用我们的矩阵Fisher回归量，并且也只经过预训练阶段。作为SSL基线，SSL-L1-Consistency是指在EMA教师和保留非对称数据增强的情况下将FixMatch应用到任务中，但由于缺乏置信度度量，仅在这里，对于非Fisher回归，我们选择L1而不是L2损失，因为[8]指出L1在旋转回归中优于L2。我们发现与我们最相关的工作是NVSM [39]，它虽然不是基于回归的，但处理与我们相同的任务，并通过基于距离的旋转检索利用渲染和比较方案。我们借用NVSM及其开发的基线作为我们比较的基线，包括两个监督旋转估计工作（StarMap[50]和NeMo[38]）和两个标准分类网络（Res 50-Gene和Res 50-Spec），分别适用于半监督学习。由于训练代码不可用，我们完全遵循NVSM的实验设置并在Pascal3D+数据集上进行评估。更多详情见补充章节A。评估指标我们通过平均误差、中位误差（以度为单位）和预测与地面真实值之间30毫秒4.3. 结果结果比较表1显示了在不同的标记数据比率下，我们的方法与ModelNet 10-SO（3）上的基线进行比较我们可以看到，无论使用正态回归还是Fisher回归，使用标记数据进行监督学习的结果都是相似的。由于这些模型实际上是SSL阶段中SSL方法的预训练模型，因此它们相似的性能为SSL阶段中的公平比较奠定了共同的基础对于经历第二个SSL 阶段的方法，我们提出的FisherMatch 方法始终优于基线 SSL 方法 SSL-L1-Consistency，这表明了执行伪标签过滤的重要性。Pascal3D+数据集上的实验结果如表2所示。研究结果表明，有效的师生互动学习框架以及11171表1.在不同的标记数据比例下，将我们提出的FisherMatch与ModelNet 10-SO（3）上的基线进行比较。类别方法百分之五百分之十平均值↓Med. ↓平均值↓Med. ↓你好第一层[22]44.6411.4232.659.03你好费舍尔[28]45.1913.1632.928.83沙发SSL-L1-组成SSL-FisherMatch36.8632.028.657.7825.9421.296.815.25全苏18.625.7718.625.77你好第一层[22]40.4116.0929.0210.64你好费舍尔[28]39.3416.7928.5810.84椅子SSL-L1-组成SSL-FisherMatch31.2026.6911.299.4223.5920.068.107.44全苏17.386.7817.386.78表2. 将我们提出的FisherMatch与Pascal3D+数据集的6个类别的基线进行比较，这些数据集具有很少的注释（7，20，50张图像）。结果按6个类别平均。方法72050Med. ↓加30升Med. ↓加30升Med. ↓加30磅↑Res 50-基因39.136.126.345.220.254.6Res 50-规格46.529.629.442.823.050.4[第50话]49.630.746.435.627.953.8[第38话]60.038.433.351.722.169.3[第39话]37.553.828.761.724.265.6FisherMatch28.356.823.863.616.175.7全苏8.189.68.189.68.189.6454035300100 k200k300k400k0.700.650.600.550.500.450.40未标记数据0100 k200k300k400k随着测试数据的增加，这表明教师预测的质量不断提高我们还可以注意到，未标记数据的性能略好于测试数据，这有时被称为转导半监督学习。我们还显示了在训练过程中的变化，25.022.520.017.515.012.510.0训练迭代未标记数据0100 k200k300k400k训练迭代训练迭代9876540 100k 200k 300k 400k训练迭代伪标签覆盖率、伪标签质量以及学生预测与对应伪标签之间的误差。在这里，我们将伪标签称为通过熵阈值的教师预测。伪标签覆盖率是指通过置信度阈值的教师预测的百分比伪标签质量仅仅意味着伪标签的错误，图2. SSL- FisherMatch在ModelNet 10-SO（3）Sofa数据集上的训练过程的可视化，具有5%的标记数据。从左到右和从上到下的四个图显示了训练过程中预测的平均误差、伪标签覆盖率、由伪标签的平均误差表示的伪标签质量以及学生模型与对应的伪标签之间的平均误差所有的误差都以度为单位。基于熵的伪标签过滤方案，我们的算法显着优于国家的最先进的基线下，所有不同数量的标记图像。培训过程分析在这里，我们展示了SSL方法在培训过程中的工作原理。在图2中，左上图显示了未标记数据的性能地面真相如曲线所示，随着SSL的继续，改进的模型导致更有信心的预测，这由熵的减小和伪标签覆盖率的增加表示，这反过来又推动了学习过程。伪标签的覆盖率从40%大幅提高到70%，伪标签质量稳定，抖动在2.5μm左右。这表明熵在整个过程中始终是一个很好的性能指标。学生模型对伪标签的误差不断减小，这进一步证明了我们无监督损失的有效性。4.4. 消融研究不同的无监督损失和熵阈值的影响在这里，我们分析了我们的Fish-无标号数据测试数据未标记数据平均误差伪标签质量错误学生-伪伪标签覆盖率11172FisherMatch-CE提供服务的Supe4540355.6 5.4 5.2 5.0 4.8熵阈值图3. FisherMatch的性能与CE或NLL无监督损失与不同的熵阈值。实验是在ModelNet 10-SO（3）Sofa数据集上进行的，有5%的标记数据。表 3. 在 ModelNet 10-SO （ 3 ） Sofa 数据集上进行了基于Bingham分布的半监督学习实验。方法平均值↓Med. ↓你好宾厄姆39.61 12.68你好费舍尔32.92 8.83SSL-BinghamMatch 27.01 6.77SSL-FisherMatch 21.29 5.25标记数据比率。0.550.500.450.400.350.30阈值=-5.5CENLL0100k200k300k400k训练迭代0.80.70.60.50.4阈值=-5.3CENLL0100k200k30万40万训练迭代0.80.70.60.5阈值=-5.1NLLCE0100k200k30万40万训练迭代与基于Bingham的回归器的比较我们设计的算法是不可知的旋转表示以及分布模型的选择。我们进一步测试我们的框架的基础上宾厄姆分布和报告的结果在表3中。图4. 在训练过程中伪标签覆盖率与CE或NLL无监督损失和熵阈值的比较。实验在ModelNet 10-SO（3）Sofa数据集上进行，标注数据量为5%。1501005006 5 4 3 2熵图5. 分布熵指示能力的可视化。演出水平轴是分布熵，垂直轴是数据点的数量，由误差（以度为单位）进行颜色编码实验在ModelNet 10-SO（3）Sofa数据集上进行，数据集上有10%的标记数据。erMatch与不同的无监督损失，LCE（等式7）和LNLL（Eq.10），以及它们如何通过扫描参数τ而依赖于熵阈值τ。如图3和图4所示，CE损失在更宽容的阈值下表现稍好，而NLL损失鼓励网络的更高置信度。结果验证了NLL损失是CE损失的锐化版本，其中所有通过阈值的伪标签都被视为绝对置信，而不管实际预测的不确定性如何。这种不确定性导致了一个更自信但可能过于自信的网络，特别是在容忍熵阈值的情况下。另一方面，由于伪标签在通过阈值时已经表现出很大的置信度，因此进一步锐化不会带来额外的性能增益。因此，我们认为CE损失是一个更好的选择，在我们的任务具有更广泛的兼容性。分布熵的指示能力为了清楚地显示分布熵的指示能力。性能，我们在图5中绘制了预测误差与测试集上相应的分布熵之间的关系。该图表明，即使在低的温度下如表中所示，基于Bingham的框架还能够利用未标记的数据并显著提高旋转估计的性能然而，对于其监督和半监督版本，其旋转误差通常大于基于矩阵Fisher的框架的旋转误差，因为其旋转表示，四元数，不是连续旋转表示，如[51]所指出的，从而导致性能较差。请参阅sl- BinghamMatch的详细设置的supple-sl-materials部分A。5. 结论和限制在本文中，我们解决了问题的半监督旋转回归从单一的RGB图像的一般方式。在不需要任何领域特定知识或配对图像的情况下，我们利用师生相互学习框架，提出了一种基于SO（3）概率建模的基于熵的伪标签过滤策略。我们的实验证明了我们的方法在ModelNet 10-SO（3）和Pascal 3D+数据集上的有效性和优势。当标记数据和未标记数据的数量都不足时，我们的方法的性能可能会降低在这种情况下，由于小标记数据的过度拟合，我们的网络预测的不确定性可能会被低估，从而导致伪标签过滤的有效性降低，从而导致相互学习。确认我们感谢匿名评论者的深刻反馈。我们要感谢大连理工大学的吕江然老师在实验中的富有成效的讨论和宝贵的帮助，以及北京大学的王阳老师在数学推导中的帮助。这项工作得到了美国国家科学基金会-国际科学基金会联合研究基金（62161146002）的部分资助。错误[0，10]00）180]错误（10，1错误[100，伪标签覆盖数据点平均误差（°）伪标签覆盖伪标签覆盖11173引用[1] 亚瑟·亚松森和大卫·纽曼。Uci机器学习知识库，2007年。3[2] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。《神经信息处理系统，2014年第27期。3[3] David Berthelot、Nicholas Carlini、Ekin D Cubuk、AlexKurakin 、 Kihyuk Sohn 、 Han Zhang 和 Colin Raffel 。Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785，2019。3[4] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。神经信息处理系统的进展，32，2019。一、三、六[5] Michel Breyer ， Jen Jen Chung ， Lionel Ott ， SiegwartRoland，and Nieto Juan.体积抓取网络：杂波中的实时6自由度抓取检测在机器人学习会议上，2020年。1[6] Mai Bui 、 Tolga Birdal 、 Haowen Deng 、 ShadiAlbarqouni 、 Leonidas Guibas 、 Slobodan Ilic 和 NassirNavab。基于连续多模态推理的模糊场景中的6D摄像机重定位。在计算机Springer，2020年。1[7] Jiayi Chen，Yingda Yin，Tolga Birdal，Baoquan Chen，Leonidas Guibas，and He Wang.深旋转回归的投影流形梯度层。arXiv预印本arXiv：2110.11657，2021。6[8] Haowen Deng ， Mai Bui ， Nassir Navab ， LeonidasGuibas，Slobodan Ilic，and Tolga Birdal.深度宾厄姆网络：处理姿态估计中的不确定性和模糊性。arXiv预印本arXiv：2012.11002，2020。二三五六[9] 托马斯·唐斯定向统计。Biometrika，59（3）：665-676，1972. 2[10] 杰瑞德·马歇尔·格洛弗四元数Bingham分布，3D物体检测和动态操作。博士论文，麻省理工学院，2014年。5[11] Zan Gojcic ， Caifa Zhou ， Jan D Wegner ， Leonidas JGuibas，and Tolga Birdal.学习多视图三维点云注册。在IEEE/CVF计算机视觉和模式识别会议论文集，第1759-1769页1[12] 宫承岳，王帝林，刘强。 Alphamatch ：用 Alpha-Divergence提高半监督学习的一致性。在IEEE/CVF计算机视觉和模式识别会议论文集，第136831[13] 胡子健，杨振宇，胡雪峰，拉姆·涅瓦蒂娅.简单：半监督分类的相似伪标签利用.在IEEE/CVF计算机视觉和模式识别会议论文集，第15099-15108页，2021年。3[14] Neal Jean，Sang Michael Xie，and Stefano Ermon.半监督深度内核学习：无标签最小化预测方差。神经信息处理系统进展，31，2018。3[15] Zhenyu Jiang ， Yifeng Zhu ， Maxwell Svetlik ， KuanFang，and Yuke Zhu.启示与几何之间的协同作用：通过隐式表示的6- dof抓取检测。机器人：科学与系统，2021年。1[16] 彼得·埃普和坎蒂·V·马迪亚。矩阵vonmises-fisher和bingham分布的极大似然估计。统计年鉴，7（3）：599-606，1979年。2[17] Atul Kanaujia ， Cristian Sminchisescu ， and DimitrisMetaxas. 用于三维人体姿态重建的半监督层次模型2007年IEEE计算机视觉和模式识别会议，第1-8页IEEE，2007年。1[18] Zhanghan Ke，Daoye Wang，Qiong Yan，Jimmy Ren，and Rynson WH Lau.双学生：打破半监督学习中教师的限制。在IEEE/CVF计算机视觉国际会议论文集，第6728-6736页，2019年。3[19] CG Khatri and Kanti V Mardia.方位统计中的冯皇家统计学会杂志，39（1）：95 二、四[20] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。第1、3条[21] Dong-Hyun Lee et al.《伪标签：用于深度神经网络的简单有效的半监督学习方法》。在表征学习挑战研讨会上，ICML，第3卷，第896页，2013年。3[22] Jake Levinson 、 Carlos Esteves 、 Kefan Chen 、 NoahSnavely 、 Angjoo Kanazawa 、 Afshin Rostamizadeh 和Ameesh Makadia。深旋转估计的svd分析。神经信息处理系统的进展，33：22554-22565，2020。二六七[23] Shuai Liao，Efstratios Gavves，and Cees GM Snoek.球面回归：学习视点、曲面法线和n球面上的3D旋转。在IEEE/CVF计算机视觉和模式识别会议论文集，第9759-9767页，2019年。6[24] 刘少

下载后可阅读完整内容，剩余1页未读，立即下载