通过注释器混淆的监督学习算法中噪声标签的建模与估计

165 浏览量更新于2023-10-18 收藏 1.72MB PDF 举报

混淆矩阵

标签噪声

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11244˜˜通过注释器混淆的RyutaroTanno1田野龙太郎ArdavanSaeedi2斯瓦米Sankaranarayanan2丹尼尔C.内森·西尔伯曼21英国伦敦大学学院2美国纽约蝴蝶网络1{r.tanno，d.alexander}@ ucl.ac.uk2{asaeedi，swamiviv，nsilberman}@ butterflynetinc.com摘要监督学习算法的预测性能在典型的标签收集过程中，多个注释者在其不同的技能水平和偏差的影响下提供对“真相”的主观噪声估计。盲目地将这些嘈杂的标签视为基础事实，限制了在存在强烈分歧的情况下学习al-tax的准确性这个问题对于医学成像等领域的应用至关重要，在这些领域中，注释成本和观察者间的变化都很高。在这项工作中，我们提出了一种方法，同时学习个人的注释模型和底层的真实标签分布，只使用嘈杂的观察。每个注释器都由一个与分类器预测一起联合估计的混淆矩阵来建模。我们建议在损失函数中添加一个正则化项，以鼓励收敛到真正的注释者混淆矩阵。我们提供了一个理论上的论点，正则化是必不可少的，我们的方法都为单 annotator 和多annotators的情况下。尽管这个想法很简单，但使用模拟和真实标签对图像分类任务进行的实验表明，我们的方法要么优于最先进的方法，要么与最先进的方法不相上下，并且即使每个图像只有一个标签，也能够估计注释者的技能。1. 介绍在许多实际应用中，监督学习算法在从不同技能水平和偏见的多个注释器获得的噪声标签上进行训练。当标签中存在大量不一致时，将这些标签视为“真理”的传统训练算法为了减轻这种变化，从业者通常遵守“群体智慧”[1]的原则然而，这种方法在应用程序中的有效性有限，在Butterfly Network实习期间完成的部分工作。或者任务不明确。例如，医学图像分析中的视觉应用[2]需要临床专家的注释，这会产生高成本，并且通常会受到高阅读者间差异的影响[3，4，5，6]。然而，如果每个注释器生成标签的确切过程是已知的，我们就可以相应地纠正注释，从而在一组更干净的数据上训练我们的模型此外，可以利用注释者技能的额外知识来决定由哪些注释者标记哪些示例[7，8，9]。因此，能够准确地对注释器的标签噪声进行建模的方法不仅对于提高训练模型的准确性，而且对于提高未来标签的质量都是有用的。以前的工作提出了各种方法，共同估计的注释者和地面实况（GT）标签的技能我们将这些方法分为两组：（1）两阶段方法和（2）同时方法。第一类中的方法在两个单独的步骤中执行标签聚合和噪声标签Y首先通过构建注释器的概率模型来聚合。可观察变量是噪声标签Y，待估计的潜在变量/参数是注释者技能和GT标签Y。然后，在聚合标签Y和输入示例X（例如，图像）对上训练机器学习模型最初的尝试是在[10]在20世纪70年代初，最近，许多线的研究[11，6，12，13，14]建议扩展这项工作例如通过估计每个例子的难度然而，在所有这些情况下，关于原始输入X的信息在聚合步骤中使用的噪声标签的生成模型中被完全忽略，并且这在实践中高度限制了估计的真实标签的质量。同步方法[15，16，17，18]通过整合监督学习模型的预测（即，分布p（Y|X））的噪声标签的概率模型，并已被证明是im-证明预测性能。这些方法在训练期间采用期望最大化（EM）算法的变体，并且需要合理数量的标签11245我Y纪i=1对于每个示例。然而，在大多数现实世界的applica-tions，它实际上是禁止收集大量的标签每个例子，这一要求限制了他们的applications。一个值得注意的例外是[19]中提出的模型提升EM（MBEM）算法，即使在几乎没有标签冗余的情况下也能够学习。在本文中，我们提出了一个更有效的替代这些EM为基础的方法，共同建模的annotator技能和GT标签分布。我们的方法将[33]提出了一种方法，通过使用干净标签上的验证损失作为元目标，在每次训练迭代中学习加权示例[34]采用类似的方法，但是训练提出加权的单独的网络。然而，策划一组足够大小的干净标签对于许多应用来说是昂贵的，并且这项工作专注于从纯噪声标签中学习的场景2. 方法通过（1）确保高的通过最小化交叉熵损失来实现我们假设一组图像{xi}N被分配对于噪声标签{y∈（r）}r=1，.，从多个注释器中读取（2）鼓励被评估的注释者最大化-通过最小化估计的混淆矩阵的迹来最大程度地不可靠。我们的方法实现起来也更简单，只需要在交叉熵损失中添加一个正则化项。此外，我们提供了一个理论的结果，这种正则化是能够恢复的注释噪声，只要平均混淆矩阵（CM）的注释是对角占优。ii=1，.，N其中，yi（r）表示从注释器rg i ven到e示例xi的标签，但是没有地面实况（GT）标签{y i}i=1，.，N可用。在这项工作中，我们提出了一个新的亲-用于多类分类问题的算法，该算法可以同时估计注释器噪声和GT标签分布p（y|x）从这样的噪声数据集D={xi，y∈（1），.， y∈（R）}i=1，.，N.该方法只需要我我在图像分类任务上的实验，模拟的和真实的噪声标签表明，我们的方法尽管简单得多，但与MBEM [19]和广义EM [15，20]相比，具有更好或可比较的性能，并且即使每个示例只有一个标签可用，也能够恢复CM我们在MNIST和CIFAR10数据集上模拟了各种各样的注释器类型，同时我们使用超声数据集进行心脏视图分类，以测试在真实世界应用中的功效我们还通过与各种现代噪声鲁棒方法[21，22，23，24]进行比较，显示了在注释器间可变性较高时对单个注释器进行建模的重要性其他相关作品。更广泛地说，我们的工作涉及到在标签噪声存在下的鲁棒学习方法与我们的方法不同，有大量的文献没有明确地对单个注释器进行建模。标签噪声的影响在常见的分类器（如SVM和逻辑回归）中得到了很好的研究，并且已经提出了鲁棒变体[25，26，27]。最近，已经进行了各种尝试来在标签噪声下训练深度神经网络。Reed等人。[21]开发了一种鲁棒的损失模型在[29]和[22]中，标签噪声是向交叉熵损失函数添加正则化项，即所有注释器模型的平均准确度。直观地说，该方法使我们的每个注释者的模型尽可能不准确，同时使模型仍然解释数据。我们将证明，只要真实注释器的平均标签“足够”正确（我们在第二节中正式化），这就能够将注释噪声与真实标签2.3）。为了简单起见，我们首先描述了密集标签场景中的方法，其中每个图像都有来自所有注释器的标签，然后扩展到缺少标签的场景，其中只有一个子集的注释器标记每个图像。正如我们稍后将看到的，即使每个图像仅由单个注释器标记，该方法也有效。2.1. 噪声观测模型我们首先描述我们的概率模型，从多个注释器观察到的噪声标签。特别是，我们做了两个关键假设：（1）注释器是统计独立的，（2）注释噪声与输入图像无关。根据假设（1），观察噪声标签{y∈（1），.，y∈（R）}可以写为：以转换矩阵的形式参数化，并结合到用于二进制和多路分类的神经网络一个更有效的替代估计这样的p（y）{\displaystyle p（y）} y（R）|x）=Rr=1y∈Yp（y）|y，x）·p（y|x）dy（1）转移矩阵在[30]中提出，并且在[31]中示出了用于捕获标签噪声的图像依赖性的方法。我们稍后将比较我们的模型与其中几种方法，以测试对单个注释器建模在获得对标签噪声的鲁棒性方面的价值多条工作线已经表明，一小部分干净的标签提高了鲁棒性。[32]提出了从干净的标签中学习，以纠正有噪声的示例的标签。其中p（y|X）表示IM的真实标记分布。年龄，以及p（y）和（r）|y，x）描述了注释器r通过其破坏基本事实标签y的噪声模型。对于类-在一个具体的问题中，标签y取Y ={1，.， L}. 根据假设（2），注释器r将GT标签y=i破坏为y（r）=j的概率与图像x无关，即 p（y）=j|y=i，x）=p（y∈（r）=j|y=i）=：a（r）. 我们在这里指的是协会-∫11246纪r=1y（r），y（r）ˆr=1r=1ˆr=1i=1<$（y< $i ∈S（xi））·CE（Ap<$θ（xi），y<$i ）+λtr（AYΣ一一图1：模型的一般示意图（等式1）。（2）在4个注释者的存在给定输入图像x，由θ参数化的分类器生成地面真值类概率pθ（x）的估计。然后，计算相应注释器p（r）（x）：=A（r）pθ（x）的类概率，其中r ∈ {1，2，3，4}。优化模型参数{θ，A（1），A（2），A（3），A（4）}以最小化每个估计的注释器分布p（r）（x）与从每个注释器观察到的噪声标签y（r）之间的四个交叉进入损失的总和。每个注释者提供准确标签的概率可以通过取相关联的混淆矩阵（CM）的平均对角元素来估计，我们将其称为注释者的将L × L转移矩阵A（r）=（a（r））作为注释者r的混淆矩阵（CM）。联合概率p（r）（x）.然而，这种损失函数本身并不能将注释噪声与真实的标签差异分开。噪声标签简化为：有无穷多个{A（r）}R和分类模型p<$θ，使得p<$（r）完全匹配R Lp（y）（1）、...、y（R）|x)=a（r）·p（y|x）（2）r=1y=1注释器为了形式化这个问题，我们用P表示估计的真标号分布1p<$θ的CM。的CM图1提供了我们整体架构的示意图其对上述联合概率分布中的不同成分进行建模。具体而言，该模型由两个部分组成：基本分类器估计然后，估计的注释者最小化交叉熵损失（等式2）。3)鼓励R（r）P收敛到真正的CM，真值类概率向量pθ（x）该人的身分─对应注释器A（r）（r）即A P→A。然而，在这方面，近似于p（y=i|x），以及CM的集合-（r）有无穷多个解对（A，P），即：估计器{A（r）}R近似{A（r）}R. 每个将等式A（r）P = A（r）.这意味着我们需要乘积p（r）（x）：=A<$（r）p<$θ（x）表示估计的规范优化，以鼓励收敛到对应注释器的类概率向量。在在推理时间，我们使用p<$θ（x）中的最置信类（r）所需的解决方案，即一 →A（r）P →I。作为最终的分类输出。接下来，我们描述了我们的优化算法，共同学习的参数，基分类器r，θ和CM，{A_r（r）}R.为了解决这个问题，我们建议在估计CM的损失在eq. 3.扩展到2.2. 混淆和真标签的联合估计N R R给定训练输入X={xi}N和噪声标签（r）（r）N（r）（r）（r）（r）Y={yi}i=1，对于r=1，.，R，我们优化参数-通过最小化neg ativ elog-likelihood来确定{θ，Aθ（r）}i=1r=1r=1（四）（NLL），−logp（Y）（一）、...、Y~（R）|X).从等式 2、这个操作--其中S（x）表示可用于im的所有标签的集合年龄x，tr（A）表示矩阵A的迹。我们优化目标等于交叉熵的和观察到的标签和估计的标注标签分布之间的损失：简单地对这种损失执行梯度下降来学习{θ，Aθ（1），.，A（R）}。许多以前的工作已经考虑了相同N R− log p（Y）=（1），.， Y（R）|X）=CE（A（r）p（x），y（r））。观察模型，但提出各种优化i=1r =1θii（三）阴谋原始工作[15，20]采用广义EM算法来估计{θ，Aθ（1），.，A（R）}，以及）11247最小化上述内容可以鼓励每个注释器特定的预最近的工作[17，18]采用硬EM的变体措辞p（r）（r）优化同一个模型。 Khetan等人，[19]提出了一（x）：= A pθ（x）尽可能接近，对应注释器的噪声标签分布1Pji=x∈Xp（a r gmaxk[p<$θ（x）]k=j|y=i）p（x）dx11248ΣΣΣΣˆˆˆ引理1（单个注释器）。设P为e的CM，Σˆr=1一r=1ˆΣ图2：CIFAR-10上的一组不同的4个模拟注释器。上一行显示了基本事实，而下一行是我们的方法的估计，每个图像只有一个标签。一种称为模型自举EM（MBEM）的方法，其中基础神经网络分类器的预测用于CM的M步更新，以从单个标记的证据我们表明，每个对角线元素在真正的CMA形成一个下界，相应的元素在其估计。数据，这是不可行的与以前的工作。然而，在所有上述基于EM的方法中，NN的参数的每个M步都不能以封闭形式获得，因此aII=aijJP吉≤1μmJP吉 =aii（pjij）=a（五）通过梯度下降来执行。这意味着每个M-对于所有i∈ {1，.，L}. 因此，tr（A）≤步骤需要训练CNN分类器，渲染每个tr（A）. 我们现在证明，A是唯一的EM的迭代昂贵。一个简单的解决办法是，在每个E步骤中仅形成梯度下降的几次迭代，然而，如果没有实现足够的收敛，这可能限制性能。我们的方法直接最大化的可能性与跟踪正则化，不受这些问题。节中4，我们凭经验表明，这种方法导致在精度和收敛速度方面的改进，超过以前的方法在具有高注释器间变异性的噪声标签上。2.3. 迹正则化的动机在这里，我们打算鼓励在方程中添加跟踪正则化器4.第一章在上一节中，我们看到最小化当迹线最小时实现，即， tr（A）=tr（A ）A=A.从（5），如果A和A的迹是相同的，我们看到它们的对角元素也匹配，即。 a ii=aii i∈{1，.， L}. Now，CMP和A 中所有元素的非负离子性，以及等式aii=jaijpji意味着pji=[i=j]，即 P是单位矩阵。我们注意到，上述结果也在[22]中在标签噪声建模（忽略注释器信息）的更一般上下文中提到在这里，我们进一步扩大通过显示解决方案的唯一性来证明它们（即，tr（A）=tr（A）A=A）。此外，微量元素-（r）交叉熵损失本身就鼓励了AP →A（r）. 在那里-[22]在实践中从未使用过larization-for imple-心理原因，弗罗贝纽斯规范被用于所有他们的所以，如果我们能设计一个正则化子，当迷你-实验我们现在将其扩展到多个注释-（r）mized，唯一地确保收敛A→A（r），那么托尔政权。稍后我们将证明，这将使P趋向于单位矩阵，这意味着基本模型完全捕获真实的标签分布，即，r gmax ×k[p（x）θ]k=yx。我们描述如下：当A∈（r）和A（r）满足一定条件。我们首先将这个结果显示为-所有注释者的跟踪确实增强了估计质量，CM和真实标签分布的一致性，特别是在注释者存在高度分歧的情况下。（r）定理 1 （多个注释器）。让A成为假设只有一个注释器，然后扩展到注释者r的估计CM。（r）如果 P=A（r）为有多个注释者的场景。r=1，…R，以及平均真实CM和估计CMA*：=R−1RA（r）ˆ∗：=R−1RA股（r）如果A是对角占优的，则A（1），...， A（R） =估计的真实标签θpθ和A是注释者如果模型与噪声标签分布匹配，argmin 一个（1），.，A股（R）∗tr（ A）和11249并且这种解决方案是独特的。注释者I。e. 如果A∈ P =A，且A∈ P和A对所有i i = j都是全局占优的（aii>aij，ai ii>aij），则A∈P的极小值与真A唯一重合.换句话说，当平均CM的迹线被最小化时，各个注释者的CM的估计11250ˆˆAθ证据由于平均CM A为∗和是对角的，CM在补充材料中给出鉴于∗ˆ∗通过对GT标签的分析，我们生成由CM定义的噪声标签nant，我们有A=A P，引理1产生tr（A）≤ˆ∗∗ˆ ∗每个注释者。这些噪声标签在训练期间使用。（A）有相等性，当且仅当A =A. 因此，我们认为，当注释者的平均CM的迹线是最小的时，ˆ∗∗mized，即tr（A）= tr（A），真实的CIFAR-10实验。我们认为，（r）标签分布P简化为恒等式，给出A对于所有r∈ {1，...，R}。=A（r）4个注释者具有不同的CM模式，如图所示。2：（i）是如上文所定义的上面的结果表明，如果每个估计的注释者正确标记的示例的数量超过被错误标记为c的每一个其他类别c'的示例的数量（平均CM是对角占优的），则最小化其迹将使CM的估计值接近真实值。在ue 为了鼓励{A}（1），...，A（R）}也是对角的显性，我们用单位矩阵初始化它们。Intu-因此，迹项和交叉熵的组合通过找到可以很好地解释噪声观测的最大混淆量来3. 实验我们现在的目标是在各种图像识别任务上验证所提出的方法。特别是，我们证明了（1）与基于EM的方法相比，我们更简单的优化方案的（2）多个注释器建模的重要性（第3.2节）。3.3)以及（3）模型在具有挑战性的现实世界应用中的适用性（第2节）。3.2）。我们解决了前两个问题，通过测试MNIST和CIFAR-10数据集与一组不同的模拟注释所提出的方法。为了回答最后一个问题，我们评估了我们的方法对心脏视图分类的任务，使用超声图像的标签是嘈杂和稀疏的，并从不同专业水平的多个注释器获得。3.1. 设立我们专注于模型只能从多个注释器访问噪声标签的制度对于MNIST和CIFAR-10数据集，我们模拟了来自一系列具有不同技能水平和偏见的注释者的嘈杂标签。MNIST实验。我们考虑两种不同的注释器类型模型：（i）成对翻转器（pairwise-flipper）：每个注释者以概率p正确，或者将每个类别的标签翻转到另一个标签（翻转目标是针对每个类别随机一致地选择的），（ ii ）锤击垃圾邮件发送器（ hammer-spammer）：每个注释者总是以概率p正确，或者以其他方式随机一致地选择标签[19]。对于每个注释者类型和技能水平p，我们通过从相关的分布中生成CM来创建一组5个注释者（往往会混淆语义相似的图像类别例如猫和狗，以及汽车和卡车，（iii）可能混淆“相邻”类，以及（iv）是具有平均而言，由这些标注器生成的标签只有45%的时间是正确的。在合成实验中，我们假设相同数量的平均每个注释器生成的标签数量。我们还注意到，所有模型都是在嘈杂的标签上训练的，并且无法访问地面事实。除非另有说明，否则我们将10%的训练图像作为验证集，在此基础上选择性能最佳的模型。我们在训练过程中也不进行数据增强培训和模型架构的全部细节在补充材料中提供。节中3.2与次级3.3下面，我们将我们的模型与两组独立的基线进行比较，以解决不同的问题。图3：我们的方法之间的比较，广义EM，MBEM在MNIST上的噪声标签上训练，来自“成对翻转器”，用于一系列平均技能水平p。(a)（b）示出了两种情况下的分类准确性，一种情况是所有注释者标记每个示例，另一种情况是每个示例只有一个标签可用。(c)（d）将CM恢复误差量化为每个地面实况CM与其估计之间的归一化Frobenius范数的注释阴影区域表示注释器上的平均CM不是对角占优的情况。11251方法精度CM误差我们的方法81. 23± 0。210的情况。72± 0。01我们的方法（无迹范数）八十29± 0。651 .一、37±0。12MBEM [19]七十三。33±0。46二、53±0。24广义EM [15]七十49± 0。23六、13±0。28单CM [22]68岁82± 2。27-图4：当对角优势（D.D.）持有（平均技能水平，p=0。3），并不成立（p=0。第25段）。在所有情况下，每个图像仅提供一个标签。这些数字四舍五入为最接近的整数。在这里，各个模型在来自5个请注意，当每个图像仅接收1个标签时，由于用于更新混淆矩阵的M步失败，广义EM [15]完全无法恢复CM（参见算法。2、补充材料）。3.2. 与基于EM的方法相比本节检查我们的方法在学习注释器的CM和MNIST和CIFAR-10上的GT标签分布方面的能力特别是，我们比较了两种先前的方法：（1）广义EM [20]，在存在多个注释器的情况下用于CM模型的端到端训练的第一种方法，以及（2）模型引导EM（MBEM）[19]，目前最先进的方法。我们分析了两种情况下的性能，一种情况是来自5个注释器的所有标签都可用于每个图像（“密集标签”），另一种情况是只有一个随机选择的注释器标记每个示例（“每个图像1个标签”）。我们通过每个CM与其在注释器上的估计之间的平均Frobenius范数来量化CM估计的误差，并且通过除以类的数量L，将该度量标准化为范围[0，1]，即(a) 密集标签方法精度CM误差我们的方法七十七。65±0。311 .一、22±0。01我们的方法（无迹范数）七十六。31±0。491 .一、46±0。27MBEM [19]55. 97± 1。234.第一章58± 0。64广义EM [15]五十三38±0。714.第一章47± 0。64单CM [22]五十九91±0。98-[24]第二十四话五十七98±0。14-[21]第二十一话四十二91±1。08-[21]第二十一话三十六04±1。04-(b) 每个图像表1：密集标签下CIFAR-10的平均分类准确度和CM估计误差（×10−2）。平均注释准确率为45%。根据3次运行计算标准差，初始化权重不同。形式比注释者更好另一方面，当对角线优势不成立时（见灰色区域），由于无法准确估计CM，所有模型的分类准确度都会急剧下降，如图所示。3（c，d），这与定理1是一致的1.一、图图4还可视化了在该断点处估计的CM的平均值。我们还注意到，每个图像只有一个标签，广义EM算法[15，20]根本不能重新覆盖CM并预测单位矩阵（图15）。4），这使得模型相当于一个香草分类器R−1L −1||二、||2.r i，j ij ij性能比较。图3比较了MNIST上针对平均技能水平p的范围的分类准确度和CM估计的误差，其中标签由一组5个“成对翻转器”生成“oracle”模型是一个理想化的场景，其中注释者的CM是模型先验已知的图3示出了分类精度与CM估计的误差之间的强相关性。我们观察到，我们的模型在分类准确性和对具有密集标签的CM的估计方面始终显示出更好或相当的性能（图11）。3（a）和（c））。当每个示例仅从其中一个注释器接收一个标签时，只要平均CM是对角占优的，我们就观察到相同的趋势（图 1 ）。 3 （ b ，d））。我们还观察到，当对角线优势成立时，所有三种方法都-直接接受噪音标签训练。一组类似的结果，在补充材料中也可获得“垃圾邮件在CIFAR-10数据集上，Tab.1表明，我们的方法优于MBEM和广义EM的分类精度和CM估计由一个大的Margin。此外，这些指标的标准差通常比基线更小。图2说明了我们的方法可以估计4个非常不同的注释器的CM，即使每个图像只接收一个标签。有趣的是，Tab。1表明，即使去除迹范数也可以实现相当高的分类精度和低的CM估计误差。我们认为这是因为深度CNN对标签噪声的不可解释的鲁棒性。然而，添加迹范数提高了性能，并且我们还在MNIST上观察到，在存在较大噪声的情况下，这种改进是明显的（参见补充材料）。11252对超参数的敏感性。接下来，我们研究了我们的方法对广义EM和MBEM的超参数规格的鲁棒我们使用了平均技能水平p = 0的五个成对脚蹼组。35以在MNIST数据集上生成噪声标签对于我们的模型，我们比较了方程中迹范数的尺度λ的影响4关于轨迹分类精度对验证集和CM质量的估计。对于基线，我们通过改变EM步骤的数量（由T表示）和每个E步骤的随机梯度下降的数量（由G表示）进行实验，同时将训练迭代的总数固定为100，000。我们观察到，只要迹范数损失不大于交叉熵损失（其中估计的CM将开始扩散得太多），我们的模型就呈现对λ的不同值的鲁棒性。5显示了验证的稳定性对于λ∈ {0. 1，0。010 001}。MBEM和广义EM显示出明显的依赖性的值T和G和总的来说比我们的方法收敛得慢。我们还观察到，如果在每个 E步骤期间执行太少的梯度下降（G=1000），则模型在分类和CM估计中收敛到较低的精度。图5：在我们的方法、广义EM和MBEM的训练过程中，针对一系列超参数的验证准确度曲线。对于我们的方法，迹正则化子的缩放在 [0. 001 ， 0 。 010 1] 中。而对于 EM 和MBEM，我们改变EM步骤的数目（T）和每个E步骤的梯度下降步骤的数目（G），同时将训练迭代的总数固定为100，000。3.3. 对单个注释器现在，我们将我们的方法的性能与先前的工作进行比较，这些工作旨在提高对噪声标签的鲁棒性，而无需显式地对单个标注器进行建模。第一个基线是在多数投票标签上训练的vanilla分类器。我们还比较了[21]和[22]中提出的噪声鲁棒方法。Reed等人。[21]基于softmax输出的负熵，在交叉熵损失中添加了一个标签一致性项，我们使用了默认的超参数β=0。95为通信。Sukhbaatar等人。 [22]明确说明了单个CM的标签噪声，但没有对单个CM进行建模。图6：在两种情况下，不同噪声鲁棒模型在MNIST上的分类准确度作为平均注释者技能水平p的函数。这里，对于每个平均技能水平p，形成一组5个（一）.每个示例从所有注释器接收标签（b）. 每个示例仅由1个随机选择的注释器标记。注释者。我们添加了我们的方法中使用的相同标度的迹范数（λ=0）。01）对损失函数进行训练。我们还包括加权医生网络架构（WDN）[24] 相比之下，最近的一种方法是单独对应该注意的是，该模型考虑了标签的不同观察模型，并且没有明确地对真实标签分布进行建模。当我们可以访问每个示例的多个标签时，除了WDN之外，我们通过计算多数投票来聚合标签并训练所有模型。这是因为我们观察到验证准确性的一致改善（因此对我们的方法提出了更严峻的挑战），这将是对此类数据集的更现实的利用。对于MNIST和CIFAR-10实验，我们在与第二节相同的模拟标签集上进行测试3.2.图当平均CM的对角优势成立时，6显示出比所有基线更好或相当的分类特别是，当注释者的平均技能水平相对较低（例如，p=0。3和0。第35段）。结果在每个图像只有一个可用标签的情况下显示，对于这种情况，基线方法的准确性急剧下降（见图 1 ）。 6（b））。“垃圾邮件发送器----锤子”案件的结果载于补充材料。类似地，在CIFAR-10数据集上，Tab. 1表明，我们的方法提高了分类精度的基线。这种改进在稀疏标签的情况下是显著的另一方面，在存在如此高的噪声的情况下，仅具有L2权重衰减的普通CNN非常快地过拟合到训练数据。11253方法精度CM误差我们75. 57± 0。1611个国家。48± 0。48无迹范数七十99± 3。31十五岁22±0。94MBEM [19]七十三。91± 0。1112个。18±0。29WDN [24]五十九15±1。60-(a) 不同类别的心脏视图(b) 技能评估（c）学习的CM（d）业绩比较图7：心脏视图分类数据集的结果：（a）示出了不同心脏视图图像的示例。(b)绘制每个注释者的估计技能水平（其估计CM的对角元素的平均值）与地面真实值的关系（c）根据GT标签比较两个最不熟练和两个最熟练的注释者的估计CM（d）总结不同方法的CM估计的分类3.4. 心脏视图分类最后，我们说明了我们的方法的结果，一个真正的数据集与稀疏和嘈杂的标签，从医疗领域。该数据集由使用手持式超声探头采集的不同视图中的心脏区域的图像组成。任务是将给定的超声图像分类为六个不同视图类中的一个（见图1）。（见第7（a）段）。获得心脏视图标签的过程对于引导用户到正确的测量位置至关重要，并影响下游心脏任务的质量。超声医师委员会（具有不同的经验水平为了在这种情况下获得地面实况，我们选择了三位最有经验的超声医师同意给定标签的样本。得到的数据集由剩余的经验较少的6名超声医师提供的噪声标签组成，总共有240，000张训练图像和22，000张验证图像。此外，我们还从两个非专家用户那里获得了标签，并将其包含在训练数据中。我们通过计算相应学习的CM中对角线元素的平均值来估计每个注释者的技能水平，图11。7（b）表明，专家组可以与两个具有不同经验水平的非专家（一个比另一个能力差）分开。图7（c）显示了A3C和A5C之间的混淆，即使在专家中也很常见，也可以被检测到（参见“专家1”的结果此外图7（d）表明我们的模型在分类准确性和CM估计质量方面再次优于MBEM [19]。最后，我们的模型相对于其他基线模型的更高分类准确性再次表明，对单个注释器进行建模可以提高对标签噪声的鲁棒性。4. 讨论和结论我们介绍了一种新的理论接地算法，同时恢复标签噪声的多个annotators和地面真理标签分布。我们的方法实现简单，只需要添加一个正则化项的损失函数。在合成数据集和真实数据集上的实验表明，该方法在分类精度和混淆矩阵估计质量方面都优于常用的基于EM的方法。与其他现代噪声鲁棒方法的比较表明，建模独立注释器提高了对标签噪声的鲁棒性。此外，该方法能够估计注释噪声，即使在每个图像存在单个标签时。我们的工作主要是由医学成像应用的类的数量大多限制在10以下的动机。然而，未来的工作应考虑在混淆矩阵上施加结构，以扩大对大规模多类场景的适用性，例如。介绍基于稀疏性[18]和低秩近似的分类。我们还假设每个输入只有一个基础事实;当输入图像真正模糊时，这不再成立-最近在建模标签分布[35，36]的多模态方面的进展可能会简化这种假设的放松。另一个限制假设是注释器的标签噪声的图像独立性注释者之间的大多数分歧出现在困难的情况下。集成标签噪声的这种输入依赖性[16，37]也是一个有价值的下一步。致谢我们要感谢Alon Daks，Israel Malkin和PouyaSamangouei在蝴蝶网络的反馈，和博士。Linda Moy，纽约大学Langone医学中心的医学博士，为放射学中的阅片者间差异提供参考。RT获得了微软研究奖学金的支持。11254引用[1] 詹姆斯·苏罗维奇。群众的智慧。锚，2005年。[2] Geert Litjens、Thijs Kooi、Babak Ehteshami Bejnordi、Ar- naud Arindra Adiyoso Setio 、 Francesco Ciompi 、Mohsen Ghafoorian、Jeroen Awm Van Der Laak、BramVan Gin-ne k en和ClaraISa'nchez。深度学习在医学图像分析中的应用医学图像分析，42：60-88，2017。[3] Takeyuki Watadani，Fumikazu Sakai，Takeshi Johkoh，SatoshiNoma ， Masanori Akira ， Kiminori Fujimoto ，Alexan-derABankie r，KyungSooLee，NinguLMüller，Jae-Woo Song，et al.肺部蜂窝样病变ct评估的观察者间差异。放射学，266（3）：936-944，2013。[4] AndrewBRosenkrantz ， Ruth PLim ， MershadHaghighi，Molly B Somberg，James S Babb和Samir STaneja。前列腺成像报告和数据系统的阅片者间再现性的比较以及多参数前列腺MRI评价的Likert量表。美国放射学杂志，201（4）：W 612[5] ElizabethLazarus ， MarthaBMainiero ， BarbaraSchepps，Susan L Koelliker和Linda S Livingston。Bi-rads lexi- con用于我们和乳房X光检查：观察者间变异性和阳性预测值。放射学，239（2）：385[6] Simon K Warfield，Kelly H Zou，and William M Wells.同步真实性和性能水平估计（staple）：图像分割的验证算法。 IEEE transactions on medical imaging ， 23（7）：903[7] 彼得·韦林德和彼得·佩罗纳。在线众包：对注释者进行评级并获得具有成本效益的标签。在计算机视觉和模式识别研讨会（CVPRW），2010年IEEE计算机协会会议上，第25-32页IEEE，2010。[8] Chengjiang Long，Gang Hua，and Ashish Kapoor.众包中具有专家评估的主动视觉识别。在IEEE计算机视觉国际会议论文集，第3000-3007页[9] 澄江龙和刚华。多类多注释者主动学习与鲁棒高斯过程的视觉识别。在IEEE计算机视觉国际会议论文集，第2839-2847页[10] Alexander Philip Dawid和Allan M Skene。使用em算法的观测器误差率的最大应用统计，第20-28页[11] Padhraic Smyth ，Usama M Fayyad，Michael C Burl，Pietro Perona，and Pierre Baldi.从金星图像的主观标记推断地面真实性。神经信息处理系统的进展，第1085-1092页，1995年[12] Jacob Whitehill，Ting-fan Wu，Jacob Bergsma，Javier RMovellan，and Paul L Ruvolo.谁的投票更重要：优化整合标签从贴标机未知的专业知识. 神经信息处理系统的进展，第2035-2043页，2009年[13] Peter Welinder、Steve Branson、Pietro Perona和Serge JBelongie。群体的多维智慧。神经信息处理系统的进展，第2424-2432页，2010年[14] 菲利佩·罗德里格斯，弗朗西斯科·佩雷拉，和伯纳黛特·里贝罗。从多个注释器学习：区分好的和随机的标签。Pattern Recognition Letters，34（12）：1428[15] Vikas C Raykar ， Shipeng Yu ， Linda H Zhao ， AnnaJerebko，Charles Florin，Gerardo Hermosillo Valadez，Luca Bogoni，and Linda Moy.来自多位专家的监督学习：当每个人都撒点谎的时候该相信谁第26届机器学习国际年会论文集，第889-896页。ACM，2009年。[16] YanYan，Ro' merRosales，GlennFung，MarkSchmidt，GerardoHermosillo ， Luca Bogoni ， Linda Moy 和 JenniferDy。建模注释器专业知识：当每个人都知道一点的时候，学习。见AISTAT，第932[17] 史蒂夫·布兰森，格兰特·范·霍恩，还有皮埃特罗·佩罗纳.精益众包：把人和机器结合在一个在线系统中。在IEEE计算机视觉和模式识别会议论文集，第7474-7483页[18] 格兰特·范·霍恩，史蒂夫·布兰森，斯科特·洛瑞，塞尔日·贝伦吉，康奈尔理工大学，还有皮埃特罗·佩罗纳.精益多类众包。In Proceedings of the IEEE Conference计算机视觉和模式识别，第2714- 2723页，2018年。[19] AshishKhetan，ZacharyCLipton和AnimaAnandkumar。从噪声单标记数据中学习。在2018年国际学习代表会议上[20] Vikas C Raykar，Shipeng Yu，Linda H Zhao，GerardoHer- mosillo Valadez，Charles Florin，Luca Bogoni，andLinda Moy.从人群中学习。Journal of Machine LearningResearch，11（Apr）：1297[21] Scott Reed 、 Honglak Lee 、 Dragomir Anguelov 、ChristianSzegedy、DumitruErhan和AndrewRabinovich。使用自举在噪声标签上训练深度神经网络arXiv预印本arXiv：1412.6596，2014。[22] Sainbayar Sukhbaatar 、 Joan Bruna 、 Manohar Pal

下载后可阅读完整内容，剩余1页未读，立即下载