在线标签聚合：变分贝叶斯方法

77 浏览量更新于2023-11-30 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1904在线标签聚合：一种变分贝叶斯方法池洪代尔夫特理工大学荷兰代尔夫特C. tudelft.nl阿米尔马苏德·吉亚西代尔夫特理工大学荷兰代尔夫特S. tudelft.nl清华大学北京，中国zhouyc15@mails.tsinghua.edu.cn摘要罗伯特·伯克ABB研究瑞士robert. ch.abb.com莉迪亚·Y 陈代尔夫特理工大学荷兰代尔夫lydiaychen@ieee.org智能[11]。一个常见的群体任务是分类对于众包内容来说，嘈杂的标记数据更像是一种常态，而不是罕见的。通过聚集来自人群工作者的结果来提取噪声并推断正确的标签是有效的。为了确保时间相关性并克服工作人员的缓慢响应，越来越多地要求在线标签聚合，从而要求能够经由数据项的子集增量地推断真实标签分布的解决方案本文提出了一种新的在线标签聚合框架BILA，它采用变分贝叶斯推理方法，并设计了一种新的增量训练随机优化方案。BI LA是灵活的，以适应任何生成的标签分布的精确计算其后验分布。我们还推导出所提出的优化的收敛界。我们比较了BI LA与最先进的最小最大熵，神经网络和期望最大化算法的基础上，合成和真实世界的数据集。我们对各种在线场景的评估结果表明，BILA可以有效地推断真实标签，对于合成和真实世界的数据集，错误率分别降低至少10到1.5%CCS概念• 计算方法→机器学习方法。关键词在线，标签聚合，变分贝叶斯推理，随机优化器，收敛界ACM参考格式：Chi Hong ， Amirmasoud Ghiassi ， Yichi Zhou ， Robert Birke ， andLydia Y.尘2021年在线标签聚合：变分贝叶斯方法。在网络会议2021（WWW '21）的会议记录，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。ACM，纽约州纽约市，美国，12页。https://doi.org/10。1145/3442381.34499331引言众包平台提供了经济有效的手段来管理数据集，这些数据集被认为是当今人工智能的新石油。本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449933内容物，例如，网页[27]和图像[33]，并提供其各自类别的标签。然而，由于群组工作者的背景和经验的差异，相同内容的结果标签通常在工作者之间不同，包括缺失标签-所谓的噪声标签。提取众包标签质量的实践[9，34，36]的状态是在所有工作人员中聚合它们，并为每个内容达成共识然后，这样的策展数据集可以方便地启动各种监督机器学习模型以进行进一步分析，例如，目标检测[8]、搜索引擎[27]和疾病诊断[12]。知识发现的速度确实取决于数据管理的速度[3]。通过众包聚合数据的速度越快，通过机器学习模型可以提取的见解就越多。例如[20]，通过来自Amazon Mechanical Turk的即时信息，即，在2200 ms内，对城市突发事件的预测准确率可提高40%。此外，标记大量数据集是一项艰巨的任务，需要数月或数年的努力。为一个24/7工作的人标记ImageNet的估计工作时间为19年，但即使是涉及25，000名员工的众包，仍然需要21个月[6]。越来越迫切的是，标签管理和聚合可以在线方式进行[37]，即，可以在内容的子集上连续地聚集标签，而不是一次聚集整个内容。此外，最近的隐私和政府政策[1]规定了数据存储时间，要求迅速采取聚合行动。在线标签聚合背后的关键挑战是如何利用来自工人的仅包括一小部分内容的部分标签集现有的聚合方法[4，36，39]专注于工人的质量问题，但隐含地忽略了时间方面，即，及时、准确地标记来自在线数据的聚合换句话说，现有技术为离线场景定制，其假设所有内容同时可用。因此，在在线场景中，这种方法最终只对可用子集进行了全局优化，而没有对整个数据集进行全局优化。在线标签聚合的需要，因此需要一种新的随机优化方案，可以处理批量的可观察数据。概率图模型[15]通常用于聚集来自人群工作人员的噪声标签，而没有标签地面事实。他们的目标是通过捕获对潜在变量的依赖性来最大化观察数据的可能性，例如，指定生成过程的真实标签和混淆矩阵WWWHong等人1905图1：在线标签聚合场景。标签噪音变分贝叶斯推理方法[17，28，31]可以通过最大化观察数据的日志数据似然的证据下限[ 2 ]来有效地推断潜在特征。推断潜在变量的另一种流行方法是期望最大化（EM）算法[4]，其在期望和最大化步骤中具有不同的目标-这是随机优化的额外障碍虽然变分推理方法具有单目标随机优化的优势，但挑战在于推导标签噪声生成过程的可跟踪后验分布。本文提出了一种基于增量变分贝叶斯推理方法的在线标签聚合框架Bi LA。 BILA通过一种新的随机优化方案，在接收到标记项目的子集时，逐渐增加地聚合来自人群工作者的噪声标签。为了最大化观察到的项目的对数似然，B1 LA最小化（i）噪声标签生成分布p与（ii）近似分布q之间的Kullback-Leibler（K-L）发散。BI LA的独特之处在于(i)生成分布的灵活性和可扩展性，（ii）后验分布的精确计算绕过了封闭式表达式的需要，以及（iii）所提出的目标函数具有K-L散度的期望项的精确表达式，避免了近似方差。使用BILA的框架在此基础上，定义了一种基于混淆矩阵的多类标签聚合模型，称为BILA-CM我们采用多层感知器神经网络来近似分布q.当以在线方式接收数据块时，通过数据块递增地训练BILA-CM 为此，我们提出了一个随机优化方案-RMSProp的变体[29]。它增强了RMSProp与动态剪辑算子，偏差校正的第二原始矩估计和衰减的学习率。我们在真实世界和合成数据集上评估BILA。我们将其聚合错误率与最先进的标签聚合算法进行比较，即，多数表决，基于E-M的方法，基于神经网络的方法和基于极小极大熵的方法。 BI LA能够在各种在线场景中实现显著的错误减少，即，不同的数据块大小。我们的研究结果还表明，B I LA对不同的众包场景具有鲁棒性，即，不同的工人数量、噪声比和标签稀疏性就所提出的优化方案的有效性而言，我们能够实现比RMSProp更快的收敛，与ADAM [14]相当，但没有发散的风险。本文的贡献总结如下。我们设计了一个灵活的在线标签聚合框架，BI LA，基于变分贝叶斯推理框架（§ 3）。 BI LA使用神经网络的近似分布的生成分布的指导下。我们提供了一个基于混淆矩阵的聚合模型BI LA-CM，它优于基于EM算法，Minimax Entropy和神经网络的现有算法（§ 5）。我们设计了一个随机优化器，并推导出它的收敛界（§ 4）。最后，我们在不同的在线众包场景中广泛比较了BILA与代表性标签聚合方法（§ 5）2系统场景为了克服数据标签的挑战，通常的做法是通过非专家的众包来标记数据集我们可以通过两种方式将未标记的实例分配给工作者：离线和在线。在离线模式下，我们在众包平台上发布所有未标记的实例一次，并等待所有工人完成分配，然后再训练标签聚合算法。如果数据不随时间变化，并且一次全部可用，则这很有效。在在线模式下，如图1所示，我们在众包平台上连续发布单个或多个未标记数据的实例。然后，我们收集标记结果，并将它们组织成冗余噪声标签的小块。这些块随着时间被一个接一个地馈送到标签聚合算法以更新标签聚合器。丢弃经处理的冗余噪声标签，并且仅聚合的，即，如果是真的，标签会被保留。这使得能够持续学习，但需要标签聚合算法能够（增量地）从小数据集学习。这是一个挑战。大多数最先进的标签聚合技术不能很好地满足这样的要求。我们通过一个动机的例子来证明这一点我们在在线和离线模式运行三个···在线标签聚合：一种变分贝叶斯方法WWW1906错误率（%）±101050018.001016.7514.7510.258.757.5001510502 4 6 8 10 12 14 16区块数(a) 聚合每个块后的错误率（块大小：50个样本）10025 50 100 200 400 800块大小[样本数量](b) 块大小的影响图2：RTE数据集上的动机比较：离线与在线聚合。并比较所获得的错误率。我们考虑RTE数据集上的期望最大化（EM）[4]，最小-最大条件熵（MMCE）[39]和标签感知自动编码器（LAA）[36]（详细信息见§5.1）。在在线模式下，我们一次为每个聚合算法提供50个冗余噪声标签的小块。每个块用于更新聚合器。我们停在16块（800个样本）。在每一步中，我们评估所实现的错误率。在每次更新之后，我们使用聚合器来推断每个样本的聚合标签，并计算聚合标签与地面真实标签不同的样本的百分比。请注意，标签聚合是一个无监督的学习任务。地面真值标签仅用于计算错误率，而不是训练聚合器。图2（a）显示了三种方法的逐步误差率相反，图2（b）显示了每个方法对块大小的敏感性。每个图报告在处理不同大小的块中的800个样本时实现的错误率。作为参考，我们报告离线性能，即。一次处理所有800个样本，作为一条水平线。EM通常用于估计每个工人的混淆矩阵。 MMCE的目的是区分混淆矩阵的工人以及实例。两者都不能很容易地适应从小数据集中增量学习。EM使用多数投票结果来确定参数搜索的良好起点。因此，每个块的最佳起始点是不同的MMCE为每个样本分配模型参数。由于每个块有不同的样本，我们不能保留学习的参数。我们在滑动窗口样式中使用这两种方法，其中每个窗口都是一个新的数据块。因此，EM和MMCE最大化了当前块的数据可能性，而不是完整数据。因此，这两种方法的错误率不随时间收敛到离线错误率，即，一次处理全部数据更详细地说，CE的性能（见图2（a）的上图）最初是振荡的，但随后会消失。在16个块之后，即所有800个样本，错误率仍然高出2%。MMCE更差（见图2（a）的middel错误率首先发散在最后一个区块之后，该指数持平，留下了9.25%的差距。这是因为MMCE是一个生成模型，与EM相比，它需要训练更多的参数这使得MMCE对块大小更敏感这在图2（b）中清楚地示出。 EM和MMCE（顶部和中间图）的性能都受益于处理更大的块大小。对于25个样本的块，EM比离线差3%，但从块大小400开始，EM能够与离线性能相等。相反，MMCE更明智。在块大小为25时，差距为11.5%。这种差距随着块大小的增加而减小，但它永远不会达到与离线相同的性能注意，块大小800等同于离线。LAA是一种基于神经网络的方法，其灵感来自于自动编码器。该方法可以增量使用，以便其优化目标最大化整个数据集的数据可能性，而不仅仅是块。因此，随着时间的推移，在线LAA很好地收敛到离线结果（底部图2（a））。两者之间的微小差异是由于训练的随机性。出于同样的原因，该算法对不同块大小的敏感性很低（底部图2（b））。在处理800个具有不同块大小的样本之后，LAA实现了离线性能的1%以内的最终错误率然而，这种方法通常导致更差的结果。LAA达到的最佳结果是11.75%的错误率，而EM和MMCE为7.5% LAA没有一个概率模型来描述所观察到的噪声标签的生成过程。这损害了它的性能。此外，LAA需要近似的方法来计算损失函数中的期望项。我们提出的标签聚合模型BILA-CM直接解决了这些问题，在离线和在线模式下都实现了卓越的性能。3在线标签聚合我们考虑图1所示的在线学习场景。每个数据实例li ={li1，. li K}包含样本i的冗余噪声标签。这些嘈杂的标签是由K工人提供的lik∈C2010010.509.508.758.757.637.50错误率（%）13.0013.3811.2511.6312.5012.88错误率（%）错误率（%）错误率（%）错误率（%）WWWHong等人1907（一）|）的方式c=1--–联系我们（）下一页（一）|）的方式{1}|∈}关于我们（）（）|）的方式||（一）|）的情况）（|）的方式||（一）|）的情况）.包括两个组件：神经网络Q和生成--logpβ（L，Y）qβ（Y）有：预测给定L的未知真标签。这是一个无监督的学习任务。给定有噪声的冗余标签的实例li，我们使用在最后一层具有softmax激活的神经网络q来预测对应的未知真实标签yi。q可以表示为概率分布qα y l，其中α表示神经网络参数。网络的输出是C维的矢量[qα（y=c|l）]C，其中r是第c个元素qα（y=c|（1）是图3：q，p和损失函数之间的关系表示由工人k1，...， K，其中C= 1，...，C是可能类的集合。并不是每个工人都可以给所有样品贴上标签。如果样本i未被工人k标记，则Iik的值为1。我们用yi C表示样本的未知真标签。数据实例在不同时间以小集合L（s）流入标签聚合模型。我们称之为小集合大块的在我们的在线学习环境中，我们的任务是不断地输入实例的真实标签是类C的概率。预测标签由具有最高概率的元素给出。为了训练q，我们需要一个优化目标。因此，我们定义了一个生成模型p来描述所观察到的噪声标签L背后的生成过程。通过这种方式，我们可以定义一个损失函数来根据变分推理规则指导训练[2，31]。p假设实例l是由某些条件分布pβ l y生成的，其中y表示未知的真标签，β表示模型p的参数。它进一步假设y是从先验分布pβy生成的。生成模型p潜在地定义了后验分布：pβ（l |y）pβ（y）在接收下一个块之前实时推断当前块L（s）的yii L（s为了定义我们的优化目标，我们需要一些额外的pβ（y|l）=.（一）pβ（l）符号我们使用L来表示具有N个实例的所有观察到的噪声标签的集合，即L=11，.，，并且Y=y1，...，对于所有对应的未知真标签1的集合，y N。3.1变分贝叶斯推理框架（BiLA）在本节中，我们将介绍我们的标签聚合框架（BI LA）并定义我们的优化目标。该框架旨在利用实例的冗余噪声标签li的唯一知识来预测每个实例i的未知真实标签yi。框架除了损失函数关于β可微之外，我们对p没有做太多简化假设。3.1.2优化目标。为了解决无监督学习任务，其中我们只有观察到的噪声标签L，合理的优化目标是最大化L的数据可能性。特别地，我们根据证据下限log pβ（L）= KL（qα（Y））最大化数据对数似然log p β（L|（L）||pβ（Y |L））+L（q）≥L（q），其中KL（·.）表示th。eKullback-Leibler扩散和L（q）=Eqα（yi|（一）模型p使用基于以下定义的优化目标来训练：变分推理原理从变分贝叶斯推断的角度来看，q是一个近似分布。q和p的选择非常灵活。 q可以是多层感知器（MLP）、卷积神经网络（CNN）或任何其他神经网络。p是定义如何生成观测值的模型当我们最小化KL qα Y L pβ Y L时 l o g p β L 的下界。所以，我们需要找到q和p. 因此，我们使用KL qαY LpβY L作为我们的损失函数，并在训练过程中将其我们假设每个收集的标签都是独立生成的，.I. e. 在La reinde pend中的实例。从每个其他人那里进入。 P拖移qα（Y|L）=噪声标签L.由于我们使用神经网络作为近似分布，为了学习标签聚合模型，我们需要随机优化以训练q和p中的参数。这就要求损失函数相对于模型参数是可微的，iqα（yi|li）和pβ（Y|L）=ipβ（yi|li）进入损失函数，wep. 这是p的定义的唯一限制。此外，关闭模型p的后验形式是不必要的，因为我们重写了Kullback-Leibler散度的表达式，避免直接使用后验。q，p和损失之间的关系KL（qα（Y|（L）||pβ（Y |L））=.NNi=1−Eqα（yi|（一）logpβ（yi|（一）qα（yi|（一）B I LA中的函数如图3所示。3.1.1 Q和P的定义噪声标签的集合L = 11，...，LN仅包含观察到的实例L1。相应真=i=1KL（qα（yi|（一）||（2）|li))(2)标签Y未知。本文中的标签聚合任务是1为了简化符号，我们在引用通用样本时去掉下标i方程（2）不能直接用于训练q和p，因为pβ（y）的指数|（1）未知。后Pβ（y）的精确表达式|l）可能是棘手的。所以我们必须进一步重写Σ. 我们可以看到我们可以最大化Σ在线标签聚合：一种变分贝叶斯方法WWW1908+p（l|年）的--（一）|）的方式.1I1.（一）|）（）∈（）下一页（）下一页. .I1q（c|l）日志（一）|）的方式（）下一页∇ ()--logpβ（l|年）的Σ...损失函数。根据（1），我们有Σpβ（y|（l）3.2标签聚合模型在本小节中，我们将介绍我们的在线标签聚合模型，KL（qα（y|（l）||l））= − E qα（y|（l）|l)日志qα （年|（l）BI LA-CM，基于BI LA框架。该模型可用于含噪声的离散标签的聚合。我们还推导出另一个=−Eqα（y|（l）logpβ（y）logqα（y|l）βn+const用于二进制标签聚合任务的模型BILA-WA，其在附录B中详细描述。=KL（qα（y|（l）||l）。|l).logpβ（l|y）。+const（3）3.2.1模型定义。为了定义BILA-CM和精确的损失函数f，我们需要确定q和p的具体形式。为了简化符号，我们使用θ=α，β来表示我们框架中两个模型的参数。根据（2）和（3）损失函数重写为：我们将q设置为一个全连接的神经网络，在最后一层有一个softmax激活函数。 q将实例l作为输入并输出分布qα y l，其中α表示神经网络参数。Nf（θ;L）=N={KL（qα（yi|（一）||（一）|li)logpβ（li|yi）}（四）P是描述观察到的噪声标签L的生成模型。从（6）和（7）中，为了计算损失函数及其梯度，我们需要定义pβly和pβy的表达式。由于实例中的每个元素都是独立于其中我们忽略常数项，损失函数被重新缩放1/N。这不会影响优化结果。3.1.3培训。在训练过程中，我们解决以下优化问题θ= arg min f（θ; L）。不同的工人，我们假设一个实例中的第k个元素是从一个独立的分布生成的，当实例的真实标签是c时。该分布被定义为其中ωck是C维向量。则pβ（l |y = c）可以是θ这个优化问题是解决随机一阶优化。模型参数的更新规则如定义为pβ（li|yi=c）=K.SIk，lik，c∈ [C]，（9）算法1. 根据我们在§ 2中的讨论，为了连续地聚合小的噪声标签集合，我们应用小批量训练来更新参数θ。所以训练的损失函数是f（θ;L（M））=其中，Ik是Ik的第1k个元素。由于softmax函数是可导出的，因此可以通过随机优化来更新ω ck。在该模型中，先验分布pβ y是由下式估计的多项分布：p（y=c）=. I. kI（lik=c），c∈ [C]，（10）1 .一、M... ΣβikI（lik−1）Mi=1KL（qα（yi|（一）||（一）|li)logpβ（li|yi）、（五）其中，可以通过对观察到的标签进行计数来计算估计量的值。由于pβ（y）是固定的，我们引入一个超参数其中L（M）是从当前数据集L（s）采样的小批量，并且M表示小批量大小。需要f θ;L（M）的梯度来更新模型参数。在计算梯度之前，限制损失中的Kullback-Leibler发散项函数（5）. 我们把这个约束项看作正则化子。然后，使用（6）和（7），所使用的小批量损失函数为我们需要定义KL散度的表达式和期望项。未观测变量yi是取值为1到C的离散变量。因此，我们有以下内容表达式f（θ;L （百万）1M）=−M=.CCζc=1pβ（c）αiqα（c|（一）ΣKL（q （年|（l）||pC（y））=−q（c）|l）logpβ（c），（6）+c=1qα（c|li）logpβ（li|（c）、（11）αβαc=1.. .Cqα（c|（l）3.2.2在线模特培训完整在线的详细信息在算法1中示出了标签聚合模型BILA-CM。BlLA-CM连续地接收新的噪声标签块L（s）其中qαcl是神经网络输出的第c个元素请注意，我们不需要任何近似来计算损失函数中的期望项因此，我们避免了随机贝叶斯推断中损失函数的高方差问题[22]。根据（6）和（7），f（θ;L（M））的值和相应的随机梯度θf θ;L（M）可以很容易地计算。这完成了框架中构建在线标签聚合模型所需的所有模块。Eqα（y|（l）=c=1qα（c|l）log pβ（l|（c）、（7）包含多个冗余噪声标签实例L。请注意，我们不要求每个集合的大小相等。这增加..在线标签聚合：一种变分贝叶斯方法WWW1909我们算法的实用性在开始时，我们积累一些噪声标签集来构造初始集合L。该初始集用于初始化模型参数β = ωck和先验估计量pωβy。β可以通过它的定义和对来自初始集合的噪声冗余标签的多数投票来初始化，以预测真实标签。初始化之后，我们开始在线聚合。对于在时间步t到达的每个块L（s），我们更新模型参数θ。然后，我们使用更新后的WWWHong等人1910，z--..（|）c=1（）（）（）.（）下一页ηt）∥▽∥()≤∈[] ∈，z1集合：学习率μ>0，指数衰减率γ∈ [0， 1），（|）当rep（li|yi=c，π）=K1C1（πc（k））I（Li，k=z）.I（·）是indica-K=z==arg minθ∈χt=1ft（θ）。实际上，R（T）表示以下项的和：ηt=剪切（µt/vt，ηl（t），ηu（t））/（ηu（t−1在线预测θt与最佳固定值之间的差值θ。 BILA-CM更新和聚合过程在函数UpdateAndAggregate（第10-30行）中示出。首先，我们通过从方程计算损失函数f的项来重新训练（11）在更新模型（第22-27行）之前，对每个采样的小批量（第14-21行）进行处理。算法1：在线标签聚合模型BILA-CM.模型参数为θ= {α，β}，其中α={W1，W2，b1，b2}和β ={ωck}。当真实标签yi是c时。根据p的定义，我们有对应于πc（k）的n_ck，z=pβl_ik=z y_i=c。因此，在学习了参数β=ωck后，我们可以很容易地构造工人的混淆矩阵。请注意，这提供了对其他方法所缺乏的噪声过程的了解，例如左心耳使用混淆矩阵，推理问题是-变得微不足道。在获得混淆矩阵的值之后，我们可以通过最大化对应的观察到的噪声标签的数据似然来推断实例的聚合标签，时间步长t=12输入：连续接收新的噪声标签集合L（s）={1}3积累几个集合来构造初始集合L<$4使用L初始化θ5Y=UpdateAndAggregate（L）6输出：聚合标签Y7对于每个到达集合L（s），8Y（s）=UpdateAndAggregate（L（s））9输出：聚合标签Y（s）10 函数UpdateAndAggregate（L（s））：11表示训练时期的数量12为小批量13样品批次L（M）={11，.，从L（s）/* 计算f中的每一项，等式（11）*/14对于c = 1，...，C do15，k = 1，...，K do16ωck=sof tmax（ωck）例如i= 1，.，M do18h=W2tanh（W1li+b1）+b2当谓词为真时，tor函数取值1，否则取4优化器和收敛性分析我们提出了一个随机优化器来训练BILA-CM，并总结了算法1的第22-27行中的关键步骤。它是RMSProp的一个变体[ 29 ]。模型参数θ（第26行）的更新基于梯度而不是动量。与RMSProp类似，我们利用梯度的第二个原始矩估计（第23行）来获得θ的每个元素的逐元素自适应学习率（第24-25行）。元素自适应学习率很重要，因为在多层神经网络中，适当的学习率在权重之间可以有很大的变化[29]。此外，我们应用了一个裁剪算子来避免梯度爆炸（第25行）。为了避免训练过程中的突然停止，我们采用了衰减学习率方法。剪辑操作的结果然后将ator除以t，以获得衰减的元素学习rates.此外，我们还分析了在线凸框架[40]中随机优化方法的收敛性。19[qα（y=c|li）]C=softmax（h）根据框架设置，我们使用未知序列对于c = 1，...，Cdo21log <$β（1i |y =c）=.k∈Silogk，lik凸损失函数f1 θ，f2 θ，. fT θ表示每个迭代时间步长t的损失函数。在每个时间步中，训练数据（小批量）是不同的，因此我们需要不同的符号/* 更新模型参数θ*/22<$t<$θft（θt）来表示损失函数的随机性最后，将该算法应用于评价标签聚合算法的收敛性23vt<$γ·，vt−1+（1−γ）·（<$t<$t）25不√√Rithm。后悔定义为R（T）=T[ft（θt）− ft（θ t）]，其中24µ=µ·1−γt- 是的不t=126θt+1t28通过更新的β得到新的混淆矩阵π29通过π推断聚合标签Y（s）30返回Y（s）参数θθ我们将证明我们的算法具有O*T遗憾绑定推导过程的细节见附录A。为了表示这个界，我们定义符号ηt，i为ηt的第i个元素。定理1. 令{θt}为优化器得到的参数序列，其中θ ∈ Rd。设ηu（t）≤ R∞且t −t −1≤B3.2.3推断聚合标签。在介绍如何推断聚合标签y之前，预测的真实标签，对于每个对于所有的t ∈ [T]。设对所有θ n，θ m ∈ χ，<$θ n − θm <$∞≤D∞并且对于所有的t T和θx，ftθ2G。我们的优化器有以下保证的遗憾样本l，我们讨论生成模型p，z1个小时。d1∞我和工人的混淆矩阵混淆-工作者k的状态矩阵πc（k）是用于描述工作者的状态的矩阵标签行为[4]。矩阵元素πc（k）= p lik = z yi = c是工人k将标签z分配给实例的概率R（T）≤2D22dB（T−1）+i=1η1−1+（T−2）R∞G2.，zθ不在线标签聚合：一种变分贝叶斯方法WWW1911η（t）≤Ru ∞.我•×[客户端][客户端][客户端]表1：数据集概述。数据集工人项目标签类成人1726313704RTE16480080002心脏122379522年龄1651002100207CIFAR10S1050K45K10PendigitsS1011K9.9K10S使用合成冗余噪声标签。根据定理1，如果我们选择裁剪算子的上下界满足一个nd不 −t −1当t ∈ [T] ≤ B时，遗憾界为O（<$T）。Pendigits[5]：这个数据集的目标是识别来自44位作者的10992个手写数字。我们使用与CI-FAR10相同的噪声模型创建合成冗余噪声标签。5.1.2基线。我们考虑五种不同的基线来比较BI LA-CM。基线既包括最新技术水平，也包括实践水平所有算法均使用Keras版本2.2.4和Ten-sorFlow版本1.12以Python编程语言编程。多数投票（MV）：是一种基本的方法，它从一组冗余的噪声标签中选择具有最高一致性的标签期望最大化（EM）[4]：是一种迭代方法，用于通过最大化来估计每个工人的混淆矩阵。ηl（t）ηu（t−1）最大化观察到的标签的可能性非对角定值的下界和上界肯定满足这些条件。本文[25]实验部分所示的动态限幅边界也满足要求，在实际应用中具有良好的性能。我们选择这些边界来进行实验。请注意，由于剪辑操作符，元素表示错误标记的概率，即正确标记的对角元素。贝叶斯分类器组合（BCC）[13]：是一个前EM的张力它通过对多个输出之间的关系进行来解决标签聚合问题Di=1 η1−1取极限ed值e。然后我们就有了相应的思考分类器（工人）和真正的标签。收敛速度R（T）=O（∞1）其中limT→∞R（T）=0. 的• Minimax Entropy（ME）[38]：将混淆矩阵分配给TTT工人，编码他们的标签能力，和一个向量的项目，显示了在线预测与最佳固定参数之间的差值的平均值在迭代期间趋于0因此，遗憾界保证了我们的算法的收敛性。5评价5.1实验装置5.1.1数据集。在我们的实验中，我们考虑了六个不同的数据集，以评估与竞争对手相比，BI LA-CM的性能。表1总结了所有数据集的特征在我们的实验中，CIFAR-10和Pendigits是唯一的合成数据集，而其余的都是真实世界的数据集。Adult[23]：它包含由Amazon Mechanical Turk工作人员标记的数据。这些标签根据每个网页上成人内容的数量分为四类。RTE[27]：它包括164个工人，用于将800个项目的标签分配到2类文本蕴涵中。心脏[12]：这是一个由12名医学生提供的数据集，根据体检结果将患者分为心脏病和非心脏病两组。它有12名工作人员，237个样品。年龄[10]：这个数据集是1001张不同的人的脸，他们被贴上了年龄标签。在我们的实验中，标签被离散成7个年龄组：[0，9]，[10，19]，[20，29]，[30，39]，[40，49]，[50，59]，[60，100]。CIFAR-10[16]：它是一个视觉数据集，包括50 K 32 32像素的训练图像，分为10类。在这里，我们创建合成噪声标签。对于每个图像，我们生成6，8，10个冗余标签，即工人，从双峰噪声分布与0。四，零。六，零。8错误标记概率和0. 1，0。2，0。3缺失标签概率。我们将双峰分布集中在类µ1= 3周围。0，µ2= 7。方差σ1= 1。0，σ2= 0。5.编码他们的标签难度。矩阵和向量估计联合使用极大极小熵的方法。Minimax条件熵（MMCE）[39]：通过将混淆矩阵分配给项而不是向量来扩展ME。它使用极大极小条件熵方法来联合估计工人和项目矩阵。标签感知自动编码器（LAA）[36]：通过自动编码器模型表示标记问题，其中编码器充当推断真实标签的分类器，解码器重构输入，推断的标签表示潜在空间。5.1.3BiLA-CM参数。作为BiLA-CM中的神经网络q，我们使用具有大小分别为64和32的两个隐藏层的多层感知器。输入层和输出层的大小分别由每个数据集的工人数量和类数量给出。我们使用边际损失作为停止标准来训练网络直到收敛。5.1.4业绩衡量。在所有的实验中，我们使用错误率作为性能指标。我们将错误率定义为与真实标签不同的推断标签的百分比。请注意，真正的标签仅用于计算错误率，而不是用于训练标签聚合器。5.2结果我们首先提供了在线标签聚合的比较结果，数据在块中处理，显示了BILA-CM的优越性能及其对不同块大小的鲁棒性接下来，我们对数据集参数进行了BILA-CM的敏感性分析即工人数量、噪声率和标签稀疏度的最优性进行了分析。最后，我们总结了离线标签聚合的结果，数据一次处理。··········WWWHong等人191233.7231.2728.7025.3426.2624.7622.5817.3013.3329.74 28.0624.7626.9422.5825.1320.3413.2915.04错误率（%）错误率（%）表2：在线标签聚合：错误率（%）。基线算法的在线版本附加了前缀“o”。数据集MVOEM小块大小oLAABiLA-CMMVOEM大块oMMCE大小OlaaBiLA-CMCIFAR10（200，500）24.7422.5843.0029.2013.2924.7417.6814.2530.2913.69Pendigits（200，500）25.2723.1144.7728.8413.3425.2718.1514.7730.5413.06年龄（25，50）34.7335.0341.5235.5333.7334.7334.4341.9236.3333.63RTE（25，50）9.8810.518.011.257.759.889.516.7511.757.550 5040 4030 3020 2010 1006 810工人06 8 10工人40 4030 3020 2010 1000.1 0.20.3稀疏率00.1 0.2 0.3稀疏率6052.7763.4063.006051.6963.17 63.04402002.244.373.8013.3524.7622.58402002.074.583.9613.3223.110.4 0.60.8噪声速率(a) CIFAR-10：块大小200，初始集大小10000.4 0.6 0.8噪声速率(b) Pendigits：块大小200，初始集大小1000图4：工人数量，标签稀疏度和噪声比对BiLA-CM的影响。工作进程数、稀疏率和噪声率的默认值为10、0。1和0。6，分别。5.2.1联机标签聚合。我们在表2中总结了跨数据集和块大小的不同组合的BI LA和不同基线的错误率。对于合成/真实世界数据，小块和大块大小分别为200/25和500/50。他们的初始数据集分别是CIFAR-10/Pentigits和Age/RTE的1000和500个样本。我们通过多数投票初始化所有基于模型的方法。由于成人和心脏数据集中的样本数量有限，我们将其从在线评估中排除。3025201510500 5 10 15 20 2530区块数9.08.58.07.57.06.56.07.757.627.62七六二7.507.2525 50 100 200 400 800块大小[样本数量]当块大小很小时，来自工作者的标签会被更流畅地接收。可以看出，BI LA-CM实现了最低的错误率。对于CIFAR 10和Pendigits，BILA-CM的错误率为10(a) RTE：小块大小。(b) BILA-CM：块大小的影响低于第二最佳算法的百分点，即，在线EM 对于年龄和RTE数据集，多数投票是第二好的算法，但仍然有至少1.5%的错误率高。由于MMCE和LAA都具有比EM更大的参数数量，它们的错误率非常高，这是由于每个块用于参数化的样本数量不足，特别是对于MMCE。我们进一步注意到，较小的块不仅影响图5：RTE的在线标签聚合：BiLA-CM和基线的错误率。EM和MMCE的错误率，而且收敛速度。由于样本数量少，与大块大小相比，MMCE需要更多的迭代来收敛。33.9931.7628.6625.3126.0523.1117.4513.3330.57 28.8823.1127.76 25.9325.1313.2915.61错误率（%）错误率（%）错误率（%）错误率（%）错误率（%）错误率（%）在线标签聚合：一种变分贝叶斯方法WWW1913当块大小较大时，可以一次聚集更多项，即，更接近离线场景。除了Age算法外，BI LA-CM算法仍然是最好的算法，MMCE算法次之。与小块大小的不同之处在于，现在块中有足够数量的样本来参数化MMCE模型。MMCE在类、工作者和数据项的级别上捕获混淆矩阵。关于EM，对于更大的块大小，错误率显著下降另一个值得一提的观察是计算开销的比较。由于其简单性，MV几乎不产生计算开销。EM算法是一种快速收敛的算法。这就是这里观察到的情况由于LAA和BILA-CM都采用神经网络，因此它们的计算开销处于相同的量级。我们进一步放大了在线聚合的错误率35.034.534.033.533.032.532.020 40 60 80100120140160180历元小块的RTE数据集的处理（见图5（a））。当聚合样本的数量增加时，错误率首先增加然后下降，因为初始集合的大小（即，500个样本）和块大小（即， 25个样品）。总的来说，BI LA-CM能够仅从小块样本中有效地学习混淆矩阵，并增量地更新推理模型。这是由聚合器处理的任何数量的样本的明显较低的错误率所支持的。我们还在图5（b）中展示了BILA-CM对不同块大小或在线速度的鲁棒性。回顾图2中的动机示例，现有的标签聚合方法对在线速度敏感，即，在非常大的块大小和非常小的块大小之间，错误率会发生剧烈的变化。由于增量更新和随机优化，BI LA-CM在遇到不同的在线速度时可以保持相对较低和恒定的错误率。5.2.2BiLA的灵敏度（稳健性）分析。我们专注于通过两个数据集上的合成冗余噪声标签来评估Bi

下载后可阅读完整内容，剩余1页未读，立即下载