利用众包数据进行深度主动学习的应用：在Alexa中学习意图

188 浏览量更新于2023-10-16 收藏 13.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1https://www.mturk.com/2https://developer.amazon.com/alexa3https://madeby.google.com/home/230利用众包数据进行深度主动学习的应用：在Alexa中学习意图0Jie Yang �0代尔夫特理工大学，荷兰代尔夫特，j.yang-3@tudelft.nl0ThomasDrake亚马逊西雅图研究所，美国华盛顿州，draket@amazon.com0AndreasDamianou亚马逊剑桥研究所，英国damianou@amazon.com0YoelleMaarek亚马逊海法研究所，以色列海法，yoelle@yahoo.com0摘要0本文提出了一个通用的贝叶斯框架，使任何深度学习模型能够从有针对性的众包中主动学习。我们的框架继承了贝叶斯深度学习的最新进展，并通过考虑有针对性的众包方法来扩展现有工作，其中具有未知专业知识的多个注释者贡献了不受控制的数量（通常有限）的注释。我们的框架利用注释中的低秩结构来学习单个注释者的专业知识，然后帮助从嘈杂和稀疏的注释中推断出真实标签。它提供了一个统一的贝叶斯模型，可以同时推断出真实标签并训练深度学习模型，以达到最佳的学习效果。最后，我们的框架利用深度学习模型的预测不确定性以及注释者的估计专业知识，以最小化所需的注释数量和注释者，以便为深度学习模型的最佳训练。我们评估了我们的框架在Alexa（亚马逊的个人助手）中进行意图分类的有效性，使用了合成和真实世界的数据集。实验证明，与最先进的方法相比，我们的框架可以准确地学习注释者的专业知识，推断出真实标签，并有效地减少模型训练中的注释数量。我们进一步讨论了我们提出的框架在改进人机交互系统方面的潜力。0关键词0深度主动学习；众包；对话代理0ACM参考格式：Jie Yang，Thomas Drake，Andreas Damianou和YoelleMaarek。2018年。利用众包数据进行深度主动学习的应用：在Alexa中学习意图。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，10页。https://doi.org/10.1145/3178876.31860330� 第一作者在亚马逊研究所实习时完成了这项工作。0本文根据知识共享署名4.0国际（CC BY4.0）许可证发表。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318603301 引言0深度学习模型在自动化各种任务方面取得了显著的成功，包括图像识别[24]、语音识别[18]和自然语言处理[38]。这些模型通常需要大量的参数，远远超过经典机器学习模型，以捕捉数据中的复杂模式，从而在预测任务中实现卓越的性能[48]。然而，学习这些参数通常需要大量的标记数据。事实上，研究人员已经确定了深度学习模型的能力、模型中的参数数量和训练数据的大小之间的强相关性[17]。获取这些标签是一个漫长、费力且通常昂贵的过程。众包为大规模数据注释提供了一种便捷的方式。例如，ImageNet数据集[10]是计算机视觉中推动深度学习技术进步的最受欢迎的数据集之一，该数据集由从亚马逊机械土耳其招募的49K名工人在3年（2007-2010）内对3.2M张图像进行注释。在实践中，数据注释用于训练机器学习模型是众包的主要应用之一[7, 25, 27,31]。迄今为止，数据注释和模型训练通常被视为孤立的过程。任务所有者从一个被认为是无限的注释者来源收集注释，这些注释者被认为是匿名和可替代的，然后为手头的应用程序训练深度学习模型。然而，这种假设对于许多主观或知识密集型的任务是不成立的。我们在本文中考虑的任务就是这样一个例子：对话代理中用户查询的意图分类。这样的任务对于个人助手（如亚马逊Alexa或谷歌Home）的有效性至关重要。真正的查询意图是高度主观的，并且在很大程度上取决于各种上下文因素。因此，由匿名的、即使经过培训的工人生成的注释不能完全信任。众包数据注释需要某种类型的工人。在我们的对话代理应用中，理想的注释者是发出查询的用户。只有当任务允许用户以自然、不显眼的方式确认其查询意图时，这才是可行的，例如，Alexa要求用户确认其意图0会议：Crowdsourcing and Human Computation for the Web WWW 2018，2018年4月23日至27日，法国里昂240通过回答“您想购物吗？”的问题来进行的。这种类型的众包，被称为有针对性的众包，已经被Ipeirotis等人研究过[22]。与传统的有偿众包的概念不同，有针对性的众包特点是一定数量的具有不同专业知识的注释者。这导致了几个挑战，包括如何识别合适的注释者并有效地与他们互动。在本文中，我们研究了如何在有针对性的众包中最大限度地减少数据注释工作量的同时最好地训练深度学习模型。鉴于有针对性的注释者是宝贵的工作资源，这个问题非常重要。在我们的对话代理上下文中，减少用户的确认问题数量对于减少对客户体验的负面影响至关重要。我们在这里提出采用主动学习方法，因为它允许模型选择最佳学习数据[34]。通过主动学习，最初在小数据集上训练的模型主动做出决策，选择最具信息量的数据样本，通常基于模型的不确定性。然后将这些数据样本路由到专家进行注释，并插入到训练集中进行模型重新训练。通过主动学习，我们可以期望模型在最小的众包贡献下得到有效的训练。此外，通过随时间进行主动学习，模型可以检测应用环境的变化并相应地进行调整，从而持续提供高质量的预测。尽管有潜力，但使深度学习模型能够从有针对性的众包中主动学习并不容易，原因有几个。首先，深度学习模型很少能够表示预测的不确定性-它们通常以确定性的方式进行预测。其次，虽然有针对性的众包可以提供比明确招募的工人更好的标签，但注释质量仍然是一个重要问题。例如，注释者的专业知识（例如用户对应用的熟悉程度）对注释质量有很大的影响。此外，用户可能不会回答对话代理提出的确认问题，或者在失去兴趣时可能随机回答，这在现实中经常发生。最后但并非最不重要的是，有针对性众包提供的注释往往非常稀疏，这使得模型注释者的专业知识或注释质量建模变得特别具有挑战性。与传统的众包不同，请求者对个体工人贡献的注释数量具有控制权，而大多数有针对性众包的注释者可能只贡献少量的注释，因为缺乏参与机制。为了解决这些问题，本文介绍了一个通用的贝叶斯框架，支持从有针对性众包中进行有效的深度主动学习。我们的框架借鉴了贝叶斯深度学习的最新进展[15,42]，并利用辍学作为在深度学习中表示模型不确定性的实用方法。为了解决注释噪声和稀疏性问题，我们的框架利用注释中的低秩结构，并学习个体注释者专业知识的低维表示，然后用于学习注释可靠性，以减少注释噪声。注释可靠性还以特定数据样本为条件进行学习，以便识别本质上更模糊的样本。使用贝叶斯方法，我们的框架同时从嘈杂和稀疏的众包注释中推断出真实标签，并训练深度学习模型以达到最佳的学习效果。这种方法带来了额外的好处：0标注者选择过程和网络训练过程相互影响，使得主动学习能够根据神经网络的隐藏表示和目标函数进行定制。这与实践中使用一个具有良好校准不确定性（例如高斯过程[23]）的模型进行主动学习和使用不同模型（例如深度神经网络）进行预测的方案形成对比。在主动学习设置中，我们的框架利用深度学习模型的不确定性进行预测，同时利用学习到的标注者专业知识来最小化所需的标注数量和标注者数量，以最优化训练深度学习模型。我们的工作的主要贡献包括：•在有针对性的众包设置中引入深度主动学习的概念。•提出一种学习标注者专业知识并从稀疏嘈杂的众包标注中推断真实标签的方法，该方法利用了标注的低秩结构。•定义了一个通用的贝叶斯框架，可以同时学习标注者专业知识、推断真实标签和训练深度学习模型。该框架进一步减少了标注工作量，使深度学习模型能够从众包中主动学习。•通过对合成和真实世界数据集进行大量实验来验证我们的方法和框架。特别是，我们在亚马逊的Alexa上展示了我们的框架的有效性，这是当今主要的对话代理之一。据我们所知，这项工作是第一个研究从稀疏嘈杂的众包标注中进行深度主动学习的工作。我们提出的框架是一个通用的框架，适用于任何深度学习模型和各种领域，例如自然语言处理和计算机视觉。02 相关工作0在本节中，我们首先讨论与人机协同范式相关的相关工作，然后我们回顾与我们提出的贝叶斯深度主动学习和众包学习方法相关的现有工作。02.1 人机协同系统0人机协同系统旨在利用人类的智能和机器的可扩展性来解决大规模复杂任务[7]。迄今为止，已经提出了许多人机协同系统。其中包括早期的ESP游戏[40]，以及展示了人类智能与机器结合在解决自动化系统的复杂任务时的增强能力的系统（例如，用于OCR应用的Recaptcha[41]）。最近的人机协同系统已经被提出来解决各种领域的与数据相关的问题。例如，Franklin等人提出的CrowdDB用于数据库，Bozzon等人提出的CrowdSearcher用于信息检索，Demartini等人提出的Zencrowd用于语义Web。人机协同系统的一个重要应用领域是机器学习，通过吸引众包来对数据进行标注以训练监督式机器学习模型。例如，用于计算机视觉的ImageNet数据集[10]以及许多用于各种自然语言处理任务的众包标注数据集，如...0Track: Crowdsourcing and Human Computation for the Web WWW 2018, April 23-27, 2018, Lyon, France250作为情感和观点挖掘[30]和问答[19]等领域的数据集，众包数据标注对于机器学习来说是一个经常被忽视的方面。众包数据标注和模型训练通常被视为孤立的过程，这对于主观或知识密集型任务并不奏效，因为工作者被视为宝贵的资源，只有特定的工作者能够提供高质量的标注。Ipeirotis和Gabrilovich[22]提出了一种针对这种特定类型众包的概念，称为有针对性的众包，强调了对工作者专业知识的需求。DeBoer等人提出了一种类似的概念，称为nicheourcing[6]。如何在有针对性的众包中最大程度地减少工作者的工作量，同时最好地训练机器学习模型，仍然是一个未解决的问题。对于许多领域中普遍存在的基于深度神经网络的机器学习模型（即深度学习模型），由于训练数据的规模对模型性能有很大影响，这个问题变得更加具有挑战性。02.2 贝叶斯深度主动学习0为了使深度学习模型能够积极地从众包中学习，我们基于贝叶斯深度主动学习[16]的方法，将深度学习与主动学习使用贝叶斯方法进行统一。接下来，我们简要回顾了与当前贝叶斯深度主动学习概念相一致的相关工作。首先，我们考虑用于驱动主动标注和预测学习任务的相同模型。在这种设置下，模型选择能够提供最强训练信号的未标记数据样本；这些样本被标记并用于监督模型训练。数据样本的潜在益处通常通过模型在对该样本进行预测时的不确定性来衡量，即所谓的不确定性采样[4,28]。还存在其他标准，例如，数据样本将如何减少预期误差的估计[32]，它试图选择直接优化预测性能的数据样本。然而，这样的标准不如模型的不确定性实用，因为通常很难对预期预测误差有一个解析表达式。值得一提的是，传统的主动学习概念假设存在一个单一的全知神谕，可以为任何数据样本提供真实标签，而不对提供的注释数量施加任何限制。与概率模型（例如贝叶斯网络）不同，深度学习模型只进行确定性预测，这使得表示模型的不确定性变得相当具有挑战性，而这对于主动学习来说是至关重要的。一个常见的解决方法是使用一个与神经网络分类器分离的主动学习模型（例如高斯过程）[23]。一个更一致的解决方案是利用贝叶斯深度学习的最新发展。感兴趣的贝叶斯深度学习方法通常可以分为两类。第一类基于随机梯度下降（SGD）。Welling等人[1,42]表明，通过向标准SGD添加适量的噪声，参数将收敛到真实后验分布的样本。另一类方法基于dropout，dropout是一种最初用于防止训练深度学习模型过拟合的技术[37]。Gal等人[15]证明了当在模型训练中保留dropout的方式进行预测时，预测结果等同于从真实后验分布中进行采样，从而将确定性预测函数转化为随机（不确定）预测函数。0等同于从参数的近似真实后验分布中进行采样，从而将确定性预测函数转化为随机（不确定）预测函数。最近的一篇论文[16]，可能是与我们最相关的工作，提出了一种基于dropout的贝叶斯深度主动学习方法。它遵循主动学习的常规假设：一个专家能够按需提供高质量的注释。这在实践中是不现实的，特别是对于需要大量注释数据的深度学习模型来说。据我们所知，我们是第一个研究从众包中使深度学习模型积极学习的原则性方法的人。02.3 从众包中学习0虽然不专注于深度学习模型，但有一系列研究[11, 26, 31, 39, 44, 49,50]已经研究了使机器学习模型能够从众包中学习的方法。这里的关键问题有两个：1）推断真实标签，2）训练模型。前者的问题通常需要估计注释的可靠性，这进一步与注释者的专业知识[3]和任务的难度或清晰度[14, 46,47]相关。在早期的工作中，Dawid和Skene[5]首次研究了从多个嘈杂标签中推断真实标签的问题，并引入了期望最大化（EM）算法来建模工作者的技能。Sheng等人[36]表明，多个注释者的重复标注可以通过简单的多数投票标签聚合方案显著提高标签的质量。Whitehill等人[43]通过考虑工作者专业知识和任务难度来推广了Dawid和Skene的工作，并展示了比多数投票更好的性能。Raykar等人[31]首次引入了从众包中学习来改进机器学习模型的问题。提出了一种贝叶斯方法，将真实标签建模为同时考虑众包注释和逻辑回归分类器输出的联合函数。然后通过最大化观测数据和众包注释的似然来学习注释者专业知识和分类器的参数。然而，他们的方法没有考虑任务属性（例如任务类型）作为注释可靠性的影响因素。Yan等人[45]通过考虑任务属性对注释可靠性的影响来扩展了该问题。他们将注释可靠性建模为由工作者和任务表示参数化的逻辑函数。在一个稍微不同的场景中，Tian等人[39]对“思想流派”的问题进行了建模，其中一个数据样本可能存在多个正确标签。与众包学习相结合的主动学习，以减少注释成本。Yan等人[44]将他们在[45]中的工作扩展到选择最不确定的数据样本和最可靠的工作者进行主动学习。Fang等人[11]然后考虑了注释者能够相互学习以提高其注释可靠性的情况。在最近的一项工作中，Zhong等人[49]进一步模拟了工作者可以通过允许他们选择不确定选项来明确表达其注释置信度的情况。然而，所有这些工作都没有考虑将深度学习模型作为改进目标模型。此外，它们都没有考虑到个体注释者贡献的注释既是嘈杂的又是稀疏的目标众包场景。0主题：网络众包和人类计算 WWW 2018，2018年4月23日至27日，法国里昂p yi xi,=fxip(y |x, Dtrain) =p(y |x, W)p(W |Dtrain)d W(3)2603 DALC框架0本节介绍我们提出的框架，称为基于目标众包的深度主动学习（DALC）。我们首先形式化问题，然后介绍我们的方法：1）将任何深度学习（DL）模型制定为贝叶斯框架，2）从目标众包中学习。然后，我们描述整体贝叶斯框架，将这两个模型无缝地统一起来，并从目标众包中主动学习，以减少训练DL模型所需的注释量。0问题形式化。在本文中，我们使用粗体小写字母表示向量，使用粗体大写字母表示矩阵。对于任意矩阵 M，我们使用 M ij 表示第 i 行第 j列的元素，使用 M i : 表示第 i行的向量。我们使用花体大写字母（例如 P）表示集合。令 X = { x 1, x 2 , . . . , x m }（其中 x i ∈ R k）表示由 n 个注释者 U = { u 1 , u2 , . . . , u n } 标记的 m 个数据样本。标签形成一个稀疏矩阵 L ∈ Rm × n，其中 L ij 是由注释者 u j 贡献的样本 x i的标签。未知的真实标签用 Y = { y 1 , y 2 , . . . , y m }表示。给定观测数据 X 和由 U 贡献的注释L，我们的目标是推断真实标签 Y 并训练一个深度学习模型，其参数W，即DL模型每一层的权重矩阵和偏置，需要学习。03.1 贝叶斯深度学习0DALC采用了最近由Gal和Ghahramani[15]开发的贝叶斯深度学习方法。具体而言，我们将具有参数 W的通用DL模型视为一个似然函数：0其中 f W ( x i )模拟了softmax层之前的网络层的输出。为了将DL模型制定为贝叶斯框架，我们首先定义参数 W 的先验分布：0例如，使用由K（协方差矩阵）参数化的标准高斯先验。在这种假设下，模型训练将得到参数的后验分布 p(W|D train)，而不是参数的固定值。注意，这里我们假设训练数据 D train =(X, Y)中给出了真实标签。我们将在第4节中解释如何从观测数据样本和噪声注释中推断真实标签。0贝叶斯深度学习的训练和预测。在接下来的内容中，我们将介绍如何训练贝叶斯深度学习模型并使用训练好的模型进行预测。这些将成为训练整个DALC框架的基础，我们将在第4节中展示。训练贝叶斯深度学习模型与使用启用了dropout的反向传播方法训练普通深度学习模型完全相同。给定任意输入 x，预测可以描述为一个似然函数：0相比非贝叶斯方法，贝叶斯方法考虑了学习参数的不确定性，从而提供了更可靠的预测。然而，对于参数的后验分布 p(W|D train )的准确推断几乎总是不可行的。0方法。Gal和Ghahramani[15]提出了蒙特卡洛（MC）dropout，这是一种简单而有效的近似变分推断方法。MC dropout基于dropout [21,37]，dropout是训练DL模型以防止过拟合的常用方法。在模型训练过程中，它通常通过在每次迭代中随机丢弃网络的隐藏单元来使用。Gal和Ghahramani[15]证明，通过在前向传播中执行dropout来进行预测，输出等同于从真实后验的变分分布中采样参数时的预测。直观地说，以上的原因是测试dropout给出了来自网络不同版本的预测，这相当于从网络的随机版本中进行采样。然后可以根据样本估计不确定性，类似于Query by Committee[35]原则，该原则考虑了不同版本之间的不一致程度。形式上，MCdropout等同于从最小化与真实后验 p(W|D train )的Kullback-Leibler（KL）散度的变分分布 q(W)中进行采样。在此基础上，我们可以执行蒙特卡洛积分来近似方程3：0p(y | x, Dtrain) ≈ ∫ p(y | x, W) q(W) dW0≈ 10T0t = 1 p(y | x, W) (4)0其中W从q(W)中采样T次，即W�q(W)。总之，MCdropout提供了一种实际的方法，可以从真实后验中近似采样，而无需明确计算难以处理的真实后验。03.2 从目标众包学习0从目标众包学习（LFTC）模型构建了以下对象之间的关系：数据样本xi，真实标签yi，注释者uj和噪声注释Lij。我们假设注释者uj对数据样本xi的贡献的标签Lij受到以下三个因素的影响：（1）真实标签yi——用噪声注释近似真实标签是我们的主要目标之一；（2）数据样本xi——对于一些数据样本（例如，更模糊的样本），注释更加嘈杂是一个现实的假设；（3）注释者uj——标签也依赖于注释者的属性，例如专业知识。为了形式化上述描述的关系，我们首先将每个注释者uj表示为一个低维嵌入向量uj∈Rd。0其中d �min(m,n)。uj的每个维度表示一个潜在主题，这些主题将从数据中学习，uj中的每个元素可以被视为用户uj在相应主题上的专业知识。然后，我们使用伯努利似然函数来建模注释Lij相对于真实标签yi的可靠性，由数据样本xi和注释者uj参数化：0p(Lij | xi, uj, yi) = (1 − ηt(xi, uj)) |Lij − yi| ηt(xi, uj) 1 −|Lij − yi| (5)0即注释正确的概率为η(xi,uj)，定义如下：0η(xi, uj) = (1 + exp(−u�jFx i))−1 (6)0Crowdsourcing and Human Computation for the Web WWW 2018，2018年4月23日至27日，法国里昂(9)jp(Lij |xi, K, uj)p(uj |σ)= aΘijg�yip(yi, uj, Lij |xi, K, σ)(11)Track: Crowdsourcing and Human Computation for the WebWWW 2018, April 23-27, 2018, Lyon, France270K0W0xi0yi0Lij0ujσ0m0n0图1：DALC框架的图形模型。0其中，F ∈Rd×k是要学习的参数矩阵。F作为一个线性算子，将任意维度k的数据样本xi转换为一个低维度d的嵌入，即Fx i ∈Rd，然后通过内积与注释者嵌入uj相结合，最终表示注释的可靠性。直观地说，Fx i 可以被解释为潜在主题对数据样本xi的表示：Fx i的每个元素表示数据样本属于k个潜在主题之一的程度。考虑到注释者对uj表示的不同潜在主题的专业知识，Fx i和uj之间的乘积可以被解释为uj对xi的注释的可靠性。我们使用方程6中的sigmoid函数将可靠性限制在0到1之间，其中0表示完全不可靠，1表示完全可靠。通过方程6，我们可以为每个个体注释Lij获得一个可靠性得分η(xi,uj)。因此，稀疏注释矩阵Lij将导致一个稀疏矩阵，其条目是相应的可靠性得分（学习这些得分在第4节中正式描述）。鉴于注释矩阵的稀疏性，注释者uj和数据样本Fxi的低维度假设不仅对于有效学习注释可靠性至关重要，而且也是现实的——潜在主题的数量通常远小于注释者和数据样本的数量。遵循贝叶斯方法，我们假设注释者嵌入是从先验高斯概率中生成的，即：0uj�N(0,σ2I)（7）0其中σ2是方差，I是单位矩阵。这个先验项正则化了潜在主题，有助于提高模型的鲁棒性。备注。不失一般性，上述公式考虑了二分类情况。可以通过将Lij（和yi）建模为一个向量，其第r个条目取值为1（如果注释（和真实标签）是类别r），否则为0，从而将其轻松扩展为多类分类设置。我们使用以下伯努利概率来建模注释的可靠性：0p(Lij|xi,uj,yi)=(1−η(xi,uj))12∥Lij−yi∥22η(xi,uj)1−102∥Lij−yi∥22（8）03.3整体框架0该整体框架在图1中表示为一个图模型。它将之前介绍的DL模型和从众包学习模型结合在一个统一的贝叶斯框架中。该框架的联合概率由以下公式给出：0=∫p(yi|xi,W)p(W|K)dW是通过方程式8给出的条件概率分布。0贝叶斯DL模型0p(Lij|xi,uj,yi)p(uj|σ)是通过方程式7给出的条件概率分0LFTC模型0在DL模型中，我们对参数W使用完全贝叶斯处理，这对于在主动学习中表示模型不确定性至关重要；而对于LFTC，通过点估计学习注释者的专业知识uj就足够了，因此我们使用先验分布作为正则化项。上述DALC框架可以学习不同数据样本上的注释者专业知识；同时，它使得DL模型能够从稀疏和嘈杂的注释中学习。下一节将介绍学习过程。一旦DALC在初始一组众包注释上进行了学习，它就可以主动选择信息量最大的数据样本和具有高专业知识的注释者来执行注释任务。然后，这些带有注释的数据样本将用于重新训练DL模型，以提高模型性能。通过这样的主动学习过程，预期DL模型能够在众包的最小注释工作量下达到最佳性能。主动学习。在主动学习中，DALC选择k个最具信息量的数据样本和每个数据样本中具有最高专业知识的注释者。注释者uj对数据样本xi的专业知识由方程6给出的η(xi,uj)来量化。样本的信息量由模型的不确定性来定义，由香农熵来量化：0不确定性(x)=H[in]0= − �0cp(y=c|xi,Dtrain)logp(y=c|xi,Dtrain)0= − 0c(1T0tˆptc)log(10T0�0tˆptc）（10）0T次蒙特卡洛dropout采样的x的类别c的平均预测概率是T次采样的预测概率的平均值。请注意，W在上述方程中被边缘化，如方程4所示。04优化方法0本节描述了学习DALC框架参数的优化方法，包括DL参数W和LFTC参数uj（1 ≤ j ≤n）和F。通过最大化给定数据X和标注者U的观测注释L的似然性来学习参数。将所有参数表示为Θ，对数空间中的优化问题可以表述为：0argmaxΘlog�0其中，p(y i , u j , L ij | x i , K , σ)由方程9给出。未知变量y i (1 ≤ i≤ m)使得计算变得不可行。p(yi) ≜ p(yi |Li:, xi, K, uj)p(uj |σ)∝∫p(yi |xi, W)p(W |K)d W�jp(Lij |xi, uj, yi)p(uj |σ) (12)L =ijyip(yi) logp(yi, uj, Lij |xi, K, σ)=�i�j�yip(yi) log� ∫p(yi |xi, W)p(W |K)d W× p(Lij |xi, uj, yi)p(uj |σ)�=�i�j�yip(yi)∫logp(yi |xi, W)p(W |K)d W(13)+�i�j�yip(yi)�logp(Lij |yi, xi, uj) + logp(uj |σ)�(14)Algorithm 2: Learning the LFTC ModelInput: data samples X, current estimation of true labelsp(yi) (∀1 ≤ i ≤ m), annotation matrix L, d, λ,γ, Iter21 Initialize uj (∀1 ≤ j ≤ n) and F;2 for t = 1;t ≤ Iter2;t + + do3foreach Lij(1 ≤ i ≤ m, 1 ≤ j ≤ n) do4uj ← uj + γ ∂Jij∂uj by using Equation 19;5F ← F + γ ∂Jij∂F by using Equation 20;6if J has converged then7break;4.2Learning the LFTC ParametersLearning the LFTC parameters is equivalent to solving the followingoptimization problem:maxuj (1≤j≤n),FJ =�i�j�yip(yi)�logp(Lij |yi, xi, uj) + logp(uj |σ)��Jij=�i�j�yip(yi) logp(Lij |yi, xi, uj)��J1: log-likelihood+�i�j�yip(yi) logp(uj |σ)��J2: regularization(15)where we use Jij to denote the objective function for learningparameters from a single annotation, and J1, J2 to respectivelydenote the log-likelihood and the regularization parts of Jij. Notethat for the sake of clarity for deriving the gradients in the restof this subsection, we formulate the optimization problem as amaximization problem instead of a minimization problem. Theoptimization problem is non-convex w.r.t. the parameters uj (1 ≤j ≤ n) and F. To solve the problem, we use alternative SGA, in whichwe alternately update uj (1 ≤ j ≤ n) and F until convergence.To derive the gradient of the parameters for SGA, we first derivethe gradient of η(xi, uj) as below:∂Jij∂η(xi, uj) =∂J1∂η(xi, uj) = p(yi = Lij)η(xi, uj)− p(yi � Lij)1 − η(xi, uj)(16)The gradients of uj and F w.r.t. η(xi, uj) are given by:∂η(xi, uj)∂uj= η(xi, uj)(1 − η(xi, uj))Fxi∂η(xi, uj)∂F= η(xi, uj)(1 − η(xi, uj))ujx⊺i(17)In addition, the gradient of uj w.r.t. J2 is:∂J2∂uj= −2λuj(18)where λ =1σ 2 . Finally, notice that both parts of the objective func-tion J1 and J2 are relevant to uj (1 ≤ j ≤ n), while only J1 isrelevant to F. Therefore, we have the following gradients for theTrack: Crowdsourcing and Human Computation for the WebWWW 2018, April 23-27, 2018, Lyon, France280算法1：DALC的EM算法0输入：数据样本X，注释矩阵L和Iter 101 初始化p(y i )（�1 ≤ i ≤ m），u j （�1 ≤ j ≤ n），W和F；02 对于 t = 1; t ≤ Iter 1 ; t + +03 E步骤：使用方程12估计p(y i )（�1 ≤ i ≤ m）；04 M步骤：使用反向传播更新W；05 使用算法2更新u j （�1 ≤ j ≤ n）和F；06 如果L已收敛，则07 跳出循环；0直接求解优化问题。DALC采用期望最大化（EM）算法[9]来解决该问题。04.1 DALC的EM算法0EM算法迭代地执行两个步骤，即E步骤和M步骤。在每次迭代中，E步骤根据当前参数估计真实标签；M步骤根据新估计的真实标签更新参数的估计。0E步骤。根据贝叶斯规则，真实标签由以下公式给出：0因此，真实标签基于贝叶斯深度学习模型的输出和LFTC模型计算得出，它是DL鉴别器和注释者模型的函数。使用先验的贝叶斯深度学习模型的预测可以通过方程3进行，而LFTC模型的输出可以通过方程5计算。0M步骤。给定E步骤估计的真实标签，我们最大化以下似然函数来估计参数：0其中，通过E步骤（方程12）获得p(y)。根据上述方程，M步骤可以分解为两个部分，即方程13和14，它们相互独立。第一部分（即方程13）与训练贝叶斯深度学习模型的目标函数完全相同，即交叉熵损失函数。因此，可以使用标准的反向传播方法来优化它。第二部分（即方程14）优化LFTC模型，可以通过随机梯度上升（SGA）方法来解决，下一小节将给出该方法。整体算法如算法1所示。LFTC parameters:∂Jij∂uj=∂J1∂η(xi, uj) × ∂η(xi, uj)∂uj+ ∂J2∂uj(19)∂Jij∂F=∂J1∂η(xi, uj) × ∂η(xi, uj)∂F(20)With these gradients, we can learn the LFTC parameters with alter-native SGA. The overall algorithm is given in Algorithm 2.2905 实验和结果0在本节中，我们进行实验来评估我们提出的DALC框架的性能。我们的目标是回答以下问题：1）DALC能多大程度上推断出真实标签，并学习注释者的专业知识和注释可靠性；2）DALC能多大程度上从嘈杂和稀疏的众包注释中训练DL模型；3）DALC在训练高性能DL模型时能多大程度上减少注释的数量。05.1 实验设置0数据集。我们使用了来自亚马逊Alexa的真实世界数据集，其中包含用户的查询和他们对查询意图的确认。该数据集包含由10,006个用户注释的32,220个查询，共有49,958个注释。注释矩阵的稀疏度为99.98%。除了用户注释的数据外，Alexa还包含一个单独的训练数据集，其中包含超过50,000个查询和黄金标签（即由转化率测量和专家判断的用户之间高度一致的标签）。为了研究DALC推断真实标签和揭示真实注释者专业知识和注释可靠性的能力，我们根据Alexa数据集中的黄金标签模拟了一个合成数据集。比较方法。为了展示我们提出的框架在模型训练中的性能，我们比较了以下多注释者方法：1）MV：通过多数投票推断真实标签[36]；2）LFC：通过从众包中学习推断真实标签[44,45]；3）STAL：在[11]中提出的自学习众包学习方法；4）DLC/LR：我们提出的框架，目标机器学习模型为逻辑回归模型；5）DLC/Sparse：我们提出的框架，目标模型为DL模型，学习注释者专业知识而不进行低秩近似——与[36]和[11]使用的方法相同；6）DLC：我们的框架，目标机器学习模型为进行低秩近似的DL模型，学习注释者专业知识。所有比较的方法，包括我们的方法，都旨在使用众包注释训练机器学习模型。我们不与仅用于输出聚合的方法进行比较[5,43]。请注意，所有现有的方法（MV、LFC和STAL）都训练逻辑回归模型，而DLC/LR、DLC/Sparse和DLC是我们提出的没有主动学习过程的框架变体。为了展示DALC在主动学习中的有效性，我们比较了以下变体：1）RD+DLC：随机选择数据样本和众包进行注释；2）AD+DLC：主动选择数据样本，同时随机选择众包进行注释；3）AC+DLC：随机选择数据样本，同时主动选择众包进行注释；4）DALC：主动选择数据样本和高专业知识注释者。0表1：DALC推断的标签准确率（第2行），DALC学习的注释可靠性与用户专业知识和真实标签的相关性（第3行和第4行）。0注释稀疏度（1-ρ）0.0001 0.001 0.01 0.10推断标签准确率99.06% 99.96% 99.98% 100%0注释可靠性相关性0.5751 0.5891 0.6323 0.6768用户专业知识相关性0.9438 0.9921 0.9956 0.99980DL模型和参数设置。我们在Alexa的意图分类任务中使用

下载后可阅读完整内容，剩余1页未读，立即下载