没有合适的资源?快使用搜索试试~ 我知道了~
首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂55基于人群的文献综述多谓词筛选Evgeny Krivosheev意大利特伦托大学v@unitn.it法比奥·卡萨蒂俄罗斯托木斯克理工大学casati@unitn.it澳大利亚boualem@cse.unsw.edu.au新南威尔士州BoualemBenatallah大学摘要系统性文献综述(SLR)是科学研究和出版的最常见和最有用的形式之一每年都有成千上万的单反相机出版,而且这个速度在所有科学领域都在增长。然而,执行一个准确,完整和公正的单反相机是一个困难和昂贵的努力。这在文献综述的所有阶段都是如此,特别是在论文筛选阶段,作者根据一些排除标准筛选一组潜在的范围内论文。为了解决这个问题,近年来研究界已经开始探索使用人群来允许更快、准确、更便宜和无偏见地筛选论文。初步结果表明,众包可以是有效的,即使是相对复杂的审查。在本文中,我们推导并分析了一组策略,人群为基础的筛选,并表明,自适应策略,不断重新评估的问题,以最小化的投票数需要采取决定每篇论文的统计特性,显着优于一些非自适应方法的成本和准确性。 我们通过一组众包实验验证了该方法的适用性和结果,并讨论了我们认为通常对分类问题感兴趣的问题和算法的属性,其中项目通过一系列连续测试进行分类(因为它经常发生在医学中)。关键词人计算,分类,文献综述ACM参考格式:Evgeny Krivosheev,Fabio Casati,and Boualem Benatallah.2018年。文献综述中基于人群的多谓词筛选在WWW 2018:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,New York,NY,USA,10页。https://doi.org/10.1145/3178876.31860361介绍系统性文献综述(SLR)[9,13,19]是遵循预定义过程的综述,旨在实现所分析来源的透明度和公正性,最大限度地减少扭曲、偏倚和利益冲突[35]。它们是科学出版物中最重要的形式之一[36],也是最重要的出版物之一。本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018,2018年4月23日©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186036这是循证实践甚至政府政策的基础,从教育到医疗保健,因为它们汇集了从许多研究小组独立获得的结果[11]。认识到其重要性,系统评价的数量正在稳步增长,每年在所有领域发表数以万计的文章。SLR的透明度和公正性的基石在于正式的论文选择过程。这通常由评审的规定范围和目标形成(例如,“StudytheEffectofRegularPhysicalExercisesonProgressionofDementia inOlderAdults,FocusingOnPapersDescriptionRandomizedControlledTrials”),由作者翻译成相应的查询(包括相关关键词的布尔表达式),该查询从诸如Scopus的数据库检索候选论文。 为了避免遗漏论文,查询往往是包含性的,这意味着它返回数百或数千个结果[30],这些结果随后由研究人员基于预定义的排除标准(例如,“过滤掉不测量认知下降的论文”),通常低至几十篇。虽然非常有用,但SLR在工作量和消耗时间方面非常耗时,并且对于纸张筛选阶段也是如此[10,21,33]。此外,随着每年撰写数十万篇论文,SLR迅速过时[4],尽管它们应该定期更新,但这样做的努力往往是一个障碍[37],因此评论错过30%或40%的相关论文并不罕见[4]。在本文中,我们探讨了众包在系统性综述中的应用,特别是在筛选阶段,我们筛选了从初始文献检索中获得的候选论文,以确定要纳入分析的论文。 这是有限池分类[30]和人群筛选问题[32]的一个实例,其中我们需要在最小化成本的同时对有限的对象集进行分类。这里众包的潜在好处是更快和更便宜的筛选(与专业人士的筛选相比)以及增加透明度(如果需要,过程和投票可以公开)和降低作者偏见的风险。人群也带来了多样性[40],正如我们亲身经历的那样,人群中的分歧可能表明排除标准定义中的错误或模糊。该领域的研究仍处于幻想阶段,尽管最近的一系列初步努力[21,28,36,39]在专家筛选成本方面的质量和成本降低方面呈现出非常令人鼓舞的结果,并显示了可行性。在包括医疗保健在内的各个领域进行基于人群的筛查在下文中,我们提出了一个概率模型,适用于基于标准的筛选典型的SLR的论文,并提出了一套策略,基于人群的筛选。我们的主要贡献在于一个自适应众包算法,显着优于基线。该算法以小批量轮询人群,并且在每次迭代处并且针对每个项目估计:i)所述人群的数量。首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂56标准,其中获得一个更多的群众投票的文件可以更有效地导致我们的分类决定,和ii)我们是否应该放弃尝试分类这个项目,认识到群众不能有效地达成一个决定,因此它应该留给作者的专家筛选。 这也意味着该算法对人群难以分类的论文和标准具有鲁棒性,因为它不会在这些论文和标准上不必要地花钱。该 模 型 是 在 商 业 众 包 平 台 ( Amazon Mechanical Turk(AMT)和CrowdFlower1)上进行多次迭代和实验的结果。然后,我们进行了额外的实验,以验证策略的有效性。虽然我们在SLR的上下文中呈现结果,因为我们验证了这种情况下的模型和发现,但我们认为,结果通常可以用于分类问题,其中项目通过一系列连续测试进行分类,因为它经常发生在医学中,以及有限池分类问题和基于人群的查询优化,其中人群评估谓词(类似于我们的排除标准),其过滤元组集合以计算查询结果。2相关工作我们的工作建立在SLR众包方法的基础上,但也更普遍地建立在基于人群的分类工作上系统评价中的众包最近,Brown和Allison [3]使用众包来完成其他任务,根据一组使用AMT的标准对689个摘要进行分类。基于两名评分者,作者报告75%的摘要一致,第三名评分者用于在不一致的情况下打破平局本文没有讨论最佳的众包策略或算法,以尽量减少错误,但指出众包在分析文献的潜力。Mortensen及其同事在四篇文献综述中进行了众包论文筛选[ 28 ],每一篇都有几个标准。他们的目的是探索众包的可行性和成本,他们通过测量在AMT上运行的一组任务中的工人协议来解决这个问题。他们的工作与我们的不同之处在于,它没有提出算法来确定最佳的众包策略。然而,它包含与任务设计的重要性有关的有趣观察,即使任务没有优化时,众包的成本效益,以及工人从纸张到纸张和标准到标准的协议的高度可变性(Fleiss'Kappa范围从0.5至-0.03)。这与我们自己的研究是一致的(我们的论文在不同的科学领域),我们利用这种可变性来优化成本/误差权衡。Krivosheev及其同事[21]还提出了众包SLR的模型和策略这里的模型和方法的一个有趣的方面是,作者对众包任务产生的成本和损失(错误)进行建模,试图在开始时估计它们,并为作者提供价格/错误权衡,可以用来决定在任务中投入多少。 我们借用几个概念,从这项工作中,如能够提供一个估计和一组替代SLR作者,虽然本文的模型仅限于筛选基于一个标准。1www.mturk.com和www.crowdflower.comNguyen等人 [30]采用具有主动学习分类器的混合群体+专家+机器学习方法,其中通过比较群体分类与专家分类的估计损失,迭代地选择要标记的论文以最小化总成本和损失。 本文是试图在文献综述中利用人工智能的趋势的一部分,我们没有进一步讨论,因为这不是本文的重点。一般来说,所有论文都报告了积极的结果,并补充了任务设计的见解和指导方针,甚至是SLR专用众包平台的设计[3,40],以及调查人群在SLR其他感兴趣阶段的使用,如信息提取[36]。有趣的是,唯一的例外是一项研究,该研究将医学生作为筛选者而不是在线人群工作者,该研究报告的准确性相当差[29]。从这些研究中,我们还了解到,工人的准确性因标准而异,这表明需要适应每个SLR、标准和人群的特征。事实上,我们的方法的主要区别之一在于能够将人群集中在“低挂水果”上,即从正确排除论文的角度来看,统计学上更有效的项目和标准虽然没有关注论文筛选,但我们也提到了Law及其同事的一项有趣的分析,试图了解研究人员在哪些条件下诉诸众包[22]。在许多有趣的考虑因素中,有一个观点认为,只有当作者和评论者都认为可以接受时,众包才是可行的。SLR中的论文筛选似乎符合作者可接受的要求,但如果我们希望众包筛选被审查者接受,那么科学界提供众包筛选质量的可靠证据同样重要-特别是在SLR可能形成政策基础的领域。实践这里讨论的问题是有限池分类问题[30]的一个实例,特别是基于众包的分类。这个问题已经被研究了几百年了,至少可以追溯到18世纪末,当时孔多塞侯爵提出了他的陪审团定理2,指出如果陪审团中的每个陪审员的错误率低于0.5,并且如果有罪与无罪的投票是独立的,那么较大的陪审团会得出更准确的结果,并且随着陪审团的增长而接近完美。从那里,来自AI、数据库和人类计算社区的研究人员已经提出了许多分类算法,主要基于多数投票的变化,其中基于估计的工人的准确性来不同地计数 Dawid和Skene [5]的开创性工作以及Whitehill [41]、Dong等人[7]、Li等人[23]和Liu等人[24,25]的改进模型工作者的准确性-通常使用混淆矩阵- 然后采用期望最大化[6]的变体来迭代地改进工人准确性和标签的先验估计基于谱方法[18]和最大熵的[43]也已经提出,并且最近已经证明[31]在某些假设下置信传播是最优的先前的工作还解决了在用于获得标签的成本和用于减少欺骗的技术方面的优化问题2 http://www.stat.berkeley.edu/mossel/teach/ SocialChoiceNetworks10/ScribeAug31.pdf首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂57--()下一页(−)*∗i,ci,c14、15、17、34]。例如,Hirth及其同事[15]推荐了基于任务成本结构的特定作弊检测和任务验证算法。我们建立在许多这些方法之上,事实上我们采用了现有技术中用于估计工人准确度的算法也就是我们众包的能力具体地,这转化为如下考虑每个标签PPL的价格(Nl是工作者对非测试试卷给出的有效判断的数量)Nl+Nt签名标签虽然分类算法是我们整体问题的核心,但在很大程度上,它们对我们来说是一个可交换的PPL=UC·(一)Nl组件:我们的目标是,给定一个任务设计和分类算法,确定如何有效地查询人群,以最小化在筛选问题中实现所需的精确度和召回率所需的标签数量。3模型和目标我们将SLR筛选问题建模为一组论文(项目)I,根据一组排除标准(谓词)C =c1,c2,……,将筛选阶段分类为包括(范围内)或排除。cm。如果至少有一个排除标准适用,则排除该论文,否则将其纳入。一个典型的SLR筛选数百或数千篇论文与少数排除标准。我们专注于基于标题和摘要的筛选,这是经典的第一步筛选,与SLR指南一致[27]。在众包方法中,我们要求每个群组工作者查看一个或多个对i,c,并说明排除标准c是否适用于论文i。 根据所提到的文献,我们用混淆矩阵A c,w对工人的准确性进行建模,该混淆矩阵定义了针对每个标准c进行正确和错误分类的概率,从而允许我们在真实标签是包含与排除时对不同的准确性进行建模。标准的难度可能不同。有些人比其他人更容易评估根据Whitehill [41],我们将难度建模为正实数dc,给定工人w的预期准确度αw,精度偏差如下:αc,w= 0。5 +αw 0. 5e−dc。随着难度dc的增长,αc,w达到0.5,对应于随机选择,我们认为这是最低的准确度水平3。每个标准也有一个功效(也称为选择性)θc,定义为标准适用(因此需要排除)的论文的百分比 对于每个SLR和标准,准确度和功效都是先验未知的。我们假设采用通用的众包这是一个对我们吸引的人群控制有限的系统,但有一个近乎无限的工人池。然而,我们可以通过提供Nt个测试问题(具有由SLR作者提供的黄金答案)来测试工人,并且仅将通过测试的工人的投票计数为有效,从而对工人的投票进行一些控制。当Nl大于Nt时,校正因子接近1。在实践中,我们对Nl的控制可能受到许多因素的限制(也取决于众包平台策略),诸如退出、耗尽可用任务的许多并发工作者的存在等等。 我们观察到,测试对我们来说“只是”一个旋钮,当交易成本的准确性。实现相同效果的任何其他旋钮可以等效地用于以下内容。在结果方面,关键的衡量标准是要排除的论文的精确度和我们还从[21,30]中借用了损失函数的概念,因为它很好地总结了SLR作者的主观观点损失= lr FE + FI由假包含FI(在筛选阶段幸存但本应被排除的论文)和假排除FE(本应被保留的过滤出的论文)的总和表示,其中FE由损失率lr加权,损失率lr表示假排除比假包含“有害”lr倍(过滤出论文通常被认为是更有害的)。严重错误比一个错误的包含,“简单地”需要额外的工作,由作者)。损失率是我们要求作者设定的唯一参数。模型和损失函数的许多变化是可能的,但这些足以满足我们的目的。鉴于该模型,我们的目标是确定和评估一组有效的众包策略,每个SLR对应于估计帕累托最优的价格/损失曲线。有了无限的钱,我们总是可以达到一个完美的分类(如果工人的准确性高于随机和投票是独立的),但挑战是有效地分类,并在一个价格/损失点是可以接受的作者,谁决定他们愿意支付什么价格,他们可以容忍的损失。 基于此偏好,算法应设置众包任务的相关参数和分类函数。接下来我们讨论如何做到这一点。4算法4.1基线单次运行算法我们的一组基线算法遵循最近应用的方法准确性(如我们稍后指定的那样,有代价众包策略是一组K次运行,其中每次运行Rk文献中的有限池上下文和特别是SLR的具体来说,因为我们是在在项目i上为标准c收集Jk票。一个运行可能寻求投票不完整的信息(我们既不知道所有标准和所有论文,或关注子集(即,对于某些项目,Jk论文也不是工人的准确性),我们利用TruthFinder [7]和期望最大化(EM,[5])等方法来任务也有一个成本,它是(非测试)投票的单位成本UC乘以获得的投票数 虽然许多系统允许不为测试答案付费,但与[21]一致,我们认为也为通过测试的工人支付测试问题是公平和道德的。此外,设置不合理的许多测试问题可能会导致我们的声誉得分较低,并且3在本文中,我们不考虑随机以下的准确度的问题,但我们强调,它们可能发生在罕见的情况下,例如,如果标准被错误地指定。迭代地改进精度和类别估计直到收敛。此外,简单多数投票也是常用的,因为它的性能在有限池分类中实际上是合理的[30]。将它们应用到我们的问题中,我们在一次运行中继续进行,我们要求每个工人对一组论文的所有标准C进行投票。每个工作者提供最多Nl个标签,并且我们针对每个标准和每篇论文收集J个投票分类通过评估每个论文i上的每个标准c∈C来进行,并且基于所接收的响应首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂58(∈)。(∈)(∈)/()·(−(∈))(∈)][[][。C←()(16)←∪用所述算法之一估计Pi OUTc,纸张i被标准c分类为out。一旦我们有了每个标准的概率,我们就计算论文i应该被排除的概率P i OUT,作为至少一个标准适用的概率(我们假设标准应用是独立的):P(i∈OUT)=1−P(i∈INc)(2)c∈C损失率使我们的分类决策偏向包含一侧(对于lr>1)。对于论文i的错误包含,我们遭受的每篇论文的预期损失是P iOUT,而对于错误排除,它是lr1P i OUT。这意味着我们将论文分类为OUT的阈值是当这些量相同时,即P i OUT=lr lr+1。改变每个工人的投票数Nl、每个项目的投票数J和测试数Nt将修改预期价格和损失。更多的测试理想地导致更准确的工人,更多的标签意味着更准确的分类,并且每个人更多的投票能够更准确地估计工人为了分析价格与损失,我们用不同的Nl,J,NT值模拟模型的行为,并应用EM,TruthFider(TF)或多数投票(MV)对论文进行分类,并计算估计的损失。由于Nt和J的值对应于成本,因此我们也可以得到与此损失相对应的价格标签。从这组价格/损失点中,我们可以选择帕累托最优的价格/损失点并绘制它们,以便作者可以决定哪一个最适合他们的需求。正如所讨论的,存在成本惩罚和实际约束,不允许我们将这些参数设置为任意高的值,并且大于10的Nt和J的值不会产生显著的改进[21],因此合理的替代方案的数量相当少。为了模拟数据,我们需要对人群准确性以及基于标准功率和难度,可能基于先验知识,图1:分类算法的性能。用1000篇论文进行模拟,四个准则的幂= c1 = 0. 14,c2 = 0。14,c 3 = 0。28,c4 = 0。42,Nt=2,3,…10,Ir= 5。工人被假定为作弊者,概率为0.3,其余的具有(0.5-1)的均匀准确度从实验中可以看出,OUT纸的准确性算法1:M次运行算法输入:项目I,准则C,损失率lr输出:分类项目CI(1) CI← {},U I←I,thr=lr,I0=100随机或者通过众包标签来估计这些参数[21]论文精选Ilr+1几篇论文(50篇论文已经能够很好地估计,如下文所示)。 图1示出了针对每个项目和标准的3个和5个标签应用三种提到的算法的结果(标题描述了模拟参数)。选择一个特定的(2) #基线迭代(运行0)(3) V0←针对所有条件C在I0上收集J票(4) CI0←classi f y_items(V0,thr)(5) CI←CI∪CI0,U I←U I−CI0算法相对较小,但MV在每张纸和每个工人的标签很少时表现更好,这是一种(6) 对于每个c∈CP(i∈OUTC)。0αw、c已知的行为[16]。点代表不同的测试次数(from图1至图10),并且箭头示出了从图1至图10的生长方向。(7)i∈I0|I0|,αc=w∈Wc0|Wc|(W0为从左上到右下。有些点是帕累托最优的,所以在与SLR作者的通过测试问题并在基线迭代中至少提供了一个标签的工作人员集(8)询问首选的损失/价格点。#排名__如果问题和算法的参数不同(例如不同的功率、标准之间的难度分布、要排除的论文比例、每个工作者的论文数量),则结果略有不同。我们稍后讨论质量和成本如何变化准则阶估计最优阶θ,α(9) #M次运行迭代(10) 对于每个c∈准则阶(11)Vc←collectJ votes onU I onc在本文中,我们比较和讨论算法。(12)CIc←exclude_items(V0,thr)(13)CIoutCI ∪ CI c,U I ← U I − CI c(14) CI←tagUIasout出来4.2按标准列出的多次运行策略多跑策略紧随上述脚步(十五)在←CI CI CI输入返回CI“IN项目”在人群数据库中查询优化的方法确定最具选择性的标准,并根据这些标准进行查询这里的区别是我们还估计和考虑准确性(我们我不想询问群众,如果这带来了很高的分歧,因为它是不太符合成本效益),我们的工作与一个指定的损失首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂59在(∈)(∈)≥∈。i,c(∈|)ii()下一页(∈)i,c函数和基于作者选择的价格与损失权衡算法如下进行基线迭代。我们首先通过基线迭代(运行k = 0)在候选论文集I的随机选择的子集I 0上估计功率和难度,如算法1所示(我们将在稍后的论文中返回关于确定I 0应该有多大)。在步骤4中,我们对项目进行分类,并使用分类算法估计每个工作人员的准确度,该算法还提供准确度估计,例如TruthFinder(TF)[7]。当TF估计类概率时,我们将准则c的功效估计为准则应用的概率的期望值,如步骤7所示相反,我们通过工人对给定标准的平均准确度来参考标准c的难度,即,通过测试问题的用户给出正确投票的平均概率的搜索.标准排名。如果一个标准比另一个更强大、更容易,那么找到最佳排序是微不足道的。否则,不同的排序可能会导致价格/损失点在帕累托边界上,需要向作者展示以供决策。数量这是通过最大化在下一次运行中(正确地)将其分类为out的概率来测试每篇论文的下一个标准,并且我们甚至可以决定放弃一篇论文(留下它),因为我们意识到对于人群来说达成共识太难(或太昂贵),或者因为我们将其分类为out的概率很低。换句话说,我们的目标是排除那些我们可以便宜而自信地完成的论文,把剩下的留给专家(作者)。在极端情况下,我们希望每次运行由针对一个标准的一张纸的一张选票组成(因此称为“短期运行”)。每次我们得到一张选票,我们都会学到一些新的东西,我们可以利用这些知识来优化我们要求的下一张选票在实践中,如果我们使用典型的众包引擎的基本设置,运行不能要求一票(花时间让一个人解释任务和标准并在一票后停止是没有意义的)。在下文中,我们通过首先呈现每一步骤背后的直觉并且然后示出SM(参见算法2)来相关数学我们从迭代0开始,得到一个空的分类项集合的标准通常是低的,使得考虑排序不是平凡的所有情况的排列是易处理的。我们在步骤8中这样做进出:CI00出来=。我们假设作者设置通过计算每个订单的预期价格和损失的不同值的Nt和J。价格和损失的计算可以像前面的算法那样进行请注意,排序非常重要:给定标准OC= c0,c1,…cn,错误地排除项目的概率(错误排除概率,或PFE)是在第一轮(在c0上),加上正确包含的概率三个sholds用于错误的包含和排除,即值Pout和Pin,因此如果P i OUT Pout,则我们将论文i分类为out,并且类似地对于P i IN。因此,请注意,在SM中,作者设置了期望的精度(正如我们将看到的,可能以代价和召回为代价,但精度在SLR 中通常是不可协商的,因为错误排除是昂贵的)。基线估计。我们执行一个小的基线运行,如以前的方法,估计功效θ0和难度(准确度)它在c0之后,但错误地将它排除在c1之后,等等。更α0c形式上,用PFEc表示错误排除的概率c(算法2,步骤2)。实验已经向我们表明,50个项目的基线通常足以作为初始估计当处理准则c时的概率,并且对于PINc,根据标准c将论文分类为IN:(如下节所述),同时考虑到我们在继续进行时会修改估算。PFE=PFE0+M.一,二。。nPFEmm−1j=0 引脚j(3)排除概率估计。 这里我们开始迭代。在每次运行众包之前,我们尝试识别,对于每个项目,并且给定到目前为止对于每个论文i获得的投票Vi,其中因此,PFE随着PIN而减小,并且在实践中它减小标准更可能有效地过滤纸张。换句话说,对于每个标准c,我们确定suc的最小数量Nmin如果我们首先筛选高功率标准,则会急剧增加我们需要淘汰票mini,c超过30%的功率是很常见的。众包迭代。算法迭代通过标准,排除项目(在步骤12中基于TF再次M-运行的结果(橙色)与基线sin-比较图2b和图2c显示了角运行算法(蓝色),显示了不同Nt和J值的损失和精度与价格的关系。的如果我们把Ni,c加到Vi上(结果是一个“虚”的投票集V ′),那么Pi OUT V ′> Pout,因此我们排除了这篇论文并停止了对它的研究。直观地说,对于每个项目,我们希望选择具有低Nmin(投票数低,因此成本低)和高概率的标准P(N min),得到这些选票。模拟参数与前面描述的相同的i,c请注意,在(纸张i)上的每一次投票,准则C.我们会移动节省大约为20%,并且如果功率和准确度方面的标准多样性较高,则节省通常更高。4.3短自适应多行程以前的算法对所有待分类的论文应用相同的策略。短自适应多行程算法(简称SM)(算法2)相反地针对每个自适应多行程算法定义单独的策略P_i_OUT更接近或更远离阈值P_out。这将改变我们的Nmin,并且可能改变下一轮的所选标准i,c被淘汰的概率也会发生变化,并且当该标准的准确性更高时,这种变化会更强烈。更正式地,我们继续如下。如果我们用k表示到目前为止运行的迭代次数,用Vk表示获得的投票要标记的项目,旨在确定决策的最短路径在前k次运行中,然后通过应用贝叶斯规则,我们有:这个想法是,当我们收集选票时,我们更了解统计特性的整体SLR任务(如标准的权力和难度),也是每一个具体的文件,根据投票获得的文件到目前为止。因此,我们可以估计4通过独立或在商业引擎之上的特别实现,以及快速估计,可能实现一票运行,尽管这里的关键优化在于个性化策略:最重要的方面不是在每次运行中最多要求一票,而是要求每篇论文一票∪CI首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂60i,ci,ci,c联系我们i,c(五)i,ci,c得双曲余切值.i,c←∪←i,c我i,c(15)Pk(i∈IN/Vk)←c∈CP(i∈INc/Vk)i,cC算法2:SM-游程算法得到一个集合,我们记为Vk←n,当n使得输入:I、C、lr、P出来 ,PinP(i ∈ OUT |V k ←n)> Pout。输出:CI={CI输入,CI输出}(1) Cl、UII、k0(2) #基线迭代(与算法1基线相同)为了评估针对项目i的标准c获得Nmin个投票的概率,我们通过首先计算下一个投票被淘汰的概率来进行,如下5(所有概率都以迄今为止获得的投票为条件):(3)→ CI,V 0,θ0,α0P(vk +1 = OUT)= αc *(1 − Pk(I ∈ INc))+(1 − αc)Pk(I∈ INc)).00 0i,c i i(4)对于每个i∈U I:P(i∈INc/Vi,c)←(1−θc)#SM-运行迭代然后,我们迭代这个公式,以获得下一个投票的概率,记住Pk(I∈INc)将有(6)当U I≠ø时由于额外的投票而改变我(7)k←k+1(8)foreachi∈U I榜我们通过权衡成本(N min)对每个项目的标准进行排序和成功的概率(概率P(Vk+1,k+n=OUT))P(Vk+1,k+n=OUT)得了i,c(9)c(i)←argmaxc∈Ci,cmini,cNmin连续出局票数)。我们定义ap的值(10)i上检查停止条件K以一个标准作为我们为单位概率付出的代价在接下来的Nmin投票中将项目分类为out的可能性,即(11)我←具有最高p(i)的N个项目k1,k ni,c(12)对于每个i∈Ik是:值i,c=P(Vi++= OUT)/N min然后我们借用想法(13)vk←在i上为c收集投票从查询处理中的谓词排名优化[12](14)i,cVk←Vk−1 ∪vk.我基本上基于选择性/成本进行排名(尽管这里我们对每个项目进行排名,并在每次迭代中对其进行评估应用相同的i,c(16)Pk(i ∈ OUT |V k)← 1 − P(i ∈IN/V k)值i=maxP(Vk+1,k+n=OUT)/Nmin我我(17)如果P(i ∈ IN |V k)> Pinc∈Ci,ci,c(18)词(19)我←CIin ∪ {i}在开发SM的过程中,我们探索了替代方法:我们探讨的一个问题涉及估计P(i∈OUT)如何可能(20)如果(21)(22)(23)UI←UI−k{i}P(i∈OUT|Vi)>PutCIout←CIout∪ {i}U I←U I − {i}如果我们要求对c投一票,则会改变,以试图驱动我们选择下一次要投哪一票通过相对简单的数学,我们可以估计下一次投票的可能性,以及这对P(i∈OUT)的影响,我们可以选择标准按照算法1,步骤7更新功率(24) CIdif f_items将UI标记为“IN items”(25) CI CI CIdif f_items(26) 返回CI让我们更接近临界点。然而,该初始选择具有不期望的行为:如果存在低精度、高功率标准,则它导致我们选择该标准。然而,低准确性意味着我们只能向阈值迈出一小步,这使得步行时间长且昂贵。相反,我们选择的标准,可以提供大的变化对出阈值。停下来。 当我们迭代时,我们可以看到Valuei可能很低kkPk(V k |i ∈ INc)*(1 −θk −1)(例如,如果我们得到相互冲突的投票),它就变得无效P(i∈INc|Vi,c)=i,cCPk(Vk)(四)在人群中进行民意因此我们可以停止值i低于基于作者的阈值的论文在公式中,在第一次运行(k=1)之后,项θk−1是偏好(注意,我们忽略了已经花费在符合标准c的论文比例基线。ˆC应用,计算如下这是一种“沉没成本”(sunk cost)。这里的合理阈值取决于在上的单个投票的人群成本的成本比cr然后在每次运行后更新θc等式4右侧的两个Pk因子可以被确定。一篇论文和标准(来自公式1的PPL)除以作者分类成本。费用比越低,越方便如下挖掘,其中Jc表示标记的项目i的数量对于标准c:于第一次那就是坚持群众路线。对于典型的成本比率,考虑文献中估计的分类成本(参见,例如,[28])kk. JcΣJcJcJ约2美元每摘要(对于美国,在医学领域和和 P(Vi,c |i ∈INc)=我C于第一次(αc)i,in*(1−αc)i,out(5)包括开销),则良好的经验设置的阈值是100。我们在此不进一步讨论此阈值,但请参考感兴趣详情请访问http://jointreserch.netPk(V k)= Pk(V k |i ∈ INc)*(1 −θk −1)+(六)众包迭代。排序确定的优先级i,ci,cc下一批投票批大小是指Pk(V k |i ∈ OUTc)∠θk −1N我逻辑我们寻找每一篇论文的最大值的标准首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂61i,ci,ci,c在确保每个员工都能获得价值的现在我们知道如何计算Pk(i ∈ INc |V_k)和P(i ∈ OUT|从等式2,我们可以计算排除概率如何随着我们添加n= 1,2,…投票给Vk他们花在学习和完成任务上的时间在实践中5为了简化演示,我们在这里采用一个单一的标准准确度值,而不是混淆矩阵。首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂62][[][(∈)图2:算法的行为。图表模拟了1000张纸,四个标准的权力=c1 = 0。14,c2 = 0。14,c 3 = 0。28,c4 = 0。42,Nt=2,3,…10,Ir=5。工人被假定为作弊者的概率为0.3,其余工人的准确率在(0.5-1)之间。从实验中可以看出,OUT纸的准确性要高出10%有关说明,请参见文本提供少于10个项目的批次很少有意义,因为它们不太吸引人。我们返回到人群中,为该批次中的每篇论文再要求一次投票,如上所述确定排除概率,并且如果P1OUT> Pout,则将论文分类为out。如果没有更多的论文要分类,我们就停止,否则我们迭代。接下来,我们分析的算法的结果,并讨论其属性,也在光众包实验。5分析和实验模拟。 我们首先通过模拟显示的算法的行为。这里提出的策略有许多参数,当我们改变这些参数时,行为会以有趣的方式变化。在这里,我们仅限于指出我们发现特别有趣的一些方面,并为感兴趣的读者提供在线深入分析,以及复制实验6的模拟和分析的代码。 我们还提醒,作者不设置或估计任何参数:他们只需要说明他们的损失函数和偏好给定的损失与价格点时,没有帕累托最优值。图2显示了使用1000篇论文和标题中描述的参数进行模拟运行的结果它绘制了SM策略的损失与价格曲线,与其他算法讨论的情况相同(这里采用的SM变体运行了1000篇论文,假设停止阈值为100,并显示了50次模拟的平均值P输出为0.99。图2(a)和(b)示出了SM可以以成本的一小部分实现相同的损失和精度(两者都可以通过改变P来改进,尽管增加了价格)7。注意,当我们增加测试次数Nt时,价格和损失都会下降(至少在最初),这是我们增加工人准确性(和成本)的“旋钮”。这是因为SM检测到增加的准确性,并通过在相同的损失和准确性下要求更少的投票来适应它图2c示出了ROC曲线,其中我们可以看到SM以小得多的价格具有更大的面积对于θ、J的其他值(以及Nt和ROC曲线),图表在形状和趋势方面是类似的图2d再次显示了损失与价格的关系,但这次假设存在非常困难的标准(准确度为0.55),并显示了SM对损失的鲁棒性(即使我们在这里使用了非常6http://jointresearch.net7我们省略了绘制标准条,因为它们会使图表无法阅读首页>外文书>人文>心理励志> Crowdsourcing and HumanComputation for the WebWWW 2018,2018年4月23日至27日,法国里昂63图3:SLR的分类任务图2e和2f分别示出了准确度的估计误差对精确度和召回率的影响。请注意,如果我们低估(橙色线),我们将获得更高的精度(我们更保守)。对于召回率,如果我们低估了准确率,而准确率很低(Nt很低),那么我们的召回率就会很低:我们很早就放弃了,把论文留给作者分类。 随着准确度的提高,差异逐渐平滑,并在方差范围内。 功率估计误差的图表具有基本相同的形状并且未示出。基线运行和每张纸的标签数量影响估计误差。 问题不在于基线中的论文数量:40-50篇论文足以在5-7%的误差范围内估计功率(考虑类似于估计以Beta分布建模的硬币的公平性的问题,50次投掷将给出合理的估计)。此外,随着时间的推移,估计数会被重新评估。这里的关键是能够实现良好的准确度估计,并且实验已经表明,在每篇论文少于3票的情况下,估计误差增长超过10%,并且在低准确度标准的情况下,这可以产生非常低的召回率(因为我们可能认为准确度为0.5)。停止阈值变化的实验也产生有限的效果。当从100到150时,召回率增加了约0.04%,始终保持精度阈值为0.99。价格差异也可以忽略不计。实验在2017年1月至9月期间,我们对两个商业众包引擎(CrowdFlower和Mechanical Turk)进行了一系列研究和实验。我们运行了一个社会科学)审查对抗孤独的技术(双盲省略参考文献),另一个在医学[38]中具有更复杂的排除标准。我们收集了超过3200名受访者的投票这些初步研究帮助我们了解问题的本质,估计人群准确性,了解延迟和成本,并改进任务设计,尽管与我们的目标正交,但对于获得良好的结果很重要[42]。在下文中,我们专注于实验以评估SM相对于其他算法和基线的有效性Setup. 为此,我们分类374篇论文的AMT发布任务,要求人群工作人员根据一个标准对许多论文进行分类。我们要求工人的HIT批准率为70%或更高。 该任务首先向工作人员解释标准,提供一个正面和一个负面的例子,然后要求将论文标记为“在文本中”、“在文本中”或“不清楚”(图3)。增加后一个选项是以前实验的结果,许多工人抱怨没有这个选项,不确定该回答什么才有资格获
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功