众包实验设计指南：最佳工作者和任务的分配

16 浏览量更新于2023-10-16 收藏 13.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11090CrowdED：最佳众包实验设计指南0AmrapaliZaveri数据科学研究所，马斯特里赫特大学，荷兰林堡省，马斯特里赫特，荷兰，amrapali.zaveri@maastrichtuniversity.nl0Pedro HernandezSerrano数据科学研究所，马斯特里赫特大学，荷兰林堡省，马斯特里赫特，荷兰，p.hernandezserrano@maastrichtuniversity.nl0ManishaDesai斯坦福大学，美国斯坦福，manishad@stanford.edu0MichelDumontier数据科学研究所，马斯特里赫特大学，荷兰林堡省，马斯特里赫特，荷兰，michel.dumontier@maastrichtuniversity.nl0摘要0众包涉及创建HIT（人工智能任务），将其提交到众包平台，并为每个HIT提供货币奖励。使用众包的一个优点是任务可以高度并行化，即由大量工作者在分散的环境中完成工作。该设计还提供了一种通过将每个任务分配给多个人来交叉检查答案准确性的方法，并根据工作者的表现和生产力奖励工作者。由于每个工作者按任务付费，无论结果的整体准确性如何，成本都可能显著增加。因此，在处理大量任务时，设计此类众包任务时一个重要的问题是雇用多少工作者以及每个工作者分配多少任务。也就是说，我们旨在回答的主要研究问题是：“我们能否预先估计最佳工作者和任务的分配，以在所有任务上获得最大准确性？”因此，我们引入了一个两阶段的统计指南CrowdED，用于最佳众包实验设计，以预先估计最佳工作者和任务的分配，以在所有任务上获得最大准确性。我们描述了算法并提供了初步结果和讨论。我们使用Python实现了该算法，并在Github上公开提供，为用户提供Jupyter Notebook和RShiny应用程序，以便用户重新使用、交互和应用于自己的众包实验。0CCS概念0• 信息系统 → 众包；• 人类中心计算 →人机交互设计和评估方法；用户模型；人机交互设计的理论、概念和模型；用户研究；人机交互（HCI）；• 应用计算 →生命和医学科学；0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂。©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915430关键词0众包，生物医学，元数据，数据质量，FAIR，可重复性0ACM参考格式：Amrapali Zaveri，Pedro Hernandez Serrano，ManishaDesai和MichelDumontier。2018年。CrowdED：最佳众包实验设计指南。在WWW'18Companion：2018年Web会议Companion，2018年4月23日至27日，法国里昂。ACM，纽约，美国，8页。https://doi.org/10.1145/3184558.319154301 众包作为质量评估的手段0研究人员们在全球范围内以前所未有的速度产生了大量的（生物医学）数据。然而，为了实现这些数据的再利用，迫切需要了解实验数据的结构、产生这些数据的条件以及其他研究人员可能需要理解数据的相关信息[4]。也就是说，需要对数据进行良好质量的描述，即元数据，这是结构化、准确和完整的描述。良好质量的元数据对于发现、解释和重用原始研究人员未曾设想的现有数据至关重要。这反过来可以通过组合和分析类似数据来揭示新的见解，甚至是数据中更微妙的趋势。然后，这些见解可以形成假设，在实验室中进行测试[11]。我们提出的一种评估生物医学元数据质量的方法之一是利用微任务众包，即非专家工作者，以减少领域专家进行相同评估所需的成本和时间[8]。众包涉及创建HIT（人工智能任务），将其提交到众包平台（例如亚马逊机械土耳其（MTurk）1），并为每个HIT提供货币奖励[8]。这些任务主要依赖于基本的人类能力和自然语言理解，而不是领域知识等已获得的技能。通过MTurk等微任务平台解决的任务中很大一部分可以称为“例行任务”-识别图像中的对象，转录音频和视频材料以及文本编辑。01 http://mturk.com0主题：增强人机智能的人机协同 WWW 2018年4月23日至27日，法国里昂3CROWDED11100使用众包的一个优势是任务可以高度并行化，即在分散的环境中由大量工作者执行工作。该设计还通过将每个任务分配给多个人来交叉检查答案的准确性，并根据工作者的表现和生产力奖励工作者。由于每个工作者按任务付费，无论结果的整体准确性如何，成本都可能显著增加。因此，在设计此类众包任务时，一个重要的问题是在处理大量任务时要雇佣多少工作者，每个工作者分配多少任务。也就是说，我们如何优化地设计任务，以便正确组合工作者和任务能够产生最大的准确性，并且我们能否事先确定这个数字。为了确定工作者数量以及任务数量，以便解决这个问题，我们提出了CrowdED，一个两阶段的众包实验设计。CrowdED提供了一个指导方针，用于设计最佳的众包实验。我们旨在回答的主要研究问题是：我们能否事先估计最佳工作者和任务分配，以在所有任务上获得最大的准确性？我们在第2节中描述了使用案例。我们在第3节中描述了我们的两阶段统计指导方针CrowdED。第4节报告了初步结果。第5节讨论了相关工作。最后，我们在第6节中对未来工作进行了展望。02个使用案例：GEO元数据0在Web上有几个生物医学数据库中，基因表达数据库（GEO）是最大、最知名的生物医学数据库之一[11]。GEO是由研究社区提交的高通量微阵列和下一代测序功能基因组数据的国际公共存储库。GEO数据库托管了由3000个实验室直接提交的32000多个公共系列（研究记录），包括来自1600多个生物体的80万个样本（截至2012年）。在GEO中，样本记录描述了处理单个样本的具体条件、它经历的操作以及从中得出的每个元素的丰度测量。在样本中，我们特别选择了半结构化的“特征”字段，其中包含有关研究中使用的疾病、菌株、细胞系等的信息。此信息以键值对的格式捕获。目前，用户可以通过三种方式向GEO提交数据：（i）电子表格，（ii）SOFT格式（纯文本）或（iii）MINiML格式（XML）。当用户通过电子表格（即GEO存档电子表格）向GEO提交数据时，它要求他们填写遵循最小微阵列实验信息（MIAME）指南的元数据模板[1]。元数据模板包括标题、总体设计、摘要、协议（例如处理、提取、标记、杂交和数据处理）以及样本特征（例如生物体、细胞类型、组织）。提交后，策展人员检查所提供信息的内容和有效性[2]。这个过程不仅容易出错，而且耗时，考虑到所涉及的大量人工劳动。此外，没有标准化的0填充模板字段的术语集合，同一实体有不同版本，它们之间没有任何（语义）链接，因此导致了多个质量问题。质量问题包括不准确、不一致和不完整，这些问题阻碍了数据集的使用和使用这些数据的应用程序的可靠性。GEO中的4400万个键值对都存在这些质量问题，这引发了大规模策展的可扩展性问题。此外，由于缺乏领域专家来策展GEO中的大量数据，需要更高效的方法来策展元数据。因此，我们提出使用众包来进行元数据质量评估。我们将一个微任务设计为给定键的正确类别的分类任务。这些键类别属于GEO中出现频率最高的键。此外，还向工作者提供了五个最常出现的值。例如，将键“特定疾病存活年数”与五个键类别“细胞系”、“疾病”、“性别”、“菌株”和“时间”一起提供给工作者，以及值8.22、17.66、4.51、0.89和12.19。工作者的任务是选择给定键所属的“一个”类别。在这个例子中，工作者应该选择“时间”作为正确答案，因为这些值是表示时间段的数字。然而，由于GEO中有4400万个键值对，我们面临一个问题，即要雇佣多少工作者才能进行这种大规模的策展，每个工作者分配多少任务才能达到最大的共识准确性。这导致了CrowdED的设计，如下一节所述。0在本节中，我们描述了两阶段设计的详细信息，为此我们提供了选择最佳工人数量以获得实验最大准确性的指导。图1提供了CrowdED指南的概述，分为两个阶段。我们假设工人的任务（如第2节所述）是在五个给定的关键类别中选择一个正确答案。有两个阶段，第一阶段收集任务难度和工人能力的信息。然后根据从第一阶段学到的内容设计第二阶段。03.1 阶段10在第一阶段，用户（请求者）可以选择配置以下变量，这些变量代表用户的先验假设。如果未指定，默认（示例）值将被假定，如括号中所示。0• 任务数量（100） • 工人数量（40） •每个工人分配的任务数量（7） •易（或难）任务的比例（难任务-0.2） •能干或所谓的好（或不太能干或差）工人的比例（能干工人-0.8） •训练任务的比例（0.4）选择每个任务的工人数量，使其为奇数，大于可能答案的数量。选择此参数是为了处理没有共识的情况。0Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, 2018年4月23日至27日，法国里昂pw =pt =2https://www.ma.utexas.edu/users/parker/sampling/repl.htm(7 in our example) are assigned to each task and the worker answeris generated.In practice, true answers will not be known, and thus we rely onan agreement statistic to gauge the performance of the worker us-ing the following metric: the average proportion of times a workeris in agreement with other workers for a given tasks over all tasksconsidered by the worker. The range of the performance valuespans from 0 to 1. The values close to 1 indicate that the the workerhad large consensus with other workers. Values close to 0 indicatethat there was no consensus for that worker among other workers.Then, cut off values, above the median, of the performance of theworker and also the probability of getting the answer right is setto choose which workers get carried forward to Stage 2. The prob-ability and the performance of the worker is combined since it isnot always the case that the workers who had a high probability ofgetting the answer right in the beginning necessarily performedwell in the actual tasks. Thus, this combination ensures that the bestworkers with high probabilities for both measures are identified.Additionally, for each task we determine whether it is an easy orhard task based on the workers’ answers. That is, for all pairwisecomparisons between the workers’ answer the truth, we matchhow many pairs of workers arrived at the same answer for eachtask.At the end of Stage 1, we get:11110图1：CrowdED算法的概述，显示了两个阶段中涉及的步骤。0（例如，如果有5个可能的答案，每个工人选择不同的答案）。在我们的用例中，答案的数量是5，因此每个任务的工人数量设置为7。然而，每个工人可以有超过7个任务，因为我们希望确保（40％的）训练任务已由一些工人评估过。在设置初始参数后，算法随机分配（无替换）哪些任务和工人是易／难和好／差。此外，每个任务的正确答案是通过从答案集合中随机选择来生成的，以便它们在所有任务中均匀分布。接下来，在以下假设下计算每个工人和每个任务获得正确答案的准确概率。0p w ≥ 3 / 4 , 如果能干的工人 1 / 2 < p w < 3 / 4 , 如果不太能干的工人 0 , 否则0p t ≥ 3 / 4 , 如果易任务 1 /2 < p t < 3 / 4 ,如果难任务 0 , 否则0Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France}�tip = nC4https://github.com/pedrohserrano/crowdED/blob/master/notebooks/Crowdsourcing.ipynb5https://shiny.rstudio.com/Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France11120•差劲的工作者，即那些在执行相同任务的其他工作者中没有达到高一致性的工作者。-这些工作者被标记并且不被选择进入阶段2。 •最佳工作者，即表现良好且在开始时被分配为良好工作者状态的工作者。- 这些工作者被选择进入阶段2。 •简单任务，即预测性能为3/4至1的任务。-这些任务被认为已经达到多数共识，并且不会被继续进行阶段2的重新评估。 •困难任务，即预测性能低于3/4的任务。也就是说，在阶段1中没有达到多数共识的任务。-这些任务随后被继续进行阶段2的重新评估。- 未分配任务�实验中的总任务数（100）减去用于训练的任务比例（40）=60。03.2 阶段20在这个阶段，算法将困难和未分配的任务分配给最佳工作者，生成工作者的答案并计算所有任务的整体准确性。阶段2从以下开始：0• 最佳工作者 •困难任务 •未分配任务0在最佳工作者被分配到剩余任务之前，应确保工作者不执行他们在阶段1中被分配的相同任务。为了确保这一点，使用以下伪代码：0对于每个任务，选择奇数个工作者，检查这些工作者是否已经完成了该任务并将其排除，计算剩余任务数，当工作者数量与每个任务的工作者数量变量相同时，重新选择这些工作者。0然后，生成工作者答案，如阶段1中所述。接下来，计算每个工作者的表现。最后，合并阶段1和阶段2的所有任务数据，得到所有任务和所有工作者的最终数据集。在合并数据集之后，根据工作者答案的多数共识为每个任务分配最终答案3。此外，还计算了工作者回答正确的任务比例。最后，使用下面描述的公式计算所有任务和工作者的准确性。设 T = 实验中的总任务数设 � t i = （正确回答任务 t i 的工作者数量）/（执行任务t i 的工作者数量），其中 � t i ∈ [ 0 , 1 ] 设 C = 成功达成共识的任务子集大于103 这是因为有些情况下，工作者们可能会收敛到与真值不同的答案，这并不一定是错误的。0超过一半表示多数。设 n C = 子集 C中的元素数量。则子集 C 定义如下：0C = { � � t i | � t i > 10最后，共识准确性是子集 C的以下两个统计量的组合。共识的平均值：0� a =10�0一致性比例：0T0共识比例可以看作是达成共识的任务的百分比，而共识的平均值则表示共识的准确性。这些共识值有助于确定准确性，从而确定总任务所需的最佳工作者数量。03.3 实施0该算法使用Python编写，并可在https://github.com/pedrohserrano/crowdED 上公开使用。可在https://pypi.python.org/pypi/crowdED上获取Python包（需要Python3或更高版本），可以使用CrowdED测试自己的值。还提供了一个JupyterNotebook版本，其中可以查看CrowdED的确切步骤。此外，我们提供了一个用户界面，使用R Shiny apps 5 构建，可在https://pedrohserrano.shinyapps.io/crowdapp/上进行可视化，以展示变量之间的交互作用及其对整体准确性的影响（如图5所示）。尽管在这个阶段，该应用程序不允许直接用户输入（这是未来工作的一部分），但在“分析”选项卡中，可以改变模拟次数以查看准确性的影响，以图形的形式呈现。04 初步结果0我们通过生成变量的随机值分布来测试我们的算法，如下所示：0• 任务 = [60, 80, 100, 120, 140, 160, 180] • 工人 = [20,30, 40] • 答案关键字 = ["肝脏", "血液", "肺", "脑","心脏"] • 优秀工人 = [0 . 1, 0 . 3, 0 . 5, 0 . 7, 0 . 9] •困难任务 = [0 . 1, 0 . 3, 0 . 5, 0 . 7, 0 . 9] • 训练任务比例= [0 . 2, 0 . 3, 0 . 4, 0 . 5, 0 . 6] • 每个任务的工人数量 =[3, 5, 7, 9, 11]0总共有13,125个组合被测试了每个变量，每个组合被模拟了一千次，初步结果如下所述。11130(a) 优秀工人的比例0(b) 困难任务的比例0图2：(a)矩阵显示不同任务数量、工人数量和不同比例的优秀工人的准确性值。较深的绿色单元格表示较高的准确性，而蓝色单元格表示较低的准确性。结果表明，一开始就有优秀的工人并不总是导致高准确性。工人的绩效与他们是否是优秀工人的组合确保他们是最好的工人。这就是为什么我们需要一个两阶段的众包设计。(b)矩阵显示不同任务数量、工人数量和不同比例的困难任务的准确性值。较深的绿色单元格表示较高的准确性，而蓝色单元格表示较低的准确性。结果支持我们的直觉，即困难任务越少(10%)，准确性越高。0优秀和普通工人的比例。在大多数众包平台上，我们可以在发布任务之前选择“优秀”工人。例如，在Mturk上，可以通过指定他们的HIT（人工智能任务）接受率来选择所谓的“Master工人”。这些工人被分配这个状态取决于他们在所有尝试的任务中的表现和接受率。然而，根据我们的结果，我们观察到一开始就有优秀的工人并不总是导致高准确性。图2(a)显示了一个矩阵，其中包含不同任务数量、工人数量和不同比例的优秀工人的准确性值。较深的绿色单元格表示较高的准确性，而蓝色单元格表示较低的准确性。在开始时有90%的优秀工人，准确性范围从0.82到0.86，而只有10%的任务时，准确性范围从0.84到0.88。因此，关于一开始应该有多少优秀工人的比例是没有定论的。然而，采用两阶段算法可以确保只选择最好的工人来执行所有任务。因此，通过计算工人的绩效以及她是否是优秀工人（从一开始）来确定她是最好的工人。这就是为什么我们需要一个两阶段的众包设计来测试工人。0通过选择只有最好的工人来执行全部任务，以实现高准确性。0简单和困难任务的比例。我们确定了困难和简单任务比例对准确性的影响。图2(b)显示了不同任务数量、工人数量和不同比例的困难任务的准确性值的矩阵。较深的绿色单元格表示较高的准确性，而蓝色单元格表示较低的准确性。有10%的困难任务时，准确性范围从0.88到0.9，而有90%的困难任务时，准确性范围从0.78到0.8。结果支持这样的直觉，即任务难度降低（10%）会导致更高的准确性。0培训任务比例。我们分析了在第一阶段应该培训的总任务比例的理想结果。图3显示了不同工人每个任务和在第一阶段培训的任务百分比的准确性值的热力图。较深的绿色气泡表示较高的准确性，而蓝色气泡表示较低的准确性。气泡内的值中，‘a’表示平均值，‘p’表示共识比例（如第3节所述）。使用20%、30%、40%的培训任务和3、5、7和9名工人每个任务，准确性‘a’较低，而使用3、5和7名工人每个任务的40%、50%、60%的培训任务，准确性‘a’较高。结果表明理想情况是使用0Track: 人机协同增强智能 WWW 2018年4月23日至27日，法国里昂11140每个任务需要3、5或7名工人，并在第一阶段培训40%至60%的任务以达到高准确性。0每个任务的工人数量。我们研究了每个任务的工人数量如何影响准确性和共识比例。图4显示了所有任务上的所有工人与准确性比例和共识比例的关系（X轴），当每个任务的工人数量不同时（3、5、7和9）（Y轴）。使用3、5和7名工人每个任务时，共识的准确性保持在0.8至0.9的范围内稳定。然而，使用9名工人每个任务时，准确性显著下降。此外，使用3、5和7名工人每个任务时，共识比例随着每种变化均匀增加，并且具有显著的p值。然而，使用9名工人每个任务时，准确性比例也随之减少，并且p值不显著。结果表明，在每个任务的工人数量超过9名后，准确性和共识比例会降低。0总体结果。这些模拟的初步结果表明，为了达到高准确性：0• 工人数量应占总任务数量的40%至60% •在第一阶段培训任务的40%至60% •每个任务的工人数量应为3、5或7（或少于9） •减少困难任务的数量 • 采用两阶段算法来确定最佳工人05 相关工作0已经有实证研究确定了每个任务的“最佳”工人数量。然而，这些研究只关注其领域或手头的任务。例如，有一种自适应模型[10]研究了任务复杂性增加的不同场景与工人质量的关系。这种策略特别适用于标注任务。然而，他们假设所有工人的质量相同。另一种策略是使用主动学习算法（实时更改任务分配）来最小化向群众提问的数量，以最大化任务数量[9]。然而，据报道，这种模型在实际实验中非常昂贵。另一项研究根据工人的质量分配任务，并建议，例如，3到8名工人是理想的[3]。在[13]中，使用从广义知识库创建的测试问题来估计新工人的可靠性。他们的结果表明，这种方法的表现优于使用黄金标准任务的自动选择知识库问题的质量控制[12]。两个模型[5]和[6]分别提供了成本-质量和成本-时间优化的方法。然而，前者的重点是每个任务，并要求根据总任务进展来设置工资。后者假设每个任务的工人数量固定，并且不通过根据每个任务的难度来采用可变数量的工人来优化质量。最近的一项研究[7]引入了一个名为OCTOPUS的AI代理，0为了共同平衡工作质量、总成本和完成时间，并显著优于现有的最先进方法。然而，OCTOPUS只测试了包含二进制选择答案的任务。CrowdED与所有这些研究都不同，因为它提供了一个两阶段的统计模型，可以先估计每个任务分配给多少工作者以获得最高准确性，而OCTOPUS则是实时优化。06 结论和未来工作0在本文中，我们描述了一个两阶段的统计指南CrowdED，用于设计最佳众包任务，以先验地估计最佳工作者和任务分配，以获得所有任务的最高准确性。我们使用Python实现了该算法，并在Github上公开提供了一个Python包，提供了一个Jupyter Notebook和一个RShiny应用程序，供用户重用、交互和应用于自己的众包实验。我们的初步结果表明，为了实现任务的最高准确性，每个变量的“最佳”值。这是回答我们的研究问题的第一步，即先估计最佳任务-工作者分配以实现高准确性。在这个阶段，CrowdED只模拟多项选择题类型的众包实验，而不是自由文本答案。在未来的工作中，我们将探索自然语言处理（NLP）方法评估自由文本答案的准确性的可行性。作为未来工作的一部分，我们将评估该设计的操作特性，并对我们的用例以及其他真实世界的输入数据上的算法进行测试。此外，我们将将这些方法的结果与标准众包平台（如Crowd- Flower6，MTurk）的基线方法进行比较。此外，我们将考虑优化算法中的预算限制。此外，我们将扩展界面，使用户可以改变参数和假设，以查看设计对各种假设的敏感性。07 致谢0作者们要感谢NCATS（国家推进转化科学中心https://ncats.nih.gov/）Deeplink资助项目（编号35700002N）。0参考文献0[1] Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C,Aach J, Ansorge W, Ball CA, Causton HC, Gaasterland T, Glenisson P, Holstege FC,Kim IF, Markowitz V, Matese JC, Parkinson H, Robinson A, Sarkans U,Schulze-Kremer S, Stewart J, Taylor R, Vilo J, and Vingron M. 2011.微阵列实验的最小信息（MIAME）-迈向微阵列数据的标准。《自然遗传学》29（2011），365-371。第4期。[2] Tanya Barrett，Dennis B. Troup，Stephen E. Wilhite，PierreLedoux，Carlos Evan- gelista，Irene F. Kim，Maxim Tomashevsky，Kimberly A.Marshall，Katherine H. Phillippy，Patti M. Sherman，Rolf N. Muertter，MichelleHolko，Oluwabukunmi Ayanbule，Andrey Yefanov和Alexandra Soboleva。2011.NCBIGEO：功能基因组学数据集的存档超过10年。《核酸研究》39（2011），991-995。[3]Good BM，Nanis M，Wu C和Su AI。2015.PubMed摘要中疾病提及注释的微任务众包。Pac SympBiocomput。（2015），282-293。[4] C. L. Borgman。2012.共享研究数据的困境。《美国信息科学与技术协会杂志》63（2012），1059-1078。第6期。[5] Peng Dai，Christopher H. Lin，Mausam和Daniel S. Weld。2013.基于POMDP的众包工作流控制。《人工智能》202，1（2013年9月），52-85。https://doi.org/10.1016/j.artint.2013.06.00206 crowdflower.com0会议: 增强智能与人类在WWW 2018中的协同作用，2018年4月23日至27日，法国里昂11150图3：热图显示不同工作者每个任务的准确性与在第1阶段训练的任务百分比之间的关系。绿色气泡表示较高的准确性，而蓝色气泡表示较低的准确性。气泡内的值为共识的准确性‘a’和共识的比例‘p’。结果表明，每个任务使用3、5或7个工作者，并在第1阶段训练40%至60%的任务，以实现高准确性。0图4：对于不同的任务每个工作者的比例（X轴），准确性比例（上图）和共识比例（下图）对于不同的工作者数量（3，5，7和9）在Y轴上的图示。0[6] Yihan Gao and Aditya Parameswaran. 2014. 完成它们！人类计算的定价算法. Proc. VLDB Endow. 7, 14 (Oct. 2014), 1965–1976.https: //doi.org/10.14778/2733085.27331010会议：增强智能与人类在环中的WWW 2018，2018年4月23日至27日，法国里昂11160图5：CrowdED R Shiny应用程序的屏幕截图，显示在https://pedrohserrano.shinyapps.io/crowdapp/上可用的界面的beta版本。'分析'选项卡预先配置为默认值，并提供了一个用于10个模拟的滑块。每个模拟计算的准确性以图形方式表示。0[7] Karan Goel, Shreya Rajpal, and Mausam. 2017. Octopus:众包中成本-质量-时间优化的框架. CoRR abs/1702.03488 (2017). arXiv:1702.03488http://arxiv.org/abs/1702.03488 [8] Jeff Howe. 2006. 众包的崛起. Wired Magazine14, 6 (06 2006). http://www.wired.com/wired/archive/14.06/crowds.html [9] BarzanMozafari, Purna Sarkar, Michael Franklin, Michael Jordan, and Samuel Madden. 2014.将众包扩展到非常大的数据集：主动学习的案例. Proceedings of the VLDB Endowment8 (2014), 125–136. Issue 2. [10] Victor S. Sheng, Foster Provost, and Panagiotis G.Ipeirotis. 2008. 再标注一次？利用多个嘈杂标注者来提高数据质量和数据挖掘. InProceedings of the 14th ACM SIGKDD international conference on Knowledgediscovery and data mining . 614 – 622. [11] Barrett T, Wilhite SE, Ledoux P,Evangelista C, Kim IF, Tomashevsky M, Marshall KA, Phillippy KH, Sherman PM, HolkoM, Yefanov A, Lee H, Zhang N, Robertson0CL, Serova N, Davis S, and Soboleva A. 2013. NCBIGEO：功能基因组数据集的存档-更新. Nucleic Acids Research 41 (2013), 991 – 995.[12] U. Ul Hassan, S. O‘Riain, and E. Curry. 2013.专业知识评估对人类计算中任务路由质量的影响. Proceedings of the 2nd InternationalWorkshop on Social Media for Crowdsourcing and Human Computation (2013).[13] Umair ul Hassan, Amrapali Zaveri, Edgard Marx, Edward Curry, and JensLehmann. 2016. ACRyLIQ：利用DBpedia进行链接数据质量评估的自适应众包. InKnowledge Engineering and Knowledge Management , Eva Blomqvist, PaoloCiancarini, Francesco Poggi, and Fabio Vitali (Eds.). Springer InternationalPublishing, Cham, 681–696.0会议：增强智能与人类在环中的WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载