没有合适的资源?快使用搜索试试~ 我知道了~
11310探索批量主动学习在人机交互关系提取中的效率0Ismini Lourentzou伊利诺伊大学香槟分校,lourent2@illinois.edu0Daniel Gruhl IBMWatson研究实验室,美国纽约,dgruhl@us.ibm.com0Steve Welch IBMWatson研究实验室,美国纽约,welchs@us.ibm.com0摘要0领域特定的关系提取需要用于监督学习模型的训练数据,因此需要大量的标注工作。远程监督通常用于创建大规模的注释语料库,但这些方法需要处理固有的噪声。另一方面,主动学习方法可以通过选择最有益的示例进行标注来降低注释成本,以便学习一个好的模型。选择示例可以按顺序执行,即每次迭代选择一个示例,或者按批次执行,即每次迭代选择一组示例。批量大小的优化是每个实际应用主动学习中面临的实际问题,但通常被视为预先决定的参数。在这项工作中,我们研究了模型性能、批次中请求的标签数量以及每轮实时、领域特定关系提取所花费的时间之间的权衡。我们的结果表明,使用适当的批量大小可以产生竞争性的性能,甚至与完全顺序策略相比,同时大大减少训练时间。0CCS概念0• 信息系统 → 信息抽取;• 计算方法 →信息抽取;主动学习设置;神经网络;0关键词0关系提取;深度学习;主动学习;批量模式主动学习;神经网络0ACM参考格式:Ismini Lourentzou,Daniel Gruhl和SteveWelch。2018年。探索批量主动学习在人机交互关系提取中的效率。在WWW'18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,美国,8页。https://doi.org/10.1145/3184558.319154601 引言0许多重要的自然语言处理任务,如知识图谱补全和问答,需要语义关系分类,其目标是对非结构化文本中的实体之间的关系进行分类。这个任务的监督方法0本文发表在知识共享署名4.0国际(CC BY4.0)许可下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW'18 Companion,2018年4月23日至27日,法国里昂© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915460基于手工特征或深度神经网络学习表示的信息抽取方法都严重依赖于大量高质量的标注数据。大量标注数据的要求限制了神经模型在许多信息抽取任务中的应用,因为获取大量可靠的黄金标准验证数据通常是非常昂贵和具有挑战性的。为了解决这个问题,提出了主动学习和远程监督等方法。远程监督旨在对句子进行包级别的分类,其中一个包含噪声句子,提到了相同的实体对,但可能没有描述相同的关系。为了减少噪声,使用了多实例学习,然而这些方法不能处理句子级别的预测或者所有句子都不描述关系的包。此外,注释的覆盖范围在很大程度上取决于实体/关系的类型:虽然流行的关系将有很好的覆盖范围,但尾部关系可能没有很好地表示。因此,人工注释的整合至关重要,特别是对于存在许多尾部关系或许多提到实体但关系不成立的句子的领域(例如,在医学论坛中查找不良药物事件)。主动学习试图找到最有效的方法来查询未标记的数据,并以最小的人工监督学习分类器。在经典的主动学习设置中,每次迭代选择一个实例。然而,当与昂贵的复杂模型(如神经网络)结合使用时,顺序主动学习方法存在许多缺点:训练深度网络通常需要很长时间,因此在每个标签之后更新模型既需要等待下一个数据标记的人工注释时间,也需要计算资源。此外,由于用于训练神经网络的局部优化方法,一个单独的点很难对性能产生显著影响。因此,在实际应用中,批量主动学习通常是有用的,因为获取一批标签的成本可能远远低于获取相同数量的顺序个别标签请求的成本。当更新模型和选择下一个示例的时间过长时,这一点成立。但是,在标记预算约束下,效率和性能之间存在固有的权衡,因为大批量将导致模型更新频率较低和预测误差增加。关于批量模型主动学习相关工作的参数决策通常作为参数进行。然而,这些决策可能是次优的,因为它们不依赖于从数据分布或学习模型中获得的信息。因此,自动优化这些参数对于许多任务来说是一个重要的问题。理想情况下,我们希望有一种方法可以0主题:增强人类智能与人类在环中的作用WWW 2018年4月23日至27日,法国里昂11320无论未标记示例的数量如何,批量主动学习都能快速告诉我们批量大小,即低复杂度。在本文中,我们专注于应用神经模型从潜在的无限的Web和社交流数据中提取任意用户定义的关系。尽管批量主动学习具有优势,但在关系抽取方面的先前工作并未探索性能和批量大小之间的权衡,或者注释成本与训练延迟之间的权衡[5]。为了更好地理解关系抽取的注释成本的性质,我们在涉及人类注释者的十个实际关系抽取任务中进行了实证研究。更具体地说,我们尝试优化批量大小,以使模型性能保持在一个令人满意的水平,同时减少总体训练时间。本文的贡献是对于在任何用户感兴趣的领域和概念上提取关系的端到端神经网络框架中批量大小进行系统分析的方法。我们检查了几种流行的策略来选择下一个要呈现给人类注释者的示例:不确定性采样[26],QUIRE[22]以及通过从相同的神经模型中进行采样计算不确定性估计的最近提出的方法[15]。我们在公开可用的标准关系抽取数据集上测试了我们的假设,并在从用户生成的文本中提取药物和不良药物事件之间的因果关系的具有挑战性的任务上进行了测试。我们的实验结果表明,在主动学习中增加批量大小,直到大约五个示例,可以产生与顺序主动学习方法相当的结果。此外,我们建议始终让人类注释者保持忙碌,即使在模型更新期间也是如此,通过对稍微过时的信息进行训练和执行下一批选择。我们证明这种方法可以将总体训练时间减少约50%,而不会损害整体性能。本文的其余部分组织如下。我们在第2节中概述相关工作;我们在第3节中正式定义关系抽取问题并描述我们的实验;在公开可用的标准数据集上以及在医学领域中提取不良药物事件(第4.1节)方面,我们展示了我们的分析结果。最后,在第5节中,我们描述了我们工作的未来方向。02 相关工作 2.1 关系抽取0关系抽取的早期工作包括使用支持向量机(SVM)和基于核的方法,这些方法是最常用的方法[18, 39,60],包括为关系抽取设计的专用核函数[8, 34]和树核函数[12, 24, 58,60]。它们的主要缺点是依赖于人工设计的特征和语言知识,这些特征和语言知识以各种自然语言处理操作(词性标注、形态学、依存解析)的形式存在[7, 39,49],这使得它们难以扩展到新的实体关系类型、不同的散文风格、新的领域和其他语言。对于关系分类,深度学习模型受到了相当大的关注。卷积神经网络(CNN)已经得到了广泛的研究:使用词汇特征和同义词0类嵌入[29];加入词性标注、WordNet上位词和预训练词嵌入[59];包括依赖模式和依赖树[9, 31, 33,57];利用在大规模通用语料库上的预训练,然后在目标语料库上进行微调[27];依赖于词级别的注意机制来检测线索并学习哪些句子部分与给定的关系类型相关[45];通过结合词嵌入和聚类来提高关系抽取器在领域间的泛化能力[36]。一些工作还研究了用排名损失函数替换常见的软最大化损失函数[42],并添加了一种新颖的注意机制来捕捉与目标实体相关的词的相关性[53]。还探索了CNN和递归神经网络(RNN)的集成,其中包括一种新颖的句子分割机制和简单的投票方案[52],以及基于层次注意的RNN[30]。许多相关工作的主要缺点是模型是在已经存在(大量)手动注释的示例池的假设下构建的,在许多情况下,这种假设是不成立的:关系的定义高度依赖于具体任务和用户的观点,因此对于任何特定情况,很难立即获得已注释的数据。已经提出了几种方法来降低关系分类的注释成本。最突出的方法利用大型知识库自动标记文本中的实体[4, 16, 23,40],并绕过注释问题。这些方法依赖于远程监督,并假设当两个实体共同出现时,句子中表达了某种关系,然后尝试处理噪声[3, 28,41,54]。对于许多模棱两可的关系,仅仅共现并不能保证关系的存在,这些架构在预测任务上可能会失败。例如,在注释药物不良事件的数据时(见第4.1节),我们发现一半提到药物和不良药物事件的句子并不表达它们之间的因果关系1。仅仅依靠大型语料库构建的机器学习系统不太可能捕捉到不断演化的社交语言的微妙细微差别,包括新术语、短语和与正常用法的偏离。因此,人类知识至关重要,但人类监督可能很昂贵。主动学习方法通过选择最有用的示例进行人类注释来限制这种成本。我们简要讨论了如何在关系抽取相关工作中利用主动学习。02.2 关系提取的主动学习0Angeli等人[3]利用主动学习为远程监督关系提取器提供部分监督,使用少量精选的示例。他们表明,在2013年KBP英语槽填充任务中,10000个标记示例和大规模的远程标记数据可以显著提高性能。Sterckx等人[48]通过使用语义聚类和词嵌入进行噪声降低:他们对候选训练样本进行分层聚类,选择最可靠的样本。Fu和Grishman[14]建议将自训练与共同测试交替进行,以减少0在许多这样的情况下,你服用药物的条件是有提及的。例如,“我因头痛而服用阿司匹林”。0Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France11330注释成本。共同测试(采样方法)利用局部和全局数据视图[50]:一个依赖于关系短语相似性的全局分类器和一个使用一组词汇和句法特征的局部分类器。在主动学习中使用的实例排序标准的有效性,如不确定性[26]、代表性[22]或信息增益[15],高度依赖于底层数据和要提取的关系,很难确定任何标准与任务之间的强连接。此外,在关系提取相关工作中使用的方法假设是顺序主动学习设置,我们一次查询一个示例。然而,单个实例选择策略在处理训练神经模型时非常昂贵,涉及计算资源和等待人工注释者的时间,因为它们需要对每个标记的实例进行繁琐的重新训练。02.3 批处理模式主动学习0许多批处理模式主动学习方法已经扩展了单个实例选择策略或提出了基于所选批次的信息量或多样性的其他启发式方法。提出的框架试图将实例之间的信息重叠纳入考虑[17],将其视为整数规划问题,并利用二阶泰勒近似方法。Wei等人[56]为特定的分类器(如最近邻和朴素贝叶斯)设计了子模函数。最近的工作[43]将核心集理论应用于CNN,并与经验风险最小化[55]和聚类[13]进行了比较。然而,所有上述方法都有两个主要缺点:0(1)二阶方法具有较高的复杂性,不适用于较大的数据集。(2)每个批次的实例数量没有进行优化,而是预先选择为特定的常数。0对于一个可以泛化到许多任务并最小化人工标注工作量的系统来说,两个组成部分至关重要,即从给定的未标记示例池中查询要查询的实例数量以及选择要标记的特定实例。大多数现有的工作需要每轮实例数量作为输入参数。在现实世界的应用中,这些选择的先验知识至关重要。但是,在从头开始构建系统的情况下,通常对于数据流的质量、样本的复杂性或当前模型的置信度没有任何了解,这将有助于设计具有良好泛化准确性的分类器。因此,我们无法提前决定批处理大小。那么问题是如何优化整个过程,考虑到注释和训练时间以及模型性能。据我们所知,唯一优化批处理大小和实例选择的工作将问题转化为一个最大化多样性、不确定性和冗余的单一优化函数,并添加一个依赖于批处理大小的惩罚项。他们使用基于梯度的方法解决了优化问题,然而,除了与未标记数据样本数量的二次复杂度(因此对于大型数据集不具有良好的可扩展性)之外,他们的方法试图优化一个惩罚较大批处理大小的函数,而在我们的情况下,我们试图找到保持最大可能批处理大小的方法0在我们的总标注预算下,使性能达到令人满意的水平。然而,我们已经尝试过他们的方法,但不幸的是,即使不计算多样性评分函数的昂贵计算,每次迭代返回一个批次大小和相应实例的时间对于我们的真实世界人机协同系统来说是禁止的。本文的目的是研究不同主动学习策略对不同关系分类任务的批次大小的影响,并在保持令人满意的性能水平的同时提取有价值的知识,以找到人机协同系统的最佳批次。此外,我们提出了一种方法,可以消除人工注释者的等待时间,而不降低系统性能。我们的训练时间显著缩短,当使用200个示例进行训练时,我们的准确率平均仅比使用完整数据训练的模型低5%,达到90%的准确率。03 关系分类0在这项工作中,我们将关系抽取视为二元分类任务,给定包含一个或多个目标实体ei的用户生成文本s,我们的目标是确定s是否表达了实体ei之间的某种关系r。我们将关系抽取视为冷启动问题,即不存在标记数据,并向人工注释者查询标签。因此,主动学习是解决这个问题最合适的框架。我们考虑一个基于池的主动学习场景[44],其中存在一小组标记数据L = (x1, y1),...(xnl, ynl)和大量未标记的实例U =x1,...,xnu。学习者的任务是从U中选择要标记的示例,以便在限制预期的标签请求次数和注释成本的同时,最大化分类器的性能。在我们的任务中,一个实例是表示实体之间关系的文本片段,注释是手动为每个实例分配“true/false”标签,即yi∈{0,1},其中yi是实例xi的注释。为了从任何网络源(如在线新闻文章或社交媒体流(Twitter,博客等))获取大量未标记的文本数据,可以使用任何现成的工具(例如[2,11])创建字典,并基于所关注实体的共现选择句子。有几种方法可用于识别非结构化文本中的实体[23,40,48],因此我们将这一步骤视为黑盒组件。然后,我们将学习过程分为B个训练轮次,每次训练k个实例,并在训练模型时交互式地注释数据。在每一轮中,我们使用迄今为止标记的实例训练一个神经模型,并使用该模型从U中选择下一个k个示例进行注释。因此,我们的训练过程类似于深度学习的最新进展,表明在训练过程中增加批次大小可以产生与衰减学习率方法相媲美的结果,但通常会缩短训练时间[46]。我们尝试了几种主动学习策略来确定下一批示例,具体包括:0• us :不确定性采样[26],根据模型对样本的误标置信度对样本进行排序 •quire :QUIRE通过预测的不确定性来衡量每个实例的信息量和代表性[22]0Track: 人机协同增强智能 WWW 2018年4月23日至27日,法国里昂can help [47], it makes sense to consider the “best order" to ask theuser for input in the hopes of achieving a sufficiently performantsystem with minimal human effort.Our goal in this work is to limit the human and computationalresources without significantly impacting the performance of themodels by optimizing the active learning batch size for an arbitraryrelation extraction task. We simulate the Human-in-the-Loop byusing existing benchmark datasets on relation extraction. Morespecifically, we treat all examples as unlabeled and “request" theannotations in small batches from the existing labels, as if theywere annotated in real-time by a user. This setting allows us to runin parallel multiple experiments varying the batch size for all activelearning strategies and all tasks. We also continue our analysis onour real case scenario of extracting Adverse Drug Reaction (detailson the data in Section 4.1).Our experiments showcase a methodology that can be used to de-cide on the optimal batch size based on the average performance ondatasets that solve the same task for disjoint domains, for examplerelation extraction where the relation is different across datasets.We present a set of directly useful recommendations that can guidethe development of domain-specific relation extraction systems.11340图1:关系抽取的CNNs0• bald :最近提出的蒙特卡洛和Dropout的组合,用于获取不确定性度量,并使用不一致性的贝叶斯主动学习作为获取函数,选择预计能够最大化模型参数信息增益的示例[15]。0我们的目标不是特定地改进某个特定的学习模型,而是通过选择一个最佳的批量大小k来尽量减少计算资源的使用、人工注释的工作量和等待时间。我们选择卷积神经网络(CNNs)作为我们的分类模型,因为它们具有高度表达性,导致训练误差非常低,并且训练速度比循环架构快。更重要的是,CNNs在关系分类任务中表现良好。为了使我们的分类器轻量级和稳健,我们的输入表示仅依赖于分布语义,而不依赖于词汇特征或任何其他与语言相关的先验知识,如图1所示:0•CNNpos:位置特征[59]以及词序列,即我们生成三个嵌入矩阵,一个用预训练的词嵌入初始化,另外两个用于位置特征的随机初始化 •CNNcontext:句子的上下文划分[1],即使用预训练的词嵌入和文本中的两个实体作为划分点生成三个矩阵-左、中、右上下文。我们的模型使用100维的预训练Glove词嵌入[38],100维的位置嵌入,包含300个卷积滤波器,宽度为3,以及ReLU非线性[35]。训练使用交叉熵作为成本函数,使用Adam[25]进行优化,初始学习率为0.001。Dropout设置为0.25。04 实验0图2:一个主动学习策略、一个神经结构在一个任务上批量大小对训练速率的影响。注意,在这种情况下,最佳策略是一次两个。04.1 数据集0为了使我们的分析产生具有普遍性的稳健结果,适用于关系分类任务和模型,我们使用了两个包含总共10个关系的不同数据集:0(1)我们通过从一个网络论坛中提取不良药物事件(ADE)关系来进行实际案例实验分析。我们的人机协同是一位医生使用我们的系统对数据进行注释。在这个数据集中,帖子是基于对某些药物的提及和不良药物的提及进行标记的。03 http://www.askapatient.com/0Track: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, FranceTrack: Augmenting Intelligence with Humans-in-the-Loop WWW 2018, April 23-27, 2018, Lyon, France11350图3:初始批次大小的影响探索。对于我们的数据集来说,初始批次为30似乎是一个不错的起点。它提供了足够的示例来开始涵盖空间。该图是使用CNNcontext作为分类模型的10个数据集的平均值。0反应、症状、发现等。然而,一句话中药物和ADE的简单共现并不一定意味着两者之间存在因果关系。我们将这个数据集命名为causalADEs [32]。(2)我们还利用现有的语料库:Semeval2010 - Task8数据集[19],包括8000个训练示例和2717个测试示例,涵盖了九种关系类型:因果关系、组成整体、内容容器、实体目的地、消息主题、实体起源、仪器机构、成员集合、产品生产者。此外,一些句子被标记为“其他”,表示没有表达这些关系中的任何一种。0我们进行了一系列的实验,以量化批次大小和HumL系统的最佳实践。最终,我们将研究10个任务,并对它们应用3种主动学习策略。不过,最初我们将开始研究单个情节,即使用不确定性抽样在SemEvalComponent任务上训练CNNcontext模型的情节(见图2)。在这个实验中,我们使用各种大小的批次训练模型,没有进行任何预训练。这样可以观察模型在没有可用的注释数据并且希望尽快开始人工注释过程时,如何受到批次大小的影响。这里有几点需要注意。首先,与较小的批次相比,每个批次训练100或200个示例的效果要差得多。此外,请注意,当您评分200个示例时,批次为5或10的效果几乎与其他任何批次一样好。最后,请注意,直到评分约20个示例时,系统才真正起飞。这里的直觉是您需要足够的示例来“涵盖空间”,否则您会过度拟合您拥有的少量数据。我们将首先研究这最后一点。04.2 初始批次0正如我们上面注意到的,尽管最终表现最好,但在初始化模型时,仅使用一个或两个示例的主动学习是不合适的,因为小样本中存在高方差。0语料库,因此模型倾向于“过度拟合”这些最初的几个概念。另一种选择是根据无监督的基于文本的标准对数据进行排序,并选择排名最高的数据作为初始训练示例。我们使用几个标准进行了实验,包括随机选择,结果表明最大化句子之间的语言差异(利用Glove嵌入)效果很好[32]。第一个问题是为了获得良好的结果,这个初始批次应该有多大。我们通过将学习批次大小固定为5,并通过语言差异生成初始批次(B0)的大小来探索这个问题,以启动运行。我们继续这个过程,直到达到固定的训练大小为200(我们的预算限制),并绘制在200时的准确性。如图34所示,从大约20-40个示例的批次开始会得到更好的结果。这里的直觉是少于20个示例,系统会过度拟合初始训练数据,而超过40个示例,主动学习无法接管并专注于混淆的区域。建议:在进行更高效的人工注释之前,使用通过语言差异得出的初始批次(B0)约30个标记示例来训练系统。04.3 后续批次大小0在获得了一个最初的语言多样的30个示例作为一个良好的起点之后,我们需要决定一个适当的后续批次大小。由于计算下一个“批次”并将其加载到UI中供专家评分需要一些时间,因此更喜欢较大的批次。然而,如图4所示,这些较大的批次大小会产生负面影响(在100个训练示例之后,我们比较不同批次大小的准确性)。最佳性能是使用批次大小为1,但真正的下降似乎发生在5之后(与批次大小为1相比仅损失5%)。因此,如果您的系统生成批次的成本是有限的,这可能是一个停止的好地方。建议:默认批次大小为5个示例,似乎是在示例生成效率和主动学习速度之间的一个很好的折衷。04.4 交错0虽然前一节指出了较小批次的优势,但这些优势并非免费获得的。生成一个批次的示例并将其加载到评分框架供用户查看需要时间。我们观察到,为单个句子生成一个训练示例(例如,A和B之间是否存在因果关系)需要平均三到十秒的时间。五秒是一个相当好的中位数。如果计算一个批次并将其加载到界面中需要25秒,那么单个项目批次的工作流程将是:0(1)用户花费5秒对单个示例进行评分。(2)系统花费25秒准备下一个示例。(3)重复。0换句话说,超过80%的时间用户都在等待。即使使用推荐的批次大小为5,用户也会花费一半的时间在等待上。04由于使用QUIRE进行这样的实验在计算上是昂贵的,我们在这个实验中没有包含它。然而,我们进行了一个实验,使用每个批次{5, 10, 20, 40,50}来训练QUIRE,趋势与我们对不确定性和bald的结果相似,但性能低于bald。11360图4:在不同的主动学习方法下训练的CNNcontext模型的性能。这是在评分了100个示例后的性能。可以看出,与一次只使用一个示例的完全顺序方法相比,使用稍大的批次大小(5个示例)的性能仅下降约5%。0在人机交互系统中,人工注释时间是最大的成本。在理想情况下,他们应该不断地进行评分。交错提供了实现这一目标的潜力。没有交错,系统使用所有批次 B 0 ... B n − 1 的信息来训练批次 B n。有了交错,它只使用 B 0 ... B n − 2。这意味着用户可以在计算和加载下一个批次 B n 的同时评分批次 Bn − 1。显然,使用更少的训练数据可能会导致准确性下降;问题是下降多少。我们通过比较两种方法,即有交错和无交错,进行了这个实验,使用 B 0为30,批次大小为5(见图5)。如图所示,这两种方法在准确性方面非常接近。如果我们还绘制所有迭代所需的总时间(图6),结果更加引人注目;我们可以看到,交错在大约 50%的训练时间内产生了可比较的性能,无论选择哪种主动学习方法。此外,我们展示了使用200个示例进行一轮训练的低效性(水平线)。建议:使用尽可能小的批次大小进行交错,同时确保持续的人工工作。04.5 主动学习比较0综上所述,我们还提供了主动学习方法的比较。正如预期的那样,不确定性比其他主动学习策略快得多,而QUIRE比所有策略都慢(图6)。由于bald在测试时需要从模型中进行采样,因此它需要比不确定性稍多一点的时间来计算样本的最终排名,但也会因为蒙特卡洛估计排名分数而产生噪声。不确定性似乎在所有方面都是赢家,因为它能更快地产生最佳结果(见图3-5)。尽管仅使用不确定性不包含其他信息,如代表性或多样性,但该方法非常稳健,适用于需要在模型更新和人工查询之间高效切换的人机交互应用。0图5:以准确率为指标,对比交错训练和经典训练会话。0建议:从基于快速、较简单的度量方法开始使用主动学习方法。在收集到足够的数据后再与其他方法进行比较。04.6 整体影响0在图5中,我们还可以看到利用主动学习方法的整体影响。虚线表示使用语言差异性选择的200个示例的得分,准确率为61%,而随机选择的准确率稍低。对于固定的工作量(200个示例),我们看到我们的方法使性能提高了40%(准确率达到86%)。对于固定的性能点,我们看到更令人印象深刻的结果,只需25个得分示例即可达到与200个示例相同的性能,人工时间减少了72.5%。最后,我们还绘制了使用所有可用标记数据进行训练的平均准确率。我们发现与我们最佳性能模型相比,准确率的差异仅为4%。平均每个关系任务的池中有超过1,000个示例。因此,我们的系统仅在20%的数据上进行训练,这个结果证明了将人类知识纳入关系抽取系统的重要性。05 结论和未来工作0对于任意用户感兴趣的领域进行关系抽取是一项具有挑战性的任务。为了在没有大规模预标注语料库的情况下利用最先进的神经网络方法,需要进行人工标注。在这项工作中,我们旨在减少在流式注释下训练关系分类器所产生的计算和标注成本,同时保持合理的性能水平。我们提供了一种可以适应以k个示例为批次请求标签的设置的主动学习方法的分析。我们发现,随着k的增加,模型性能低于完全顺序的主动学习的类似结果。我们的实验结果表明,我们可以在非常少的标注数据下实现有竞争力的关系抽取性能。最后,我们提出了一种在略微过时的信息上进行训练的方法,但是0论文追踪:增强人机智能交互 WWW 2018,2018年4月23日至27日,法国里昂11370图6:以总训练和标注时间为指标,对比交错训练和经典训练会话。0保持人工标注者忙碌,并且显示这导致总时间减少约50%,而对结果模型的准确性没有显著影响。我们的人机协同系统可以高效地学习新的任意关系,在整个过程中充分利用人工标注者。我们的工作直接适用于人机协同关系抽取。然而,我们只在关系抽取系统上进行了实验,因此我们的工作对于一般应用仍然是试验性的。尽管我们直觉上认为这些建议应该适用于许多任务,但我们的结果可能对数据分布敏感。我们将将对这种敏感性的分析留给未来的工作。主动学习可能已经得到广泛探索,但仍有几个问题需要解决。我们以描述潜在未来方向来结束,希望能够探索以下内容:•自适应批量大小主动学习方法,其中批量在迭代之间动态改变,取决于特定实例的其他特征。•我们的工作假设有完美的标准标签。然而,在现实中,我们经常处理非完美的标注者,这给主动学习的实际应用带来了挑战。探索最佳批量大小如何随标注噪声变化的研究将是有用的。•将半监督与批量主动学习相结合,这将帮助我们探索用于预训练模型的分布语义,并可能减少达到良好性能所需的标签数量。•将关系抽取问题构建为资源有限的多目标优化问题,并尝试降低批量模式主动学习方法的复杂性。•元学习方法,即学习最佳的主动学习策略,而不是依赖于不确定性、多样性等启发式方法。当前的元学习方法仅限于基于流的主动学习或静态的一步选择批量进行标注。扩展到基于池的自适应场景可能会利用未标记数据点的表征相似性,并降低系统要求人类标注的示例总数。0参考文献0[1] Heike Adel, Benjamin Roth, and Hinrich Schütze. Comparing convolutional neuralnetworks to traditional models for slot filling. In NAACL-HLT, 2016. [2] Alfredo Alba,Anni Coden, Anna Lisa Gentile, Daniel Gruhl, Petar Ristoski, and Steve Welch.Language agnostic dictionary extraction. In ISWC (ISWC-PD- Industry), number 1963in CEUR Workshop Proceedings, 2017. [3] Gabor Angeli, Julie Tibshirani, Jean Wu,and Christopher D Manning. Combining distant and partial supervision for relationextraction. In EMNLP, pages 1556–1567, 2014. [4] Isabelle Augenstein, DianaMaynard, and Fabio Ciravegna. Distantly supervised web relation extraction forknowledge base population. Semantic Web, 7(4):335–349, 2016. [5] Nguyen Bachand Sameer Badaskar. A review of relation extraction. Literature review for Languageand Statistics II, 2, 2007. [6] Klaus Brinker. Incorporating diversity in active learningwith support vector machines. In Proceedings of the 20th International Conferenceon Machine Learning (ICML-03), pages 59–66, 2003. [7] Razvan Bunescu andRaymond Mooney. Learning to extract relations from the web using minimalsupervision. In ACL, 2007. [8] Razvan C Bunescu and Raymond J Mooney. A shortestpath dependency kernel for relation extraction. In HLT/EMNLP, pages 724–731. ACL,2005. [9] Rui Cai, Xiaodong Zhang, and Houfeng Wang. Bidirectional recurrentconvolutional neural network for relation classification. In ACL, 2016. [10] ShayokChakraborty, Vineeth Balasubramanian, and Sethuraman Panchanathan. Adaptivebatch mode active learning. IEEE transactions on neural networks and learningsystems, 26(8):1747–1760, 2015. [11] Anni Coden, Daniel Gruhl, Neal Lewis, MichaelTanenblatt, and Joe Terdiman. SPOT the drug! An unsupervised pattern matchingmethod to extract drug names from very large clinical corpora. HISB’12, pages33–39, 2012. [12] Aron Culotta and Jeffrey Sorensen. Dependency tree kernels forrelation extraction. In ACL, 2004. [13] Begüm Demir, Claudio Persello, and LorenzoBruzzone. Batch-mode active-learning methods for the interactive classification ofremote sensing images. IEEE Transactions on Geoscience and Remote Sensing,49(3):1014–1031, 2011. [14] Lisheng Fu and Ralph Grishman. An efficient activelearning framework for new relation types. In IJCNLP, 2013. [15] Yarin Gal, RiashatIslam, and Zoubin Ghahramani. Deep Bayesian Active Learning with Image Data. InICML, 2017. [16] Anna Lisa Gentile, Ziqi Zhang, Isabelle Augenstein, and FabioCiravegna. Unsupervised wrapper induction using linked data. In K-CAP, pages41–48. ACM, 2013. [17] Yuhong Guo and Dale Schuurmans. Discriminative batchmode active learning. In NIPS, 2008. [18] Zhou GuoDong
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功