不同注释方案对命名实体识别的影响及其在内部数据集上的实验结果

112 浏览量更新于2023-12-09 收藏 898KB PDF 举报

命名实体识别

研究结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）295使用不同注释方案对命名实体识别的影响Nasser AlshammariMr.，Saad Alanazi沙特阿拉伯Jouf大学计算机科学系计算机和信息科学学院阿提奇莱因福奥文章历史记录：收到2020年2020年9月30日修订2020年10月30日接受2020年11月19日网上发售保留字：命名实体识别自然语言处理A B S T R A C T命名实体识别（NER）是信息提取的一个子领域，其目的是检测和分类预定义的命名实体（例如，人员、地点、组织等）in a body身体of text文本.在文献中，许多研究人员研究了不同的机器学习模型和特征在NER中的应用然而，很少有研究工作致力于研究用于标记多令牌命名实体的注释方案。在这项研究中，我们研究了七个注释方案（IO，IOB，IOE，IOBES，BI，IE和BIES）及其对NER任务的影响，使用五种不同的分类器。我们的实验是在内部数据集上进行的IO注释方案优于其他方案，F-测量得分为84.44%。最接近的竞争对手是BIES计划，得分为72.78%。其余方案虽然IO方案取得了最好的结果，比较它与其他方案是不合理的，因为它不能识别连续的实体，而其他方案可以做到这一点。因此，我们还研究了识别连续实体的能力，并提供了运行时间复杂度的分析。©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍命名实体识别（NER）是自然语言处理（NLP）领域的一项常见任务NER系统旨在根据其含义搜索特定的表达和单词，例如人名，地点和组织[1]。正确地识别和分类命名实体通常是破译所分析文本的含义的关键。虽然有一些关于NER的研究工作，特别是集中在不同的机器学习方法，很少有研究工作致力于研究用于标记英语和其他语言中的多标记命名实体这可能是一个问题，因为命名实体很少由单个标记组成具体到阿拉伯语，据作者所知，文献*通讯作者。电子邮件地址：nashamri@ju.edu.sa（ N.Alshammari ），sanazi@ju.edu.sa（S.Alanazi）。开罗大学计算机和信息系负责同行审查。阿拉伯语NER任务。为了弥补这一知识差距，我们的研究旨在研究使用不同的注释方案对阿拉伯语NER任务的影响。为了实现这一目标，我们设定了几个目标：建立一个多方案的代表性数据集，使用五个机器学习分类器进行深入的实验，收集和解释实验的结果。在文献中已经使用了几种注释方案。然而，选择理想的注释方案是一个复杂的问题[2]。在这项研究中，七个注释方案的影响，探讨了阿拉伯语的NER任务。这些计划如下：IO：是可以应用于此任务的最简单的方案。在这个方案中，来自数据集的每个令牌被分配两个标签之一：内部标签（I）和外部标签（O）。I标记用于命名实体，而O标记用于普通单词。该方案有一个局限性，因为它不能正确地编码相同类型的连续实体。IOB：该方案在文献中也被称为BIO，并已被计算自然语言学习会议（CoNLL）采用[1]。中的每个单词分配一个标记https://doi.org/10.1016/j.eij.2020.10.0041110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com●●N. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295296文本，确定它是否是已知命名实体的开始（B），在它内部（I），或在任何已知命名实体的外部（O）。IOE：这个方案的工作原理几乎与IOB相同，但它指示实体的结束（E标记）而不是其开始。IOBES：IOB方案的替代方案是IOBES，它增加了与命名实体边界相关的信息量除了在命名实体的开头（B）、内部（I）、结尾（E）和外部（O）标记单词它还用标签S标记单令牌实体。BI：这个方案以类似于IOB的方法标记实体。此外，它还将非实体词的开头标记为标记B-O和I-O。IE：这个方案的工作原理与IOE完全一样，区别在于它用标签E-O标记非实体词的结尾，其余的则是作为I-O BIES：该方案编码的实体类似于IOBES。此外，它还使用相同的方法对非实体词进行编码。它使用B-O标记非实体词的开头，使用I-O标记非实体词的内部，使用S-O标记存在于两个实体之间的单个非实体标记本文的其余部分组织如下。第二节综述了相关文献中的相关工作。第三节说明了所提出的方法来衡量使用不同的注释方案对阿拉伯语净入学率任务的影响。第4节介绍了结果和对结果的第五节是本文的结论。2. 相关工作近年来，阿拉伯净入学率研究领域稳步增长。这种增长可以归因于人工智能技术的最新发展和语言资源的可用性最近的大多数研究工作都集中在将深度学习技术应用于阿拉伯语NER[3其他努力集中在开发新的阿拉伯语工具，如CAMEL[6]和CasANER[7]。在调查了这一领域的文献后，很明显，缺乏研究工作，涉及研究阿拉伯语NER任务中的注释方案问题。然而，很少有研究工作，探讨了影响的注释方案对NER为其他语言，这将在本节中介绍。Cho等人[8]提出了一种特征生成方法，该方法扩展了特征空间以包含多个注释方案。这允许分配的模型使用复杂注释方案的最有区别的特征，但也通过合并简单注释方案的特征来避免数据稀疏的问题该方法结合了几个注释方案的地方的功能，以支持条件随机场（CRF）。这意味着这一既定程序可以应用于培训。这项研究表明，通过应用多个注释方案来提高模型的标记速度是可能该方法之前也针对两个NER任务进行了评估：BioCreative 2基因提及识别[9]和CoNLL NER共享任务[1]。奇怪的决定因此，作者进行了几个实验来研究不同的段表征。使用CRF和最大熵（ME）测试所有的段表示，这两个都是相当流行的机器学习算法。测试使用四种不同的语言：捷克语、荷兰语、英语和西班牙语。此外，BILOU在使用CRF时对英语的表现最差，而IOE-1和IOE-2版本似乎在所有语言和方法中表现最好。这表明，选择使用简单的方法，如BIO或IOE，或更复杂的方法，如BILOU，并不像它可能出现的那样明确。这项研究强调，最佳方法根据所有因素而变化Malik 和 Sarwar[11] 提出了一个类似于 IOBES 的标记方案（BIL2）唯一的区别是单令牌实体被标记为标签L。该方案被认为对含有后置成分的主语宾语动词（SOV）语言是潜在有效的他们使用乌尔都语作为案例研究，并应用隐马尔可夫模型（HMM）和CRF，比较了各种标记方案的结果：IO，BIO2，BILOU和BIL2。结果表明，BIL 2在他们的实验中达到了最高的F-测量。Mozharova和Loukachevitch[12]使用CRF分类器对俄语文本应用了两种不同的标签方案：IO和BIOBIO方案对IO表现良好。这可能是由于俄语的结构，因为命名实体通常彼此相邻。他们的结果突出了IO注释方案在连续命名实体情况下的弱点。正如我们所看到的，不同的语言可以从特定的注释方案中受益。这很自然，因为语言的语法结构会影响命名实体的显示方式。这意味着我们在每种语言中隔离和分类命名实体的方式是不同的。表1显示了以前的研究和我们目前的研究之间的比较。尽管阿拉伯语NER是一个正在不断发展的领域，但据作者所知，目前还没有关于不同标注方案对阿拉伯语NER影响的目前，许多复杂的功能和技术正在应用于阿拉伯语的NER，但有效性的注释方案尚未调查。随着阿拉伯语表现出这种独特的形态挑战，这是至关重要的，我们建立目前的NER注释方案是最有效的，并探讨这一研究领域。3. 方法本研究采用的框架包括三个主要阶段。第一阶段涉及数据集的准备，包括数据收集、预处理和注释。第二阶段是实验研究，分特征工程和分类两步完成。最后一个阶段是使用几个评价指标对模型结果进行评价。该框架使用图来说明。1.一、表1与我们以前的类似作品的比较Tkachenko等人[10]使用了两个更常用的标签-格方案，生物和更复杂的BILOU，在埃斯托尼亚NER。本文讨论的结果表明，BILOU与其更详细的标记系统，表现略好于BIO;然而，F测量值仅略有增加研究年计划语言（s）从86.7%上升到87%。马利克和萨瓦尔[11]20164乌尔都Konkol和Konopík[2]检查了不同的seg的效果莫扎罗娃和20162俄罗斯在NER的任务上有什么作者声称，段表示的选择通常是任意的，[12]第十二话20207阿拉伯语●●●●●Cho等人[八]《中国日报》20137英语Tkachenko等人[10个国家]20132爱沙尼亚Konkol和Konopik[2]201510英语、西班牙语、荷兰语、捷克N. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295297Fig. 1.系统框架。3.1. 数据集我们的数据集来自阿卜杜拉国王阿拉伯健康百科全书（KAAHE）网站。百科全书是沙特国王健康科学大学、沙特健康信息学协会、国民警卫队健康事务、网络健康基金会、世界卫生组织和英国国民健康服务（NHS）合作的结果。这些数据是从27篇文章中提取的，总共获得了50，256个单词预处理步骤通过对单词进行分词来执行连词、介词等）被分割开来图2示出在预处理步骤之前和之后的例句最终代币数量为62,504，实体数量为1,278[14]。根据频率、搭配和一致性对数据进行了语言学分析，从而确定了表2所示的特征。这些特征是为我们数据集中的每个令牌计算的。然后，由两个独立的注释器根据IO和IOB方案手动注释数据。为了确保注释过程的可靠性，计算了注释者间一致性（CohenN. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295298表2用于训练分类器的特征列表特征描述图二.预处理步骤的图示。● [19]第十九话● [20]第二十话选择上述分类器是因为它们的流行性，词性标记词性标记的分类特征（名词，形容词，等等）。一个布尔特征，指示单词在标记词汇触发器字典停止词一个布尔特征，指示停止词列表一个布尔特征，指示该词在最常见实体定性一个布尔特征，指示单词使用生成数据集的脚本完成其余注释方案（IOE、IOBES、BI、IE和BIES）表3显示了使用第1节中先前描述的注释方案中的每一个注释的句子。3.2. 实验为了在我们的实验中获得可靠的信息并增加置信度，我们对每个分类器使用了五次交叉验证这些分类器如下：● Ada Boost[16]● 决策树[17]● K-最近邻（KNN）[18]并建立一个基线，显示执行NER任务时注释方案这些分类器的性能是通过众所周知的指标来衡量的：精确度，召回率和F-测量。尽管这些评估指标被大量使用，但在NER任务中，具体而言，在应用这些评估指标时应考虑三个标准。这些标准是消息理解会议（MUC）[21]，计算自然语言学习（CoNLL）[1]和自动内容提取（ACE）[22]。它们处理多令牌实体中的边界错误问题。当模型正确预测多令牌实体的部分时，MUC[21]给出部分分数。相反，CoNLL[1]是一个积极的指标，不分配部分分数。必须确定实体作为一个整体的精确匹配和正确的分类才能获得信贷。这种评分方法很受欢迎，因为它在计算和分析结果方面很简单第三个标准是ACE[22]，它考虑了其他因素，如提及检测和共指消解。在本文中，我们采用CoNLL作为评估指标，由于其在阿拉伯语NER任务中的大量使用文献。根据[23]，由于其计算和分析结果的简单性，该评估指标被大量用于阿拉伯语NER。清单2显示了一个代码片段，详细说明了在这项工作中如何采用CoNLL指标。表3使用七种注释方案注释的例句词直译IOIOBIOEIOBESBIIE比斯认为OOOO博EO所以白血病我BESBES））OOOO博EO所以癌我B我BB我B细胞我我我我我我我血液我我我我我我我白色我我EE我EE（（OOOO博IO博之一OOOOIOIOIO最OOOOIOIOIO种OOOOIOIOIO共同OOOOIOEOION. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）2952994. 结果和讨论实验的结果分别在表4报告的F测量结果的可视化显示在图3中。很明显，IO注释方案优于其他方案的F-措施，因为它达到了84.44%的分数对于所有分类器。最接近的竞争对手是BIES计划，得分为72.78%。其余方案除了作为召回率和精确率的调和平均值的F度量的重要性之外，报告召回率和精确率表4每个分类器和注释方案报告的F-测量分数IO（%）IOB（%）IOE（%）IOBES（%）BI（%）IE（%）BIES（%）Ada Boost89.9149.8573.6760.5839.7936.4777.08决策树88.3278.2778.5381.6573.7376.6782.67KNN58.4516.4822.0029.8116.9222.2129.81随机森林93.2187.8787.0387.7187.2885.8988.32Gradient Boost92.3183.4684.6785.3184.1884.2486.02平均84.4463.1869.1869.0160.3861.0972.78表5每个分类器和注释方案IO（%）IOB（%）IOE（%）IOBES（%）BI（%）IE（%）BIES（%）Ada Boost96.1351.5477.5068.9028.0631.2586.23决策树93.0681.8982.6795.7377.7780.7395.18KNN73.4317.6132.8696.8818.0333.1896.88随机森林98.0391.0993.3395.8490.4592.3896.03Gradient Boost97.1488.7791.0494.1589.2689.9195.13平均91.5566.1875.4890.3060.7165.4993.89表6每个分类器和注释方案的报告召回分数IO（%）IOB（%）IOE（%）IOBES（%）BI（%）IE（%）BIES（%）Ada Boost84.7949.3271.0056.0074.9055.6869.74决策树84.4775.4175.1473.5370.6273.4374.53KNN48.7215.6016.6117.9516.0616.7717.95随机森林89.1185.1081.9981.2084.4980.7482.06Gradient Boost88.1679.4479.4978.4180.2879.5679.12平均79.0560.9764.8461.4165.2761.2364.68N. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295300图三. 报告的每个研究注释方案的F-测量分数。结果是必要的，这取决于预期的用例或应用。因此，报告了这些指标的结果。IO方案实现了最高的召回分数为79.05%。对另一方面，IO方案的精确度得分不是最好的，它排在第二位，比最好的注释方案低2.34%。从前面的结果，我们可以得出结论，IO计划取得了最好的结果，其余的报告计划。尽管如此，将IO方案与其他方案进行比较是不公平的，因为它不能固有地这个问题将在第4.1节中详细讨论。在不考虑IO方案的情况下，BIES方案获得了最高的精度和F-测量分数，分别为72.78%和93.89%。相比之下，BIES方案在召回结果中排在第三位，与最佳方案（BI）相差0.59%。在文献中，大多数研究者都相当关注在他们的实验中使用的分类器的类型，因为所选择的分类器对模型的性能有显著的影响。虽然这是一个有效的考虑因素，但大多数研究人员忽略了注释方案的类型，正如本研究所揭示的那样，这已被证明对分类器的结果有显着影响。无论选择的分类器和测量的一致性，选择的注释方案对NER的影响，我们计算了算术平均值为每个分类器使用的七个注释方案。然后，我们将每个注释方案的分类器结果与分类器平均值进行比较。遵循这种方法将使我们能够确定在选择特定方案时是否存在一致的效果，尽管选择了分类器。从前面提到的图中可以看出。 4、结果一般遵循一致的递增或递减模式。在使用IO、BIES和IOBES的情况下，无论分类器类型如何，模型的结果都高于平均值。然而，IE、BI和IOB的结果低于平均值。在IOE方案的情况下，结果通常低于平均值，只有一个例外，Ada Boost分类器。这使我们得出结论，注释方案的类型对结果有一致的影响，尽管使用的分类器。此外，为了检验分类器的性能，而不管所选择的注释方案如何，我们分别计算了每个注释方案的算术平均值。然后，我们将每个分类器的结果与计算的平均值进行比较。该过程的结果如图5所示。基于此，很明显，选择适当的分类器是要做出的关键决定，因为无论注释如何，分类器的结果图四、分类器的结果与分类器的平均值之间的差异。图五.分类器的结果与注释方案的平均值之间的差异。阴谋然而，在确定适当的分类器之后，要做出的下一个关键决定是选择适当的注释方案，因为它将负面或正面地影响分类器的性能。4.1. 竞争实体如前所述，在第4节中，IO方案在召回率、准确率和F-测量方面优于其他方案。然而，IO方案的一个重要缺点是它不能识别连续实体。这可能会影响有利于IO方案的结果，因为它缺乏这样做的能力，因为只有一个标签分配给实体。因此，康-N. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295301表7正确预测的连续实体的百分比IOB（%）IOE（%）IOBES（%）BI（%）IE（%）BIES（%）Ada Boost31.2543.7531.2531.2537.5037.50决策树43.7543.7537.5043.7543.7543.75KNN12.5012.5012.5012.5012.5012.50随机森林50.0043.7543.7562.5050.0043.75梯度增强43.7562.5043.7543.7550.0050.00平均36.2541.2533.7538.7538.7537.50表8每个注记方案考虑到模型的复杂性和运行时间，更少的标记来注释数据降低了复杂性和运行-注释方案标记数IOC +1IOB2C +1IOE2C +1IOBES4C +1BI2C +2IE2C +2比斯4C +3不同的实体融合在一起。假设，IO方案似乎是最好的选择，这是由于以下几个因素：语料库中的连续实体、使用其他方案识别连续实体的困难以及与其他方案相比，它在统计上具有较少的标签来学习和预测的事实，这导致了更好的结果。在我们的数据集中，1,278个实体中有16个连续实体，占实体总数的不到2%。确保数据集中有足够的示例将导致更好的学习和预测，反之亦然。我们的数据集中连续实体的数量很少阻碍了模型。为了测试分类器在连续实体的情况下的性能，我们进行了表7中所示的实验，其示出了每个分类器正确识别的连续实体的百分比鉴于结果，模型的性能是有希望的，尽管如前所述，连续实体是罕见的。例如，梯度增强分类器结合IOE和随机森林分类器结合BI方案正确识别了62.5%的连续实体。其他方案的结果介于12.5%和50%之间这一发现表明，这些方案在识别欺诈方面具有很大的潜力实体，特别是如果语料库有很多这样的实体。考虑到连续实体是多么罕见，以及它们是多么难以识别，我们假设除了IO之外的方案不会表现得很好，这使得IO方案成为首选。然而，我们的研究结果与这一假设相矛盾，并提供了可靠的结果，证明其他方案能够预测这些连续的实体。4.2. 复杂性和运行时间如前所述，IO方案的缺点之一是它不能然而当模型的时间。为了进一步阐述这一点，IO方案在成本和运行时间方面优于其他方案，因为它需要更少的标签。表8显示了每个注释方案注释数据集所需的标记数，其中C表示命名实体的类别数。在这项研究中，C的值是恒定的（C = 1），因为我们在这个实验中只识别疾病名称。如果任务是识别多于一个类别的命名实体（例如，人、位置、组织等），则C的值将反映将增加复杂性的实体的类别的数量。如表9所示，每个方案的平均运行时间存在显著差异。正如预期的那样，IO方案是最快的。所有类识别器的平均执行时间为1.378秒.其余方案的平均执行时间在2.6~ 3.6 s之间，BIES方案的平均执行时间为5.5由于其复杂性，如前面表8所述，报告的时间是五次折叠的平均运行时间。执行时间是通过在AMD Ryzen 7 2700X处理器上运行获得的，工作频率为3.7 GHz。4.3. 与以往研究的在第2节中，我们介绍了五个不同的先前研究，这些研究揭示了注释方案问题。其中，我们选择了Cho等人的研究。[8]比较我们的结果。选择这项研究进行比较的主要原因可以归因于他们研究了与我们相同的注释方案。另一方面，其余的没有涵盖大多数注释方案。尽管Konkol和Konopík[2]确实提出了十种注释方案，但只有四种与我们的研究相关。表10显示了我们针对Cho等人[8]结果的工作结果。对结果的某些方面有一致意见，也有一些分歧。排除IO方案的结果，两项研究的最佳注释方案均为BIES。此外，IOBES方案在这两种情况下都表现良好。在不一致方面，IO注释方案在我们的研究中得分最高，而在他们的研究中得分最低。这种差异可能是由我们在第5节中讨论的连续实体问题引起的。尽管我们将我们的结果与Cho等人的结果进行了比较。[8]，但仍存在一些局限性和缺点。第一表9每个批注方案的执行时间（秒）IOIOBIOEIOBESBIIE比斯Ada Boost1.2811.4351.4041.6331.5121.5311.948决策树0.1370.1790.1810.1870.2100.2110.232KNN0.8430.9350.9450.9331.0480.8830.886随机森林2.1742.3942.2522.2262.5612.6362.918Gradient Boost2.4558.6108.65013.21911.04411.42621.767平均1.3782.71062.68643.63963.2753.33745.5502N. Alshammari和S. 阿拉纳齐埃及信息学杂志22（2021）295302表10我们的工作与相关研究Scheme Cho et al.（%）我们的工作（%）IO 84.44IOBIOE 86.05 69.18生物多样性和生态系统服务国际组织BI 86.2561.09BIES86.77 72.78局限性在于所研究的语言不同。我们专注于学习阿拉伯语，而Cho等人[8]只专注于英语。值得一提的是，语言本身对结果有影响，这在Konkol和Konopík的研究中很明显，他们研究了四种不同的语言。第二个限制是我们在表10中报告的结果是基于五个不同分类器的平均值。另一方面，Cho等人[8]的实验仅依赖于一个分类器。4.4. 局限性和今后的工作虽然我们的研究集中在NER任务的一个经常被忽视的领域，并揭示了有希望和有趣的发现，但仍有一些问题和局限性需要进一步探索和研究。我们的数据集致力于识别一类实体，即疾病名称。尽管我们有足够数量的疾病名称，但需要探索注释方案对其他命名实体（如药物名称和基因名称）的影响，以加强本研究的发现和结论。5. 结论在这项研究中，我们研究了使用不同的注释方案对NER性能的影响我们的研究结果表明，IO注释方案，这是最简单的一个研究计划，实现了最高的F-测量分数。然而，IO方案的主要限制是它不能识别连续实体。因此，我们探索了更复杂的计划这样做的能力考虑到结果和连续实体的稀有性，这些方案的性能是有希望的。所研究语言的结构构成了影响结果的重要因素[2，12，24]。阿拉伯语在文献中的某些方面没有得到大量研究，例如注释方案，因此激发了这项研究。据作者所引用[1] SangETK ， Buchholz S ， Introduction to the CONLL-2000 Shared Task ：Chunking，in：第四届计算自然语言学习会议和第二次逻辑学习语言研讨会（CONLL/LLL 2000）。葡萄牙利萨邦，2000年9月13日至14日，ACL; 2000年。p. 127-32..[2] Konkol M，Konopík M，命名实体识别中的分段表示。关于文本、演讲和对话的国际会议。施普林格; 2015年。第61-70页。[3] Al-Smadi M，Al-Zboon S，Jararweh Y，Juola P.使用深度神经网络进行阿拉伯命名实体识别的迁移学习。IEEE Access2020;8：37736-45.[4] Alkhatib M，Shaalan K.用深度学习提升阿拉伯命名实体识别音译。上一篇：第33届国际flairs会议[5] Helwe C，Elbassuoni S.通过深度协同学习的阿拉伯命名实体识别。Artif IntellRev 2019;52（1）：197[6] Obeid O，Zalmout N，Khalifa S，Taji D，Oudah M，Alamni B，Inoue G，Eryani F，Erdmann A，Habash N. CAMeL工具：一个用于阿拉伯自然语言处理的开源Python工具包。第12届语言资源与评估会议论文集。第7022-32页。[7] Mesmia FB，Haddar K，Friburger N，Maurel D. CasANER：阿拉伯命名实体识别工具。智能自然语言处理：趋势和应用。Springer; 2018. p.173比98[8] Cho H-C，Okazaki N，Miwa M，Tsujii J.多段表示的命名实体识别。 Inf ProcessManag 2013;49（4）：954-65.[9] Smith L，Tanabe LK ，nee Ando RJ，Kuo C-J，Chung I-F，Hsu C-N等人，BioCreative II基因提及识别概述。Genome Biol 2008;9（2）：2008. S2...[10] 张伟，王伟，王伟.爱沙尼亚语命名实体识别。第四届两年一度的波罗的-斯拉夫自然语言处理国际研讨会论文集; 2013年。p. 78比83..[11] Malik MK，Sarwar SM.后置语言命名实体识别系统：以乌尔都语为例。 Int JAdv Comput Sci Appl 2016;7（10）：141-7.[12] 莫扎洛娃V，卢卡切维奇N.俄语命名实体识别的两阶段方法。在2016年国际FRUCT智能，社交媒体和网络会议（ISMW FRUCT），IEEE; 2016年。p. 1-6..[13] Alsughayr A，et al.，阿卜杜拉·本·阿卜杜勒-阿齐兹国王阿拉伯健康百科全书（www. 哈哈。org）：互联网上阿拉伯语健康信息的可靠来源，Saudi J MedMed Sci 2013;1（1）：53。[14] 阿拉纳兹湾一个命名实体识别系统应用于医学领域的阿拉伯文本，博士。毕业论文，斯塔福德郡大学; 2017..[15] CohenJ.ACoefficientofAgreementforNominalScales.EduPsycholMeasure1960;20（1）：37-46.[16] Freund Y，Schapire RE.在线学习的决策理论推广及其在boosting中的应用。计算机系统科学杂志1997;55（1）：119-39.[17] 布雷曼湖分类和回归树 2017年7月。[18] Omohundro SM.五种球树构造算法。国际计算科学研究所伯克利分校1989年。[19] 布雷曼湖随机森林 Mach Learn 2001;45（1）：5-32.[20] 弗里德曼贪婪函数逼近：梯度推进机。Ann Stat 2001：1189[21] Chinchor N，Robinson P. MUC-7命名实体任务定义。在第七届会议的消息理解，卷。29; 1997年。p. 1-21..[22] Doddington GR，Mitchell A，Przybocki MA，Ramshaw LA，Strassel SM，Weischedel RM. 自动内容提取（ ACE ）程序 - 任务，数据和评估。 Lrec ，Lisbon，vol. 2. p. 1 .一、[23] 沙兰湾阿拉伯文命名实体识别与分类研究综述。Comput.语言学家。2014;40（2）：469-510.[24] AhmadMT，Malik MK，Shahzad K，Aslam F，Iqbal A，Nawaz Z，Bukhari F.PunjabiShahmukhi的命名实体识别和分类。ACM Trans AsianLow-Res Lang InfProcess（TALLIP）2020;19（4）：1-13.

下载后可阅读完整内容，剩余1页未读，立即下载