多语言医学文档中的语义标注多语言框架下的语义标注技术应用于阿拉伯医学文档

34 浏览量更新于2024-01-14 收藏 845KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报在多语言框架Viviana Cotika，Horacio Rodríguezb，Jorge Vivaldica布宜诺斯艾利斯大学，阿根廷b西班牙巴塞罗那加泰罗尼亚理工大学cUniversitat Pompeu Fabra，Roc Boronat 132，巴塞罗那，西班牙阿提奇莱因福奥文章历史记录：2016年4月22日收到2016年8月1日修订2016年10月13日接受2016年10月28日在线发布保留字：语义标记多语言医学领域自然语言处理A B S T R A C T提出了一种语义标注器，旨在检测阿拉伯医学文档中的相关实体，并将其标注该系统利用了一个涵盖四种语言（阿拉伯语、英语、法语和西班牙语）的多语言框架，可以利用每种语言的可用资源来改善其他语言的结果，这对于阿拉伯语等资源较少的该方法已被评估对维基百科页面的四种语言属于医学领域。该系统的核心是一个基本标签集的定义组成的三个最有代表性的类SNOMED-CT分类和学习的二元分类器的每个语义类别的标签集和每种语言，使用远程学习方法在三个广泛使用的知识资源，即维基百科，Dbpedia和SNOMED-CT。©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 导言和动机语义标注是自然语言处理（NLP）中的一项任务，近年来引起了许多NLP研究者的兴趣，它可以被定义为从预定义的标签集中选择一个唯一的语义标签，并将其分配给文档中的某些语言单元。在语义层面上处理一些NLP任务和应用程序有广泛的共识，但也有共识认为，目前的技术状态不允许对不受限制的领域的文本进行完全准确的语义解析。因此，大多数系统限制自己的部分语义解释，在词汇水平（语义标记），或条款水平（语义角色标签）。因此，语义标注本身就是一项至关重要的任务，或者说是语义解释系统的一个必要组成部分。在这一介绍之后，本文的组织如下：在第2节中，我们也概述了最基本的特征*通讯作者。电子邮件地址：vcotik@dc.uba.ar（V. Cotik），horacio@cs.upc.edu（H.Rodrí-guez），jorge. upf.edu（J. 维瓦尔第）。沙特国王大学负责同行审查随着语义标注技术的发展第3节介绍了所采用的方法。实验框架在第4节中描述。结果在第5节中显示和讨论。最后，第6节给出了我们的结论和进一步的工作建议。2. 相关工作语义标记是一项艰巨的任务，其关键要素如下：(i) 要处理的文档的类型。属于不同领域的文件中使用的术语差异很大，但即使在特定领域内，术语、一般措辞和子语言也呈现出非常不同的特征。例如，在医学领域，科学文献、药物描述渠道、医疗报告排放、临床证据结果、关于疾病的社交媒体评论以及药物及其效率等类型。在这些体裁中使用的措辞的特点是高度多样化的。本文重点介绍了WP页面，并对这类文档进行了评价(ii) 要标记的语言单位通常有两种方法。标记文本中出现的实体的那些和标记这些实体的提及的那些。通常，实体由共同引用链http://dx.doi.org/10.1016/j.jksuci.2016.10.0041319-1578/©2016作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com诉Cotik等人/Journal of King Saud University205的提及。考虑下面的例子：“哮喘被认为是由... 其诊断通常基于... 这种疾病在临床上被分类为... . “.在这些句子中，有一个实体（哮喘）被提及三次，因此，形成了三次提及的共指链。在我们的工作中，要标记的单位是在WP中找到的术语字符串。因此，语言单位是由词性条件过滤的短语，即。只允许对应于有效项的POS序列这些序列依赖于语言，对应于以名词为首的基本（非递归）名词短语。(iii) tagset。通常，标记集实际上是一组类别，它们之间没有显式的关系。一个关键点是它的粒度（或大小）。标签集大小的范围是巨大的。细粒度标记集可以由数千个（如WordNet同义词集）甚至数百万个（如WP页面）标记组成。粗粒度标记集只包含少量标记。在我们的例子中，我们使用了一个仅由三个标记组成的标记集。选择详情见第3.2节。关于用于任务的资源，策划资源（术语，词汇，本体等），如疾病和相关健康问题分类（ICD-9，ICD-10）， 1医学主题词（MeSH）。DrugBank3和Gray's Anatomy 4等中的2种然而，使用这些资源并不是直截了当的。一些术语允许多种变化5（并非所有这些都收集在资源中），而其他术语（特别是最常见的术语）则非常模糊。6此外，识别和分类文件中的提及是极具挑战性的。与我们类似的任务的重要信息来源是2010年关于临床文本中的概念、断言和关系的i2 b2/VA挑战的会议记录（Uzuner等人，2010年）。在这场竞赛中，Yeganova等人（2012）使用了两种相当简单的统计方法，获得了良好的结果。 Halgrim 等人（ 2011 ）和 Uzuner 等人（2010）应用分类器级联从出院总结中提取药物信息。我们之前的工作，Vivaldi和Rodríguez（2015），与这里介绍的类似，但仅限于英语。另一个信息来源是DDI Extraction 2013（任务9的Semeval-2013，Segura-Bedmar等人，2014年）。集中在一个较窄的领域，药物-药物相互作用，共同的任务包括两个挑战：（i）识别和药理物质的分类，和（ii）提取和药物-药物相互作用的分类。前者显然是语义标记的一种情况，在这种情况下，简化为在生物医学文本中寻找药物的提及，但具有更细粒度的标记集，它包括药物、品牌、组（药物名称组）和药物-n（尚未批准用于人类的活性物质关于所涉及的技术，提出了用于处理语义标记，如基于规则的方法和监督机器学习（ML）。一个常见的限制是依赖于狭窄的领域/流派/标签集/语言，使其适应其他设置非常困难（和昂贵）。我们通过以下方式应对适应问题：1http://www.who.int/classifications/icd/en/。2http://www.ncbi.nlm.nih.gov/mesh。3http://www.drugbank.ca/。4http://www.bartleby.com/107/。使用多语言设置，其中一种语言的进程可以帮助其他（通常资源较少）语言的进程。利用一套覆盖面广的无领域学习资源，采用低成本的学习方式--远程学习。特别地，我们包括作为资源：SNOMED-CT，7其限于医学领域，以及两个广泛使用的独立于领域的医学领域：WP页面（包括从Infoboxes获得的数据）和类别，以及DBP。8与语义标注相关的第一个面临的问题是词义消歧，也是引起人们广泛关注的一个问题。在Agirre和Edmonds（2006）和Navigli（2009）中，我们可以找到关于这个问题的两个很好的调查。最近的一项调查，涵盖了许多语义标记技术，并对它们进行了比较，可以在Gerber et al.（2011）中找到。Moro等人提出了一个统一的框架，包括词义消歧和实体链接。（2014年）。Wikifiers9主要通过两个步骤进行：候选人检测和分类/排名。最新的优秀综合分析见Roth et al.（2014）。与维基化密切相关的是实体链接的任务。这项任务已经得到了爆炸性的发展，从TAC KBP框架内的实体链接挑战开始，10从2010年。比赛的概述是主要的信息来源：Ji et al.（2010），Ji et al.（2011），James MayfieldandArtiles（2012），and Mayfield et al. （ 2013年）。到目前为止，英语是生物医学资源最受支持的语言。国家医学图书馆（ NLM ） https ： //www. nlm.nih.gov/ 维护统一医学语言系统（UMLS）11，该系统将一组重要的资源分组，以便于计算机系统“理解”生物医学和健康语言的含义。这些资源中只有一小部分可用于英文以外的语文医学中信息提取的相关方面是生物医学实体（如疾病、基因、蛋白质）的识别和鉴定。. ）.已经提出了几种命名实体识别（NER）技术来识别这些实体的基础上，他们的形态句法模式和上下文。NER可用于识别以前已知的名称和新名称，但不能直接用于将这些名称与外部数据库中的特定生物医学实体相关联。对于这个识别任务，字典方法是必要的。一个问题是，现有的字典往往是不完整的，不同的变种，可能会发现在文献中，因此，有必要尽量减少这个问题。关于阿拉伯语净入学率，Benajiba等人（2010年）是一个很好的参考。有许多工具可以利用UMLS资源。一些更相关的是Metamap（Aronson和Lang，2010）和Whatizit（Rebholz-Schuhmann等人，2008年）。Cotik等人（2015）使用RadLex检测西班牙语放射学报告中的概念。3. 方法3.1. 纲要正如第2节中展示的大多数系统一样，本文提出了一种标记任务的ML解决方案。因此，它需要两个主要步骤：训练和注释（见图1）。这种解决方案的主要缺点是依赖于注释文档，而注释文档通常很难获得。本研究的主要目标是[5]例如，参见英语中的[‘‘fever”, ‘‘pyrexia”, ‘‘febris”] or the set of acronyms [‘‘ADE”, ‘‘ADR”, ‘‘DAR”] all sharingthe6首字母缩略词是歧义的主要来源，例如：7https://www.nlm.nih.gov/research/umls/Snomed/snomed_main.html。8http://wiki.dbpedia.org/。9Wikifiers是通过显示来自WP的信息来丰富文本内容的程序。10http://www.nist.gov/tac/2014/KBP/。11https://www.nlm.nih.gov/research/umls。●●206诉Cotik等人/Journal of King Saud University类BP药物疾病.ΣFig. 1. 培训和测试管道。训练一个分类器，最大限度地减少这个问题的影响，并保持良好的结果。为了达到这个目的，我们使用一组在最小人类监督下获得的种子词作为学习示例（在远距离学习如第1节所述，我们使用独立于领域的知识源，如WP和DBP。这种选择的原因是：（i）它们提供了良好的跨语言链接;（ii）尽管与领域无关，但它们提供了医学领域的良好覆盖，包括编码数据集的链接。此外，我们包括SNOMED-CT，因为（i）它覆盖了各种各样的医学实体，（ii）一个有根据的分类学分类组织。我们的系统的整体架构如图所示。1.一、语义标记的过程由图底部所示的模块执行。该过程由一组二进制分类器（一个用于标签集中的每个类和每种语言）的执行组成，随后是组合二进制分类器的结果的元分类器（一个用于每种语言）使用来自三个知识源的远程学习方法来执行二进制分类器的训练。对于英语来说，所有的过程都更容易，因为所有的知识来源都是直接可用的。对于其他语言，由于知识来源的限制（某些语言，特别是阿拉伯语，缺乏一些资源或覆盖范围较小），该过程更为复杂。在这种情况下，我们进行跨语言映射.不同学习过程的结果显然取决于培训材料的规模和质量除了将对应于WP类别的种子术语初始分配到SNOMED-CT类别之外，不需要人工干预。值得注意的是，只有种子条款，有关联的WP网页被认为是。因此，结果是用于学习分类器的WP页面集图2描绘了学习组件的整体视图（出现在图1的顶部）。可以看出，系统以三个步骤进行：（i）构建基本标签集和相关WP类别的集合，该过程在第3.2节和第3.3节中进一步详细描述，（ii）选择用于学习的种子项，在图3中扩展并在第3.4节中详细解释，以及（iii）学习二进制分类器和元分类器。系统的分类组件（图的底部）。 1）在图中扩展。四、3.2. 标签集的选择我们的标签集由SNOMED-CT类结构中19个顶级类别中最常见的三个类别组成。在文章的其余部分，我们将这些类别称为BP（身体部位），药物和疾病。我们使用SNOMED-CT用于英语（尽管也存在西班牙语的部分版本和专业版本）。在每一个。对于所有的语言，我们已经收集了一套翻译（使用DBP），我们已经过滤掉不存在的条款，在相应的WP（作为页面或类别）。我们已经选择了我们的实验的三个类别具有较高的覆盖率，考虑到所有的语言。3.3. 定义相关WP类别尽管我们用于获得额外培训材料的远程学习方法基于三个知识源（WP、DBP和SNOMED-CT），在需要时使用它们的跨语言能力，但是必须执行限于英语WP的先前步骤，并且其结果用于处理其他知识源。按照Vivaldi和Rodríguez（2010）中描述的方法，自动从WP页面标题和WP类别标题中提取术语列表，我们得到了最可靠的WP类别集。13由此产生了一套239个工作方案类别。我们手动分配给这些类别一个独特的SNOMED-CT类。让我们表示猫wp：en 猫wp：en;猫wp：en;和猫wp：en 这些集。我们利用了WP的图结构。WP基本上由两个图组成，页面图和类别图。在前者中，节点是WP页面，而在后者中，节点是WP类别。边缘由WP链接组成。我们考虑三种类型的链接：页面类别（一个页面所属的类别），类别页面（对应于给定类别的页面）和类别类别（给定类别的超级和子类别）。我们计算分数一个页面的得分来自它所属的类别的得分，一个类别的得分来自它所属的页面的得分）。通过这种方式，使用迭代过程，好的页面加强了它们的类别，好的类别加强了它们的页面.3.4. 获取每个标签和语言的种子术语为了获得学习分类器所需的种子术语，我们使用我们的三个知识源（参见He等人（2011）和Yeganova等人（2012），用于分析这些和用于类似目的的其他资源）。该过程如图所示。3.第三章。使用了以下知识来源WP虽然是一种通用资源，但它密集地覆盖了医学领域。英语WP包含来自多个医学叙词表和本体的术语单位，如上所述。我们研究中使用的四种WP的当前完整覆盖率为14：英语WP为5，093，100页，阿拉伯语WP为410，657页，法语WP为1，730，505页，西班牙语WP为1，198，094页。法语版本）。使用BioPortal SPARQL终点12我们已经提取了顶级类别，并从中提取了术语集12http://sparql.bioontology.org/。[13]有关从WP资源中获取此类类别的方式的详细信息，请参见Vivaldi和Rodríguez（2010）。系统提供了对应于WP页面和类别的术语，但我们在这里只使用后者。14见https://stats.wikimedia.org/EN/Sitemap.htm上的最新统计数字。●诉Cotik等人/Journal of King Saud University207类类图二. 学习模块。图三. 远程学习经理。DBP是链接开放数据（LOD）中的中心链接数据集之一。它目前包含超过350万个内容，以及10亿个RDF（资源描述框架）三元组，涵盖了医疗领域。不幸我们的目的是收集医学术语的语义类和语言。过程如下：1. 如3.3节所述，对于每个语义类，没有用于阿拉伯语的DBP，因此，对于该语言，必须间接地收集来自该源的实例（通过存在阿拉伯语标签，即，由带有@ar的字符串suf组成的标签，附加到可用DBP中的DBP资源）。相关类别的英语WP已收集。2. 从每一个猫wp：en集合中，我们获得一组WP页面，并删除对应于多个集合的页面。我们将这些集合称为Pageswp：en（Pageswp：en;Pageswp：en，BP类药物SNOMED-CT，超过35万个概念，95万个英文描述（概念名称）和1，300，000个关系是有史以来集成到UMLS中的最大的单个词汇表。15基本wp：en疾病届）.这三套是我们第一次收集的域3. 从三个Pageswp：en集合中，我们收集了所有SNOMED-CT源程序，并且是我们工作中唯一使用的，是英文的。我们的系统基于Vivaldi和Rodríguez（2010），类WP信息框和信息框插槽。16我们手动选择了Vivaldi和Rodríguez（2015）扩展了后者的参考，由于在多语言环境中工作，我只能说英语。15http://www.nlm.nih.gov/research/umls/。虽然WP页面基本上由自由文本组成，但有些页面也包含结构化信息。组合和包含这类信息的最流行的方法是使用附加到某些类别的预定义模板。这些结构被命名为信息框和它们的项目信息框插槽。例如，疾病信息框包含ICD-9和ICD-10代码、MeSH条目、UMLS CUI等的插槽。●●页208诉Cotik等人/Journal of King Saud Universityhi类类类类类见图4。语义标记组件。pairs infobox，slot：特定于相应的类。然后我们收集了所有拥有这些对的页面，从而产生了第二个域名术语集合，Pagesinfobox：en。4. 第三个领域术语集来自SNOMED-CT。我们选择了SNOMED-CT类别结构的三个顶级类别（临床发现/疾病、身体结构和药物/生物制品）下的术语集，这些术语集可以映射到我们自己的类别中。从SNOMED-CT检索的集合中，仅收集了WP中存在的术语，从而生成Pagessn：en。175. 分类医学术语的最后一个来源（也是最多产的）是DBP。为了访问DBP数据，我们使用了DBpedia Sparql端点18，它允许一种简单的方式来构建查询和一种有效的方式来访问数据。使用Pageswp：en的成员作为种子术语，我们收集了最有用的谓词（平衡它们的覆盖率和特异性），并获得了包含这些谓词的rdf以这种方式我们收集了第四组医学术语，Pagesdbp：en。有关这一过程的详细信息，请参见Vivaldi and Rodríguez（2015）6. 然后，我们得到前面获得的四个数据集的并集步我们有，所以，三套页所有：en.对于每一页，我们目标标签的源语言。由于没有DBP对阿拉伯语来说，这种语言不能丰富其他语言，而只能从其他语言的丰富中获益9.我们重复最后两个步骤，直到找不到更多的术语。表1中列出了四种语言和三个语义类的最终数据。并非所有用于选择种子词的方法对于不同的语义标签和语言都同样有效。值得注意的是，用于学习的种子词中有一半以上是由DBP源选择的。例如，对于阿拉伯语和标签BP，大约60%的种子项（1077）来自DBP（657对420）。由于阿拉伯语的种子词大小较小，不使用DBP种子可能会导致小数据集（也考虑到一些WP页面被过滤掉，并且只使用纯度为1的页面）。因此，尽管可能对于英语，我们有足够的训练材料而不使用DBP，但对于其他语言，特别是阿拉伯语，必须使用DBP数据3.5. 学习分类器计算了一个纯度分数类根据Huang和Jiangoff（2010），对于每个语义类，，即，范围在[0，1]的分数，测量属于其相应SNOMED-CT类的页面的置信度。具体来说，我们定义了一个纯度测量的页面作为其类别所属的语义标签的数量的倒数。因此，在我们的工作中，我们使用三个语义标签，纯度范围从1/3到1。如果所有WP类别都映射到唯一的语义标签，则纯度为1。7. 从集合Pagesall：en和英语DBpedia标签的使用中，我们获得了相应的翻译术语，如果存在的话，Ara-bic、French和Spanish，Pagesall：ar;Pagesall：fr和Pagesall：sp。语言中，我们通过自动标记种子术语的每个提及及其指定的语义类来生成训练实例。我们的方法的核心思想是，对于类标签的每个种子项t，其WP页面中所有提到t的内容都可以被认为是学习类标签的积极示例。对于每一次提及，我们为分类器创建特征向量，种子本身被隐藏，只有上下文特征被用来表示每个训练实例。以这种方式进行的分类器被迫一般化与有限的过拟合。我们创建了一套二元上下文分类器，类类类8. 使用英语DBP、法语DBP和西班牙语DBP标签，我们丰富了其他语言（包括阿拉伯语）的相应集合为目标语言丰富一组术语的方法来自于DBP资源中另一个术语17值得注意的是，虽然来自SNOMED-CT的WP中不存在的术语被过滤掉，但剩余的一些术语可能是新的（以前未被其他方法检测到），因为选择的方式不同。18http://dbpedia.org/sparql。语义类和语言。如在Huang和Jiangoff（2010）中那样，使用使用Weka工具包的SVM模型（Hall等人， 2009年）。每个分类器都对一个术语是否属于其语义类做出评分决定用于学习的示例对应于相应WP页面中的种子术语的提及设x1; x2;. ; xn是语义类标签的种子项。对于每个xi，我们获得其WP页面，并提取页面中出现的所有种子术语正例对应于与语义类诉Cotik等人/Journal of King Saud University209标标表1Seedwords数据集大小。医疗类别英语阿拉伯语法国西班牙身体部位6464107721832663疾病14,033177139573994药物13,520108526512347表2积极和消极种子词的分布。对由每页的阳性计数和阴性计数的比率组成。医疗类别英语阿拉伯语法国西班牙所有身体部位(1.95（见第2.63段）(1.11（见第1.32段）(0.73，0.77）(0.80，0.86）(1.36（见第1.73段）疾病(6.75（见第4.10段）(4.07（见第1.84段）(2.01，0.87）(2.10（见第1.12段）(4.75（见第2.74段）药物(2.15（见第3.07段）(0.78（见第2.49段）(0.83（见第1.33段）(1.34（见第1.78段）(1.75（见第2.19段）所有(4.00（见第3.41段）(2.36，1.88）(1.34，0.99）(1.51（见第1.21段）(2.94（见第2.45段）标签，而否定示例对应于来自其他语义类的种子项。通常，一个正面的例子出现在页面的文本中，但通常也会出现许多其他正面和负面的例子。我们已经分析了所有语言和语义标签的积极和消极术语的平均分布。结果示于表2中。可以看出，对于大多数语言和类，用于训练的示例（正和负）的数量很高并且很平衡。特征是在提及的本地上下文中出现的每个语义类和语言的语料库被分为训练和测试部分。为了处理完整的语料库，我们使用语言处理器来识别每个句子中的内容词，并创建代表句子中每个成分的特征向量。对于每个示例，特征向量在其左侧和右侧19捕获n个单词的上下文窗口，而不超过句子限制。语言处理包括句子分割、分词、词性标注和命名实体识别。对于英语、法语和西班牙语Freeling工具箱20（Padro等人，2012年，它被用来完成这项任务。对于阿拉伯语，我们使用Madamira 21（Pasha等人， 2014年）。为了进行评价，我们使用WP类别- SNOMED-CT类别手动注释映射作为金标准，如第3.3节所述。我们为每个语义类标签考虑了一个黄金标准集，包括纯度为1的所有WP页面，即那些明确映射到标签的页面。相应的分类器的准确性是根据这个黄金标准集来衡量的我们继续使用如3.4节所述收集的种子术语集（每个语义类和语言一个集合），即，第wp：l页，标签2 fBP;DRUG;DISEASEg和第l2 far;en;fr;eng。与所选术语对应的一些WP页面被删除，原因是：（i）少于100个单词，（ii）难以提取有用的纯文本（主要由详细列出的列表、公式、链接等）和（iii）具有低于1的纯度。每个category标签的整个seed术语集（参见表1）分为两部分：训练和测试每个部分被限制在500个WP页面。使用了整个训练文档集，而不管其成员的来源，尽管很明显，大多数提到种子术语的地方都发生在与其来源相关的文档中。为了学习语义类标签的二元分类器，所有训练文档内的标签的所有种子项的所有提及都是正面示例的触发器，而标签的所有种子项的所有提及继Huang和Jiangoff（2010）之后，示例被表示为n维二进制向量，其中维度对应于在每个触发器的上下文中出现的上下文对应于窗口（大小限制为3）的话，周围的提及，而不超过- ING句子的限制。4. 实验框架我们已经将这里描述的方法应用于三个语义类别和四种语言。设l为语言并标记语义类别。对于Pageswp：l中的每个seed term标签，获得其对应的WP页面，经过清理，词性标注和句子分割，我们提取了所有提及（符合术语条件）。对于每个提及，构建特征向量，并将对应于l的三个学习的二进制分类器应用于它。如果没有分类器将实例分类如果只有一个分类器对实例进行了肯定分类，则返回相应的类否则，必须执行合并步骤。为了组合二进制分类器的结果，已经实现了两种方法：最佳结果。此方法返回二进制分类器的最佳得分个体结果的类。元分类器。SVM多类分类器使用基本二进制分类器的结果以及基本分类器中已经使用的上下文数据返回结果类5. 结果表3描述了当对提取的三个知识源应用两种组合方法时，针对英语获得的全局结果。[22]可以看出，使用元分类器的效果略优于最佳评分方法。使用DB作为种子词的来源始终优于其他来源。对于我们用来学习来自所有资源的种子词的联合的其他语言。全球结果见表4。如可以观察到的，对于除英语之外的语言，准确性严重下降。原因可能是：[19]在这里报告的实验中，n被设定为3。20http://nlp.lsi.upc.edu/freeling/。21http://nlp.ldeo.columbia.edu/madamira/。22报告值是每个SNOMED-CT类别结果的平均值。对于仅SNOMED-CT●●210诉Cotik等人/Journal of King Saud University表3结果（F1）获得的英语与不同的来源和组合方法。种子术语最好成绩使用元分类器维基百科87,489,6SNOMED87,488,8DBpedia94,094,9奥韦拉尔94,094,9表4全球成果。语义类英语阿拉伯语法国西班牙BP0.930.350.930.24疾病0.950.780.510.64药物0.710.330.510.54所有0.940.540.750.53培训材料的大小差异如表1所示。WP覆盖率的差异在第3.4节中指出。跨语言映射导致的数据质量下降，这种映射永远不能被认为是无错误的语言处理器对所涉及的不同语言值得注意的是，尽管阿拉伯语的培训材料和WP覆盖率较低，但阿拉伯语的结果略优于西班牙语。这是由于疾病类的阿拉伯语分类器的出色性能，可能是由于WP医疗页面中这些注释的质量由于缺乏黄金标准数据集以及所使用的标记集和语言的差异，很难将我们的结果与执行相同任务的其他最先进的系统进行据我们所知，WP页面以前没有被用作这项任务的黄金标准对于英语，可以与2010年i2 b2/VA挑战中关于临床文本中的概念、断言和关系的概念提取任务（Uzuner et al.（2010））和DDI提取2013（Semeval-2013的任务9，Segura-Bedmar et al. （2014），均在第2节中概述。这种非正式的比较只是为了看看我们的结果是否可以被放置在类似任务的最先进的范围在2010年i2 b2/VA的情况下，三个最佳评分系统的结果范围从0.78到0.85。我们的结果（0.94）明显优于这些结果。在DDI 用于实体标记的情况下，三个最佳评分系统的数字范围为DrugBank数据的0.51至0.83，Medline数据的0.37至0.56，更接近我们的类型。在这种情况下，应与我们在DRUG分类器（0.71）上的结果我们的结果似乎又一次虽然公平地说，缺乏直接的比较，我们可以简单地说，我们的结果可以被认为是最先进的。对于法语，也可以与CLEF eHealth 2015 23con-test，任务1b（临床命名实体识别）进行比较（Neveol等人，2015年）。在这种情况下，结果范围从0.70到0.76，而我们的结果是0.75。公平地说，我们应该指出，这种情况下的任务显然比我们的更具挑战性（它包括10个UMLS类别检测和分类任务）。不幸的是，对于阿拉伯语和西班牙语，即使是肤浅的评估也无法进行（Cotik et al.（2015）的结果不具有可比性，因为任务略有不同）。23https://sites.google.com/site/clefehealth2015/。6. 结论和进一步的工作我们已经提出了一个系统，自动检测和标记对应于WP页面中找到的WP页面的医学术语。所使用的标签集由三个类别组成，来自SNOMED-CT分类法。该系统已适用于包括阿拉伯文在内的四种语文。结果，虽然不能直接与其他方法相比，似乎达到至少国家的最先进的精度（与相关竞赛中的最佳系统相比）。这种方法的一个相关好处是，为培训获取正面/负面例子的努力已减少到最低限度。本实验中使用的一些工具是通用的。它们的性能可能不适合某些医学术语（例如：1，3-二氟-2-丙醇或8-环戊基-1，3-二丙基黄嘌呤等），这是由于这些术语的内在复杂性以及用标准NLP工具处理这些术语的困难。我们计划在我们的工具中引入一些改进或使用已经存在/可用的专用工具，例如Meta- map（Aronson和Lang，2010）。今后将进行若干方面的研究我们的系统的主要限制是，ML算法的训练和测试数据仅基于WP页面。使用2010年i2 b2/VA挑战的概念提取任务提供的关于临床文本中的概念、断言和关系的数据将被考虑用于训练和测试集。我们的目标是建立一个足够强大的系统，以适用于更多的广告类型，如电子健康报告。由于我们的结果是基于三个知识源，一个明显的可能的改进方式是组合和/或专业化的资源，学习更准确的分类器。特别是扩展DBP的能力似乎是一个很好的研究方向。使用更细粒度的标签集，包括更具挑战性的类别（如症状、临床发现、程序、损伤等）。. ）.从医学实体的语义标记到这些实体之间关系的语义标记是一个非常令人兴奋的目标，符合医学领域（及其他领域）最近的挑战确认这项工作得到了 TUNER 项目（ Spanish Ministerio deEconomía y Competitividad ， TIN 2015 -65308-C5- 5-R ）和GRAPH-MED 项目（ SpanishMinisteriodeEconomíayCompetitividad，TIN 2016 -77820-C3-3-R）的部分支持。引用Agirre，E.，Edmonds，P.，2006.词义消歧：算法与应用。AAAI研讨会，南希·艾德和克里斯·韦尔蒂。Aronson ， A.R. ， Lang ， F.- M. 2010. MetaMap 概述：历史观点和最新进展。 In ：JAMIA，vol.17，pp.229-236。Benajiba，Y，Zitouni，I.Diab，M.，Rosso，P.，2010年。阿拉伯命名实体识别：使用从噪声数据中提取的特征。在：计算语言学协会第48届年会的会议记录，ACL-2010，乌普萨拉，瑞典，7月11日281-285Cotik，V.，Filippo，D.，Castano，J. 2015.西班牙语放射学报告自动分类方法。Gerber，A. ，高湖，加-地Hunte，J. ，2011. 语义标记服务（who ，what，when ，where）的范围研究。见：研究报告，eResearch Lab，昆士兰大学。Halgrim，S.，Xia，F.，中国农业大学，索尔蒂岛Cadag，E.，Uzuner，O.，2011.用于从出院总结中提取药物信息的分类器级联。J.生物医学。语义霍尔，M.，弗兰克，E.，霍姆斯，G.，Pfahringer，B.，P.，威滕岛，2009. weka数据挖掘软件：更新。在：SIGKDD探索.●●●●●●●●诉Cotik等人/Journal of King Saud University211他，J.，de Rijke，M.，Sevenster，M.，van Ommering，R.，Qian，Y.，2011年。生成背景知识的链接：使用叙述性放射学报告的案例研究。In：Proceedings of CIKM黄河，巴西-地E.J.，2010.（几乎）从无到有地引入特定领域的语义类标记器。在：计算语言学协会第48届年会的会议记录，乌普萨拉，瑞典，pp。275-285詹姆斯·梅菲尔德，H.T.D. Artiles，Javier，2012. TAC 2012知识库人口跟踪概述，文本分析会议（TAC）。Ji，H.，格里什曼河，天啊H. T Griffitt，K.，Ellis，J.，2010. TAC 2010知识库人口跟踪概述，文本分析会议（TAC）。Ji，H.，格里什曼河，天啊H. T 2011. TAC 2011知识库人口跟踪概述，文本分析会议（TAC）。Mayfield，J.，Ellis，J.，Getmana，J.，Mott，J.，Li，X.，Griffitt，K.，Strassel，S.M.， Wright，J. ，2013年。KBP 2013实体链接轨道概述。在：文本分析会议（TAC）。莫罗，A.，Roganato，A.，纳维利河2014.实体链接与词义消歧：统一方法。跨 ACL，231-244。纳维利河2009年词义消歧研究综述。ACM计算 41岁Neveol ， A. ， Grouin ， C. ， Tannier ， X. ， Hamon ， T. ，凯利， L. ，格里奥湖Zweigenbaum，P.，2015.电子健康评估实验室2015年任务1b：临床命名实体识别。在：CLEF的会议记录。帕德罗湖Stanilovsky，E.，2012.自由发挥3.0：走向更广泛的多语言性。在：语言资源和评估会议（LREC 2012），ELRA，伊斯坦布尔，土耳其的会议记录。Pasha，A.，Al-Badrashiny，M.，Diab，M.，Kholy，A.E.，埃斯坎德尔河，Habash，N.，Pooleery，M.，兰博岛，Roth，R.M.，2014.一个快速、全面的阿拉伯语词法分析和消歧工具。在：LREC的诉讼。Rebholz-Schuhmann，D.，Arregui，M.，Gaudan，S.，Kirsch，H.，Jimeno，A.，2008. 通过Web服务进行文本处理：调用Whatizit。生物信息学应用注4/2，296Roth，D.，Ji，H.，张，M.- W.，卡西迪，T.，2014.维基化及超越：实体与概念基础的挑战。在：在第52届计算语言学协会年会上。塞古拉-贝德马岛 Martnez' ，P.，Zazo，M.H.，2014年。从ddi提取2013共享任务中吸取的经验教训。J. BioMed. Infor. ISS N ：1532-0464。Uzuner，Özlem，South，B.R.，Shen，S.，DuVall，S.L.， 2010. I2 B2/VA对临床文本中概念、断言和关系的挑战。J. Am.医疗报告。相关人员： 18，pp. 552- 556Uzuner，Özlem，Solti，Imre，Cadag，Eithon，2010.从临床文本中提取药物信息。J.Am. Med. Inf. Assoc. 17，514-518.Vivaldi，J，Rodríguez，H.，2010.在生物医学领域使用维基百科

下载后可阅读完整内容，剩余1页未读，立即下载