GERNERMED:一个开放的德国医疗NER模型

173 浏览量更新于2024-01-25 收藏 546KB PDF 举报

机器学习

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响11（2022）100212原始软件出版物GERNERMED：一个开放的德国医疗NER模型Johann FreiJ.，Frank Kramer奥格斯堡大学应用计算机科学学院，Alter Postweg 101，86159 Augsburg，德国自动清洁装置保留字：自然语言处理临床文本挖掘机器学习A B标准自然语言处理（NLP）的最新进展是通过使用日益复杂的神经网络实现的。在临床背景下，NLP是从非结构化文本（如临床笔记）中访问高度相关信息的关键技术。我们评估了在由公共英语数据集自动翻译生成的带注释的德语训练数据上训练我们的神经模型GERNERMED的可行性。这项工作指导其他研究人员使用机器翻译方法获取数据集。由于数据集的公共来源，我们经过训练的软件可以由研究人员使用，没有任何法律访问限制。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-181可复制胶囊的永久链接https://codeocean.com/capsule/0396930/tree/v1法律代码许可证MIT许可证使用的代码版本控制系统无软件代码语言，工具和服务使用Python，C++，pytorch/fairseq，clab/fast_align，explosion/SpaCy。编译要求、操作环境和依赖关系Python 3，SpaCy库如果可用，请链接到开发人员文档/手册自述文件页面：https://github.com/frankkramer-lab/GERNERMED/blob/main/README.md支持电子邮件咨询johann. informatik.uni-augsburg.de1. 介绍自然语言处理（NLP）的最新进展是通过广泛使用日益复杂的神经网络实现的。例如，来自BERT [1]或GPT [2，3]启发架构的大型通用语言模型通常在大型语料库上训练，例如Common Crawl [4]或The Pile[5]，这些语料库由320 TiB（Common Crawl）或825 GiB（The Pile）原始文本数据组成。由于任何类型的大规模数据都无法进行注释，因此这些数据集主要用于预训练等无监督方法[6]。然而，当面对特定于案例的下游任务时，可以使用合适的数据集以监督的方式进行微调[6]。在这种情况下，数据集需要相应地针对特定任务进行注释。数据集起着关键作用，因为这种NLP模型的质量与控制模型学习参数的训练数据集虽然公共数据集已被用于训练特定任务的NLP模型，但当涉及非英语文本数据时，这些数据集的可用性不足。例如，在NLP临床应用的情况下，研究社区可以访问几个公共英语数据集[7，8]。然而，对于德国的临床NLP，由于GDPR和其他隐私保护问题以及经常缺乏黄金标准注释，只有有限的数据可用于开放研究。非结构化德国临床数据的处理仍然是一个正在进行的研究领域。NLP中的常见任务，例如命名实体识别（NER），用于从文本中确定关键元素，如药物信息和各种相关信息，如剂量和持续时间[6]。在这项工作中，我们提出了GERNERMED软件组件，它是在德国的临床笔记的自定义数据集上训练的本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址：johann. informatik.uni-augsburg.de（J. Frei），frank. informatik.uni-augsburg.de（F. Kramer）。https://doi.org/10.1016/j.simpa.2021.100212接收日期：2021年12月10日;接收日期：2021年12月22日;接受日期：2021年12月22日2665-9638/©2021作者。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsFrei和F. 克莱默软件影响11（2022）1002122Fig. 1. 流水线图解：数据合成、NER训练和推理的工作流程。文本，可以很容易地部署为独立的部分或作为一个更大的NLP管道的一部分。作为基础工作，基础数据集是从公开的基于英语的临床数据自动合成的。这项工作还旨在指导其他研究人员使用机器翻译方法获取类似的银标记数据集，而无需手动质量控制。2. 材料和方法n2c2 2018 [8]挑战通常为英语NLP工作提供基础。该数据集由303个带注释的训练文档和202个黄金标准注释的测试文档组成。我们从数据集中提取并解析文本和注释标签，以便使用Fairseq [10]的预训练神经机器翻译模型不能因为句法上的内在差异而认为译文与原文的结构英语和德语。例如，不能保证英语中的第四个单词和德语中的第四个单词之间存在精确的语义对应。为了建立词与词的对应关系，我们建立在FastAlign [11]软件的基础上，该软件基于给定输入和输出句子对的基于期望最大化的算法来估计词与词的对齐。由于句子对齐的统计模型的简化，我们期望对齐估计结果在不遵循原始数据集中的普通句子结构的离群样本中表现出缺陷。为了为了过滤这些未对准伪像，我们对成功的对准估计近似地遵循英语和德语句子对的词序的假设进行编码。如果从比对矩阵的条目到其对角轴的平均距离超过某个阈值，则我们从数据集中丢弃样本。给定每个句子对的对齐，Frei和F. 克莱默软件影响11（2022）1002123图二. NER标记：成功处理德语演示句子。英语句子可以传播到德语句子中的相应标记。使用我们的合成数据集，我们可以为临床应用程序用例训练一个自定义命名实体识别器组件。为了实现神经组件和句子解析，我们使用SpaCy [12]软件进行训练和推理。工作流程如图所示。1.一、3. 结果在这里，我们提出了一个命名实体识别器组件，它使研究人员能够直接集成到他们的研究软件系统的注释组件。它是在给定命名实体识别组件的默认SpaCy参数的情况下训练的。我们获得的数据集由8599个句子组成，总数量为172695个标记。数据集通常分为训练集（80%）、验证集（10%）和测试集（10%），以衡量学习行为和最终模型性能。经训练的NER组件能够在81.54%的平均F1分数上检测医学相关实体标签药物、强度、途径、形式、剂量、频率文本注释结果的示例在图1中提供。二、由于我们的NER组件基于SpaCy NLP管道的组件代码，因此该组件可以通过单个命令轻松安装，并通过两行代码包含到相关的临床文本处理研究管道中。4. 影响概述从非结构化文本数据中提取相关信息（如药物和药物治疗）是一个高度相关的用例，因为它使其他研究人员能够访问医院内部的临床记录，以处理大量的德语文本数据，从而研究和跟踪健康相关信息，以便进一步研究。一般而言，非结构化文本处理不仅涉及当前数据收集，还包括历史和遗留文本数据的处理。因此，它的特点是与回顾性研究设计和健康数据的二次使用相关。GERNERMED可以为多发性硬化症DIFUTURE ProVal-MS研究[13]的患者记录挖掘提供益处，以便从当地大学医院的德国临床记录中提取药物和药物相关信息。了解多发性硬化症的药物-疾病相互作用有助于改善治疗决策和结果。帕金森病的DIFUTURE研究项目同样，我们的模型可以被其他研究人员用于临床研究中的其他在这一研究领域的主要影响是对非英语临床文档的自动注释由于NER模型是基于来自公开来源的数据而不是来自医院的高度敏感的内部数据进行训练的，因此我们绕过了对隐私相关健康数据的法律法规和限制，并被允许向公众提供训练后的NER模型。由于组件的开放性，软件可以进一步用于各种各样的情况，包括德国临床NLP领域内的商业应用，但也可以用于潜在的统计模型分析，因为模型权重是公开可访问的。由于我们的软件组件的新颖性，我们的目标是从即将到来的内部和外部项目和用户那里获得反馈，以提供组件的更新迭代，作为未来工作的一部分。5. 讨论该数据集是通过翻译和比对自动生成的，与人工管理的数据集相比，预期错误诱导的翻译和比对估计会降低数据集的质量。然而，NER性能分数指出了这种自动化数据合成的能力和局限性，因此也可能与来自不同领域的其他研究人员相关。我们认为对数据集和软件组件的深入分析是未来的工作。该软件可以被视为竞争开放NLP组件的基线，这些组件可能会在即将到来的研究工作中发布。6. 结论我们提出了GERNERMED软件组件，一个开放的命名实体识别系统，德国临床文本。作为训练这样的组件的先决条件，我们描述了快速有效地从临床领域的外语数据集中获得语言特定数据集的方法。应用公共数据集的方法使我们能够提供经过训练的组件供公众使用，并使感兴趣的用户可以轻松访问，而无需依赖访问限制。此外，我们提供了示例代码和我们的软件的性能评估脚本，以提高在这一研究领域的可重复性我们的研究结果还为其他研究人员提供了关于通过基于机器推理的数据集生成构建NLP组件的有效性的一般信息，作为时间和成本密集型手动数据集获取的替代方案。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]Jacob Devlin，Ming-Wei Chang，Kristina Toutanova，BERT：用于语言理解的深度双向转换器的预训练，2018，CoRR，abs/1810.04805。[2] 放大图片作者： Tom Brown ，Benjamin Mann， Nick Ryder ，Melanie Subbiah ，Jared D. 卡普兰Prafulla Dhariwal ， Arvind Neelakantan ， Pranav Shyam ， Girish Sastry ，AmandaAskell，Sandhini Agarwal，Ariel Herbert-Voss，Gretchen Krueger，TomHenighan，Rewon Child，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，ChrisHesse，Mark Chen，Eric Sigler ，Mateusz Litwin，Scott Gray，Benjamin Chess ， JackClark ， Christopher Berner ， Sam McCandlish ， AlecRadford ， Ilya Sutskever ， DarioAmodei ， Language models are few-shotlearners，in：H. 拉罗谢勒，M。兰扎托，R.哈德塞尔，M.F. Balcan，H. Lin（Eds.），神经信息处理系统的进展，卷。33，Curran Associates，Inc，2020，pp.1877-1901年。Frei和F. 克莱默软件影响11（2022）1002124[3] Ben Wang，Aran Komatsuzaki，GPT-J-6 B：60亿参数自回归语言模型，2021，https://github.com/kingoflolz/mesh-transformer-jax。[4] 常见的抓取博客，http://commoncrawl.org/connect/blog/。（检索日期：2021-12-10）。[5] Leo Gao ， Stella Biderman ， Sid Black ， Laurence Golding ， Travis Hoppe ，Charles Foster ， Jason Phang ， Horace He ， Anish Thite ， Noa Nabeshima ，Shawn Presser，Connor Leahy，The pile：An 800 gb dataset of different text forlanguage modeling，2020，arXiv preprintarXiv：2101.00027.[6] Bethany Percha，现代临床文本挖掘：指南和评论，Annu。Rev. BioMed.数据科学4（1）（2021）165-187，PMID：34465177。[7] Tom J. Pollard，Alistair E.W. Johnson，The mimic-iii clinical database，2016，http://dx.doi.org/10.13026/C2XW26。[8] Sam Henry，Kevin Buchan，Michele Filannino，Amber Stubbs，Ozlem Uzuner，2018 n2c2电子健康记录中药物不良事件和药物提取的共享任务，J. Am。医疗报告。助理：JAMIA 27（1）（2020）3-12.[9] Florian Borchert，Christina Lohr，Luise Modersohn，Thomas Langer，MarkusFollmann，Jan.Philipp Sachs，Udo Hahn，Matthieu-P. Schapranow，Ggponc：基于临床实践指南的德语医学文本语料库，包含丰富的元数据。在：第11届健康文本挖掘和信息分析国际研讨会论文集，2020年，pp。38比48[10] Myle Ott，Sergey Edmont ，Alexei Baevski，Angela Fan， Sam Gross，NathanNg，David Grangier，Michael Auli，Fairseq：一个快速，可扩展的序列建模工具包，在：NAACL-HLT 2019会议记录，演示，2019。[11]放大图片作者：Chris Dyer，Victor Chahuneau，Noah A. Smith，一个简单，快速，有效的IBM模型2的重新参数化，在：计算语言学协会北美分会2013年会议论文集：人类语言技术，计算语言学协会，亚特兰大，格鲁吉亚，2013年，pp。644-648[12] Matthew Honnibal ， Ines Montani ， Sofie Van Landeghem ， Adriane Boyd ，spaCy：Python中的工业级自然语言处理，2020。[13] 放大图片创作者：Michael E. Kuhn，未来医学数据集成（difuture），方法信息医学57（S01）（2018）e57-e65。

下载后可阅读完整内容，剩余1页未读，立即下载