验证生物医学问答的预期答案类型

111 浏览量更新于2023-10-16 收藏 12.68MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10930验证生物医学问答的预期答案类型0Sanjay KamathLIMSI，LRI，Univ.Paris-Sud，CNRS，UniversitéParis-SaclayOrsay，法国sanjay@lri.fr0Brigitte GrauLIMSI，CNRS，ENSIIE，Université Paris-SaclayOrsay，法国brigitte.grau@limsi.fr0Yue Ma LRI，Univ.Paris-Sud，CNRS，Université Paris-SaclayOrsay，法国yue.ma@lri.fr0摘要0抽取式问答（QA）专注于从给定段落中提取出自然语言提出的问题的精确答案。深度学习模型广泛用于解决这个问题，并且在有足够的学习数据的情况下可以获得良好的结果。这样的大规模数据集已经在开放领域发布，但在特定领域（如医学领域）尚未发布。然而，医学领域拥有大量的资源，如UMLS词库、SNOMEDCT等本体论和Metamap等工具，这些资源可能是有用的。在本文中，我们应用迁移学习来获取生物医学问题的DNN基线系统，并研究结构化资源是否可以帮助根据预期答案类型（EAT）的识别来选择答案，这在开放领域QA系统中已被证明是有用的。这项研究依赖于不同的LAT表示，并研究我们的模型的金标准答案和答案是否从LAT中获得一些积极影响。0关键词0问答，神经网络模型，预期答案类型0ACM参考格式：Sanjay Kamath，Brigitte Grau和YueMa。2018。验证生物医学问答的预期答案类型。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，5页。https://doi.org/10.1145/3184558.319154201 引言0问答（QA）专注于以自然语言提出的问题给用户提供精确答案。在以前的评估会议TREC和CLEF中，QA任务是在给定问题和大量语料库的情况下，从文本中提取出支持段落的精确答案。它涉及复杂的系统，具有一系列的模块。自从有了大规模的训练数据集[7，15，17]以来，该任务已被重新定义为机器阅读任务：给定一个问题和一个段落，系统必须从段落中提取出精确答案。这个任务也被称为抽取式问答。这样的任务在开放领域或关于实体或事件的问题中都可以有所帮助，也可以在特定领域中使用。在本文中，我们是0本文发表在Creative Commons Attribution 4.0 International（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据Creative Commons CC BY 4.0许可发布。ACMISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915420对医学领域感兴趣。尽管这些领域中使用的词汇相当不同，但问题的类型却相当相似，关于基因、疾病或医学事件等的信息以及关于开放领域中的命名实体的信息具有相似的结构，并且可以应用相似的方法。一个大规模的开放领域抽取式问答数据集是SQUAD1，它由[17]发布，包含由众包工作者在一组维基百科段落上提出的10万多个问题。对于医学领域，BIOASQ挑战（任务B）-[18]提供了一组从医学科学文章中提取的片段的问题。生物医学问题及其确切答案、相关文本片段、概念、文章、摘要是由来自欧洲各地的生物医学专家构建或选择的-[13]。下面是一个来自BIOASQ数据的示例问题及其片段：0隐性遗传方式。对20个家族的遗传分析证实了自体隐性。摘要：患者的总体性别比例接近1:1，答案：自体隐性，问题：Wilson病的遗传方式是什么？0在开放领域中，深度学习模型被广泛用于解决QA任务，并被证明是有效的。可以在排行榜1上找到使用SQUAD数据集的几个深度神经网络（DNN）模型的结果。由于在没有领域专家的大量努力下，很难创建一个大规模的生物医学QA数据集，因此迁移学习可以被视为使用DNN模型进行小规模生物医学QA的替代方法，如[20]所使用的方法。作者使用基于FASTQA-[19]的深度神经网络模型在开放领域数据上使用SQUAD数据集进行训练，然后在BioAsq数据集上重新训练模型。我们使用类似的方法对DRQA模型进行迁移学习，因为它在开放领域QA上获得了可比较的结果，并且其实现是可用的2。在本文中，我们有兴趣研究是否添加属于结构化资源的知识可以帮助重新排序或选择DNN模型提供的答案。在以前的QA系统（非深度学习方法）中，选择答案的主要标准之一是基于识别预期答案类型（EAT）或词汇答案类型（LAT）以便与候选答案进行匹配。它依赖于命名实体识别，并且已经使用了文本语料库和知识库等附加资源来改进此验证[4-6]。生物医学领域拥有大量的资源，如UMLS词库、本体等01 https://rajpurkar.github.io/SQuAD-explorer/ 2https://github.com/facebookresearch/DrQA0Track: 第一届混合问答结构化与非结构化知识国际研讨会 (HQA'18) WWW 2018, 2018年4月23-27日, 法国里昂10940如SNOMEDCT以及用于注释文本的Metamap等工具。因此，我们研究这个特征是否在通过使用UMLS的语义组和EAT的词嵌入来研究[14]提供的语料库上获得更好的答案时起到了作用。02 相关工作 2.1 QA系统0以文本为基础的以前的QA系统由多个流水线模块组成：问题分析、段落选择、答案选择。问题分析允许提取用于选择段落和提取答案的特征。除了内容词，这些特征可能因系统而异，但它们都使用了预期答案类型（EAT）[10]。EAT可以是一个命名实体类型，按照答案类型分类法组织，[11]用于开放领域，或者是用于生物医学领域的UMLS术语[22]，或者是在问题中找到的一个词，或者是一个一般类别，如NP（名词短语），当没有关于它的信息时。除了NP之外，验证候选答案是否与EAT匹配的最佳方法涉及基于特征的监督学习，基于不同资源的使用，如共现和结构化资源的存在[4-6]。在医学领域，这种验证是使用UMLS进行的[2,22]。最近的QA方法基于深度神经网络架构，主要在开放领域中（请参见SQUAD数据集上这些模型的结果排行榜1）。在医学领域，Wiese等人对BIOASQ2017的参与应用了领域自适应，并在[19]中引入了作为补充特征的EAT嵌入，定义为问题词或接近问题词的词。然而，他们没有报告允许评估EAT影响的结果。02.2 资源0UMLS（统一医学语言系统）Metathesaurus于1986年创建，已成为生物医学科学中的重要和大型资源。它提供了超过3,100,000个从近200个词汇表导入的生物医学概念。每个概念都被分配一个唯一标识符（CUI），用于唯一标识单个含义。为了一致地对这些巨大数量的概念进行分类，UMLSMetathesaurus定义了133个语义类型。为了进一步减少Metathesaurus的复杂性，这些语义类型被划分为14个组，称为语义组，如https://semanticnetwork.nlm.nih.gov/download/SemGroups.txt中所示。语义类型和语义组已在各种生物医学信息系统中使用，包括对临床研究资格标准进行分类[1]、学习生物医学本体[16]和表示医学QA的临床问题[9]。03 QA系统概述0我们在这里介绍了一个名为DRQAreader的现有模型在生物医学领域的应用。DRQAreader有三个组成部分：1）输入层：使用预训练的词嵌入空间对输入的问题单词和输入的段落单词进行编码；2）神经层：RNN或LSTM0网络；3）输出层或解码层：输出是表示提取答案跨度的开始和结束标记。在输入层，使用词嵌入将段落和问题的单词编码为向量，同时还使用文本特征，如词性标注、命名实体标记、段落中单词的词频。作者使用了对齐的问题嵌入，其中注意分数捕捉了段落单词和问题单词之间的相似性。核心DNN模型所定义的神经层使用不同的神经网络架构来捕捉QA对之间的语义相似性。在输出层，两个独立的分类器使用双线性项来捕捉段落单词和问题单词之间的相似性，并计算每个标记作为答案跨度开始和结束的概率。对跨度进行非标准化指数的argmax值计算，得到最终预测结果。0图1：从开放领域到生物医学领域的迁移学习0我们采用[20]中的迁移学习方法，该方法基于FASTQA[19]在开放领域数据上训练了一个神经网络模型，并使用SQUAD数据集对BIOASQ数据集进行了重新训练，如图1所示。按照这个模型，我们首先使用SQUAD数据集的默认超参数训练DRQA模型，然后在BIOASQ问题上重新训练模型。我们测试了几种嵌入空间作为输入向量[8]，并选择了表现最好的Glove嵌入作为系统的输入。BioAsq任务与SQUAD任务有些不同。BioAsq提供了几个被医学专家认为相关的片段。因此，对于同一个问题，系统将每个问题和片段作为输入对进行处理。这样，对于同一个问题，会从多个片段中预测出多个答案。我们还可以注意到，有些片段不包含答案，或者答案与问题不一致，即片段包含相关但不可回答的文本摘录。我们的模型通过片段预测一个得分最高的答案，最终结果由同一个问题的答案列表组成。我们将保留前5个答案以研究与EAT表示相关的内容。DNN模型不使用任何LAT信息或任何与医学领域相关的资源。因此，我们的目标是研究是否有必要添加与LAT相关的信息，或者模型的嵌入和注意力机制已经捕捉到了这些信息。0论文集：第一届混合结构和非结构化知识问答国际研讨会（HQA'18） WWW 2018，2018年4月23日-27日，法国里昂109504 预期答案类型的验证0预期答案类型或词汇答案类型（LAT）有助于确定要返回的答案类型。在开放领域中，EAT可以是命名实体、数字、地址、年份等，而在生物医学领域中，可以是疾病名称、基因、药物、症状等。下面是一个示例。0语义组：DISO 疾病或综合征预期/词汇答案类型：疾病答案：精神分裂症问题：Loxapine主要用于治疗哪种疾病？0在这方面，[14]发布了一个包含BioAsq问题的LAT注释语料库，这些问题被手动注释为带有LAT词和它们的语义类型，语义类型来自UMLS。04.1 材料0在我们的实验中，我们考虑了LAT的不同表示：0• LAT所指的语义组，可以从UMLS语义网络4的语义类型中推断出来0（SGLAT）； •词嵌入LAT（WELAT）。0对于由多个单词组成的LAT，我们计算LAT的每个单词嵌入的平均值。当一个单词没有嵌入时，我们将其向量设置为0。我们使用来自BioAsq 5A任务数据的生物医学文本的300维Word2Vecskipgram模型[12]来计算词嵌入。为了确定LAT的识别是否对选择答案有用，我们研究了是否可以将注释语料库中给出的LAT（问题的黄金标准LAT（Gold-LAT））与预期答案（黄金标准（GoldAns）中的答案）以及我们的问答系统给出的答案（PredAns）进行匹配。首先，我们通过将语义类型和语义组之间的关系应用于UMLS语义网络5来计算GoldLAT的语义组。然后，我们使用MetaMap对答案进行注释，以获取每个答案的语义组（如果存在）。我们从BioAsq组织者提供的黄金标准数据中获取LAT语料库的问题的正确答案。我们还将在片段中找到的答案的不同形式（简写等）添加到这些列表中。目标是进行真实的自动评估6。04.2 实验和结果0在实验中，我们只考虑BiomedLat语料库中的事实型问题。我们将数据集分为训练集和测试集（80%训练，20%测试）。图2中报告的统计数据是针对事实型问题的测试集。03 https://github.com/mariananeves/BioMedLAT 4https://metamap.nlm.nih.gov/SemanticTypesAndGroups.shtml 5https://metamap.nlm.nih.gov/Docs/SemGroups_2013.txt6请注意，我们对所有训练数据进行了相同的注释，以便基于这些数据集构建的模型应该可以学习各种形式的答案0我们计算了问题中LAT词嵌入与三种不同答案词嵌入之间的余弦相似度，具体如下所述： •GoldStandard-maxCosine（交叉点）：答案词是用所有与WELAT具有最大余弦相似度的答案表示进行注释的黄金标准数据。 •DRQA-cosine-top1（三角点）：答案词是来自DRQA输出的前1个答案。正确（或错误）答案的相似度在X轴上方（或下方）绘制。 •DRQA-maxCosine（圆点）：答案词来自DRQA输出的前5个与WELAT具有最大余弦相似度的答案。正确（或错误）答案的相似度在X轴上方（或下方）绘制。从图2中，我们可以看到黄金标准答案（GoldStandard-maxCosine）在词嵌入方面与LAT存在显著的相关性，尽管有6个问题的LAT与WELAT的相似度为0，这是由于医学领域词汇的缺失词嵌入引起的。另一个明显的观察是，来自DRQA系统的前1个错误答案中有许多相似度较低（小于0.25），这表明我们可以根据这个标准删除一些错误答案。此外，图2显示大约有50%的前1个答案与问题LAT没有相似度。这可能是由于词嵌入的词汇外问题，例如在训练语料库中从未出现过的具有特定词汇的简短答案。对于X轴下方的圆点，它们与WELAT也呈现出重要的相似度（约为0.5）相关性，这意味着仅仅选择相似度最高的答案作为最佳答案并不是一种有效的策略。实际上，当我们使用这种重新排序策略从DRQA候选答案中选择一个答案时，与注释的黄金标准相比，严格的准确性从38%降至33%。再次强调，正确答案的缺失词嵌入对此结果产生了很大影响。以上观察结果表明，对于医学问答系统来说，对词嵌入进行细致的研究非常重要。0表1：与答案相关的SGLAT0数据集答案计数0金标准数据40/59DRQA正确的top-1输出18/23DRQA错误的top-1输出16/360为了确定SGLAT在答案词中的重要性，我们研究了问题LAT词的语义组是否出现在答案中。我们在三个数据集上报告了这一点，其中一个是BIOMEDLAT语料库中的金标准问题，另外两个是DRQA系统（top-1）的正确和错误输出。表1显示了SGLAT和答案词的匹配次数。很明显，许多正确答案（金标准-40/59）具有匹配的SGLAT。对于DRQA输出，我们计算了多少个正确和错误的top-1答案与SGLAT匹配。根据报告的结果，与错误答案相比，有更多正确回答的DRQA输出（18/23）与SGLAT匹配。0论坛：第一届混合结构和非结构化知识问答国际研讨会（HQA'18）WWW 2018年4月23-27日，法国里昂12345678910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 590.000.250.500.751.00DRQA-maxCosine-CorrectAnswer(y¿0)DRQA-maxCosine-FalseAnswer(y¡0)DRQA-cosine-top1-CorrectAnswer(y¿0)DRQA-cosine-top1-FalseAnswer(y¡0)GoldStandard-maxCosine10960问题ID0-1.000-0.750-0.500-0.250相似度（余弦）0正确答案0错误答案0图2：对于59个问题在三种不同的回答设置中答案的分布：红色交叉点表示与问题LAT词嵌入具有最大相似度的金标准答案；因此，所有交叉点都是正确答案。X轴上方的蓝色圆点是DRQA系统返回的与WELAT具有最大余弦相似度的正确答案；X轴下方的圆点是DRQA系统返回的与WELAT具有最大余弦相似度的错误答案。绝对值表示相似度。绿色三角形代表DRQA系统的top-1结果，上部是正确答案，下部是错误答案。0使用UMLS的语义组注释应对QA系统的性能有积极影响。05 结论0以前基于特征的QA系统中，问题的预期答案类型被证明非常有用，因为它可以根据匹配类型选择正确的答案。现在，端到端的神经网络模型已经成功地用于回答问题，特别是在发布了大型数据集的开放领域。这些模型避免了复杂的0特征工程。然而，通过迁移学习将它们适应到特定领域，如医学（生物医学）领域，结果较差。因此，我们想研究是否添加一些关于LAT的信息可以帮助改进它们的结果。在本文中，我们研究了基于结构化分类法或词嵌入的LAT的不同表示，并展示了与正确答案的相关性。与我们模型提供的答案进行比较时，我们可以发现添加这样的标准可能会撤回错误答案，并且生物医学术语的词嵌入计算必须改进为基于神经网络的模型。0论坛：第一届混合结构和非结构化知识问答国际研讨会（HQA'18）WWW 2018年4月23-27日，法国里昂10970QA系统。将来，我们将研究如何在我们的系统中对这些信息进行建模。0致谢0这项工作由ANR项目GoAsQ（ANR-15-CE23-0022）资助。0参考文献0[1]2011年。通过分层聚类对临床研究资格标准进行动态分类。《生物医学信息学杂志》44卷6期（2011年），927-935页。[2] Asma Ben Abacha和PierreZweigenbaum。2015年。MEANS：一种结合NLP技术和语义Web技术的医学问答系统。《信息处理与管理》51卷5期（2015年），570-594页。[3] Danqi Chen，AdamFisch，Jason Weston和AntoineBordes。2017年。阅读维基百科以回答开放领域问题。《ACL2017会议论文集》1870-1879页。[4] Jennifer Chu-Carroll，James Fan，BKBoguraev，David Carmel，Dafna Sheinwald和ChrisWelty。2012年。在大海捞针：搜索和候选生成。《IBM研究与开发杂志》56卷3.4期（2012年），6-1页。[5] Arnaud Grappy和BrigitteGrau。2010年。问题回答系统中的答案类型验证。《RIA02010，第9届国际会议，法国巴黎，2010年4月28-30日，论文集》9-15页。http://portal.acm.org/citation.cfm?id=1937058& CFID=17354760&CFTOKEN=88565769 [6]Arnaud Grappy，Brigitte Grau，Mathieu-Henri Falco，Anne-Laure Ligozat，Is-abelle Robba和AnneVilnat。2011年。通过稳健的验证过程从Web文档中选择问题的答案。《WI》。[7]Daniel Hewlett，Alexandre Lacoste，Llion Jones，Illia Polosukhin，Andrew Fan-drianto，Jay Han，Matthew Kelcey和DavidBerthelot。2016年。Wikireading：一项新颖的基于维基百科的大规模语言理解任务。arXiv预印本arXiv:1608.03542（2016年）。[8] Sanjay Kamath，Brigitte Grau和YueMa。2017年。生物医学问题回答中词嵌入的研究。《SIIM'17》。[9] TetsuyaKobayashi和Chi-RenShyu。2006年。为更好的分类而以语义类型表示临床问题。《AMIA年度研讨会论文集》987-987页。0[10] Oleksandr Kolomiyets和Marie-Francine Moens. 2011.从信息检索的角度对问答技术进行调查. 信息科学181, 24 (2011), 5412–5434. [11] XinLi和Dan Roth. 2006. 学习问题分类器：语义信息的作用. 自然语言工程12, 3 (2006),229–249. [12] Tomas Mikolov，Ilya Sutskever，Kai Chen，Greg S Corrado和JeffDean. 2013. 词和短语的分布式表示及其组合性. 在神经信息处理系统的进展中.3111–3119. [13] Anastasios Nentidis，Konstantinos Bougiatiotis，AnastasiaKrithara，Georgios Paliouras和Ioannis Kakadiaris. 2017. BioASQ挑战的第五版结果.在BioNLP 2017中. 48–57. http://www.aclweb.org/anthology/W17-2306 [14] MarianaNeves和Milena Kraus. 2016. BioMedLAT语料库：生物医学问题的词汇答案类型注释.在开放知识库和问题回答研讨会（OKBQA 2016）的论文集中. 49–58. [15] TriNguyen，Mir Rosenberg，Xia Song，Jianfeng Gao，Saurabh Tiwary，RanganMajumder和Li Deng. 2016. MS MARCO：一个人类生成的机器阅读理解数据集.arXiv预印本arXiv:1611.09268 (2016). [16] Alina Petrova，Yue Ma，GeorgeTsatsaronis，Maria Kissa，Felix Distel，Franz Baader和Michael Schroeder. 2015.从文本定义中形式化生物医学概念. J.生物医学语义学6 (2015), 22. [17] PranavRajpurkar，Jian Zhang，Konstantin Lopyrev和Percy Liang. 2016.Squad：10万+文本机器理解问题. arXiv预印本arXiv:1606.05250 (2016). [18] GeorgeTsatsaronis，Georgios Balikas，Prodromos Malakasiotis等. 2015.BIOASQ大规模生物医学语义索引和问题回答竞赛概述. BMC生物信息学16, 1 (2015), 138.https: //doi.org/10.1186/s12859-015-0564-6 [19] Dirk Weissenborn，GeorgWiese和Laura Seiffe. 2017. 使神经QA尽可能简单但不过于简单.在第21届计算自然语言学习会议（CoNLL 2017）的论文集中. 271–280. [20] GeorgWiese，Dirk Weissenborn和Mariana Neves. 2017. 生物医学问题回答的神经领域适应.在CoNLL 2017的论文集中. 281–289. https://doi.org/10.18653/v1/K17-1029 [21]Georg Wiese，Dirk Weissenborn和Mariana Neves. 2017. BioASQ 5b的神经问答.arXiv预印本arXiv:1706.08568 (2017). [22] Zi Yang，Yue Zhou和Eric Nyberg. 2016.学习回答生物医学问题：BioASQ 4b的Oaqa. 在第四届BioASQ研讨会的论文集中. 23–37.0研讨会：第一届混合结构化和非结构化知识问答研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

验证生物医学问答的预期答案类型

面向生物医学命名实体识别的多Agent元学习框架

一种松耦合的生物医学命名实体识别算法

.json结构验证，批量验证json内每个参数类型符合预期类型

工程伦理在生物医学工程中的案例

CAPL脚本编写验证预期帧接收测试

怎么在测试中验证boolen类型

UVM验证 FPGA验证

预期借款列表测试用例

vue验证是不是数字类型

python写个方法，方法名TTS验证，参数expect_tts，必填，描述：请输入预期TTS，参数：keywords，选填，描述：请输入日志筛选关键字

给出验证float和double类型的精度的代码

验证的透明度? 蓝盒验证 白盒验证 灰盒验证 黑盒验证

python 验证时间类型

ModelState.IsValid 验证枚举类型

vue的props验证类型

你将注册 Webhook 以将 Microsoft Dataverse 信息推送到第三方应用程序。 可以使用哪三种身份验证类型

使用mockito2.17.0验证方法第二次调用时参数对象的字段是否符合预期

如何将UVM验证方法学的优点与基于Python的cocotb验证框架的优点结合起来构建一个验证平台

mockito2.17.0验证方法调用参数对象的字段是否符合预期

最新资源

验证的透明度? 蓝盒验证白盒验证灰盒验证黑盒验证

你将注册 Webhook 以将 Microsoft Dataverse 信息推送到第三方应用程序。可以使用哪三种身份验证类型