没有合适的资源?快使用搜索试试~ 我知道了~
1170来自社交媒体帖子的多任务药物警戒挖掘0ShaikaChowdhury伊利诺伊大学芝加哥分校计算机科学系芝加哥,伊利诺伊州schowd21@uic.edu0ChenweiZhang伊利诺伊大学芝加哥分校计算机科学系芝加哥,伊利诺伊州czhang99@uic.edu0Philip S.Yu伊利诺伊大学芝加哥分校计算机科学系芝加哥,伊利诺伊州psyu@uic.edu0摘要0社交媒体已成为药物警戒研究的重要信息来源,越来越多的人在社交媒体上发布以前未报告的药物不良反应。为了有效监测多样表达的社交媒体帖子中与不良药物反应(ADR)相关的各个方面,我们提出了一个多任务神经网络框架,该框架以不同级别的监督学习学习与ADR监测相关的多个任务。除了能够正确分类ADR帖子并准确提取在线帖子中的ADR提及外,所提出的框架还能进一步理解药物被服用的原因,即所谓的“适应症”,从给定的社交媒体帖子中。我们的框架采用基于覆盖率的注意机制,帮助模型正确识别对帖子中多个单词敏感的“词组”ADR和适应症。我们的框架适用于不同药物警戒任务的有限平行数据情况。我们在真实的Twitter数据集上评估了所提出的框架,在每个单独任务的最新替代方案中,所提出的模型始终表现出色。0CCS概念0• 信息系统 → 内容分析和特征选择;信息提取;• 计算方法 →信息提取;多任务学习;神经网络;0关键词0多任务学习,药物警戒,不良药物反应,注意机制,覆盖率,递归神经网络,社交媒体0ACM参考格式:Shaika Chowdhury,Chenwei Zhang和Philip S.Yu。2018。来自社交媒体帖子的多任务药物警戒挖掘。在WWW2018:2018年Web会议上,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,10页。https://doi.org/10.1145/3178876.318605301 引言0市场上推出了许多旨在用于医疗治疗的处方药。然而,研究发现其中许多药物可能适得其反[5, 25]。这些有害的0本文发表在知识共享署名4.0国际许可(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860530由药物摄入引起的反应或损伤被称为不良药物反应(ADR)[31],在美国是第四大死因[5]。预防性措施,如ADR监测和检测,即所谓的药物警戒,对确保患者健康安全至关重要。临床试验期间的药物警戒活动未能可靠地发现药物可能引起的所有负面效应,这是由于某些限制,需要进行后市场ADR监测。然而,由于报告不足、数据不完整和报告延迟,传统的后市场ADR监测方法存在潜在有害药物未被标记的问题[31]。由于社交媒体上存在大量用户,会产生大量数据。与从电子健康记录(EHR)中检索临床信息存在有限访问问题[37]相比,网络数据的免费获取性为医疗数据提供了一个有利的来源。这些数据最近引起了研究人员对公共卫生监测的关注[17,26]。面向任务的众包平台旨在收集患者反馈,如[27]中所介绍的。一个流行的平台,用户之间以帖子/推文的形式交换与健康相关的数据,是Twitter1。这些帖子涵盖了与健康有关的各种主题,如患病/生病的经历、症状、所服用的药物以及由此引起的有害反应。社交媒体平台提供了一个强大的与健康相关的数据来源,患者发现他人分享的与健康相关的经验[16, 31, 41,42]。这些数据是由患者生成的,且是最新的,克服了传统ADR监测技术的弱点。因此,社交媒体具有不可或缺的重要性,并可以作为更有效的药物警戒研究的补充信息来源,同时还可以作为未知ADR的早期预警系统[21]。然而,具有不同背景知识或不同语言偏好的用户倾向于生成具有多样表达和模糊提及的社交媒体帖子,这给药物警戒研究带来了一系列挑战:0•多样表达的ADR:在Twitter上,使用非医学术语来撰写推文非常普遍。例如,“never sleeping”或“sleepdeprived”被用来描述ADR“insomnia”。这些用非正式词语构建的短语ADR可能会与帖子中的其他无关词语混合在一起,使检测任务更加困难。•将适应症误认为ADR:健康相关帖子中的“适应症”可以定义为药物被开方用于治疗的医疗状况、疾病或疾病。由于适应症和ADR都可以被提及为01 https://twitter.com0Track: Health on the Web WWW 2018, 2018年4月23日至27日,法国里昂1180对于同一种药物,适应症很容易被误认为ADR。如果没有对每个症状在帖子中所起的作用有深入的理解,这种误认可能会带来问题。0推文1:我开始觉得我的帕罗西汀把“惊恐发作”变成了“肥胖”。推文2:有没有关于自然治疗“抑郁症”的建议?帕罗西汀让我增加了不想要的体重和水肿...谢谢0图1:社交媒体帖子中的药物监测报告。0图1显示了从PSB2016社交媒体共享任务Twitter数据集[32]中获取的药物监测常见推文,其中红色标记表示正在服用的“药物”,蓝色表示“适应症”,绿色表示“ADR”。在推文1中,药物帕罗西汀用于治疗“惊恐发作”,并提到了体重增加作为ADR的“肥胖”。因此,“惊恐发作”是适应症的一个实例,而“肥胖”是ADR。在推文2中,虽然药物帕罗西汀被开方用于治疗“抑郁症”,但它引起了“增加不想要的体重”和“水肿”等ADR。在这两种情况下,适应症“惊恐发作”和“抑郁症”可能被错误标记为ADR,因为它们通常也会作为ADR出现。以前的所有工作[7、13、21、22]都集中在单独解决ADR任务上。由于包含ADR提及的推文也可能包含其他医疗提及,如适应症或有益效果,因此在尝试学习每个任务时,将这些表示纳入其中以确保消除歧义是很重要的。基于词典的方法[3、17、39]在早期的方法中被广泛采用,其中在包含ADR提及的语言片段中查找ADR标记。然而,社交媒体中用非医学术语来描述ADR的出现使它们不适用。而机器学习方法,如朴素贝叶斯、支持向量机和最大熵[4、14、40]则需要使用手工设计的特征。为了解决这些问题,我们提出了一个基于序列学习模型的多任务框架,共同学习几个相关的药物监测任务。从药物监测中挖掘出一个有趣的多任务问题,因为具有不同级别监督的互补药物监测任务可以共同学习。这些相关任务的数据共享语义和句法相似性,利用这些共享表示可以提高学习效率和预测准确性。任务的目标函数的联合学习可以将从一个任务学到的知识转移到其他任务上并改进它们。这对于药物监测任务是合适的,因为它们包含具有多个医学术语出现的数据,否则很难识别某个类别(即ADR或适应症)的医学术语。我们通过扩展基本的循环神经网络编码器-解码器来实现这些想法,使我们的多任务模型共享一个编码器,并为每个任务使用不同的解码器。我们的假设是共享的编码器0将学习预测性表示,捕捉每个任务的细微差别,从而帮助区分“ADR”和“Indication”。另一方面,任务特定的解码器将共享的编码器表示解码为任务特定的输出。此外,通过不同任务的多粒度监督,解码器可以成功地在句子和单词级别上产生输出。近年来,序列到序列模型在机器翻译[34]和摘要[20]等难学习任务中的使用有所增加。序列到序列模型将序列作为输入传入编码器,将其投影到中间编码表示,然后通过解码器生成序列作为输出。图2中所示的提议的架构是一个基于循环神经网络的编码器-解码器模型,通过注意力和覆盖机制来处理药物监测的多个任务。使用序列到序列模型来建模多个任务的原因是能够使用编码器捕捉它们的共享表示,并使用多个解码器为每个任务生成输出。我们提出了一个多任务学习框架,用于三个药物监测任务——ADR分类、ADR标签和适应症标签——假设通过联合学习任务之间的相互作用,可以提高每个单独任务的学习和泛化能力。尽管大多数ADR分类和检测的工作都试图学习单一的目标函数,但通过联合学习任务的多个目标函数,我们引入了一种提高药物监测性能的新方法。此外,来自多个任务的学习特征有助于减少将适应症误标为ADR和将ADR误标为适应症的误报。当ADR/适应症以短语而不是单词形式出现时,检测任务可能更加困难。通过在注意力机制中添加覆盖范围,可以克服这个问题,因为它累积了所有先前解码器时间步骤的注意力,并有助于学习短语中的所有先前ADR/适应症词。本文的主要贡献总结如下:0(1)设计了一个统一的机器学习框架,可以同时学习多个社交媒体帖子中的药物警戒任务。据我们所知,这个问题还没有得到仔细研究,有创新研究的空间。(2)在注意力机制中添加覆盖范围已经显示出改善检测不仅是“短语”ADR,还有单个词的ADR和适应症。(3)在真实的Twitter数据集上获得的结果方面,与药物警戒领域的现有工作相比,达到了最先进的水平。02 预备任务0通过我们的多任务框架,我们共同学习了三个药物警戒任务,其中输入推文的表示通过共享编码器进行编码。每个任务被建模为一个序列分类或序列标注问题。下面给出了每个任务的描述。0Track: Health on the Web WWW 2018, April 23-27, 2018, Lyon, Francex2x2!e_word1e_word1!e_char2e_char2x1x1e_word2e_word2e_char1e_char1xTxTe_charTe_charTe_wordTe_wordT!h1!h1!h1!h1!h2!h2!h2!h2!hT!hT!hT!hT!!a1aT0100…101…0a2+++c1,2cT −1,TTrack: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France1190我的0恐慌0胖0我的0p … c0双向LSTM0双向LSTM0双向LSTM0嵌入0序列0共享编码器0带有注意力机制的0覆盖范围机制0ADR分类0适应症标注0ADR标注0Uni-LSTM任务特定解码器0LSTM_ADRLab0LSTM_INDLab0LSTM_ADRClass0图2:模型架构。我们为每个任务特定的解码器使用不同的颜色。彩色块的阴影表示其值。例如,第二个词“恐慌”是一个适应症,所以它得到了更高的注意力权重(深蓝色块),这有助于成功地将其标记为适应症。02.1 ADR分类0这是一个二分类任务,用于区分ADR肯定性的帖子。两个类别是“ADR”和“NotADR”,其中“ADR”标签表示带有ADR提及的帖子。而“NotADR”表示它没有任何ADR,尽管可能有其他医学术语,如药物和适应症。它试图学习一个将序列x映射到类别标签l ∈RL的函数,其中L是类别总数[38],L = 2。0x → l,l ∈ RL(1)02.2 ADR标注0一个序列标注任务,旨在识别帖子中的ADR。检测到的ADR标记为“ADR”标签。它试图找到给定输入序列x的最可能的标记序列,即具有最高概率的序列。0y' = argmax y P(y|x)(2)0我们使用两个标签来注释输入的标记序列,用于ADR标注。'ADR'标签对应于具有ADR提及的标记,'O'标签表示非ADR词。02.3 适应症标注0一个序列标注任务,旨在识别帖子中的适应症。检测到的适应症标记为“适应症”标签。与ADR标注类似,它试图找到最高概率的标记序列。我们使用两个标签来注释输入的标记序列,用于适应症标记。'IND'标签对应于具有适应症提及的标记,'O'标签表示非适应症词。03 我们的模型0我们提出的多任务框架如图2所示。它主要由三个组件组成——嵌入模块、编码器和解码器。嵌入模块旨在捕捉药物警戒的含义和语义关联。0单词。所有任务都有一个共同的编码器,以便生成共享表示,捕捉ADR和适应症的上下文信息。最后,解码器采用了组合的注意力和覆盖范围机制,以便便于检测不同长度的ADR和适应症。我们的RNN编码器-解码器模型的每个组件在以下子节中详细描述。03.1 输入0我们的输入 x = ( x 1 , x 2 , ..., x T )是对应于社交媒体帖子的一段文本,由 T 个单词组成,其中每个 x i表示词汇表中的一个单词,词汇表的大小为 V 。03.2 单词表示0推文中的医学术语可以扮演不同的角色,同一个医学词或短语在不同的上下文中可能有不同的含义。例如,“恐慌发作”既可以作为ADR,也可以作为指示,这取决于药物的提及和其他模式。为了捕捉它们的含义以及它们被使用的语义关系和上下文,我们生成它们的词嵌入。还生成每个单词的字符表示以捕捉其形态特征。这些字符表示可以帮助捕捉诸如“睡眠”这样的词的表示,其中词嵌入矩阵可能只有“睡眠”的一个条目。这种字符表示类似于用于进行命名实体识别的实现[29]。单词的最终表示是其词嵌入和字符表示的连接,以融入用户的多样表达。词嵌入:对于每个单词 x t,我们通过在一个 V x m大小的词嵌入矩阵中查找,得到其对应的低维稠密向量 e _ wordt,其中 m 是词嵌入的维度。et = e_wordt,e′_chart(3)ht =�−→h t, ←−h t�(4)−→h t = LSTM�xt, −→h t−1�(5)←−h t = LSTM�xt, ←−h t−1�(6)gt i = vTa tanh Wahi +Wbst 1 + battn(7)cont =hiat i(9)st = f st 1,cont(11)1200字符表示:句子中的每个单词可以表示为 x t = ( c 1 , c 2 , ... ),其中c t ∈ R G,其中 G是所有字符的词汇大小。与词嵌入类似,我们首先通过在一个 G x p大小的字符嵌入矩阵中查找,得到每个字符的字符嵌入向量,其中 p是字符嵌入的维度。然后,将单词的字符嵌入向量序列 e _ char t输入到一个双向LSTM中[12]。通过连接正向和反向的最终状态,得到最终的字符表示 e ′ _ char t。因此,每个单词的最终词嵌入向量 et 为:03.3 编码器0我们使用单层双向RNN作为编码器,LSTM作为基本的循环单元,因为它能够融入长期依赖关系[12]。由于编码器的目的是捕捉多个任务的共享表示,所以这些表示应该包括正向和反向方向的上下文信息,每个任务的输出都可以依赖于序列中的这些前后元素。因此,我们通过一个双向LSTM将输入序列传递以实现这个目的。双向LSTM通过将输入序列按其原始顺序通过前向LSTM传递来实现这一点,为每个时间步t编码一个隐藏状态−→ ht。此外,输入序列的一个反向副本也被传递。0通过一个反向LSTM,将其编码为隐藏状态 ←− ht。将正向和反向的隐藏状态连接起来,表示编码器在每个时间步的最终隐藏状态。03.4 解码器0在解码器端,我们为每个任务分配一个带有注意机制的单层单向LSTM,以便为该任务生成特定的输出。覆盖机制被整合到注意机制中,以使模型对其已经分配的注意力有所感知。03.4.1注意机制。传统的序列到序列任务的编码器-解码器在生成输出时尝试解码一个固定长度的编码向量时存在局限性[2]。实际上,最后一个编码器隐藏状态需要包含所有时间步的摘要,但在实践中,特别是对于较长的句子,这种情况并不成立[6]。注意力机制的使用已经在各种任务中取得了长足的进展,从图像字幕[36]到机器翻译[6]。通过查看所有编码器状态并根据它们与当前输出的相关性加权,它产生了注意分布。这个注意分布给出了在输入序列中更多地关注的信号。我们使用[2]中的加性注意机制,其中注意分布 a t 计算如下:0a t = sof tmax � g t � (8) h i 是编码器隐藏状态,s t − 1是当前输出状态之前的解码器隐藏状态。v a 、W a 、W b 和 b attn是可学习的注意参数。使用注意函数 g t i ( h i , s t − 1 )在每个编码器状态 h i和当前输出状态之前的解码器状态之间找到注意分数,可以确切地告诉在解码时在输入序列中注意什么。然后将编码器隐藏状态与注意分布结合起来,给出上下文向量,定义为编码器隐藏状态的注意加权和,0这个上下文向量,连同先前的解码器隐藏状态 s t − 1,输出在前一个时间步生成的标签 y t − 1。对于ADR和Indication标记任务,对齐的编码器隐藏状态 h t用于计算时间步 t 上的解码器状态 s t 。0s t = f ( s t − 1 , h t , y t − 1 , con t ) (10)对于ADR分类任务,时间步 t 上的解码器状态是 s t − 1 和 con t的函数。0对于所有任务,初始解码器隐藏状态 s 0设置为最后一个编码器隐藏状态。03.4.2覆盖机制。由于社交网络上对话的口语化特点,ADR以日常语言表达,也采用短语形式。考虑以下示例推文:“刚刚服用了Seroquel。现在我很害怕会睡15个小时,错过明天的12点约会。”其中“睡15个小时”是以短语形式出现的ADR。短语形式的ADR也可以表示为ADR列表,如推文“@user我讨厌Effexor。它会让你感到饥饿、头晕和无精打采。这导致我体重大幅增加。”其中“饥饿”、“头晕”和“无精打采”是以短语形式出现的Effexor药物的ADR列表。通过初步实验,我们发现仅使用注意力无法检测出这些短语中的所有ADR单词,因此我们引入了coverage来解决这个问题。对于每个解码器时间步,我们跟踪一个coverage向量c t,其实现方式与摘要中的[33]相同。coverage向量将所有先前解码器时间步的注意分布相加。然而,与[33]不同的是,我们对先前的解码器时间步设置了一个窗口,并将其设置为3。我们这样做是因为大多数ADR由几个单词组成,考虑到所有先前时间步的注意力可能包括非ADR单词的注意力,这可能会危及位于帖子末尾的ADR短语的注意分布。使用coverage向量,如果短语ADR中的某个单词未被识别,基于邻近ADR单词的注意分布的关注单词可以帮助定位它。换句话说,它有助于确保短语ADR中其他单词的ADR标签。coverage还有助于避免将Indication错误标记为ADR,反之亦然,因为它隐含地跟踪单词的位置。也就是说,与传统的加性注意力不同,它只0Track: Health on the Web WWW 2018, 2018年4月23日至27日,法国里昂ct =s=t−3as(12)y = sof tmax Wclasscon + bclass ,(14)L (θclass) = − 1nx Yx logY ′x + (1 − Yx) log(1 − Y ′x) ,(16)L θADRlab = 1log P Yx Xx;θADRlab ,(17)L θI N Dlab = 1log P Yx Xx;θI N Dlab ,(18)Tt=1ωtLt .(19)Track: Health on the WebWWW 2018, April 23-27, 2018, Lyon, France1210使用编码器状态 h t找到关注的单词-通过累加到目前为止分配的注意值,它提供了模型从句子开头到目前为止关注的距离的信息。这样它就学习了ADR和Indication单词的注意边界。它的定义如下:0只有注意机制,如果在第一个例子中,注意力集中在单词Seroquel、freaking 和 out上,将其识别为ADR,不能保证它会关注与 15相似的单词并将其识别为ADR短语的一部分,因为15经常与与ADR提及无关的单词一起出现。通过将注意机制与coverage相结合,我们假设通过还关注前几个时间步骤中关注的单词,15可以被正确标记为ADR。也就是说,在解码15时,它将关注有助于正确标记sleeping的单词Seroquel、freaking和out。因此,这种带有coverage模块的混合注意力可以捕捉ADR短语中的单词,而仅使用注意力可能会错过这些单词。由于coverage现在是注意机制的一部分,我们将注意分布更新为以下内容。0g t i = vT a tanh ( W a h i + W b s t − 1 + W c c t i + battn ) (13)03.5 输出0我们的任务特定输出计算如下,ADR分类:上下文向量可以被视为帖子的高级表示,并用作分类任务的特征。0其中 W class 和 b class是可学习的参数。ADR标注和指示标注:每个解码器时间步的上下文向量 con i 可以被视为该词的最终表示,它与解码器状态 s i一起用于预测该时间步的输出。0y i = sof tmax � W ′ [ s i , con i ] + b ′ � ,(15) 其中 W’ 和 b’是在训练过程中独立学习的ADR标注和指示标注任务的参数。04 训练模型0我们同时训练所有数据集上的模型。训练过程中使用交叉熵作为损失函数,对于每个任务定义如下:ADR分类:0其中 n 是训练数据的大小,x 表示所有输入,Y 是真实标签,Y’是预测的标签概率。θ clas = ( θ src , θ 1 ) ,其中 θ src是编码器所有任务共享的参数集合,θ 1 是ADR分类解码器的参数。0ADR标注:0其中 θ ADRlab = ( θ src , θ 2 ) ,θ 2是ADR标注解码器的参数。指示标注:0其中 θ I N Dlab = ( θ src , θ 3 ) ,θ 3是指示标注解码器的参数。在训练过程中,我们使用加权损失,该损失由 T 个任务的总数组成:0总损失 =0总损失是所有任务的损失的线性组合,其中 ω t 是每个任务 t的权重。05 实验设置 5.1 数据集0ADR分类:我们使用PSB2016社交媒体共享任务的Twitter数据集进行ADR分类[32]。该数据集是使用药物的通用名称和品牌名称以及它们的语音拼写错误收集的推文创建的。它包含二进制注释‘0’和‘1’,分别指‘ADR’和‘notADR’。尽管原始数据集包含共计10,822条推文,但我们只能从给定的ID下载7044条推文。我们只考虑其中与ADR标注数据集中的推文重叠的1081条推文,将其归为‘ADR’类。另外随机从‘notADR’类中抽取了1081条推文。这样做是因为所有任务共享相同的编码器,我们利用了共享的输入表示。我们手动标注了下面讨论的补充数据集,并将其添加到现有数据集中。我们将推文随机分为训练、测试和验证数据集,分别占总数的70%、15%和15%。ADR标注:对于ADR标注,我们使用PSB2016社交媒体共享任务的Twitter数据集进行ADR提取[32]。它包含约2000条带有推文ID、起始偏移量、结束偏移量、语义类型(ADR/指示)、UMLSID、标注文本范围和相关药物的推文。然而,在进行本研究时,只有1081条标注的推文可供下载。我们使用了一个小数据集[7],其中包含了2015年5月至2015年12月期间从Twitter收集的203条推文,作为补充数据集。我们将训练、测试和验证数据集的划分比例设置为70%、15%和15%。我们将该数据集定制为仅包含ADR标注。指示标注:用于指示标注的语料库和划分与ADR标注相同。我们将该数据集定制为仅包含指示标注。05.2 训练细节0我们的实现基于开源的深度学习包Tensorflow[1]。我们使用Glove[28]工具包预训练词嵌入,然后用它们来初始化模型中的嵌入。我们特别使用了在Glove中训练的Twitter模型,以便生成“1220这些词是我们的Twitter数据集中独有的。我们将LSTM单元中的单元数设置为128,词和字符嵌入的维度分别设置为200和128。LSTM中的所有遗忘门偏置都设置为1。在每个时期中,我们使用批量大小为16对每个并行任务语料进行小批量训练。非递归连接上的正则化采用了0.5的丢失率。我们使用Adam优化[15]方法进行训练,学习率为0.1。注意力和覆盖组件中的所有权重和偏置都使用Xavier[11]初始化。开发集用于调整每个任务损失的超参数权重 ω的值。在最终实验中,ADR标记、指示标记和ADR分类的损失分别设置为1、1和0.1,因为它们在开发集上表现最好。06 结果与讨论 6.1 评估0我们使用精确度、召回率和F-1分数作为评估指标。对于特定类别 i ,精确度和召回率可以用以下方程定义: p i = T P i0F-1分数是根据精确度和召回率计算得出的,其中 TP i 是真正例的数量,FN i 是假负例的数量,FP i是假正例的数量。F-1分数由精确度和召回率计算得出,公式为 F -1 = 2 p i r i0p i + r i。对于两个标记任务,即ADR和指示标记,我们对ADR短语词的预测标签进行了近似匹配[7,35],与其实际标签进行比较。近似匹配的工作是通过检查ADR短语中的一个或多个ADR跨度是否能够正确识别为“ADR”标签来完成的。例如,对于以下推文“我连续服用Cymbalta5天。突然停药时出现出汗、偏头痛、震颤,持续3天。”,其中实际的ADR跨度是“出汗、偏头痛、震颤”,如果对这三个跨度或它们的组合中的任何一个预测标签为“ADR”,则被认为是正确的。近似匹配的精确度和召回率计算公式如下:0p i = 正0预测的ADR跨度数量(20)0r i = 正确0实际ADR跨度数量(21)06.2 基准0由于我们找不到在药物警戒任务上执行多任务学习的先前工作,因此我们将其与两种基准方法和独立任务的最新方法进行比较,以证明我们提出的模型的有效性。0•BLSTM-Random,BLSTM-Pretrained-learnable,BLSTM-Pretrained-fixed:该模型的架构被称为双向长短期记忆(BLSTM)循环神经网络[7]。它结合了前向RNN和后向RNN,并且仅使用词嵌入作为特征。在BLSTM-Random中,词嵌入是随机初始化的,并被视为可学习的参数。BLSTM-Pretrained-learnable和BLSTM-Pretrained-fixed使用在大型非领域特定Twitter数据集上训练的预训练词嵌入。0它们之间的唯一区别是BLSTM-Pretrained-learnable将词嵌入值视为可学习的参数,而BLSTM-Pretrained-fixed视为固定常数。•CRNN:用于进行ADR分类任务的最先进模型。CRNN[13]是一个卷积神经网络与循环神经网络连接在一起。他们使用GRU作为基本的RNN单元,使用RLU作为卷积层。•CNNA:用于进行ADR分类任务的最先进模型。CNNA[13]是一个带有注意机制的卷积神经网络。•MT-NoAtten:我们的药物警戒任务的多任务框架,没有任何注意机制。在这种情况下,我们使用非注意力RNN作为解码器。•MT-Atten:我们的药物警戒任务的多任务框架,仅使用注意机制。训练期间关闭覆盖。•MT-Atten-Cov:这是我们提出的药物警戒任务的多任务框架,结合了注意机制和覆盖机制。06.3 总体性能0为了验证我们的模型的有效性,我们在三个实验中报告了结果。将我们的模型应用于测试集所得到的结果在表1、表2和表3中呈现。在第一个实验中,我们将我们的多任务模型联合训练在与每个任务对应的三个并行数据集上。这个实验中每个任务的结果与两个基线进行了比较,如表1所示。由于覆盖的目的是为了能够在ADR/指示短语中对ADR/指示词具有更大的覆盖范围,我们在分类解码器中关闭了覆盖,并在两个标记任务中使用它。因此,分类任务的结果没有使用MT-Atten-Cov模型进行报告。对于剩下的两个任务,我们可以观察到我们的方法在精确度、召回率和F-分数方面优于两个基线。尽管近似匹配会将任何ADR/指示跨度的识别视为真正的正例,并且我们预期MT-Atten-Cov和MT-Atten模型的结果相当,但事实上MT-Atten-Cov在实证上具有更好的结果,这证实了将覆盖与注意力结合起来有助于捕捉仅通过注意力机制无法关注到的“短语”和单个ADR词。我们在ADR标记和指示标记方面分别相对于MT-Atten模型提高了1.50%和0.90%的F-1得分。由于包含指示词的推文稀疏性,指示标记任务的实验值在所有模型中都较低。尽管如此,我们的模型相对于两个基线都有所改进。我们相对于MT-NoAtten模型在分类、ADR检测和指示标记方面分别提高了21.32%、13.59%和23.43%的F-1得分。通过检查精确度和召回率的结果,我们可以说我们的模型的更好性能可以归因于两者的改进。在第二和第三个实验中,我们分别在ADR分类和ADR检测任务上单独训练我们的模型,并与第一个实验中训练的模型进行比较。由于指示检测在任何先前的工作中都没有作为独立任务进行,我们不提供0Track: Health on the Web WWW 2018, 2018年4月23日-27日,法国里昂1230表1:使用提出的模型和两个基线的三个任务的测试结果。0MT-Atten-Cov MT-Atten Baseline MT-NoAtten Baseline 指标 P(%) R(%) F-1(%)P(%) R(%) F-1(%) P(%) R(%) F-1(%)0ADR分类 N/A N/A N/A 72.88 70.54 70.69 69.63 60.60 55.62 ADR标记 72.31 87.5 79.2470.88 86.81 78.04 60.50 78.88 68.47 指示标记 47.50 50.2 48.82 46.87 50.00 48.38 34.2241.20 37.380表2:ADR分类任务测试结果与先前方法的比较。Single-Atten-CovTask指的是仅在ADR分类数据集上训练的独立任务模型。0P(%) R(%) F-1(%)0CRNN 49.00 55.00 51.00 CNNA 40.0066.00 49.00 Single-Atten-Cov 70.2170.05 70.13 MT-Atten 72.88 70.54 70.690表3:ADR标记任务测试结果与先前方法的比较。Single-Atten-CovTask指的是仅在ADR标记数据集上训练的独立任务模型。0P(%) R(%) F-1(%)0BLSTM-Random 64.57 63.32 62.72BLSTM-Pretrained-learnable 60.47 80.70 68.58BLSTM-Pretrained-fixed 70.43 82.86 75.49Single-Atten-Cov 71.50 86.22 78.17 MT-Atten-Cov72.31 87.50 79.240一个单独的表格,与先前的方法进行比较。从表2可以看出,与单任务模型相比,我们的多任务模型在分类的F-1得分方面提高了0.79%。而在表3中的ADR检测任务结果中,它提高了1.35%。这些实证结果表明,共享的输入表示和任务之间的交互对所有任务都有互惠效果。将所有独立的分类模型(Single-Atten-CovTask,CRNN和CNNA)相互比较,我们可以进一步看到在分类任务中使用注意力的优势,其中Single-Atten-Cov相对于CRNN和CNNA平均提高了28.71%。尽管CNNA在其模型中使用了注意力,但我们认为使用带有注意力的RNN编码器-解码器更有帮助。同样地,在ADR检测方面,从表3中我们可以看到,我们的单任务ADR检测模型(Single-Atten-CovTask)相对于BLSTM(BLSTM-Pretrained-fixed)的最佳模型提高了3.43%。对于我们的多任务模型,分类性能的F-1得分比CRNN和CNNA模型分别提高了27.85%和30.66%,而对于ADR检测,多任务模型相对于最佳性能的BLSTM模型提高了4.73%。06.4案例研究0为了更深入地了解增加覆盖到注意机制如何使我们的模型受益,我们从测试数据集中抽取了几个推文。我们的模型对这些推文预测的标签与基线MT-Atten模型的标签进行了比较。为了验证我们的模型产生的结果,我们进一步可视化了图3中所示的一些推文的注意力热图。以下两个推文说明了我们的模型能够将单个ADR词正确标记为'ADR',而MT-Atten模型则做出了错误的预测。这证明了我们的模型在MT-Atten模型上获得了更高的精确度和召回率。0• 推文1:@user1 bloodyzombie我也服用Venlafaxine,这是一种难以应对的慢性抑郁症双相障碍。真实标签:['O', 'O', 'ADR', 'O', 'O', 'O', 'O', 'O', 'O','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] MT-Atten:['O', 'O','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'ADR', 'O', 'O', 'O', 'ADR','O', 'O', 'O', 'O'] MT-Atten-Cov:['O', 'O', 'ADR', 'O', 'O', 'O','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']ADR:zombie0图3可视化了解码目标词时每个源词所接收到的注意力程度,较深的阴影表示较高的分数。当预测目标标记为'zombie'时,更多的注意力被给予'zombie'、'Venlafaxine'、'difficult'和'illness'这些词。由于覆盖,之前时间步骤中的'difficult'和'illness'也被关注。这些词有助于预测该词的'ADR'标记。此外,接收较低注意力权重的'indication'词'bipolar'和'depression'被防止误标记。0•推文2:Cymbalta,我的情绪恶化。真实标签:['O', 'O', 'ADR', 'O', 'O'] MT-Atten:['O','O', 'O', 'O', 'ADR'] MT-Atten-Cov:['O', 'O','ADR', 'O', 'ADR'] ADR:情绪0以下推文包含我们的模型捕获但MT-Atten错过的ADR。0•推文3:很抱歉你有鸵鸟口臭@user2,但这是一种一次每月的boniva的副作用。真实标签:['O', 'O', 'O', 'O', 'O', 'O', 'ADR','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] MT-Atten:['O','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O','O', 'O'] MT-Atten-Cov:['O', 'O', 'O', 'O', 'O', 'O', 'ADR', 'O','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'] ADR:口臭0Track: Health on the Web WWW 2018,2018年4月23日至27日,法国里昂1240图3:推文1、4和5的注意力热图0• Tweet 4 :无缘无故地哭泣,什么都会让我哭。叹气。谢谢#effexor#withdrawls,你能不能从我的系统中退出。真实标签:[ADR','O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'ADR', 'O', 'O', 'O', 'O','O', 'O', 'O'] MT-Atten:['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O','O', 'O', 'O', 'O', 'O', 'O
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功