没有合适的资源?快使用搜索试试~ 我知道了~
3270计算语言学协会发现:ACL2022,第3276-3290页,2022年5月22日至27日,计算语言学协会c�20220将预训练语言模型和手工特征结合起来进行无监督词性标注0周厚权,李阳�,李正华�,张敏,苏州大学计算机科学与技术学院人工智能研究所,中国{hqzhou,ylinlp}@stu.suda.edu.cn;{zhli13,minzhang}@suda.edu.cn0摘要0近年来,大规模预训练语言模型(PLMs)在大多数自然语言处理任务中取得了非凡的进展。但是,在无监督词性标注任务中,利用PLMs的研究工作很少,并且未能达到最先进的性能(SOTA)。最近的SOTA性能是由He等(2018)提出的一种高斯HMM变体实现的。然而,作为一种生成模型,HMM做出了非常强的独立性假设,这使得很难将PLMs的上下文化词表示纳入其中。在这项工作中,我们首次提出了一种用于无监督词性标注的神经条件随机场自编码器(CRF-AE)模型。CRF-AE的判别式编码器可以直接纳入PLM词表示。此外,受到特征丰富的HMM的启发,我们将手工特征重新引入CRF-AE的解码器中。最后,实验证明我们的模型在PennTreebank和多语言通用依存树库v2.0上的性能明显优于先前的最先进模型。01 引言0无监督学习一直是自然语言处理中一个重要且具有挑战性的研究方向(Klein和Manning,2004;Liang等,2006;Seginer,2007)。直接从无标注数据中训练模型可以减轻痛苦的数据标注工作,因此对于资源匮乏的语言尤其具有吸引力(He等,2018)。作为句法分析的三个典型任务,无监督词性(POS)标注(或诱导)、依存句法分析和短语结构句法分析在过去三十年中吸引了广泛的研究兴趣(Pereira和Schabes,1992;Christodoulopoulos等,2010)。与树结构依存和短语结构分析相比,词性标注对应于更简单的顺序结构。0�周厚权和杨阳对本文贡献相等。李正华为通讯作者。0我看了看我的手表。0代词 过去式 动词介词 代词所有格 名词 。0图1:词性标注示例。0简单来说,无监督词性标注任务旨在将一个词分配一个词性标签,如图1所示。除了减轻标注数据的负担外,无监督词性标注对于儿童语言习得研究尤为有价值,因为每个孩子都能在没有标注数据的情况下诱导出句法类别(Yuret等,2014)。0现如今,基于大规模标注数据训练的监督式词性标注模型已经能够达到极高的准确率,例如在英文PennTreebank(PTB)文本上可以达到97.5%以上的准确率(Huang等,2015;Bohnet等,2018;Zhou等,2020)。然而,无监督词性标注虽然吸引了很多研究兴趣(Lin等,2015;Tran等,2016;He等,2018;Stratos,2019;Gupta等,2020),但在多对一(M-1)准确率上最多只能达到80.8%,其中M-1表示在测试数据上评估模型时,多个诱导标签可以映射到一个单一的真实标签。0生成式隐马尔可夫模型(HMMs)是无监督词性标注最具代表性和成功的方法(Merialdo,1994;Graça等,2009)。通过将词性标签视为潜变量,一阶HMM将句子和标签序列的联合概率p(x,y)分解为独立的发射概率p(xi∣yi)和转移概率p(yi−1∣yi)。训练目标是最大化边缘概率p(x),可以通过EM算法或直接梯度下降求解(Salakhutdinov等,2003)。Berg-Kirkpatrick等(2010)提出了一种特征丰富的HMM(FHMM),它进一步使用许多手工特征参数化p(xi∣yi)。0+v:mala2277获取更多论文32770形态学特征极大地提高了基本HMM的M-1准确率,从63.1提升到了75.5。在深度学习时代,研究人员对无监督POS标注的HMM进行了大量的关注。Lin等人(2015年)提出了高斯HMM(GHMM),其中p(xi∣yi)对应于xi的预训练词嵌入(在训练期间固定)相对于yi的高斯分布的概率。Tran等人(2016年)提出了神经HMM模型(NHMM),其中p(xi∣yi)和p(yi−1∣yi)都通过具有POS标签和词嵌入作为输入的神经网络计算得出。He等人(2018年)通过引入可逆神经投影(INP)组件来扩展Lin等人(2015年)的高斯HMM,用于预训练词嵌入,这在训练期间具有调整词嵌入的类似效果。他们的INP高斯HMM(INP-GHMM)方法迄今为止在PTB上实现了最先进的(SOTA)M-1准确率(80.8)。HMM的主要缺点是在发射概率p(xi∣yi)中存在强独立性假设,这直接阻碍了来自强大的预训练语言模型(PLMs)如ELMo/BERT(Peters等人,2018;Devlin等人,2019)的上下文化词表示的使用。这是一个遗憾,因为PLMs能够极大地提升许多NLP任务的性能。在这项工作中,我们首次提出了一种用于无监督POS标注的神经条件随机场自编码器(CRF-AE)模型,受到Ammar等人(2014年)提出的非神经CRF-AE模型的启发。在CRF-AE的判别式编码器中,我们直接引入了ELMo词表示。此外,受到特征丰富的HMM(Berg-Kirkpatrick等人,2010年)的启发,我们将手工特征重新引入CRF-AE的解码器。总之,这项工作做出了以下贡献:●我们首次提出了一种用于无监督POS标注的神经CRF-AE模型。0●我们在CRF-AE模型中成功地将PLMs和手工特征0●我们的模型在45个标签的英文PTB数据上实现了83.21的新SOTA0●经过一些简单的调整,我们的模型在12个标签的多语言通用依存树库v2.0(UD)上实现了新的SOTAM-1准确率,平均超过了之前的最佳结果4.97。我们在https://github.c上发布了我们的代码0x0y1 y2 y3...yn0x1 x2 x3...xn0图2:CRF-AE的示意图0https://github.com/Jacob-Zhou/FeatureCRFAE,包括我们重新实现的HMM和FHMM模型。02 Vanilla CRF-AE0在这项工作中,我们采用CRF-AE方法作为我们无监督POS标注的基本模型。非神经CRF-AE模型最早由Ammar等人(2014年)提出,用于无监督序列标注任务,受到神经网络自编码器的启发。Cai等人(2017年)也将这个想法扩展到非神经无监督依存句法分析。基本思想是首先使用一个判别式CRF在观察到的句子上生成潜在结构,即POS标签序列,然后在给定每个潜在结构的情况下重构原始句子。这两个步骤分别对应编码器和解码器。训练损失。我们将一个句子表示为x =x1,x2,...,xi,...,xn,将一个POS标签序列表示为y =y1,y2,...,yi,...,yn。给定一个不包含任何POS标签序列的无标签数据集D,训练损失为:0L(D;φ,θ) = -∑x∈D log E[y�p(y∣x;φ)]p(x∣y;θ)0+ λ(∥φ∥22 + ∥θ∥22), (1)0其中 p(y∣x;φ) 是CRF编码器;p(x∣y;θ)是解码器;φ和θ是模型参数。这个训练损失鼓励模型符合这样的直觉:高概率的POS序列也应该具有高概率的句子重构能力。0Ammar等人(2014年)采用期望最大化(EM)算法进行训练。在这项工作中,我们直接通过前向算法计算训练损失。然后,我们利用深度学习的强大AutoGrad函数计算每个参数的梯度。我们在HMM和特征丰富的HMM上进行的初步实验表明,这种基于梯度的方法在效率和性能上始终优于EM。0+v:mala2277获取更多论文)r. . .. . .. . .. . .32780推理。在评估过程中,我们遵循Ammar等人(2014年)的方法,使用CRF和重构概率来获取最优的标签序列:0y� = arg max y p(y∣x; φ) p(x∣y; θ), (2)0这可以通过维特比算法求解。CRF编码器:p(y∣x;φ)。作为一种判别性对数线性模型,CRF编码器定义了一个条件概率:0p(y∣x; φ) = exp(S(x, y; φ))0Z(x; φ) ≡ ∑y exp(S(x, y; φ)),0其中Z(x)是分区函数,也称为归一化项。给定x的标签y的分数被分解为二元分数:0S(x, y; φ) = ∑i=1n s(x,yi−1,yi; φ). (4)0Ammar等人(2014年)使用手工离散特征获取二元分数。0s(x,yi−1,yi; φ) = φ�g(x,yi−1,yi,i). (5)0解码器:p(x∣y;θ)。解码器计算给定POS标签序列y的重构概率x,该概率基于强独立性假设分解为位置上的逐个生成概率。0p(x∣y; θ) = ∏i=1n p(xi∣yi; θ). (6)0Ammar等人(2014年)使用一个分类分布矩阵θ,通过EM训练进行更新,以维护所有生成概率p(xi∣yi),即由标签yi生成的词xi。03 提出的方法0在这项工作中,我们首次提出了一种神经CRF-AE,并利用PLM表示和手工特征进行无监督的词性标注。03.1 CRF编码器w/PLM表示0如第2节所讨论的,CRF-AE框架由两个主要组件组成,即CRF编码器和用于句子重构的解码器。我们首先介绍如何增强CRF编码器。0x1 x2 x3 ... xn0y1 0x1 x2 x3 ... xn0p(x1∣y1; θ)0s(x, y1; φ) t(y2, y3; φ)0减号操作0首字母大写:�首字母大写:�首字母大写:�0首字母大写:�0层的”0� y0x0图3:提出模型的架构。x是“CRF编码器w/ELMo表示”,y是“重构w/手工特征”。0CRF编码器的主要挑战是如何通过有效的上下文表示更准确地引导潜在序列。与DL时代之前的大多数工作一样,Ammar等人(2014年)使用手动设计的特征来表示上下文。DL带来的主要进展之一是通过LSTM和Transformer等神经网络进行上下文表示的强大能力。此外,预训练语言模型(如ELMo和BERT)极大地增强了这一优势,并且已被证明能够显著提高几乎所有NLP任务的性能。然而,除了Tran等人(2016年)和Gupta等人(2020年)之外,很少有研究尝试利用这种神经上下文化编码器进行无监督的词性标注。最重要的是,据我们所知,迄今为止还没有成功地利用PLM进行无监督的词性标注的研究。在这项工作中,我们提出利用PLM的上下文表示来增强CRF-AE模型的CRF编码器。这里我们使用ELMo(Peters等人,2018年)来说明我们的方法,其他PLM如BERT也是一样的。0ELMo输出。ELMo的编码器由三层组成(Peters等人,2018)。底层通过逐字卷积神经网络计算无上下文的单词表示。顶部两层,每层有两个单向LSTM,通过连接正向和反向表示获得上下文感知的单词表示。0+v:mala2277获取更多论文(11)where Ws ∈ Rd′×∣Y∣ is the projection weight ofscoring, bs ∈ R∣Y∣ is the scoring bias, and Y is thePOS tag set. [yi] is the index selection operation.3.2Reconstruction w/ Hand-crafted FeaturesIn Ammar et al. (2014), the reconstruction prob-abilities are stored and updated as a matrix. Theconditional probability p(xi ∣ yi), i.e., generatingxi given yi, is modeled at the whole-word level.This leads to the data sparseness problem. For rarewords, the probabilities are usually unreliable.Therefore, we borrow the idea of feature-richHMM by Berg-Kirkpatrick et al. (2010). The idea3279+v:mala2277获取更多论文0双向LSTM(正向和反向)通过连接正向和反向表示获得上下文感知的单词表示。在将输入句子输入ELMo之后,每个单词xi都有三个表示向量,即(h0i,h1i,h2i),分别对应于三个编码器层。按照标准做法,我们将输出向量的加权算术平均值(ScalarMix)作为xi的最终上下文化单词表示ri:0ri = γK−1∑k=0ωkhki,(7)0其中ωk(0≤k
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功