没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文KinyaBERT:一个基于形态学的Kinyarwanda语言模型Antoine Nzeyimana马萨诸塞大学阿姆赫斯特anthonzeyi@gmail.comAndre Niyongabo Rubungo加泰罗尼亚理工大学niyongabor.gmail.com摘要BERT等预先训练的语言模型已经成功地解决了许多自然语言处理任务。然而,在这些模型中通常使用的字节对编码- BPE)在处理形态丰富的语言时是次优的。即使给出了一个形态分析器,将语素简单地排序到标准BERT体系结构中在捕获形态组成性和表达词相关句法结构方面也是低效的。我们提出了一个简单而有效的两层BERT架构,利用形态分析器和明确表示形态组合来解决这些挑战。尽管BERT取得了成功,但它的大多数评估都是在高资源语言上进行的,模糊了它在低资源语言上的适用性我们评估我们提出的方法低资源形态丰富的Kinyarwanda语言,命名为建议的模型架构 KinyaBERT 。 一 组 强 大 的 实 验 结 果 显示,KinyaBERT在命名实体识别任务上的F1得分超过了坚实的基线KinyaBERT微调具有更好的收敛性,即使在存在翻译噪声的情况下,也能在多个任务11介绍通过深度学习的自然语言处理(NLP)的最新进展在很大程度上是由通过语言模型预训练学习的向量表示(或嵌入)实现的(Ben gioetal. ,2003; Mikolov et al. ,2013; Penning-tonetal. , 2014; Bojanowski 等 人 , 2017; Petersetal. ,2018; Devlin et al. ,2019)。语言模型,如BERT(Devlin et al. ,2019年)是前-1代码和数据发布于https://github。com/anzeyimana/kinyabert-acl2022在大型文本语料库上进行训练,然后在下游任务上进行微调,从而在许多NLP任务上获得更好的性能。尽管尝试制作多语言BERT模型(Conneau et al. ,2020年),研究表明,在高质量单语语料库上预训练的模型优于在大型互联网数据上预训练的多语言模型(Scheible etal. ,2020; Virtanen et al. ,2019)。这促使许多研究人员在个别语言上预训练BERT模型,而不是采用“语言不可知”的这项工作的部分动机是相同的发现,但也提出了BERT架构的适应,以解决特定于形态丰富的语言,如基尼亚卢旺达语的表征为了处理稀有词并减少词汇量,BERT类模型使用统计子词标记化算法,例如字节对编码(BPE)(Sennrich et al. ,2016)。虽然这些技术已被广泛用于语言建模和机器翻译,但它们对于形态丰富的语言并不是最佳的(Klein和Tsarfaty,2020)。事实上,仅基于表面形式的子词标记化方法,包括BPE和基于字符的模型,不能捕获所有的形态细节。这是由于形态 变 化 ( Muhirwe , 2007 ) 和 非 连 接 形 态(McCarthy,1981)经常在形态丰富的语言中表现出来。 例如,如表1所示, 在基尼亚卢旺达语文本的3.9亿个标记上训练的BPE模型不能提取真正的子词词汇单元(即,词素)的给定单词。这项工作解决了上述问题,提出了一个语言模型架构,显式表示大多数的输入单词与形态分析器产生的形态分析。在这种体系结构中,BPE仅用于处理不能被形态分析器直接分解的单词,例如拼写错误,arXiv:2203.08459v1[cs.CL] 2022年3月+v:mala2277获取更多论文词语素单语BPE多语言BPEtwagezeyo你。a . 格尔。烨哟twag。埃泽约_twa . GE .泽哟ndabyizeyen . RA .双性恋伊泽。叶恩达比。伊泽耶_ndab . yiz。眼睛umwarimu联合 mu . 阿里穆乌姆瓦里穆嗯。 瓦里。亩表1:词素和BPE产生的子词标记之间的比较。茎下划线。专有名词和外语词汇。给定形态分析器的输出,第二个挑战是如何将所产生的语素合并到模型中。一种简单的方法是将生成的词素作为单个单片序列提供给标准 Transformer 编 码 器 Mohseni 和 Tebbifakhr(2019)使用了这种方法。这种方法的一个问题是,在单个序列中混合子词信息和句子级标记不会促使模型学习实际的形态组合性并表达词相关的句法结构。我们解决这些问题,提出了一个简单而有效的双层Transformer编码器架构。第一层对形态信息进行编码,然后将形态信息传送到第二层以对句子级别信息进行编码。我们称这种新的模型架构为KinyaBERT,因为它使用BERT这项工作也代表了低资源NLP的进展。人类语言技术的进步通常是根据主要经济大国使用的主要语言来评估的,如英语、汉语和欧洲语言。这加剧了资源丰富的语言和代表性不足的语言之间的语言技术鸿沟。这也阻碍了NLP研究的进展,因为新技术大多是在主流语言上进行评估的,而一些NLP进展对语言现象的多样性了解较少(Bender,2019)。具体而言,这项工作提供了以下研究贡献:• 一个简单而有效的双层BERT架构,用于表示形态丰富的语言。• 基尼亚卢旺达语的新评估数据集,包括机器翻译的GLUE基准子集(Wang et al. ,2019年)和新闻分类数据集。• 实验结果为未来的基尼亚卢旺达语理解研究和使用机器翻译版本的GLUE基准测试奠定了基准。• 代码和数据集是公开可复制的1。2形态感知语言模型我们的建模目标是能够在基于Transformer的(Vaswani et al. ,2017)语言模型。 对于形态丰富的语言,如基尼亚卢旺达语,一组语素(通常是一个词干和一组功能词缀)结合起来产生一个具有给定表面形式的单词。这需要一种替代无处不在的BPE标记化的方法,通过这种方法,使用精确的子词词汇单位(即语素)。为此,我们使用一个形态分析器,它以一个句子作为输入,对于每个单词,产生一个词干,零个或多个词缀,并为每个单词分配一个词性本节介绍如何获取形态信息,然后将其集成到双层Transformer架构(图1)中,以学习形态感知输入表示。2.1词法分析与词性标注卢 旺 达 的 国 语 基 尼 亚 卢 旺 达 语(Kinyarwanda)是非洲中部和东部主要的班图语之一(Nurse andPhilippson,2006)。基尼亚卢旺达语有16个名词类别。修饰词(指示词、所有格、形容词、名词)带有一个与主要名词类别一致的类别标记语素。动词形态学(Nzeyimana,2020)还包括与主语或宾语的类别一致的主语和宾语标记。因此,该协议使得语言的用户能够基于其类来近似我们利用这种语法协议属性在设计我们的无监督POS标签。+v:mala2277获取更多论文|||不 不M不 不 p不 不 一不 不||P( y)=t=1P(yt|yt−1)。标签序列y句子/文档级编码器约翰Bon坦加尔形态编码器形态编码器形态编码器NP35约翰V5图阿拉哈穆邦耶V9比拉图坦加尔和阿约翰·特瓦拉哈姆布邦耶·比拉杜坦加扎(我们很惊讶地发现约翰在那里)图1:KinyaBERT模型架构:句子“John twarahamusanze biradutangaza”的编码形态分析器为每个单词生成词素并为其分配一个POS标签,然后双层Transformer模型生成上下文化的嵌入(顶部的蓝色向量)。红色的嵌入对应于POS标签,黄色的是词干嵌入,绿色的是可变长度的词缀,而紫色的嵌入对应于词缀集。我们的基尼亚卢旺达语形态分析器是根据有限 状 态 两 级 形 态 学 原 理 构 建 的(Koskenniemi,1983;Beesley和序列y由以下等式给出:yx= arg maxP(y x)yKarttunen,2000年,2003年)。对于每一个词形变化=arg max P(x)|y)P(y)(一)类型,我们使用有向无环图(DAG),表示词素的规则排序 。 我 们 有 效 地 模 型 所 有 的 词 在Kinyarwanda,其中包括动词,名词,形容词,动词和指示代词,数词和量词的曲折类型。形态分析仪也在-包括许多手工制作的规则,用于处理更多-yP(x)= arg maxP(x y)P(y)y标准隐马尔可夫模型(HMM)可以使用一阶马尔可夫假设和独立性将等式1对P(x)的求和|y)= QnP(x t|y t)和Qnt=1象形文字学和其他语言学基尼亚卢旺达语在当前的语言建模工作之前,词 法 分 析 器 是 由 母 语 者 独 立 开 发 和 与Nzeyimana(2020)类似,我们使用在词干数据集上训练的分类器此外,我们通过在短语层面上利用词性标注器来提高排歧质量,从而可以考虑句法上下文。我们设计了一个无人监督的 词性标记-然后可以使用维特比算法有效地解码租m(Forney,1973)。下面给出了更好的解码受Tsuruoka和Tsujii(2005)的启发,我们使用相同的一阶马尔可夫假设,但使用双向解码,设计了一种贪婪启发式算法来解码y?首先,我们使用以下等式中给出的因子模型估计局部排放概率P(xt yt)P(x t|yt)P(x t|(二)P(x|y)=P(x|y)P(x|y)P(x|年)的我们在这里解释的ging算法。 令x =(x1,x2,x3,. xn)是要用对应的标签序列y =(y1,y2,y3,. y n)。基尼亚卢旺达语实际使用的POS标签样本见附录表12。使用贝叶斯在等式2中,Pm(xtyt)对应于由形态学歧义消除分类器返回的概率/分数,表示不确定性xt的形态。Pp(xtyt)对应于竞争POS标签之间的局部优先权。 这些优先权是男人-形态分析仪+v:mala2277获取更多论文||−||P(x|y)P(y|yt−1)P(yt−1|(x)||Σ||通过定性评估进行人工制作(请单独参见分析的令牌,以提取其附录中的表12(示例)。Pa(xtyt)量化了班图语类标记之间当相邻词中有两个或两个以上一致的类标记基本一致性分数可以是给定候选者周围的七个单词的窗口内的一致类别标记的数量Xt。 我们手动设计了一组更精细的协议规则及其在不同上下文中的权重。因此,实际的一致性得分Pa(xtyt)是匹配ed同意的加权和的规则。使用等式3中给出的S形函数σ(z zA,zB)将等式2中的每个未归一化的度量P映射到[0,1]范围,其中z是度量的分数,[zA,zB]是其估计的活动范围。形态特征然后,将提取的形态学特征与标记的词干嵌入连接,以形成馈送到句子/文档编码器的输入向量。句子/文档编码器由其他BERT模型中使用的标准Transformer编码器句子/文档编码器使用Ke等人提出的具有相对偏差的untied posi- tion编码。 (2020年)。形态编码器的输入是一组嵌入向量,三个向量与词性有关Transformer编码器操作适用于这些嵌入向量,而不需要任何位置信息。这是因为在形态学水平上的位置信息是固有的,因为没有语素重复,并且每个语素都是相同的。σ(z|个zla,zB)=[1+exp(8z−zA)]−8(3)zB−zA词素总是占据形态策略模型中的已知(即固定)时隙。提取的MOR-在估计了局部发射模型之后,我们使用如下面给出的P_(ytx)的一阶双向推断,按照P_ ( xtyt ) 的 降 序 对 yt_(x ) =argmaxytP_(ytx)进行了greatly下式:P(yt|x)=P(x t|yt)P(yt|yt−1,yt+1)P(yt−1|x)P(yt+1|(x)如果yt-1和yt+1都已被解码;别 说了如果仅yt-1已被解码;P(x t|yt)P(yt|yt+1)P(yt+1|(x)语音特征是对应于三个POS嵌入和一个词干嵌入的四个编码器输出对应于词缀的向量被省略,因为它们具有可变长度,并且在这种情况下词缀的作用是由词干和POS标签来处理,使得可以捕获形态信息。四个形态输出特征向量进一步与句子级的另一个词干嵌入连接,以形成用于主句子/文档编码器的输入向量。选择这种基于变换的形态编码架构的动机有两个如果仅yt= 1已被解码;P˜(x t|yt)否则(四)因素首先,Zaheer等人 (2020)已经证明了在BERT模型中拥有“全局令牌”(如[CLS]令牌)的重要性。这些令牌涉及建模的se中的所有其他令牌一阶跃迁测度P∈(yt|yt−1),P(ytyt+1)和P(ytyt−1,yt+1)的估计如下:在整个语料库中计算的统计表通过聚合当地 发射边际P(yt)=xtP<$(xt,yt)通过形态学方法得到,逻辑分析和消歧。2.2形态编码我们模型的整体架构如图1所示。这是一个双层Transformer编码器架构,由一个令牌级形态编码器组成形态编码器由一个小的Transformer编码器组成,顺序。这些其次,词性标记和词干代表了词的高级信息内容。因此,将POS标签和词干嵌入转换为形态特征是一个可行的选择。因此,POS标签和词干嵌入在形态编码器级别上充当为了捕捉细微的形态信息,我们使三个POS嵌入之一跨越一个词缀集词汇,这是所有词缀幂集的子集。我们形成了一个词缀集合-+v:mala2277获取更多论文VVV由语料库中出现频率最高的N个词缀组合构成的larya事实上,语言的形态学模型强制约束词缀可以在任何给定的词性下组合在一起即使将词缀集合词汇表a限制为固定大小,我们仍然可以通过从组合中删除零个或很少的词缀来将任何词缀组合映射到a注意,词缀集嵌入仍然必须在形态学编码器级别上关注所有词素图1中的紫色单位表示词缀集嵌入,附录中的表13给出了Va2.3培训前目标与其他BERT模型类似,我们使用掩蔽语言模型目标。具体而言,训练集中所有标记的15%被考虑用于预测,其中80%被[MASK]标记替换,10%被随机标记替换,10%保持不变。当预测标记被[MASK]或随机标记替换时,相应的词缀在70%的时间内被随机省略,或者在30%的时间内被保留,而与POS标签和词缀集相对应的单元也被屏蔽。预训练目标是使用编码器输出之上的两层前馈模块来预测考虑用于预测的所有标记的词干和相关联的对于词缀预测任务,我们面临一个多标签分类问题,其中对于每个预测标记,我们预测可变数量的词缀。在我们的实验中,我们尝试了两种方法。首先,我们使用N长度词缀分布向量。对于这种情况,我们使用目标词缀概率向量at∈RN,3实验为了评估所提出的架构,我们在2.4 GB的Kinyarwanda 文 本 上 预 训 练 KinyaBERT(KinyaBERTADR的101M参数和KinyaBERTASC的105 M参数)以及3个基线BERT模型。第一个基线是在相同的基尼亚卢旺达语语料库上预训练的BERT模型,并且具有相同的位置编码(Ke et al. ,2020),相同的批量大小和预训练步骤,但使用标准的BPE标记化。我们称之为第一个基线模型BERTBPE(120 M参数)。第二个基线是在相同的基尼亚卢旺达语语料库上预训练的类似BERT模型,但由形态分析器进行分词。对于这个模型,输入只是一个词素序列,与Mohseni和Tebbifakhr(2019)类似我们将第二个基线模型 称 为 BERTMORPHO ( 127 M 参 数 ) 。 对 于BERTMORPHO,我们发现预测30%的标记比使用15%的标记获得更好的结果,因为生成了许多 第 三 基 线 是 XLM-R ( Conneau et al. ,2020)(270M参数),它在2. 5 TB的多语言文本上进行了预训练。我们通过比较它们在下游NLP任务上的性能来评估上述模型基尼亚卢旺达语公布期2011 - 2021年网站/来源370文件/文章840K句子16M代币/单词390M文本大小2.4 GB表2:预训练语料库的总结。3.1培训前详细信息KinyaBERT模型使用Py-torch 1.9版形态分析仪和其中每个目标词缀索引被分配1个概率,能力和0M非目标词缀的概率这里POS标记器在一个共享库使用POSIX C。词形分析的核心-m是要预测的词中的词缀的数目,N是所有词缀的总数。我们称这种方法为或者,我们使用交叉熵损失,并且仅预测与预测词相关联的词缀集;我们称这种方法为2https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergencepus作为预处理步骤执行,在12核台式机上花费20小时来分割390兆令牌语料库。使用RTX3090和RTX 2080Ti桌面GPU执行预训练每个KinyaBERT模型平均需要22小时在一个RTX3090 GPU 上 训 练 1000 步 , 或 在 一 个 RTX2080Ti GPU 上 训 练 29 小 时 。 基 线 模 型(BERTBPE和BERTMORPHO)在云张量处理单元(TPU v3-8设备,每个设备具有128 GB内存)上进行预训练。+v:mala2277获取更多论文×使用PyTorch/XLA 3包和TPU优化的fairseq工具包(Ott et al. ,2019)。TPU的预训练每1000步需要2.3小时。基线在TPU上进行了培训,因 为 在 fairseq 中 实 现 的 现 有 RoBERTA( 基础)架构不需要进行重大更改,TPU资源可用且有效。在所有情况下,预训练批量大小设置为2560个序列,每个序列中最多512个令牌。最大学习率被设置为4× 10- 4,这是在2000步之后实现的,然后线性衰减。我们的主要结果和消融结果是从所有情况下预先训练32K步的模型其他预训练细节、模型架构尺寸和其他超参数在附录中给出。3.2评价任务机器翻译的GLUE基准-通用语言理解评估(GLUE)基准(Wang et al. ,2019年)已被广泛用于评估预先训练的语言模型。为了评估KinyaBERT在这些高级语言任务上的表现,我们使用Google翻译API来翻译GLUE基准测试的一个子集(MRPC,QNLI,RTE,SST-2,STS-B和WNLI任务)转换成基尼亚卢旺达语。CoLA任务被留下,因为它是英语专用的。MNLI和QQP任务也没有被翻译,因为用谷歌的商业API翻译它们太贵了虽然机器翻译会给数据增加更多的噪音,但对这个数据集进行评估仍然是相关的,因为所有比较的模型都必须应对相同的噪音。为了理解这种翻译噪音,我们还进行了用户评估实验,其中四名精通英语和基尼亚卢旺达语的志愿者评估了6000个翻译的GLUE示例的随机样本,并在1到4的范围内为每个示例打分(参见附录中的表11这些分数帮助我们表征数据中的噪声,并将我们的结果与其他GLUE评估联系起来。这些GLUE任务的结果如表3所示。命名实体识别(NER)-我们使用MasakhaNER数据集的Kinyarwanda子集(Adelani et al. 2021年)的任务。这是一个高质量的NER数据集,由母语者为包括基尼亚卢旺达语在内的主要非洲语言注释。该任务需要预测四种实体类型:人员(PER),位置(PER),或-3https://github.com/pytorch/xla/组织(ORG)和日期和时间(DATE)。该NER任务的结果见表4。新闻分类任务(NEWS)文章已经分类,因此 不 需 要 更 多 的 手 动 标 签 。 该 数 据 集 与Niyongabo等人(2020)相似,但在我们的案例中,我们将每个类别收集的文章数量限制为3000篇,以获得更平衡的标签分布(见附录中的表10最终的数据集共包含25.7K篇文章,涵盖12个类别,并被分为训练集、验证集和测试集,比例分别为70%、5%和25%。表5给出了这个NEWS任务的结果。对于每个评估任务,我们在句子编码器上使用两层前馈网络,因为它通常在其他BERT模型中完成微调超参数见附录中的表143.3主要结果主要结果见表3、表4和表5。每个结果是10次独立微调运行的平均值。每个平均结果与10次运行的标准偏差一起显示。除了XLM-R之外,所有其他模型都是使用相同的超参数在相同的语料库(见表2)上进行32 K步的在GLUE任务中,KinyaBERTASC的平均得分比最强基线高出4.3%。KinyaBERTASC还可以在多个任务上获得更好的结果。它还表明,只有一个形态分析器是不够的:BERTMORPHO仍然表现不佳,即使它使用形态标记化。在大多数情况下,多语言XLM-R的性能最差在 NER 任 务 中 , KinyaBERTADR 的 表 现 最好,平均F1得分比最强基线高出约3.2%。KinyaBERTADR和KinyaBERTASC之间的架构差异之一是KinyaBERTADR使用三个POS标签嵌入,而KinyaBERTASC使用两个。假设POS标记有助于命名实体识别,该实验结果表明,增加POS标记信息量+v:mala2277获取更多论文任务:MRPCQNLIRTESST-2STS-BWNLI#Train示例:3.4K104.7K2.5K67.4K5.8K0.6K翻译评分:2.7/4.02.9/4.03.0/4.02.7/4.03.1/4.02.9/4.0模型确认集XLM-R84.2/78.3 ±0. 八比一079.0 ±0. 3 58.4 ±3。2 78.7 ±0. 677.7/77.8±0. 七比零。655.4 ±2。0BERT BPE83.3/76.6 ±0. 八比一481.9 ±0. 2 59.2 ±1。580.1 ±0. 475.6/75.7 ±7。8/7。3 55.4 ±1。9BERT MORPHO84.3/77.4 ±0. 六比一181.6 ±0. 259.2 ±1。581.6 ±0. 576.8/77.0 ±0. 八比零。754.2 ±2. 5KinyaBERT ADR87.1/82.1±0. 5/0。7 81.6 ±0.161.8 ±1。481.8 ±0. 679.6/79.5±0. 四比零。354.5 ±2。2KinyaBERT ASC86.6/81.3±0. 5/0。 782.3±0. 3 64.3±1。4 82.4±0. 580.0/79.9±0. 5/0。5 56.2±0. 8模型测试集XLM-R82.6/76.0 ±0. 六比零。678.1 ±0. 3 56.4 ±3。2 76.3 ±0. 469.5/68.9±1。0/1。163.7 ±3。9BERT BPE82.8/76.2 ±0. 六比零。881.1 ±0. 3 55.6 ±2。879.1 ±0. 468.9/67.8 ±1。八比一763.4 ±4. 1BERT MORPHO82.7/75.4 ±0. 八比一380.8 ±0. 4 56.7 ±1。080.7 ±0. 568.9/67.8 ±1。五比一365.0±0. 3KinyaBERT ADR84.4/78.7±0. 5/0。6 81.2 ±0. 3 58.1 ±1。 180.9 ±0. 5 73.2/72.0 ±0. 四比零。3 65.1±0.0KinyaBERT ASC84.6/78.4±0. 2/0。3 82.2±0. 658.8±0. 781.4±0. 674.5/73.5±0. 2/0。2 65.0±0. 2表3:机器翻译的GLUE基准的性能结果(Wang等人,,2019)。翻译分数是志愿者分配的样本平均翻译质量分数。对于MRPC,我们报告准确度和F1。对于STS-B,我们报告Pearson和Spearman相关性。对于所有其他人,我们报告准确性。最佳结果以粗体显示,而相等的顶部结果以下划线显示。任务:NER#Train示例:2.1K模型验证集测试集集.这可能是因为解决这样的任务不需要高级语言建模,而是依赖于发现几个关键字。先前一项类似任务的研究(Niyongabo et al. ,2020年)XLM-R80.3 ±1。071.8 ±1。5BERT BPE83.4 ±0. 974.8 ±0.8伯特·莫普·霍83.2 ±0. 972.8 ±0.9KinyaBERT ADR87.1±0.877.2±1。0KinyaBERT ASC86.2 ±0. 476.3 ±0. 5表4:基尼亚卢旺达语净入学率任务的微平均F1分数(Adelani et al. ,2021年)。任务:新闻#Train examples:18.0K已经表明,基于TF-IDF特征的简单分类器足以实现最佳性能。形态分析器和POS标记器固有地具有一定程度的噪声,因为它们并不总是以完美的准确度执行。虽然我们没有一种简单的方法来评估这项工作中这种噪声的影响,但我们可以合理地预期,噪声越低,结果可能越好改进形态分析仪和词性标注仪,准确性是未来工作的一部分。 即使我们的模型确认集测试集XLM-R83.8 ±0. 384.0 ±0. 2BERT BPE87.6 ±0. 488.3±0. 3伯特·莫普·霍86.9 ±0. 486.9 ±0. 3KinyaBERT ADR88.8±0. 388.0 ±0. 3KinyaBERT ASC88.4 ±0. 388.0 ±0. 2表5:基尼亚卢旺达语新闻分类任务的准确性结果。在该模型中,可能通过多样化(即,每个单词多个POS标签嵌入向量),可以导致更好的NER性能。新闻分类任务导致验证和测试之间的不同表现+v:mala2277获取更多论文POS tagger使用启发式方法,主要通过定性探索进行评估,我们仍然可以看到它对预训练语言模型的积极影响。我们没有使用以前的工作Kinyarwanda POS标记,因为它是在很大程度上不同于这项工作的规模,标签字典和数据集的大小和可用性。我们绘制了KinyaBERT微调过程中的学习曲线和基线。图2中的结果表明KinyaBERT微调在所有任务中具有更好的收敛性广告结果还表明,位置注意力(Ke et al. ,2020)具有更均匀和更平滑的相对偏差,而BERTBPE和BERTMORPHO具有更多的噪声+v:mala2277获取更多论文→→→→→图2:KinyaBERT和基线在评估任务上的微调损失曲线比较。KinyaBERTASC在大多数情况下实现了最佳收敛,表明其模型架构和预训练目标的有效性更好。相对位置偏倚(参见附录中的图3这可能表明KinyaBERT允许学习更好的单词相关句法规则。然而,这方面需要在未来的研究中进行更系统的研究。虽然KinyaBERT的主要句子/文档编码器相当于在小型形态编码器之上的标准BERT这是因为使用形态表示减少了词汇量。在形态编码器级别使用较小的嵌入向量也显著减少了参数的总数。附录中的表8显示了KinyaBERT与基线相比的词汇量和参数计数虽然嵌入的大小基本上是为了匹配BERT“BASE”算法,但未来的研究可以更多地3.4消融研究我们进行了一项消融研究,以阐明KinyaBERT结构的一些设计选择。我们沿着两个轴进行变化:(i)形态输入和(ii)预训练任务,这给了我们四个变体,我们对32K步进行了预训练,并在相同的下游任务上进行了评估• AFS STEM+ASC:形态特征由两个词性标签和一个词缀集合向量捕获。我们预测了词干和词缀集。这与主要结果中的KinyaBERTASC相对应• POS STEM+ADR:形态特征由三个POS标签向量携带,我们预测词干和词缀概率向量。这相当于KinyaBERTADR。• AVG STEM+ADR:形态特征由两个POS标签向量和来自形态编码器的词缀隐藏向量的逐点平均值捕获我们预测词干和词缀的概率向量。• STEM STEM:我们省略了形态学编码器,只训练一个没有词缀的词干部分的模型,只预测词干。表6中给出的消融结果表明,使用词缀集进行形态编码和预测对于许多GLUE任务给出了更 好 的 结 果 “STEM STEM” 在 高 资 源 任 务(QNLI和SST-2)上的表现不佳然而,该信息的效用取决于任务,因为我们看到其他任务的混合结果由于词法感知语言模型的设计空间很大,因此在未来的研究中仍有许多其他设计选择可以探索可以改变所使用的POS标签嵌入的量,改变词缀集词汇的大小或形态编码器嵌入的尺寸。还可以研究形态编码器的其他架构的潜力,例如卷积网络。我们早期使用递归神经网络(RNN)进行形态编码的尝试被放弃了,因为它太慢了。+v:mala2277获取更多论文任务:MRPC QNLI RTE SST-2 STS-B WNLI NER NEWS形态学→预测验证集AFS→STEM+ASC 86.6/81.382.3 64.3 82.4 80.0/79.9 56.286.2 88.4POS→STEM+ADR87.181.6 61.8 81.8 79.6/79.5 54.587.1 88.8平均值→STEM+ADR 85.5/80.3 81.4 63.0 82.1 79.6/79.5 55.886.6 88.3STEM→STEM 86.4/81.5 80.4 63.4 77.5 79.7/79.5 50.4 86.6 88.0形态学→预测测试集AFS→STEM+ASC84.6/78.482.258.881.4 74.5/73.565.0 76.3 88.0POS→STEM+ADR 84.4/78.781.2 58.1 80.9 73.2/72.065.177.288.0平均值→STEM+ADR 84.0/78.2 81.759.480.7 73.6/72.665.0 76.9 88.2STEM→STEM 84.2/78.6 80.359.877.5 73.3/72.0 59.6 76.488.4表6:消融结果:每个结果是10次独立微调运行的平均值。数据集大小和噪声统计与表3、表4和表5中的主要结果相同。4相关工作BERT变体预训练语言模型(PLM)最初是在单语高资源语言上进行预训练的。包括高资源和低资源语言的多语言PLM也被引入(Devlin等人,,2019; Conneau et al. ,2020; Xue等人,2021; Chung et al. ,2020)。然而,已经发现这些多语言模型偏向于高资源语言,并且使用较 少 的 低 质 量 和 未 清 理 的 低 资 源 数 据(Kreutzer et al. ,2022)。包含的低资源语言也非常有限,因为它们主要来自维基百科的文章,其中很少有文章的语言,如基尼亚卢旺达语 , 通 常 被 留 在 后 面 ( Joshi et al. , 2020;Nekoto等人,2020)。Joshi等人(2020)NLP的状态分类对基尼亚卢旺达语来说,这是一个基尼亚卢旺达语主要 在 描 述 语 言 学 中 进 行 研 究 ( Kimenyi ,1976,1978 a,b,1988;Jerro,2016)。 最近关于基尼亚卢旺达语的NLP著作很少,包括形态 分 析 ( Muhirwe , 2009; Nzeyimana ,2020 ) , 文 本 分 类 ( Niyongabo 等 人 ,2010)。,2020)、命名实体识别(Rijhwaniet al. ,2020; Adelani等人,2021; Sälevä andLengs , 2021 ) , POS tagging ( GarretteandBaldridge,2013; Garrette et al. ,2013; Duonget al. , 2014; Fang and Cohn , 2016; Carde-naset al. ,2019)和解析(Sun et al. ,2014;Mielens 等 人 , 2015 ) 。 之 前 没 有 关 于Kinyarwanda预训练语言建模的研究。关于单语PLM的研究很少非洲语言。据我们所知,目前只有AfriBERT(Ralethe,2020年)接受了南非荷兰语(南非的一种语言)的预先训练。 在这篇文章中,我们的目标是通过引入基尼亚卢旺达语的PLM来增加非洲语言在NLP社区中的包容性。与之前的工作(参见附录中的表15)不同,这些工作仅预先训练未经修改的BERT模型,我们提出了一种改进的BERT架构,用于形态丰富的语言。最近,已经有研究推动通过采用基于字符的模型来改进子词标记化(Ma et al. ,2020;Clark等人,2022)。虽然这些方法对于“语言不可知”的情况是有希望的我们把它留给未来的研究,以经验探索这些基于字符的方法如何比较形态感知模型。5结论这项工作证明了在语言模型预训练中引入词法信息的有效性。所提出的两层Transformer架构允许模型表示形态组合性。Kinyarwanda,一个低资源形态丰富的语言进行的实验,揭示了显着的性能改善时,使用所提出的架构的几个这些发现应该激励更多的研究形态感知的语言模型。+v:mala2277获取更多论文确认这项工作得到了Google TPU Research Cloud( TRC ) 计 划 的 Cloud TPU 和 Google CloudResearch Credits的支持,我们也感谢匿名的重新观众的深刻的反馈。引用David Ifeoluwa Adelani,Jade Abbott,Graham Neu-big, DanielMuham-mad ,ChrisChinenyeEmezue , JoyceNakatumba-Nabaldi , PerezOgayo,Aremu Anuoluwapo,Catherine Gitau,Derguene Mbaye , Jesujoba Al-abi , Seid MuhieYimam , Tajudeil Rabiu Gwad-abe , IgnatiusEzeani , Rubungo Andre Niyongabo , JonathanMukiibi , Verrah Otijoul , Iroro Orife , DavisDavid , Samba Ngom , Tosin Adewumi , PaulRayson,MofetoluwaAdeyemi,GeraldMuriuki,EmmanuelAnebi,ChiamakaChukwuneke , NkirukaOdu , EricPeterWairagala,Samuel Oyerinde,Clemencia Siro,Tobius Saul Bateesa,Temilola Oloyede,YvonneWambui,VictorAkinode,Deb-orahNabagereka , MauriceKatusiime , AyodeleAwokoya , Mouhamadane MBOUP , DiboraGebrey-ohannes , HenokTilaye , KelechiNwaike , Degaga Wolde , Abdoulaye Faye ,BlessingSibanda , Ore-vaogheneAhia ,Bonaventure F. P. Dossou , Kelechi Ogueji ,Thierno Akhima DIOP , Abdoulaye Diallo ,Adewale Akinfaderin,Tendai Marengereke,andSa- lomey Osei.2021. MasakhaNER:非洲语言的命名实体识别。 Transactions of the Associationfor Computational Linguistics,9:1116-1131.Fady Baly,Hazem Hajj,et al. 2020. Arabert:基于transformer的阿拉伯语理解模型。在第四届开源阿拉伯语语料库和处理工具研讨会的会议记录中,有一个关于冒犯性语言检测的共同任务,第9肯尼斯·R·比斯利和劳里·卡图宁。2000.有限状态非连接形态策略。第38届计算语言学协会年会论文集,第191肯尼斯·R·比斯利和劳里·卡图宁。2003.有限态形态学:施乐工具与技术. CSLI斯坦福艾米丽·M·本德2019. # benderrule:关于命名我们学习的语言以及为什么它很重要14.第14章.约
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功