语-英语的代码转换现象越来越普遍，需要开展相关研究

120 浏览量更新于2023-12-05 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列12（2021）100104阿拉伯语-英语词内语码转换的语言识别Caroline Sabtya， Mesabahb，Islam Mesabah b，Özlem Mesetinoalluc，Slim Abdennadheraa德国国际大学，行政首都，区域环路，开罗，埃及b德国开罗大学，El Tagamoa El Khames，New Cairo，开罗，埃及c德国斯图加特大学自然语言处理研究所A R T I C L E I N F O保留字：自动语言识别深度学习代码交换数据阿拉伯语A B S T R A C T多语言使用者倾向于在文本和语音中混合不同的语言;语言学家将这种现象称为“代码转换”（CS）。此外，说话者在同一个词（词内CS）中的不同语言的语素之间切换。社交媒体上的用户生成文本是非正式的，包含大量不同类型的CS数据。需要对这些数据进行调查和分析，以完成几项语言任务。语言识别（LID）是词内CS数据的重要任务之一。LID涉及分割这项工作的目的是创建第一个注释阿拉伯语-英语（AR-EN）语料库，用于CS词内LID任务以及基于Web的应用程序用于数据注释。我们使用朴素贝叶斯和Character BiLSTM为AR-EN文本实现了两个基线模型。我们的主要模型是使用分段递归神经网络（SegRNN）构建的。我们研究了SegRNN中不同词嵌入的使用情况。用于标记整个数据集的最高LID系统单独使用SegRNN获得，达到94.84%的F1分数，并且能够识别混合单词 F1评分为81.15%。此外，具有FastText嵌入的SegRNN模型在标记混合词时取得了最高的结果，相当于81.45%的F1分数1. 介绍语言反映人的思想。这是一种沟通的方式，人类可以表达自己。最古老的语言之一是阿拉伯语它是一种形态丰富的语言。除了是世界上第六大语言的发言者[1]，它也是网络上使用的九种语言之一[2]。由于阿拉伯语国家有许多多语言使用者，人们经常在同一上下文中混合使用多种语言，这被称为语码转换（CS）[3]。为了说明，埃及人在他们的阿拉伯方言和英语之间进行交流这种行为在使用社交媒体平台时最为常见[4]。根据[5]中的研究，多语言Twitter用户比单语言用户更活跃。随着用户生成内容的增加，很容易观察到用户在同一个单词中混合使用例如，说话者可以说quizat，这是由英语单词quiz和后缀at组成的，后者在阿拉伯语中表示复数。多语言社交媒体用户正在生成大量包含高频率CS的数据。然而，在自然语言处理（NLP）任务中，这种混合词通常被忽视;因为NLP任务旨在处理用单一语言编写的文本。CS处理已经改变了这种假设，例如，语言识别（LID）。LID是确定文本的语言类型的任务。它是NLP领域中必不可少的预处理步骤之一。在这一领域开展的大部分工作是针对文件一级开展的。 CS已经将焦点转移到单词层面。然而，很少有研究者针对子词级的语言识别，分割混合词，并标记每个部分与其相应的语言ID。在大多数的LID系统中，CS内的词被标记为混合词，他们没有进一步的分析，其内部信息丢失。我们在这项工作中的目标是专注于词内信息以及词级语言识别。应用于阿拉伯语和AR-EN CS文本的LID系统面临的一个特殊挑战它们使得识别这两种语言变得更加困难，因为它们通常使用的脚本/Unicode是不同的。在这项工作中，国家的最先进的技术被用来实现词内任务的语言识别。主要的贡献在于尽我们所知，第一次提出了一个语料库和不同的模型LID的词内代码转换的AR-EN语言对，并比较它们的性能。此外，我们提出了一个新的基于Web的应用程序，可以∗ 通讯作者。电子邮件地址：giu-uni.de（C. Sabty）。https://doi.org/10.1016/j.array.2021.100104接收日期：2021年8月5日;接收日期：2021年10月7日;接受日期：2021年10月28日2021年11月20日网上发售2590-00562021的自行发表通过Elsevier Inc.这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayC. Sabty等人阵列12（2021）1001042用于注释具有其对应语言ID的任何语言对的词内CS数据。为了创建词内语码转换AR-EN语料库，我们收集了来自三个不同社交媒体平台的数据：Twitter，Facebook和WhatsApp，因为它们的用户经常倾向于语码转换。收集的句子总数为2507，包含30，321个标记。语料库包括阿拉伯语、英语、阿拉伯语和Engari令牌。收集数据后，我们手动分割并使用相应的语言标签对其进行注释。此外，我们创建了一个基于Web的应用程序，供研究人员上传他们的CS数据，并允许多个用户登录和注释数据，包括分割和注释混合令牌。为了应用子词语言识别任务，我们使用CS数据实现了几种用于解决分割和语言识别任务的我们将它们的性能与几种基准模型进行了比较。使用朴素贝叶斯算法进行第一基线。而第二组基线模型是使用Character Bidirectional LSTM实现的。主要模型是分段递归神经网络（SegRNN）。我们研究了不同类型的嵌入以及SegRNN模型的使用。单独的SegRNN模型优于基线模型，并且在标记和分割所有数据方面分别达到了94.84%和99.17%的F1分数。带有FastText嵌入的SegRNN模型在标记混合词时获得了最高的F1分数，等于81.45%。我们创建的语料库，注释应用程序和LID模型将在接受后公开提供本文的结构如下。第二部分介绍了语码转换数据和自动语言识别的相关工作。在第3节中，数据收集和注释与数据统计和观察一起说明。第4节解释了我们的实验和实现的LID模型。并对评价结果进行了讨论在第5节。最后，第6节总结了本文，并提出了一些未来的工作，需要在这一领域完成2. 相关工作在本节中，我们概述了通过转录语音数据或从社交媒体和网络文档收集CS数据的最相关工作我们还讨论了自动语言识别任务的重点是单词级识别可用的工作。2.1. 语码转换数据由于CS数据的重要性日益增加，一些研究人员最近一直致力于收集用于不同语言和自然语言处理任务的CS数据（例如，命名实体识别（NER）[7]）。已采用若干方法收集这类数据。其中之一是收集和转录语音数据，因为人们在说话时倾向于更多地转换代码。[8]马来语-英语采用了这种方法。此外，[9]通过记录和转录非正式访谈收集了AR-EN数据。在[10]中，他们从采访中收集了普通话和英语的录音，并将其转录下来。在[11]中，他们通过不同的技术收集数据，例如翻译单语现代标准阿拉伯语数据以创建此外，[12]通过转录南非肥皂剧广播中的语音，创建了一个英语-祖鲁语代码转换语料库。[ 13 ]通过阅读报纸收集了一个在[ 14 ]中开发了一个另一种方法是通过从社交媒体平台或网络文档收集数据来收集CS数据。这种方法比第一种方法更快、更容易，可以收集大量数据。例如，[15]为NER任务创建了第一个带注释的代码转换AR-EN语料库。他们收集了更多的数据，[16]中的语料库。他们通过三种技术收集数据：Twitter，一个转录的语音语料库，和翻译的句子从NER语料库。[17]从在线图书馆和搜索引擎的网络文档中收集AR-FR数据。另一个语料库是为现代标准阿拉伯语和摩洛哥阿拉伯语创建的[18]。他们从摩洛哥的互联网讨论板和博客中收集了不同主题的数据。[19]提出了一个罗马化的CS阿尔及利亚与我们收集的数据类型类似，[20]创建了一个土耳其语-德语CS语料库，重点关注使用Twitter的内部转换。此外，[21]手动收集来自pub的评论和帖子，Facebook上的lic页面，用于收集2.2. 自动语言辨识以前，自动语言识别（LID）任务是在文档级别上已知的，无论是单语言还是多语言[22但是，焦点转移到了字级LID，以处理代码交换数据。在文档级和单词级LID之间，在相似语言之间的区分中，有几个共享的LID任务[26]，特别是阿拉伯方言识别。两个共同的任务是对代码转换数据进行语言识别[27，28]。[28]中提出的最佳系统在所有语言对中都取得了高性能的结果[29]。然而，大多数参与者未能识别和分配词内CS的混合标签。正在实施不同的方法来解决各种语言中的CS LID问题。例如，在[30]中，他们使用SVM分类器关注语言对此外，在[31]中，他们使用各种方法识别尼泊尔语-英语数据的混合词，例如线性核SVM，基于字典的方法和k-最近邻方法。针对任意语言对的CS数据，实现了一种无监督的词级LID方法在[32]中，不需要注释的训练数据。在[33]中提出了用于CS和单语言数据的LID的前馈网络和约束解码器。在[34]中，研究人员实施了一个LID模型在单词级阿拉伯语以不同的形式存在，如方言阿拉伯语（DA）和现代标准阿拉伯语（MSA）。每个国家也有不同的DA类型，例如，在[35，36]中，他们解决了在MSA- DA数据中识别CS点的问题使用CRF分类器对埃及阿拉伯语和MSA数据进行CS识别的另一项工作见[37]。在[38，39]中，他们专注于使用有限状态转换器，形态分析器和POS消歧工具以及基于语言模型。此外，使用CRF分类器提出了用于检测CS点的系统[6]他们在几种语言对上测试了他们的系统最佳系统的F1分数分别为97.0%和98.9%。分词是子词级LID标注前的一个重要步骤。标记未分割数据的一种流行技术是[40]中提出的连接主义时间分类（CTC）。然而，它们假设输入和输出之间的单调对齐，并且不预测分割边界。后来，SegRNN模型被提出并用于分割和标记[41]。几种机器学习方法将单词分割成词素[42遗憾的是，上述研究都没有关注词内语码转换的语言检测。识别子词的语言是一项更具挑战性的任务，而且还没有普及。只有两篇研究论文解决了这个问题，没有人对AR-EN CS数据做过研究。第一个是在[47]中，专注于检测荷兰语-林堡语的词内CS[48]他们用了一种分裂的方式，C. Sabty等人阵列12（2021）1001043所有的词都变成了词素。对于每个变体，模型计算其在每种语言中的概率。第二次是在[21]中，重点关注德国-土耳其（DE-TR）和西班牙-Wixarika（ES-WIX）CS数据。实现了几种子词的切分和标注模型。分段递归神经网络（SegRNN）[41]实现了DE-TR分割的98.7%和标记DE-TR的92.5%的最佳F1分数。然而，BiLSTM和序列到序列的模型在语言对ES-WIX的分割中获得了98.1%，在DE-TR的标记中获得了95.1%。在这项工作中，我们遵循了类似的SegRNN架构，为AR-EN CS数据构建了一个LID模型。3. 数据集我们收集了我们自己的阿拉伯语-英语CS数据，并使用相应的语言标签对标记进行了注释。据我们所知，这是第一个注释的AR-EN数据集字内代码切换语言识别任务。在本节中，我们说明了如何从三个不同的社交媒体平台收集数据。由于用户使用非正式语言，并经常在社交媒体上混合使用。收集的句子总数为2507个，包括30，321个注释标记。然后，我们分析数据，了解标签在数据上的分布情况。此外，我们实现了一个应用程序，以促进类似的CS数据集的注释过程。我们观察到使用者在同一个词中进行语码转换时3.1. 数据收集我们实施了三种技术来收集数据并构建语料库。第一种技术是使用TweetsAPI从Twitter收集数据，我们收集了8589个令牌。第二个是从Facebook 收集数据，我们得到了 8692 个代币。第三个是收集WhatsApp3 数据，这是最成功的，因为我们得到了13,040个代币3.1.1. Twitter数据我们首先获得了一个随机的推文样本，并观察了在代码转换上下文中最常用的单词，如Elcode（代码）和Elgam3a（大学）。然后，这些词被用作搜索其他推文的关键字。此外，我们抓取了地理位置等于开罗的推文，并再次提取了一组新的单词，这些单词在搜索查询中再次使用。抓取的推文总数为1859条，通过删除重复和转发进行过滤，得到545条包含CS数据的推文。对剩余的推文进行了另一轮过滤，以删除标签，URL和用户名。然后对收集到的数据进行令牌化，得到了8589个令牌。3.1.2. Facebook数据为了获得更多数据，我们访问了Facebook的公共页面，这些页面不需要用户登录即可查看其内容。在我们抓取了他们的公开帖子之后。我们收集了32篇属于不同主题的帖子，如技术，食品，旅行和工作。我们过滤了数据，删除了标签、URL和用户名。这是由337句话，共8692令牌。1 www.tweepy.org。2www.facebook.com。3 www.whatsapp.com。3.1.3. WhatsApp数据为了实现我们的目的并收集大量的CS数据，我们调查了第三个平台WhatsApp的使用情况。因为它是一个在用户每天通过社交媒体进行交流的最常用社交媒体应用程序中，他们往往使用非正式语言。我们选择了一组WhatsApp的学生，并给了他们一份同意书，让他们签署，以获得他们收集数据的许可。我们收集了1625个句子和13，040个令牌，这是收集的数据中最重要的数量。3.2. 标签描述收集数据后的第二步是手动注释收集的语料库的标记。我们有一个专家注释者和一个专家评审员。他们的母语都是阿拉伯语，第二语言是英语。此外，一位研究者帮助解决了注释者和评论者之间出现的冲突。我们遵循类似的注释模式[20]。收集的数据中的每个标记/单词都用8个类别中的一个进行注释，这些类别是EN，AR、LANG3、MIXED、AMBIG、NE.AR、NE.EN和OTHER。标签EN和AR分别表示用英语和阿拉伯语书写的标记。LANG3标记对应于其他语言的标记。MIXED标记用于包含一种以上语言的标记（词内CS）。我们还对混合标签进行了分段，并为每个片段分配了一个与其语言相对应的标签。 AMBIG是指不能根据上下文分配给语言的标记。关于命名实体标记，它们由NE标记和标记的语言ID（AR或EN）表示。最后一个标记OTHER用于标记不代表实际单词的标记，如标点符号、数字、表情符号和符号。以下两个例子代表了我们数据中的两个句子，它们对应的标签和翻译：(1) I playedel game elgedida ala laptopyEN EN‘I played the new game on my(2) Danke ana rayeh GermanyLANG3 AR AR NE.EN‘Thank you I am going to3.3. 注释应用我们实现了一个新的基于Web的应用程序，它可以帮助使用相应的语言ID对词内CS数据进行注释。据我们所知，没有开源应用程序用于混合数据注释过程。我们使用Google服务的Firebase4该应用程序有一个简单的用户界面，不需要用户的个人数据来完成注释过程。应用程序有两种类型的用户。第一类用户是上传未标记数据的所有者或研究人员。第二种类型的用户是注释者，他们注释可用的数据。应用程序帮助注释器同时处理相同的数据。如图1.业主有多种选择。这些选项中的一个如图所示。1（b）监测注释者在数据方面的进展。他可以查看注释者的所有ID及其相应的开始和当前句子和标记，以及注释标记的总数。此外，他还可以删除属于某个注释者的任何注释集为了有一个新的注释者，所有者应该为他创建一个新的ID。所有者可以下载JSON格式的注释数据以处理它（例如，与现有的比较4 https://firebase.google.com/。C. Sabty等人阵列12（2021）1001044图1.一、应用程序的所有者/研究人员视图。注释者ID是出于隐私问题考虑图二、使用应用程序在一个句子中标记注释的示例。图三. 一个包含混合标记的句子的例子。每个注释者都将使用自己的ID登录以保存注释并在以后继续。一旦注释者登录，他将得到他应该注释的句子。如图2用户被给予以下句子：Ta2reeban dol l daragat l kanet 3alena mn intermediate（几乎这些是我们从期中考试中得到的成绩）。应该在句子中注释的当前标记用红色书写。用户可以从可用的标签中选择或选择混合选项。图2（a）红色单词选择AR标记。然而，在Fig. 2（b）红色的单词如果单词是混合的，他应该首先分割标记，然后注释每个部分。例如图3（a），下面的句子给注释者：（路由器，当我打开热点从手机笔记本电脑不与它连接，什么是关系）. 当前令牌（路由器）是混合的，应将其C. Sabty等人阵列12（2021）1001045Facebook数据的标签分发。每个标记的令牌数标记标记%唯一唯一代币%100.00 100.00 100.00EN 386 04.44 275 07.48其他127 12.97 127 03.46东北部128 01.47 100 02.72NE.EN 146 01.68 90 02.45AMBIG 5 0.06 1 0.03LANG3 1 0.01 1 0.03混合173 01.99 124 03.37AR、EN 132 76.30 100 80.65EN，AR 22 12.72 11 08.87澳大利亚、英国、澳大利亚19 10.98 13 10.48首先是“埃尔，路由器”。然后，用户应该为每个段选择两个标签，如图所示。3（b）.应用程序当前包含我们指定的一组固定标签，但可以将其修改为任何标记集。3.4. 数据统计数据包含阿拉伯语、英语、阿拉伯语和Engari代币。Arabizi和Engari代币以与收集的相同格式保存。下面的单词是阿拉伯语tokengedida的一个例子，它在英语中的意思是新的，作为Engari token的一个例子，单词也就是笔记本电脑从包含545个句子和8589个标记的Twitter数据开始，我们注意到这些属于不同的标签，如表1所示。混合标签的总数是167个标签，由87个独特的混合词组成。在所有Twitter数据标签中，AR占比最高，为60.61%。我们可以注意到，Twitter上最常用的混合模式是AR，EN，这意味着在英语单词后面加上阿拉伯语前缀。关于从Facebook收集的包含337个句子和8692个令牌的数据，我们注意到这些属于不同的标签，如表2所示。混合标签的总数是173个标签，由124个独特的混合词组成。标记数量最多的标签是AR标签，它包含6726个标记。单词数量最多的模式与Twitter数据AR，EN相同来自WhatsApp的最后一部分数据是最大的，包含1625个句子和13，040个令牌，并且属于不同的标签，如表3所示。混合词的总数是437，由377个独特的词组成。它们构成了整个语料库中总混合标记的56.24%，这可以表明人们在WhatsApp上聊天时更多地进行代码转换。单词最多的模式与前面的AR，EN相同表4示出了标记的数量在标签上的分布的细节以及它们的唯一编号。最终语料库中的句子总数为2507个，包含30，321个标记，或总数据统计：每个标记的令牌数量标记令牌%唯一唯一令牌%19007 AR 62.69 7013 66.11EN 6110 20.15 1948 18.36其他3794 12.51 657 6.19NE.ARNE.EN 250 0.82 154 1.45AMBIGLANG3 11 0.04 9 0.08混合777 2.56 582 5.49AR–ENEN–ARAR–EN–ARAR–OTHER–EN平均每句话12.09个代币。AR标签包含的代币数量最多，为19，007个代币。MIXED标签的总数为777个（ 2.56%）令牌，其中包括582 个（5.49%）唯一令牌。LANG3标记包含最少数量的标记，等于11个标记。此外，该表示出了分配给分段混合词的每个标签模式的出现次数。大多数这些图案是从阿拉伯符号开始的此外，最重复的模式是AR-EN，占MIXED代币总数的715。3.5. 意见我们分析了我们的CS语料库，提取一些常用的模式之间切换的阿拉伯语和英语在同一个词。我们可以在阿拉伯语中找到使用不同模式的不同词汇变体。单词的结构可以包含一个或多个前缀、词干和一个或多个后缀[49]。我们注意到，大多数混合词主要由带有阿拉伯语前缀的英语单词组成或后缀或两者。例如，elgame由单词game和前缀el（the）组成，matchat由单词match和后缀at（使其成为复数）组成，最后一个例子是elmatchat，它包含单词match和前缀el和后缀（at）。表5显示了混合词中最常用的前缀和后缀。第一组前缀在英语中都是the的意思，777个混合代币中的537次。这意味着说阿拉伯语的人倾向于用英语（或其他语言）来表达内容词并保留本地/基础语言中的功能词。以阿拉伯语为母语的人也使用带介词的定冠词，如fel（in the）48次。此外，他们还将其用作后缀，女性复数18个标记。4. 实验我们使用了几种架构来实现不同的模型，以解决CS的表1Twitter数据的标签分发。令牌数量标记令牌%每个标签的s。独特令牌独特%表3标签的标签分发WhatsApp数据令牌数量令牌%每个标签的s独门代币%AREN其他NE.ARNE.ENAMBIGLANG3混合AR，ENEN，ARAR，EN，ARAR、其他、EN52062321748804818116715833360.6127.0208.710.930.560.210.0101.9494.611.801.801.8025949022366439141877833365.8922.9105.9901.630.990.360.0302.2189.663.453.453.45AREN其他NE.ARNE.ENAMBIGLANG3混合AR，ENEN，ARAR，EN，ARAR、其他、EN、7075340319191095632943742542AR 154.2626.1014.720.840.430.250.073.3597.250.920.460.2322581180426653115737736632151.8027.079.771.490.710.340.168.6597.080.800.530.27C. Sabty等人阵列12（2021）1001046|||表5见图4。朴素贝叶斯模型架构。每个ID是一个向量。向量被赋予BiLSTM层访问最常用的前缀/后缀及其英语翻译，标记类型（AR：阿拉伯语）和（ARB：阿拉伯语）以及它们在我们数据中的出现次数。令牌类型令牌类型计数(The)AR前缀251el ARB 187l ARB 89AR 10fl（在）ARB前缀30fel ARB 18lel（Tothe）ARB prefix 18AR11（女性复数）AR后缀18数据第一个基线使用朴素贝叶斯算法实现。第二个是使用CharacterBidirectional LSTM架构创建的，并添加了一个字符串特征来创建其他模型。我们主要模型的第三个架构是基于分段递归神经网络。我们研究了沿着这个主要架构的不同类型的嵌入4.1. 朴素贝叶斯基线模型为了实现我们的基线模型，我们使用了朴素贝叶斯算法，这是一种机器学习分类算法。它是基于概率论中的贝叶斯定理对一类未知数据集进行预测。该模型假设输入的不同特征之间没有关系。这种假设在大多数情况下并不准确。这使任务变得更简单[50]。我们的模型开始于通过将单词/标记作为输入并给出具有其最高概率的标签作为输出。这个过程包括两个模块。第一个涉及将令牌转换为词频��第二个模块是多项朴素贝叶斯分类器，这是使用的两个经典朴素贝叶斯变体之一。在文本分类中，用数据表示为词向量计数。该模块采用TF-IDF特征并计算每个标签类型的概率。该模型的输出是具有最高概率的标签（见图1）。4）。4.2. 字符双向LSTM基线模型我们使用[21]中提出的Character Bidi-rectional LSTM（BiLSTM）的相同架构来创建我们的第二组基线模型。主模型由三层组成，如图所示。5：字符嵌入，BiLSTM和时间分布层。输入是一个字符id序列，它被传递到嵌入层以获取前后的语境。因此，该模型将捕获序列中的长距离关系以预测标签。然后输出被传递到时间分布层，以具有用于每个字符并将输出包装为一个标记序列。时间分布层将临时BiLSTM层应用于每个字符 of the input输入.我们编辑了这个模型的架构，并通过将字符嵌入特性添加到字符嵌入中来创建一个。这一特性使模型能够考虑每个字符序列的信息。这些捕捉了每个角色周围的更多背景。例如，如果输入标记是elgym，在英语中的意思是gym，则对于= 1，这与我们没有添加字符串功能，将输入的每个字符单独进行字符串处理.为如果n= 2，则输入将是elg gy ym。对于m= 3，输入将是elg lgy gym。4.3. 分段递归神经网络模型经典的自动语言识别技术的能力对于检测代码切换内容中的文本段的语言仍然是有限的[51]。因此，我们基于[21]使用分段递归神经网络[41]建立了我们的主模型，并对其进行了更新，以适应我们在阿拉伯语-英语数据中识别单词标记语言的需求。我们研究了沿着这个主要架构的不同类型的嵌入的使用。为可能的分段上的联合概率分布创建的模型，并为输入的每个分段创建标签。4.4. 数据预处理SegRNN模型要求数据采用特殊格式，如图所示。第六章这个句子来自我们的语料库la2 elly 3alena natural wconditional（没有我们所拥有的是自然和条件）及其标签。例如，第一个单词la2（no）具有标签 AR ，并且其分段是 3 个字母。然而， wconditional （和conditional）由两个子单词组成，它被标记为AR：1，将第一个字母称为阿拉伯语，EN：11将其他11个字母称为英语。单词和它们的标记用符号分隔。4.5. SegRNN主模型如图7所示，主模型将字符序列作为输入。然后，它被传递到映射层，映射层将每个字符映射到字典中的数值。然后将输入尺寸调整为64。然后将输出输入分段递归神经网络模型。分段递归神经网络使用两种机器学习工具：结构化预测和表示学习。该模型将输入令牌传递给BiRNN编码器，该编码器将令牌的每个合适的段嵌入连续空间中。C. Sabty等人阵列12（2021）1001047| || |（ ∈��）∑|| �� 为|��|��| |||∑|| ||��||��（图五. 字符双向LSTM模型架构。级联向量通过一个参数化的仿射变换层，由仿射函数。然后，通过激活函数f，传递f和f的结果。最后，它执行与权重向量的点积，并添加标量值。该模型使用动态规划执行推理算法。这将有助于算法花费时间t2（t2）而不是t3（t3）。��将具有32个维度和长度为4的所选标签提供给解码的最后一层，以将其解码为最终输出格式。见图6。 SegRNN模型的数据格式。该模型使用输出嵌入来计算每个片段带有标签的概率。BiRNN编码器的输出向量（维数等于16）传递给分割/标记模型。我们在完全监督模式下训练模型，其中片段和标签在训练时间内可用，并使用Adam自适应学习率方法进行训练。分割/标记模型将采用长度为的输入序列=（1，2，...��该模型将计算标记片段序列上的联合分布f（f，f），每个标记片段由持续时间（f∈f+）和标记定义。��段的持续时间应遵循时间限制。结果序列的长度可以是一个=y1的数字。��序列的长度应该小于或等于给定序列的长度。该模型将执行以下预测问题：��∗=��(��∣��)=（，）（，）（1）��SegRNN使用在Eq和Eq中的联合最大化（等式10）。（1）作为一个替代的边缘化出，以减少计算能力的使用。该技术是在自然语言处理中使用的众所周知的技术。该模型使用以下公式计算标记片段序列的条件概率（假设超参数λ，其示出对λ的依赖性的顺序）：��（��，��）=1||��（��−��∶��，��，��）（2）其中Z（��）是归一化函数。��函数的定义如下：以下（假设= 1+∑）：��<��4.6. SegRNN与词嵌入模型我们在SegRNN模型中添加了一个额外的单词嵌入层，而不是映射层词嵌入将每个词表示为向量，这导致语义相似的词在空间中彼此接近。添加单词嵌入在估计有关数据的语义信息时很有用[52]。我们研究了以下类型嵌入的用法。他们生成了不同大小的嵌入向量。因此，我们每次都必须调整SegRNN模型的输入大小以适应它。FastText：我们研究的第一种嵌入类型是FastText预训练嵌入。FastText是由Facebook创建的Word2vec的扩展[52]。他们发布了几个在维基百科上针对不同语言训练的预训练模型。与Word 2 vec等其他经典嵌入相比，FastText的主要优点是能够从字符串特征中为未见过的单词生成嵌入;在训练期间不处理的单词[53]。��我们结合了阿拉伯语和英语FastText预训练模型。载体的大小为950。池化天赋：为了解决我们的数据中包含Arabizi和Engari的问题，这在可用的预训练嵌入中并不常见，我们使用FLAIR框架实现了我们的语言模型和预训练嵌入[54]。此外，通过我们的嵌入，我们确保了词内CS现象包括在嵌入中。然而，用于训练FLAIR框架以创建嵌入的数据的大小很小。Flair模型生成在未指定上下文中使用的罕见单词的有意义的嵌入。它聚集所有唯一词的上下文化嵌入，然后针对所有上下文化实例对它们进行细化，即一词嵌入。嵌入向量的大小为4096。MUSE ：我们尝试的第三种嵌入类型是多语言通用句子编码器（MUSE）[55]。它是最近的嵌入式类型之一，是多语言通用句子编码器（MUSE）[55]。��（��−��∶��，��，��∶��+��− 1）=��<$��（[��（��−��）;. ;（）;（）;��R→（∶+��−1）; R←（∶+−1）]+）+��(3)作为通用句子编码器（USE）嵌入模型的成员之一，它映射了用不同语言编写的文本��具有相同的含义，到附近的嵌入空间表示。该模型使用BiLSTM来实现前面等式中的RNN。BiLSTM通过编码一个从前向和后向方向的长度等于1000的1000开始的子序列来计算双向段嵌入。��映射函数和将和转换为矢量表示。��等式中的子表示向量串联。为了对齐跨语言向量空间，MUSE使用翻译排名任务。任何长度的句子都被MUSE映射到一个维度等于512的向量。MUSE拥有支持16种语言的多语言模型，包括阿拉伯语和英语。可用的模型是在来自不同来源（如维基百科）的通用语料库上训练的。嵌入向量大小为512。C. Sabty等人阵列12（2021）10010485. 评价和结果见图7。主模型架构。表6基准模型的评价结果我们用于评估模型的数据由23，428个用于训练的令牌和6893个用于测试的令牌组成。在我们的数据中，混合词数量的训练与测试比率约为3：1（588：189）。我们在所有模型中使用相同的测试数据;它是基于在代币上我们的模型的性能使用F1分数（F1）性能指标，标记的准确性（Acc.），和字符标记准确性（Char Acc.）通过为每个字符分配一个语言ID并计算正确标签与整个字符的比率来计算。使用Char Acc.的直觉是有另一种方法来评估模型。在计算F1分数时，如果标签不完全正确/不符合预期，则不计为正确。然而，在某些情况下，标签的部分可能是正确的，而其他部分是错误的。例如，如果单词laptopy被赋予标签EN：5 AR：2而不是EN：6 AR1，那么它将是错误的。因此，计算Char Acc.将显示模型只漏标记了一个字母。我们首先陈述了应用于我们的主要数据集的评估结果。此外，我们创建了另一个版本的命名实体标记为粗粒度的组合所有命名的阿拉伯语和英语实体下的NE标签，而不区分语言。这样做是为了试验对结果的影响5.1. 主要数据集表6和表7示出了标记和分割（Seg.）对于整个数据集和数据集中的混合词。关于朴素贝叶斯模型的基线，没有应用分割。如表6所示，朴素贝叶斯模型在标记方面获得了等于86.69的F1分数，但未能识别混合标记。Character BiLSTM主模型实现了等于90.77%的标记F1分数，并且标记了具有等于24.94%F1分数的缺陷性能的混合词。如前所述，我们创建了BiLSTM模型的另一个变体，并通过将字符串嵌入特性添加到字符嵌入来创建一个变体。与主模型相比，向Character BiLSTM主模型添加一个字符串特征可以将整体标记的性能提高约3%，并将使用二元和三元模型的混合标记的性能提高一倍。此外，分割的性能得到了改善，并实现了等于98.31%的结果。这一改进是由于考虑到令牌的上下文更多的字符串特征。然而，即使是最高的Character BiLSTM模型，结合了二元语法和三元语法，也低于一些SegRNN模型。SegRNN模型的几种配置进行了评估。该模型使用三种不同的技术进行训练;主要区别在于训练数据的类型或表示方式。第一种技术是使用单个令牌训练模型，这种技术由表7中的主模型表示。第二个是短语模型;它是用句子训练的。第三个是训练模型上的单词/标记，以考虑单词的上下文。该子序列用于创建一个子序列，��评估指标Naïve BayesCharacter BiLSTM主模型+图形��双三双三标签F1 86.69 90.7793.06 93.77 93.83Acc.89.15 90.63 92.79 93.53 93.62隔离区电话：+86-10 - 8888888传真：+86-10Char Acc.–混合标签F1 0.0 24.94 41.29 44.37 48.59混合赛段F1混合帐户–混合费用–从一个给定的序列的单词。我们在tri-gram和bi-gram标记上训练模型。调整后的SegRNN模型表示在对主模型应用超参数调整如表7所示，与使用句子的训练相比，使用单个标记的训练导致更高的结果。使用tri-gram和bi-gram数据训练的SegRNN模型取得了较低的结果，并且它们几乎无法识别混合令牌。由于这两种类型的数据都没有取得很好的效果，我们将二元语法与一元语法令牌相结合。这种类型的训练数据表现更好;然而，性能仍然低于或差于主模型。添加嵌入层并没有增强模型，因为在可用的预训练嵌入模型中没有覆盖Arabizi和Engari。此外，我们创建的Pooled Flair嵌入模型尺寸较小，没有显著效果。在主模型中添加嵌入并没有提高性能，除了标记混合词。调整后的SegRNN和嵌入的SegRNN之间的性能差异很小。标记整个数据的最佳性能是通过调整后的SegRNN模型获得的，等于94.84%，然后通过MUSE嵌入等于94.70%。具有FastText模型的SegRNN在标记混合词时取得了最佳性能，等于81.45%F1分数，而调整后的SegRNN模型和其主模型的分割率高达99.17%。SegRNN的调整模型增强了标记与Naïve基线模型相比，性能提高了8.15%，与Character BiLSTM模型相比，性能提高了1.01%。与此同时，具有FastText嵌入的SegRNN模型将标记混

下载后可阅读完整内容，剩余1页未读，立即下载