基于字符的神经分词器提高多语言任务性能

97 浏览量更新于2023-11-30 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文一种面向端到端任务学习的无词汇多语言神经标记器MdMofijulIslam<$，GustavoA guilar，PragaashPonusamyClint Solomon Mathialagan，Chengyuan Ma，Chenlei Guo弗吉尼亚大学<$，Amazon.commi8uu@virginia.edu，{gustalas，ponnup，matclint，mchengyu，guochenl}@amazon.com摘要子词标记化是一种常用的输入表1：不同语言的讲习班细分。子词分词器过度分割低资源语言（阿拉伯语和泰语）并创建垃圾令牌，而我们的神经分词器减少了垃圾令牌。在大多数NLP模型中的预处理步骤然而，它限制了模型标记器Word语言端到端的任务学习其基于频率的词汇创建损害了标记化BPEUnigramArabicThaiEnglish阿拉伯语/泰语/阿拉伯语/泰国语/阿拉伯语/阿拉伯语/泰国语/阿拉伯语/泰国语/阿拉伯语/阿拉伯语/泰国语/阿拉伯语/阿拉伯语/泰国语/阿拉伯语工作/商店在低资源语言中，导致模型产生次优表示。此外，对固定词汇表的依赖限制了子词模型跨语言和领域的适应性。在这项工作中，我们提出了一个词汇免费的神经分词器，从启发式的子词分词提取分割信息。我们通过处理多语言语料库中的独特单词来预训练基于字符的分词器，从而大大增加了语言之间的单词多样性。与子词方法中预定义的和固定的词汇不同，我们的分词器允许端到端的任务学习，从而产生最佳的特定于任务的分词。实验结果表明，用我们的神经分词器替换子词分词器可以持续提高多语言（NLI）和代码切换（情感分析）任务的性能，在低资源语言中有更大的收益。此外，我们的神经分词器在存在对抗性噪声（拼写错误和拼写错误）的下游任务中表现出强大的性能，进一步提高了统计子词分词器的初始改进。1介绍子字标记化方法，例如BPE （Sennrich et al. ，2016年），Word-Piece（Schuster和Naka-jima，2012年）和Unigram（Kudo，2018年）依赖于预定义的词汇表来标记文本。这个词汇库是建立在词频碎片的基础上因此，稀有词被高度碎片化为许多子片段，而最常见词的完整性基本上得到了保留（Bostrom和Durrett，2020）。这种词汇偏见在在亚马逊Alexa AI担任暑期实习生Word-piece/workshopNeural神经网络/神经元网络研讨会多语言环境，其中低资源语言受到严重歧视，有利于高资源语言（ Tay et al. ， 2021; Chung etal. ，2020; Wang等人，2021年）（见表1）。此外，通常在处理（大型）预训练语料库时定义子词词汇表，此后保持固定。因此，当数据样本是从不同的分布中提取时（例如，多语言文本与语码转换，正式写作与任意拼写或简单地通过对抗性操纵），子字标记化器努力适应输入并且对输入进行不良分段，在某些情况下默认为字符段。当使用依赖于子词标记化的预训练模型时，这些问题通常会反映在下游任务中（Devlin et al. ，2019）。模型不能适应其预定义的静态词汇表，从而对下游任务采用次优标记化（Clark et al. ，2021年）。我们认为这代表了NLP管道中的一个重要瓶颈，模型可以成为真正的端到端，但由于唯一不可学习的组件，它们落后了。为了解决上述问题，我们设计了一个无词汇的神经标记器，我们分两个阶段训练它。首先，在预训练阶段，我们通过从子词分词器中提取分割信息来训练神经分词器。在多语言环境中，我们的神经分词器从语言特定的子词分词器学习，以便它不偏向于高资源语言。在预训练阶段之后，神经分词器分割字符序列，而不需要预定义的+v：mala2277获取更多论文词汇. 在第二阶段，我们采用端到端学习方法，这允许我们的神经标记器将标记化行为适应下游任务。由于预定义的词汇表及其与模型嵌入层的紧密联系，这种端到端的方法对于具有子词标记器的模型是不可行的。此外，与子词分词器不同，我们的神经分词器不需要词汇表，其通用字母表减少了对高资源语言的偏见（即，不存在有利于特定语言的不平衡的词覆盖）。我们比较了我们的方法的影响，在下游单语，多语言和代码转换任务的子词标记。对于多语言NLI，结果表明，我们的神经标记器通常可以提高模型性能，对于低资源语言，其增益更大（泰语的准确度绝对值为+11，阿拉伯语为+8，斯瓦希里语为+4）。对于代码切换的西班牙语-英语情感分析，我们的神经tokenizer也优于基线tokenizer，表现出更好的语言泛化能力。我们通过对抗性操作（例如，错别字和拼写变化），并且我们发现标记化结果对于生成垃圾标记更有弹性（即，子字段的过度分段）而不是子字标记化器。最后，我们提供了广泛的实验分析，一贯建议采用我们的方法更强大和灵活的文本表示。2相关工作2.1子字标记化已经提出了几种子词标记化方法来分割NLP管道中的输入文本，例如BPE（Sennrich et al. ，2016 ）， Word-Piece （ SchusterandNakajima ， 2012 ）， Un- igram （ Kudo ，2018 ）， andSentencePiece （ KudoandRichardson，2018）.这些分词器使用基于频率的方法来从语料库中确定词汇。尽管这些子词标记化方法改进了先前的基于规则的方法，但最近的研究表明，子词标记化导致模型产生次优表示（ Bostrom 和 Durrett ， 2020; Wang 等人，2015）。，2021; Chung et al. ，2020; Kudo，2018）。例如，Bostrom和Durrett（2020）评估了字节对编码（BPE）标记化对语言模型预训练，结果表明，BPE导致次优表示。由于语言之间的数据不平衡，多语言标记化对表示的影响是深远的（Tay et al. ，2021; Wang et al. ，2021）-即，由于缺少字覆盖导致无意义的标记，标记器易于对子字过度分段。为了减少子词去kenization的破坏效应，已经提出了几种方法。例如，Kudo（2018）引入了一种子词正则化方法，以概率方式对多个分割进行采样，从而改进神经机器翻译模型。沿着这条线，Wang etal. （2021）表明，可以通过利用多个输入分割来改进多语言表示。尽管这些方法通过使用多个子词分割来改善模型的表示，但它们最终依赖于具有固定词汇表的基于语义的子词分词。因此，基于语义的标记化的限制仍然存在，例如限制模型在适应最佳下游标记化的同时利用端到端任务学习的能力。2.2高级模型虽然子词标记化解决了词汇表不足的问题，但它依赖于静态词汇表，这会妨碍端到端学习。该缺陷的自然替代方案是用字符级方法替换子词标记化，并直接从字符序列学习表示（Graves，2013;Sutskever et al. ， 2011; Radford et al. ， 2017年）。这些基于字符的方法可以更容易地适应嘈杂的文本、代码切换语言和对抗性操作以提取表示（Clark et al. ，2021; Tay et al. ，2021;Hwang and Sung，2017; Pinteret al. ，2019;Akbik et al. ，2018; Xie et al. ，2018; Aguilaret al. ，2020 b）。然而，基于字符的方法可能无法捕获令牌级表示，这会降低下游任务的性能。此外，这些方法必须在字符级处理更长的序列，从而使模型的复杂性成二次方地增加（Clarket al. ，2021; Aguilar et al. ， 2020 b; Costa-jussàandFonollosa，2016）.已经提出了几种方法来将字符序列下采样为子令牌序列（Tay et al. ，2021; Clark等人，2021年）。例如，Clark et al. （2021）确定性组合+v：mala2277获取更多论文Σ固定数量的字符沿着这条线，Tay等人（2021）通过固定因子对字符向量序列进行下采样，以产生潜在子词表示。此外，Zhang et al.（2019）生成了字符n-gram，对它们进行哈希和求和，以获得用于下游任务的单词嵌入由于这些方法在下采样操作中确定性地减少了序列长度，因此它们可能无法捕获形态信息，从而可能难以学习噪声文本上的表示。3方法我们提出了一个可学习的tokenizer，经过训练，将字符序列转换为有意义的子字级令牌。考虑多语言的al-phabet（即，封闭的字母集合）和字符序列c =[c1，. . . ，c n]表示长度为n的字，且c i∈ n。我们的目标是学习相应的IOB 1 标签序列 t=[t1，. . . ，t n]，其将字符分组为期望的标记化：p θ（t| c，l）= f θ（c，l）（1）这里l表示单词的语言。模型fθ可以是允许从输入到输出的一对一映射的任何神经架构[2]我们在多语言环境中以l为模型的条件，而单语言变体不需要它。经过训练的神经分词器f θ能够作为独立工具提供分词，其可以直接与标准子词分词器（例如，由下游设置中的任务特定模型控制）。此外，经过训练的神经标记器可以暴露分割的内部表示，使得它能够通过针对任务特殊性优化标记化来实现端到端任务学习。我们将在下面的小节中更详细地描述这两种场景。3.1预训练我们依赖于这样的假设，即统计子词分词器学习合理的分词，直到它们由于目标词汇大小和不频繁的子词出现而开始过度分割文本。为了坚持数据驱动的方法（因此，避免语言特定的语法），我们选择一个子词来 -kenizer ，即 Unigram （ Kudo ，2018），以生成我们的1开头（B）、内部（I）和外部（O）标记的sche可以表示字符级别的单词边界。2.我们在所有实验中坚持使用LSTM架构因为这简化了预训练和微调上的迭代地面实况分割，同时也丢弃碎片序列。例如，如果子字分词器将三轮车分割为tri/cycle/s，则地面实况标签为BIIBIIIB。我们在子词分词器片段上使用负对数似然目标来训练我们的L=−t ilog p θ（t i|c、l）（2）我我们的神经分词器不仅模仿子词分词器中更突出（和更有见地）的模式，而且还将这种行为推广到看不见的单词。预训练数据集：我们通过策展来自维基百科文章的空间分离的令牌来生成预训练语料库（例如，删除超链接、HTML标签和长度超过30个字符的标记）。此外，我们使用两种算法来改进子词标记器的地面实况标签。首先，如果输入序列小于四个，我们不分割成子字。其次，如果子词分词器使用单个字符创建了超过50%的子词，则我们将丢弃地面实况标签并且不进行分词。这些算法丢弃了子词分词器的垃圾分词，特别是当输入来自低资源语言和嘈杂文本时。3.2端到端任务学习虽然预训练提供了一个独立的神经标记工具，但我们也可以利用模型回想一下，神经标记器基于其内部字符级向量为分割的标记提供标记序列。这样的标签可以用于分组和减少内部表示的维度（例如，通过最大池化）。我们的神经令牌化器基于LSTM架构，因此我们使用LSTM输出向量并根据令牌化标签将其最大化（尽管这种方法对LSTM是不变的）。[h1，. . . ，h n]= LSTM（[c1，. . . ，cn]）（3）r i= maxpool（[h i，. . . ，h j]）其中间隔[i，j]表示单个子字的字符（即，IOB段），hi∈R1×d和ri∈R1×d是维数为d的向量。我们使用得到的向量r作为子字表示，我们可以将其馈送到下游场景中的任何特定于任务的模型。注意，我们实际上+v：mala2277获取更多论文图1：神经标记器架构及其两种设置：（a）预训练和（b）微调。（a）在预训练设置中，训练模型以通过根据统计子字分词器输出正确的IOB标签来分割字符序列（b）在微调设置中，模型使用经训练的分割层来预测标签并最大池化对应的向量（例如，三次/循环/秒）。这些向量直接传递到特定于任务的模型，绕过了对词汇表和嵌入层的需求在微调设置的反向传播步骤中，更新阴影框中的所有参数（即，字母表嵌入、LSTM和任务特定参数）。绕过对词汇表的需要，同时还使得任务特定模型能够以端到端的方式朝向任务域调整预训练的分词参数。3.3神经标记器变体神经分词器模型可以用于分割通用设置中的任务模型的输入，诸如具有单语输入的任务（即， l是常数）。然而，我们需要稍微改变多语言和混合语言（代码切换）设置的神经分词器模型，以改善分词和内部表示。我们描述了我们的神经标记器的两个变体：多语言和混合语言神经标记器。多语言神经标记器：多语言子词标记器旨在使用固定的多语言词汇表分割文本，而不管输入语言如何。虽然这可能是可行的，但它对标记化行为有严重影响，忽略了不同语言之间的不同语言属性（例如，形态学）。因此，如果语言标识符l对于输入是可用的，则神经分词器可以将分词化以l为条件。我们通过简单地在序列的开始处包括标识符l来实现这种行为，这将字母表扩展为与我们在预训练数据中包括的语言l相同的语言数。此外，由于多语言子词tokenizer无法适当地标记低资源语言，因为高资源语言在其词汇中占主导地位，因此我们使用单语言子词tokenizer来生成地面实况seg。避免偏向任何语言，尤其是高资源语言。因此，我们将来自多个单语子词分词器的分词知识提取到我们的神经分词器中。混合语言神经标记器：在混合语言设置中，例如在代码切换中，我们可能无法访问输入单词或句子的语言标识符l。因此，我们需要训练一个神经标记器来分割具有混合语言的文本，而不依赖于输入标记的语言标识符。为此，我们改变了预训练数据集，以训练有语言标签和没有语言标签的神经标记器，从而迫使我们的模型在提供语言标签以及缺少语言标签时进行泛化。我们复制数据集来训练有语言标签和没有语言标签的模型。4实验装置4.1神经标记器模型我们设计了神经标记器字符编码器，其具有64维的字符嵌入层，然后是生成128维向量的双层双向LSTM（Bi-LSTM）。我们使用形状为128×2的全连接层，然后进行softmax操作来预测字符级分割标签。预测标签表示字符是子字的开头还是部分。34.2预训练神经标记器在单语神经分词器的预训练阶段，我们开发了一个单语Unigram子词分词器，其词汇量预训练的心理标签使用莫诺林-gual子词分词器帮助我们的神经分词器3注意，这里没有使用IOB模式的O标记。+v：mala2277获取更多论文的30，000来生成地面实况分割标签。为了训练多语言和混合语言（代码切换）神经分词器，我们开发了单语言Unigram分词器，每种语言的词汇量为30，000。我们通过遵循BERT的单语词汇量来固定词汇量（Devlin et al. ，2019）。我们利用Adam优化器进行权重decay正则化和余弦退火热重启，初始学习率设置为3e-4来训练神经标记器。在余弦退火热重启学习调度器中，我们将循环长度（T0）和循环乘数（Tmult）分别设置为3和2我们已经训练了6个epoch的模型，并根据最小的验证损失选择了最佳模型。4.3基线标记器我们已经开发了子词分词器，如BPE，Unigram和Word-Piece，用于实验评估。我们开发了两个版本的这些子词分词器：单语和多语言。遵循最先进的模型与子词分词器（Devlin et al. ，2019），我们已经将单语和多语言标记器的词汇量分别固定为30000和120000。我们使用维基百科数据集来开发这些标记器的词汇表。4.4下游任务模型我们已经评估了我们的神经和基于语义的子词分词器对两个下游任务的影响：单语和多语言环境中的自然语言推理（NLI）和代码切换语言的情感分析。对于具有子字标记化的基线模型，分段子字被投影以创建大小为256的特征嵌入。对于带有神经标记器的模型一百二十八我们将这些合并的表示投影到大小为256的嵌入中，以匹配基线标记器的子字表示维度。我们使用了一个两层的双向LSTM，其隐藏特征嵌入大小为256，用于提取任务表示。在实验评估中，我们使用了相同的任务模型架构与子词分词器和我们的神经分词器。所有模型都是从头开始训练的，以进行公平的实验评估。5实验结果与讨论我们已经评估了我们的神经和子词标记器对多语言和单语言自然语言推理（NLI）任务以及代码转换语言的情感分析任务的影响我们还评估了在存在噪声数据（拼写错误和拼写错误）的情况下标记器的影响5.1多语言NLI任务的评估我们进行了实验分析，以评估神经和基线标记器对五种语言的多语言 NLI 任务的影响：阿拉伯语（ar），英语（en），俄语（ru），斯瓦希里语（sw）和泰语（th）。我们已经使用XNLI数据集（Conneau et al. 2018年）进行了这项实验。我们已经开发了三种多语言的分词器（BPE，Un-igram和Word-piece），词汇量为120，000。此外，我们还开发了另一种基线，称为基于字符串的模型，它基于空间分割输入，而不使用任何词汇和池字符嵌入来创建单词级表示。这些表示用于下游任务。最后，我们使用了相同的下游学习架构（在第4.4节中描述）与所有上述标记器和多语言神经标记器。结果和讨论：表2中的实验结果表明，对于NLI任务，神经分词器在所有语言中的表现优于评估的基线分词器。特别是，神经分词器在低资源语言中的收益远远大于基线分词器，例如泰语（th）的准确率为+11，阿拉伯语（ar）为+8，斯瓦希里语（sw）为+4。对于英语，与基线分词器相比，神经分词器略微提高了性能。神经标记器性能改进背后的原因是它基于词汇相似性对输入进行分段，从而创建更好的分段，特别是对于低资源语言。由于子词分词器使用的是语料库中出现频率最高的子词，因此这些分词器会对低资源语言的输入进行过度切分，产生垃圾分词，从而导致性能下降。我们在定性分析中也注意到了类似的现象，如图2和图3所示。与高资源语言相比，子词分词器对低资源语言中的词进行过度分段（图2）。例如，子字标记器为+v：mala2277获取更多论文表2：各种标记化方法的多语言NLI任务性能比较。Vocab模型参数语言（准确度%）分词器大小（百万）ar sw th ru enBPE 120，000 67.8男51.81 50.66 51.32 54.77 57.57一元120，000 67.8男性53.78 51.32 56.09 53.13 57.24字数120，000 67.8 M 50.66 50.00 43.26 54.61 57.57基于计算机的模型-33.4 M 53.29 46.88 44.41 52.80 50.99神经-33.4男性61.51 53.95 68.42 60.69 58.22多语种NLI语料库中20%以上的词另一方面，神经标记器创建的表3：单语（英语）NLI任务性能与各种标记化方法的比较子词比基线标记器，包括TokenizerVocab模型参数准确度（%）Unigram，用于预训练我们的神经tokenizer。具体来说，神经分词器减少了低资源语言的子词数量，如泰语（th）和斯瓦希里语（sw）。由于神经分词器从语言特定的分词器中提取分割知识，因此它不会偏向于高资源语言。此外，我们还观察到，与神经分词器相比，子词分词器过度分割了低资源语言（如阿拉伯语（ar）、斯瓦希里语（sw）和泰语（th））的假设和前提（图3）。这种过度分段导致低资源语言的NLI任务的性能下降。此外，人们可以认为，我们可以使用基于标记的模型来提取用于下游任务学习的字符嵌入，而不是使用神经标记器。为了验证这一论点，我们开发了一个基线，称为基于字符串的模型，它基于空间对输入进行分段，而不使用任何词汇和池字符嵌入来创建用于下游任务学习的单词级表示。该模型经过端到端的训练，从输入字符序列中学习字符嵌入，并生成任务表示以产生任务输出。表2中的结果表明，尽管它实现了与基线子词分词器相当的性能，但在所有语言中，基于分词器的模型和神经分词器之间存在可考虑的性能差距。此外，我们的神经标记器实现了这些性能改进，与基线标记器的模型相比，模型大小减少了一半。因为具有基线子词分词器的模型必须分配大部分模型参数来学习子词嵌入。另一方面，neural to-kenizer通过池化字符级表示来创建子字嵌入，这减小了模型大小。规模（百万）BPE 30，000 44.8 M 57.85BPE 70，000 65.3 M 59.94Unigram 30，000 44.8百万58.65Unigram 70，000 65.3百万58.01字数30，000 44.8 M 58.65字数70，000 65.3 M 58.33神经系统69，480 65.0男性59.94神经-33.3男性60.585.2单语NLI任务的实验评价我们已经研究了神经标记器是否可以在单语NLI任务上优于基线子词标记器。我们已经开发了三个基线子词分词器（ BPE ， Unigram 和 Word-Piece），词汇量为30，000和70，000。为了确保公平的比较，我们还在单语设置中训练了我们的神经标记器。此外，我们已经将我们的神经tokenizer应用于与基线tokenizer相同的语料库，并为神经tokenizer生成词汇表。在这种基于词汇表的设置中，我们基于固定词汇表对输入进行标记，类似于基线子词标记器。在这次实验评估中，我们选择了英语。结果和讨论：表3中的实验结果表明，我们的神经分词器在单语NLI任务中表现出与子词分词器相当的性能。此外，使用我们的神经标记器的模型与使用子词标记器的模型实现了类似的性能。然而，神经标记器有助于用更小的模型实现类似的性能这种具有减小的模型大小属性的神经标记器的性能改进使得我们可以利用我们的神经标记器来提取下游任务的表示，而不是采用具有子词标记器的资源密集型模型。+v：mala2277获取更多论文图2：分词器在低资源语言和高资源语言中将单词分割成不同数量的子单词的影响。(a) NLI（英语）任务的准确性图3：来自低资源和高资源语言的假设和前提的子词的平均数量，这些子词由不同的标记器标记。5.3噪声文本的实验评价我们已经评估了在存在噪声文本（错别字和拼写错误）的情况下，分词器对单语（英语）NLI任务的影响。对于该实验评估，我们开发了词汇量为30，000的基线单语言（英语）分词器（ BPE 、Unigram和Word-Piece）。我们已经开发了一个单语神经分词器训练，这是训练使用Unigram子词分词器与词汇量为30000。此外，我们还开发了一个基于词汇的神经分词器，我们使用神经分词器将维基百科语料库与英语语言进行分割，并创建具有最频繁子词的词汇表。我们已经使用这个词汇表来标记NLI任务的假设和前提。我们使用TextAttackLibrary（Morris et al. ，2020）。（b）分段子字的平均数图4：标记器在具有噪声文本（错别字和拼写错误）的单语言（英语）NLI任务中的性能比较。结果和讨论：图4中的实验结果表明，具有基于词汇的子词标记器的模型的性能随着输入中噪声词的数量增加而降低。尽管使用我们的无词汇神经标记器的模型的性能随着噪声词的增加而降低，但它的性能优于所有评估的标记化方法。特别是，我们的神经分词器优于用于训练我们的神经分词器的Un-igram子词分词器。由于子词分词器使用的是固定的词汇表，无法正确地从分发外的文本中分割出文本，从而引入垃圾分词。这些垃圾令牌导致模型创建次优表示，从而降低下游任务的性能。另一方面，神经分词器基于词汇相似性对输入进行分割，因此它在存在+v：mala2277获取更多论文表4：使用Unigram和Neural Tokenizer进行单词分割，使用Unigram子单词分词器进行训练。表5：在情感分析任务上，标记器与代码切换语言（西班牙语-英语）的性能比较。红色单词带有噪音（错别字和拼写错误）。输入Unigram神经标记器词汇准确度（%）三轮车改进时间轴时间轴时间线游泳游泳workshopworkshopworksopsworks/o/ p/ s worksopsbiotechnologybiotechnolog/ybiotechnolog/y生物技术公司噪音，如打字错误和拼写错误。然而，基于词汇的神经标记器的性能随着噪声词的百分比的增加而下降。因为，在基于词汇表的神经令牌化中，如果子词不存在于词汇表中，则我们用（未知）令牌替换该子词。因此，基于词汇的神经标记器在存在噪声的情况下创建许多垃圾子词，从而损害任务的性能。此外，表中的标记化 4表明，我们的神经标记器有助于提高在存在噪声的情况下Unigram子字标记器的分割质量（例如，错别字和拼写变化）。例如，Unigram在分割三轮车时创建垃圾令牌。我们使用Unigram训练的神经去核器减少了垃圾标记，并创建了形态对齐的分割。然而，在某些情况下，例如分割游泳，Unigram标记器比我们的神经标记器创建更好的分割。5.4语码转换语言的实验评价我们已经评估了标记器对西班牙语-英语代码转换语言的情感分析任务的影响。我们使用了Lince数据集和评估基准（Aguilar et al. ，2020a）。我们已经开发了三个基线tokenizer（BPE，Unigram，Word-Piece），词汇量为60，000。我们还在混合语言环境中训练了一个神经tokenizer（第3.3节），其中训练数据集是从西班牙语和英语维基百科文章中开发的。结果和讨论：表5中的实验结果表明，我们的神经分词器在情感分析方面优于子词分词器，包括Unigram子词分词器规模BPE 60，000 49.39Unigram 60，000 49.18文字件60，000 48.43基于计算机的模型-45.63神经-51.41使用代码转换语言的分析任务与基于语义的子词分词不同，神经分词器允许端到端的任务学习，这有助于提高任务的性能。我们的神经分词器和基于语义的分词器将输入分割成子词，任务模型使用子词嵌入。这些模型使用子字嵌入，优于基于字符表示的模型，其中字符表示用于下游任务学习。因为在代码切换语言设置中，提取子词嵌入可以有利于创建对齐的多语言表示，这有助于提高情感分析任务的性能。因此，在语码转换的语言环境中，恰当地对输入进行分段对于提高理解能力至关重要6结论我们提出了一个神经分词器来分割文本，而不需要词汇表，这允许端到端的任务学习。对多语言NLI任务的实验评估表明，我们的神经标记器减少了模型大小，提高了低资源语言（如阿拉伯语，斯瓦希里语和泰语）的任务性能。此外，神经分词器在具有噪声文本（错别字和拼写错误）的NLI任务中表现出比子词分词器更好的表现。定性分析还表明，我们的神经分词器提高了用于训练我们的神经分词器的子词分词器的分词能力。此外，神经标记器在情感分析任务上显示出与代码切换语言相当的性能。实验结果表明，我们的神经分词器可以从多个子词分词器中提取分割知识，以提高分词效果。这一发现开辟了未来的研究途径，以设计一个可学习的分词器，以提高国家的最先进的子词分词和下游任务的性能。+v：mala2277获取更多论文引用古斯塔沃·阿吉拉尔，苏迪普塔·卡尔，和瑟蒂·索洛里奥。2020年a。LinCE：语言语码转换评估的集中基准。第12届语言资源和评估会议论文集，第1803-1813页，法国马赛。欧洲语言资源协会。Gustavo Aguilar ， Bryan McCann ， Tong Niu ，Nazneen Rajani，Nitish Keskar，and ThursdaySolorio.2020年b。Char2subword：使用健壮的字符组合扩展子字嵌入空间。 arXiv 预印本 arXiv ：2010.12730。艾伦·阿克比克邓肯·布莱斯和罗兰·沃勒。2018年用于序列标记的上下文字符串嵌入。第27届国际计算语言学会议论文集，第1638凯·博斯特罗姆和格雷格·杜瑞特2020年。字节对编码对于语言模型预训练是次优的参见EMNLP，第4617-4624页。Hyung Won Chung，Dan Garrette，Kiat Chuan Tan和Jason Riesa。2020.用语言聚类词汇表改进多语言模型。在 2020年自然语言处理经验方法会议（EMNLP）上，第4536-4546页。Jonathan H Clark，Dan Garrette，Iulia Turc，andJohnWieting. 2021. Canine：预训练一个高效的无标记化编码器，用于语言表示。arXiv 预印本arXiv：2103.06874。作者：张晓刚，张晓刚.Bowman，Holger Schwenk，Veselin Stoyanov. 2018. Xnli：评估跨语言句子表示.2018年自然语言处理经验方法会议论文集。计算语言学协会。玛塔河 Costa-jussà 和 José A.R. Fonollosa 。 2016年。基于神经网络的机器翻译在计算语言学协会第54届年度会议的临时会议上（第2卷：短文），第357-361页，德国柏林。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova.2019年。BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。亚历克斯·格雷夫斯2013年。使用递归神经网络生成序列。arXiv预印本arXiv：1308.0850。Kyuyeon Hwang和Wonyong Sung。2017. 基于层次递归的字符级语言建模神经网络在2017年IEEE声学、语音和信号处理国际会议（ICASSP）上，第5720-5724页。美国电气与电子工程师协会。工藤拓2018年子词正则化：用多个子词候选来改进神经网络翻译模型。第56届计算语言学年会论文集（第1卷：长文），第66工藤拓和约翰·理查森。2018年Sentencepiece：一个简单的、独立于语言的子词分词器和去分词器，用于神经文本处理。arXiv预印本arXiv：1808.06226。John Morris 、 Eli Lifland 、 Jin Yong Yoo 、 JakeGrigsby 、 Di Jin 和 Yanjun Qi 。 2020 年。Textattack：一个用于对抗性攻击、数据增强和对抗性训练的nlp 框架 .参见 EMNLP ： SystemDemonstrations，第119-126页。尤瓦尔·品特，马克·马龙，雅各布·爱森斯坦。2019年。角色之眼：通过角色级别的标签来观察语言.亚历克·雷德福拉法尔·约泽福维奇和伊利亚·苏茨科弗2017. 学习生成评论和发现情绪。迈克·舒斯特和中岛启介。2012.日韩语音搜索。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 以子词为单位的生僻词神经机器翻译。第54届计算语言学集（第1卷：长文），第1715伊利亚·萨茨科弗詹姆斯·马滕斯和杰弗里·辛顿2011.使用递归神经网络生成文本第28届国际机器学习会议论文集，第1017Yi Tay ， Vinh Q. Tran ， Sebastian Ruder ，JaiGupta，Hyung Won Chung，Dara Bahri，Zhen Qin，Simon Baumgartner，Cong Yu，andDonald Metzler. 2021年Charformer：通过基于梯度的子字标记化快速字符转换器。Xinyi Wang ， Sebastian Ruder ， and GrahamNeubig. 2021. 多视图子字正则化。在计算语言学协会北美分会2021年会议的论文集，第473Jiateng Xie ， Zhilin Yang ， Graham Neubig ，Noah A Smith，and Jaime G Carbonell. 2018年最少资源的神经跨语言命名实体识别. 在2018年自然语言处理中的Em-pesticide方法会议论文集，第369-379页。放大图片作者： Michael H.Ng， Felix Stahlberg ，Xiaochang Peng ， Kyle Gorman ， and BrianRoark. 2019. 用于语音应用的文本规范化神经模型。Comput. Linguistics，45（2）：293-337.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于字符的神经分词器提高多语言任务性能

基于神经网络的字符识别系统

基于神经网络的字符识别

神经网络分词法的数学模型

transformer中文分词

中文分词可以转化为二进制或多类分类问题。你知道如何应用一个典型的分类模型将输入的中文句子分割成一个单词序列吗? 请给我举例子

transformer套用

CHATGPT是如何进行训练的

文本分类，transformer

推特有哪些nlp算法代码？

python 淘宝评论关键词提取 自然语言算法

Transformer机器翻译代码

怎么理解LLM模型的工作原理

berttokenizer java 预处理

lstm csv英文语料

Transformer训练流程

写一个识别中英文的ocr程序

bp python txt

利用Python测算文本前瞻性

用java写一个chatgpt训练的代码

文本 识别 python 深度学习

最新资源

python 淘宝评论关键词提取自然语言算法

文本识别 python 深度学习