Dravidian语言的神经机器翻译：卡纳达语到其他达罗毗荼语的翻译模型与结果分析

74 浏览量更新于2023-12-01 收藏 424KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文PICT@ DravidianLangTech-ACL 2022：Dravidian语言的神经机器翻译AdityaVyawaharegmail.comRahul Tangsalirahuul2001@gmail.comAditya Mandkeadeetya. gmail.comOnkar Litake†onkarlitake@ieee.orgDipali Kadamddkadam@pict.edu印度浦那计算机技术学院摘要本文介绍了一个总结的结果，我们得到的基础上共享的任务机器翻译的达罗毗荼语。我们在分配给我们的主要共同任务的五个子任务中的三个中排名第一。我们对以下五种语言对进行了神经机器翻译：Kannada到泰米尔语，Kannada到泰卢固语，Kannada到马拉雅拉姆语，Kannada到梵语，Kannada到Tulu。五种语言对中每一种的数据集都被用来训练各种翻译模型，包括 Seq2Seq 模型，如 LSTM 、双向LSTM、Conv2Seq，以及从头开始训练最先进的transformers，并微调已经预训练的模型。对于一些涉及单语言语料库的模型，我们也实现了回译。这些模型1介绍通常，开发一个健壮的双语机器翻译系统是一个挑战，而且手头的资源也有限（Dong etal. ，2015）。此外，对于低资源语言，例如德拉维语系，实现翻译的高准确性仍然是一个问题（Chakravarthi et al. ，2021年）。本文介绍了机器翻译系统的发展卡纳达语到其他达罗毗荼语，如泰米尔语，泰卢固语，马拉雅拉姆语，图卢语和梵语。泰米尔语是南亚泰米尔人使用的一种德拉威语。泰米尔语是泰米尔纳德邦、斯里兰卡、新加坡和印度普度切里联合领地的一种非官方语言（ Subalalitha ， 2019 年 ; Srinivasan 和Subalalitha ， 2019 年 ; Narasimhan et al. ，2018）。显著平等贡献†同等贡献平等贡献在印度南部的喀拉拉邦、卡纳塔克邦、安得拉邦和特伦甘纳邦以及安达曼和尼科巴群岛的联邦领地，少数民族讲泰米尔语。它也是spo-ken由泰米尔散居，这可能是在马来西亚，缅甸，南非，英国，美国，加拿大，澳大利亚和毛里求斯发现。泰米尔语也是斯里兰卡摩尔人的母语（ Sakuntharaj 和 Mahesan ， 2021 ，2017 ， 2016;Thavareesan 和 Mahesan ， 2019 ，2020 a，b，2021）。泰米尔语是印度宪法中22种预定语言之一，是第一个被指定为印度古典语言的语言（Anita和Subalalitha，2019 b，a;Subalalitha和Poovam-mal，2018）。马拉雅拉姆语是泰米尔虽然泰米尔语和马拉雅拉姆语之间的几个变体表明西部方言的史前中断，但分离成不同语言马拉雅拉姆语的过程直到15世纪或 17 世纪才发生（ Chakravarthi ，2020;Chakravarthi和Muralidaran，2021）。实现的方法之一包括训练涉及序列到序列学习（ Seq2Seq ）的常规机器翻译模型（Sutskever et al. ，2014）。Seq 2Seq是一种编码器-解码器方法，其中编码器读取输入序列，一次一个字以产生隐藏向量。解码器根据从编码器接收的矢量产生输出序列我们使用了LSTM（Hochreiter和Schmidhuber，1997）、双向 LSTM （ BiLSTM ）（ Clarket al. ，2018），其学习时间序列或序列数据的时间步之间的双向长期依赖性，以及卷积Seq2Seq学习（Conv2Seq）（Gehring et al. ，2017年），它使用CNN的多个堆叠层来学习具有较低时间复杂度的长期依赖关系。第二种方法涉及训练Transformer模型（Vaswani et al. ，2017）从头开始使用Fairseq库（Ott et al. ，2019）。我们还执行-+v：mala2277获取更多论文平行KN-ML克恩塔克恩德克恩图kn-sn官方90,97488,81388,5039,4708,300单语mltateteteIndicCorp80,00080,00080,000--表1：用于训练改进了AI4Bharat提供的印度语多语言数据开源翻译模型的微调方法。我们还微调了他们的翻译模型，用于单语数据，然后应用回译（ Edmund et al. ， 2018;Sennrich et al. ，2016 a）。反向翻译有助于避免低资源语言因数据短缺而导致的问题。它是一种典型的数据扩充方法，可以用单语数据来扩充训练数据对于ACL 2022关于德拉威语机器翻译的共享任务，我们必须提交五个Indic-Indic 语言对的结果： Kannada-Tamil ，Kannada-Telugu，Kannada-Malayalam，Kannada-Tulu和Kannada-Sanskrit。我们对上述模型的结果进行了实验和比较。数据集由DravidianLangTech 提供。我们已经使用了BLEU（Papineni et al. ，2002）计算精度的评估度量。2数据集描述组织者提供的双语数据集（Madasamy et al. ，2022）分为三个子语料库的训练，开发和测试。训练数据的统计数据见表1。提供的开发和测试数据也具有相同的趋势，卡纳达语-马拉雅拉姆语、卡纳达语-泰米尔语和卡纳达语-泰卢固语各有2,000个句子对，而卡纳达语-梵语和卡纳达语-土鲁语各有1,000个句子对。为了进一步提高翻译的准确性，我们使用了回译。用于回译的单语数据取自于in-dicCorp（ Kakwani et al. ， 2020 年）（一个由AI4Bharat创建的印度语言的大型公开可用语料库，来自网络上的新闻，所用的单语数据为马拉雅拉姆语、泰米尔语和特卢古语各80，000人。我们根据GPU的内存限制选择了8万个句子。我们从单语数据中，伪并行数据使用官方和伪并行数据，我们训练模型，以提供从卡纳达语到给定印度语的翻译。3数据准备在数据预处理中，给定数据集中存在的句子包含标点符号、同义词、拼写错误的单词、数字等，在我们把它交给模特之前，它们必须被清理干净。对于卡纳达语、马拉雅拉姆语、泰米尔语和泰卢固语的句子，我们使用了indicNLP库1给出的预处理，其中包含了针对各种印度语言的预处理。我们对给定的输入进行归一化（有助于减少文本中存在的唯一标记的数量），然后进行预标记化（用于将文本对象拆分为更小的标记以进行更好的模型训练）（ Harish 和 Rangan ，2020），然后将所有以其自身对应的脚本编写的索引数据音译为梵文经文，并应用字节对编码（BPE）（Sennrich et al. ，2016 b）。最后，我们将数据传递给fairseq预处理，以二进制化训练数据，并从特定语言的文本中构建词汇表。对于LSTM和BiL-STM等Seq 2Seq模型，我们取了一小部分数据集，并将其分为语料库大小为4000的训练数据，以及每个语言对大小为1000的开发和测试数据集为了训练Seq2Seq模型以及从头开始训练简单的transformer，我们使用了 Sacremosestokenization2，其中Sacremoses是Fairseq工具包中的预安装依赖项4系统描述4.1卡纳达语到马拉雅拉姆语，泰米尔语，泰卢固语在第一个系统中，我们下载了indicTrans3提供的用于多语言神经机器翻译的Indic-Indic模型，该模型在1https://github.com/anoopkunchukuttan/indic_nlp_library2https://github.com/alvations/sacremoses3https://indicnlp.ai4bharat.org/indic-trans/+v：mala2277获取更多论文系统KN-ML克恩塔克恩德克恩图kn-snLSTM0.35310.35370.42920.55350.8085BiLSTM0.33520.36360.44770.42000.8059Conv2Seq0.02330.03030.07010.39750.4400从零开始0.34310.34960.42720.81230.5551预训练模型0.32410.37780.4068NRNRFinetuned+反向翻译0.29630.35360.3687NRNR表2：所提到的分数是通过的测试数据的BLEU分数。NR表示“未记录”，因为预训练模型不支持这些语言的翻译。此外，对于从头开始训练的LSTM、BiLSTM和Transformer模型，我们使用了不同的测试数据集，而不是DravidianLangTech提供的数据DravidianLangTech提供的测试数据集将获得相似范围内的结果每对语言的最高分以粗体显示。Samanantar数据集（Ramesh et al. ，2022）。然后，我们最后，我们训练官方数据和使用回译生成的伪并行数据，以给出给定语言的翻译我们使用的第二个系统是一个卷积神经网络（CNN），使用开源工具包fairseq.py提供的其他用于机器翻译的Seq 2Seq架构包括LSTM和BiLSTM，其中LSTM构建了标准的编码器-解码器 LSTM 架构，该架构在开源工具包fairseq.py而对于BiLSTM，我们使用提供的相同的'lstm'架构，唯一的变化是使原始编码器参数成为双向的。我们还使用Fairseq库从头开始四、 Fairseq 提供了一个标准的 Transformer 架构，这可以进一步用于训练机器翻译的自定义Transformer模型。4.2从卡纳达语到图卢语，梵语在低资源语言（如Tulu和Sanskrit）的情况下，没有任何支持可用于在这些语言上训练多语言模型，特别是transformer_4x模型，这是AI4Bharat的多语言NMT模型，在Samanantar数据集上训练（Ramesh et al. ，2022）。因此，我们无法微调trans-former_4x模型并为这些语言训练多语言模型，如表2所示，未记录（NR）。Seq 2Seq模型（LSTM、BiL-STM、CNN）和Transformer模型4https://github.com/pytorch/fairseq都受过训练上述模型使用Fairseq工具包进行训练。5实验5.1培训详情为了训练模型，我们使用了fairseq，这是一个用Pytorch编写的序列模型工具包（Paszkeetal. ， 2019 ）由 Facebook 人工智能研究（FAIR）团队开发。我们使用 AI4Bharat 提供的自定义Transformer transformer_4x，并根据我们的官方数据和生成的伪并行语料库的总和对其进行微调该模型使用 1568 的最大令牌参数和0.00003的学习率进行训练，并使用标签平滑（Szegedy et al. ，2016年）0.1.为了进行评估，我们从所有保存的检查点中选取最佳检查点。使用BLEU作为最佳检查点度量，然后记录生成的翻译我们还从头开始训练了Transformer模型这些Transformer模型中的每一个都被训练了10个epoch。在这些变压器模型的训练期间指定的批量为128。脱落（ Srivastava et al. ，2014年），在培训期间指定的值为0.1。使用的优化器是Adam优化器（Kingma和Ba，2014），学习率为0.0005。每个语言对的模型都在10个epoch上训练使用fairseq-generate，我们能够获得BLEU分数，该分数是通过将源语言的模型翻译的句子与相应+v：mala2277获取更多论文目标语言翻译。对于涉及Seq 2Seq学习的编码器-解码器模型（参考文件 5）。LSTM和BiLSTM架构由dropout（Srivastava et al. ，2014）为0.2，学习率为0.005，并且LR收缩参数设置为0.5.一批中的最大令牌数设置为12000。在BiLSTM架构的情况下，编码器-解码器架构是双向的。LSTM和BiLSTM分别训练了25个epoch。在Conv2Seq的情况下，我们每个模型训练了20个epoch。所有上述超参数都给出了最好的结果，因此我们继续使用相同的超参数。我们对Fairseq文档中指定的基本配置进行了微调。65.2评估指标平均句子BLEU得分被用作评估指标。为了计算BLEU，我们计算了每个句子的得分，然后对整个句子语料库的得分取平均值。使用NLTK 库（ Loper 和 Bird ， 2002 ）中 translatepackage7给出的sentence_bleu函数计算BLEU评分，所有4个克的权重均设置为0.25，最终评分中所有4个克的贡献均表2和表4中记录的BLEU评分为1分。其中，越接近1意味着越相似。6结果语言翻译knmltatetuSNen表3：从测试数据集中提取的样本翻译5 https://fairseq.readthedocs.io/en/latest/6https://fairseq.readthedocs.io/en/latest/index.html 7 https：//www.nltk.o rg/api/nltk.aploge.html结果请参见表2。表中包含用于测试语言对的测试数据为了提交语言对的翻译，我们使用AI4Bharat的transformer_4x模型来获得从卡纳达语到泰米尔语、泰卢固语和马拉雅拉姆语的翻译而对于从卡纳达语到图卢语和梵语的翻译，Transformer模型是从头开始构建的。结果符合NLTK BLEU评价指标。（在我们提交了研讨会任务之后，我们探索了其他模型，并获得了更好的结果。您可以在表2中看到这些结果）7竞赛成绩kn-ml kn-ta kn-te kn-tu kn-sn2009年12月31日表4：提交给机器翻译的达罗毗荼语翻译的BLEU评分-ACL 2022共享任务我们获得了从卡纳达语到马拉雅拉姆语，卡纳达语到泰卢固语和卡纳达语到泰米尔语的翻译排名1。对于从卡纳达语到圣斯克里特语的翻译和卡纳达语到图卢语的翻译，我们分别排名第3和第4（我们最初为工作室任务提交发送了错误的 kn-sn 和 kn-tu 结果，因此获得了低分）。表4中给出了共享任务的测试集的结果。8相关工作神经机器翻译任务领域一直是众多研究者感兴趣的课题之一.第一个使用深度神经网络的机器翻译模型是由Kalch-brenner和Blunsom提出的（Kalchbrenner和Blunsom，2013）。此后，NMT在科学界得到了广泛的研究。在编码器-解码器机制中，单词在编码器中被转换成单词嵌入，然后被传递到解码器，解码器使用注意机制、编码器表示和先前的单词来生成翻译中的下一个单词。编码器和解码器可以是深度神经网络，例如RNN（Bahdanau etal. ，2014）、CNN（Gehring et al. ，2017），或前馈神经网络（Vaswani et al. ，2017年）。此外，还提出了自我注意力模型，如+v：mala2277获取更多论文变压器，有助于NMT的进一步研究。在2020年第七届亚洲翻译研讨会的会议记录中，提出了一项与效率相关的值得注意的研究（Dabre和Chakrabarty，2020）。其他相关作品包括在2019年（Sennrich和Zhang，2019）和2020年（Araabi和Monz，2020）举行的ACL会议上发表的作品关于德拉威语机器翻译的研究，Xie（Xie，2021）能够使用多语言翻译和回译实现英语-泰卢固语，英语-泰米尔语和英语-马拉雅拉姆语的BLEU分数分别为38.86，36.66和19.84。（Koneru et al. ，2021年）致力于通过有限地使用英语和其他达罗毗荼语之间的补充数据来实现英语到Kan- nada的翻译系统。其他作品包括CVIT提交给WAT-2019的作品（Philip etal. ， 2019 ），基于转换器的多语言 Indic-English NMT系统（Sen et al. ，2018年），资源不足的达罗毗荼语的机器翻译的不同正字法的比较（Chakravarthi et al. ，2019年）等。9结论因此，我们实现了德拉维语系的神经机器翻译系统。我们利用不同的架构，相同的，并分析其性能。在未来，我们计划用大规模GPU训练我们的模型。我们计划将其他标记化方法应用于语言语料库以及更好的训练。此外，我们计划使用扩展的语料库来训练我们的模型，以获得更好的结果。引用R安妮塔和CN Subalalitha。2019年a。一种使用话语联系语对泰米尔语文献进行在2019年IEEE第一届能源，系统和信息处理国际会议（ICESIP）上，第1-4页。美国电气与电子工程师协会。R安妮塔和CN Subalalitha。2019年b. 为Thirukkural构建第16届自然语言处理国际会议论文集，第18阿里·阿拉比和克里斯托夫·蒙兹2020. 优化低资源神经机器翻译的transformer。第28届国际计算语言学会议论文集，第3429-3435页，巴塞罗那，西班牙（在线）。国际计算语言学委员会。Dzmitry Bahdanau、Kyunghyun Cho和Y. 本吉奥。2014. 神经机器翻译通过联合学习来对齐和翻译。ArXiv，1409。Bharathi Raja Chakravarthi。2020. HopeEDI：一个多语种的希望语音检测数据集，用于平等，多样性和包容性。在 Proceedings of the ThirdWorkshop on Computational Modeling of People计算语言学协会。Bharathi Raja Chakravarthi，Mihael Arcan和John P.McCrae。2019.资源不足的德拉维迪语机器翻译的不同正交性比较在LDK。Bharathi Raja Chakravarthi 和 Vigneshwaran Mural-idaran。2021. 对平等、多样性和包容性的希望语音检测的共享任务的发现。《第一届语言技术促进平等、多样性和包容研讨会论文集》，第61-72页，基辅。计算语言学协会。Bharathi Raja Chakravarthi ， Priya Rani ， MihaelArcan，and John P McCrae. 2021.机器翻译中的正字法信息综述。 SN Computer Science ， 2（4）：1放大图片作者：Kevin Clark，Minh-Thang Luong，Christopher D.曼宁和郭乐。2018. 具有交叉视图训练的半监督序列建模。在2018年自然语言处理经验方法会议论文集，第1914-1925页，比利时布鲁塞尔。计算语言学协会。拉吉·达布雷和阿比塞克·查克拉巴蒂。2020. NICT提交给WAT 2020的文件：简单的多对多神经机器翻译模型有多有效？第七届亚洲翻译研讨会论文集，第98-102页，中国苏州。计算语言学协会Daxiang Dong，Hua Wu，Wei He，Dianhai Yu，and Haifeng Wang. 2015. 多语言翻译的多任务学习。在Proceedings of the 53rdAnnual Meeting ofthe Association for Computational Linguistics andthe 7th International Joint Conference on NaturalLanguageProcessing （ Volume1 ： LongPapers），pages 1723计算语言学协会.Sergey Edmund ， Myle Ott ， Michael Auli ， andDavid Grangier. 2018. 理解大规模的反向翻译。2018年自然语言处理经验方法会议论文集，第489-500页，比利时布鲁塞尔。计算语言学协会。Jonas Gehring，Michael Auli，David Grangier，De-nis Yarats，and Yann N.皇太子2017. 卷积序列到序列学习。 CoRR，绝对值/1705.03122。+v：mala2277获取更多论文B S Harish和R Kasturi Rangan。2020年。印度地方语言处理的深入研究。SN Applied Sciences，2.Sepp Hochreiter和Jürgen Schmidhuber。1997. 长短期记忆。Neural computation，9：1735- 80.Divyanshu Kakwani，Anoop Kunchukuttan，SatishGolla，Gokul N.C.，Avik Bhattacharyya，MiteshM.Khapra和PratyushKumar。2020.IndicNLPSuite：印度语言的单语语料库，评估基准和。计算语言学协会的调查结果：EMNLP2020，第4948- 4961页，在线。计算语言学协会。纳尔·卡奇布伦纳和菲尔·布朗森2013.循环连续翻译模型。2013年自然语言处理经验方法会议论文集，第1700Diederik Kingma和Jimmy Ba。2014. Adam：一种随机优化方法。国际学习代表。Sai Koneru，Danni Liu，and Jan Niehues. 2021. 对达罗毗荼语的无监督机器翻译。在第一次德拉威语语音和语言技术研讨会的会议记录中，第55-64页。计算语言学协会第一次德拉威语言语音和语言技术研讨会，DravidianLangTech-2021 ;会议日期：2021年4月20日至2021年爱德华·洛珀和史蒂文·伯德2002. Nltk：自然语言工具包。在ACL-02研讨会的论文集，关于教学自然语言处理和计算语言学的有效工具和方法-第1卷，ETMTNLP '02，第63-70页，美国。计算语言学协会。Anand Kumar Madasamy 、 Asha Hegde 、 Shub-hanker Banerjee 、 Bharathi Raja Chakravarthi 、RubaPriyadarshini、ShashirekhaHosahalliLakshmaiah和John Philip McCrae。2022.关于机器翻译在达罗毗荼语中的共享任务在第二次研讨会上的讲话和语言技术的德拉威语。计算语言学协会。Anitha Narasimhan ， Aarthy Anandan ， MadhanKarky，and CN Subalalitha. 2018.选项生成和选择和评分算法的泰米尔闪存卡游戏。International Journal of Cognitive and LanguageSciences，12（2）：225Myle Ott 、 Sergey Edmund 、 Alexei Baevski 、Angela Fan 、 Sam Gross 、 Nathan Ng 、 DavidGrangier和Michael Auli。2019. fairseq：一个快速、可扩展的工具包，层序建模在计算语言学协会北美分会2019年会议记录（演示）中，第48-53页，明尼苏达州明尼阿波利斯市。计算语言学协会。Kishore Papineni，Salim Roukos，Todd Ward，andWei-Jing Zhu.2002. Bleu：一种机器翻译的自动评价方法。在 Proceedings of the 40th AnnualMeeting of the Association for ComputationalLinguistics ， pages 311-318 ， Philadelphia ，Pennsylvania，USA.计算语言学协会。Adam Paszke，Sam Gross，Francisco Massa，AdamLerer，James Bradbury，Gregory Chanan，TrevorKilleen，Zeming Lin，Natalia Gimelshein，LucaAntiga ， Alban Desmaison ， Andreas Kopf ，Edward Yang，Zachary DeVito，Martin Raison，Alykhan Te- jani，Sasank Chilamkurthy ，BenoitSteiner ， Lu Fang ， Junjie Bai ， and SoumithChintala. 2019. Pytorch：一个命令式风格的高性能深度学习库。In H. Wallach，H. Larochelle，A.Beygelz-imer，F.d'Alché-Buc，E.Fox和R.Garnett，编辑，神经信息处理系统进展，第8024-8035页Curran Associates，Inc.JerinPhilip ， ShashankSiripragada ， UpendraKumar ， Vinay Namboodiri ， and C V Jawahar.2019. CVIT提交WAT-2019。第六届亚洲翻译研讨会论文集，第131-136页，中国香港。计算语言学协会。GowthamRamesh 、 SumanthDoddapaneni 、AravinthBheemaraj 、 MayankJobanputra 、Raghavan AK 、 Ajitesh Sharma 、 Sujit Sahoo 、Harshita Diddee 、 Ma- halakshmi J 、 DivyanshuKakwani 、 Navneet Kumar 、 Aswin Pradeep 、SrihariNagaraj 、 KumarDeepak 、 VivekRaghavan 、 Anoop Kunchukuttan 、 Pratyush Ku-mar 和 MiteshShantadeviKhapra 。 2022 年Samanan-tar：11种印度语言最大的公开并行语料库.TransactionsoftheAssociationforComputational Linguistics，10：145-162.Ratnasingam Sakuntharaj 和Sinnathamby Mahesan 。2016. 一种新的混合方法来检测和纠正泰米尔语文本中的拼写。2016年IEEE可持续性信息和自动化国际会议（ICIAfS），第1-6页。Ratnasingam Sakuntharaj和Sinnathamby Mahesan。2017. 使用一种新的哈希表来加速拼写错误的泰米尔语单词的sug-gestion。2017年IEEE工业和信息系统国际会议（ICIIS），第1-5页。Ratnasingam Sakuntharaj 和Sinnathamby Mahesan 。2021. 基于n-gram的泰米尔语句子上下文的漏词检测和校正。2021年第10届可持续发展信息和自动化国际会议（ICIAfS），第42-47页。+v：mala2277获取更多论文Sukanta Sen ， Kamal Kumar Gupta ， Asif Ekbal ，and Pushpak Bhattacharyya. 2018. WAT 2018上的IITP-MT：基于transformer的多语言印-英神经机器翻译系统。第32届太平洋亚洲语言、信息和计算会议：第五届亚洲翻译研讨会：第五届亚洲翻译研讨会，香港。计算语言学协会。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016年a。用单语数据改进神经机器翻译模型。第54届计算语言学协会年会论文集（第1卷：长文），第86-96页，德国柏林。计算语言学协会瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016年b。以子词为单位的生僻词神经机器翻译。在Proceedings of the 54th Annual Meeting of theAssociationforComputationalLinguistics（ Volume 1 ： Long Papers ）， pages 1715-1725，Berlin，Germany.计算语言学协会。Rico Sennrich和Biao Zhang。2019. 重新审视低资源神经机器翻译：案例研究。在计算语言学协会第57届年会的会议记录中，第211- 221页，意大利佛罗伦萨。计算语言学协会。R Srinivasan和CN Subalalitha. 2019.泰米尔文文档中命名实体的自动识别。2019年IEEE第一届能源、系统和信息处理国际会议（ICESIP），第1-5页。美国电气与电子工程师协会。NitishSrivastava ， GeoffreyHinton ， AlexKrizhevsky ， IlyaSutskever ， andRuslanSalakhutdinov. 2014. Dropout：防止神经网络过度拟合的简单方法。Journal of Machine LearningResearch，15（56）：1929-1958.C. N.苏巴拉利萨2019. 信息提取框架--面向知识的工作. 《世说新语》卷四十四（七）：156。CN Subalalitha和E Poovammal。2018. Tirukural的自动双语词典构建。应用人工智能，32（6）：558Ilya Sutskever ， Oriol Vinyals ， and Quoc V. Le.2014.用神经网络进行序列到序列学习第27届神经信息处理系统国际会议论文集-第2卷，NIPS麻省理工学院出版社.Christian Szegedy ， Vincent Vanhoucke ， SergeyIoffe，Jon Shlens和Zbigniew Wojna。2016. 重新思考计算机视觉的初始架构。2016年IEEE计算机视觉与模式识别会议（CVPR），第2818-2826页。SajeethaThavareesan和Sinnathamby Mahesan。2019年。泰米尔语文本中的情感分析：机器学习技术和特征表示的研究。2019年第14届工业和信息系统会议（ICIIS），第320-325页。Sajeetha Thavareesan和Sinnathamby Mahesan。2020年a。使用Word2vec和fastText进行泰米尔语文本情感预测的情感词典扩展。2020年Moratuwa工程研究会议（MERCon），第272-276页。Sajeetha Thavareesan和Sinnathamby Mahesan。2020年b。泰米尔语文本中基于词嵌入的词性标注。2020年 IEEE 第 15届工业和信息系统国际会议（ICIIS），第478-482页。Sajeetha Thavareesan和Sinnathamby Mahesan。2021年使用k-均值和k-近邻的泰米尔语文本情感分析。2021年第10届可持续发展信息和自动化国际会议（ICIAfS），第48-53页。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Jakukasz Kaiser，and Illia Polosukhin. 2017. 注意力就是你所需要的。神经信息处理系统，第30卷。Curran Associates，Inc.谢婉莹。 2021. GX@DravidianLangTech-EACL2021 ：多语言神经机器翻译和回译。在Dravidian语言的语音和语言技术第一次研讨会的会议记录中，第146-153页，基辅。计算语言学协会。

下载后可阅读完整内容，剩余1页未读，立即下载