没有合适的资源?快使用搜索试试~ 我知道了~
软件影响8(2021)100063原始软件出版物OldSlavNet:一个基于现代语言数据训练的可扩展早期斯拉夫依赖解析器Nilo Pedrazzini,Hanne Martine Eckhoff大不列颠及北爱尔兰联合王国牛津大学A R T I C L E I N F O保留字:神经网络依赖分析跨语言迁移树库早期斯拉夫语代码元数据A B标准历史语言越来越多地被计算机模拟。语法注释的文本通常一个正弦qua-non在他们的建模,但解析前现代语言品种面临着巨大的数据稀疏,加剧了高水平的拼写变化。在本文中,我们提出了一个高质量的早期斯拉夫语依赖分析器,通过操纵现代斯拉夫语数据,以类似于前现代品种的正字法和形态句法。该工具可以用于扩展历史树库,这对数据收集和量化至关重要,并有利于下游NLP任务和历史文本挖掘。当前代码版本Rolling release(当前为v2.0)用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-7可再生胶囊的永久链接https://codeocean.com/capsule/8481687/tree/v1法律代码许可证MIT许可证使用Git的代码版本控制系统使用Python、Ruby的软件代码语言、工具和服务编译要求,操作环境依赖性Python 3.x,DyNet 2.0;参见https://github.com/npedrazzini/OldSlavNet/blob/master/requirements.txt如果可用,链接到开发人员文档/手册https://npedrazzini.github.io/OldSlavNet技术支持电子邮件nilo. ling-phil.ox.ac.uk1. 介绍依存分析在许多下游自然语言处理(NLP)任务中非常重要,包括事件提取、词向量表示增强以及文本分类和摘要。为历史语言训练高质量的解析器是一项挑战性的任务,因为它们通常提供非常少的数据,但语言变化非常高,这在机器学习中很容易转化为高水平的噪音。在本文中,我们提出了一个品种不可知的词性(PoS)标记和早期斯拉夫语(OldSlavNet)的依赖分析器,通过现代数据与前现代对应的正字法和形态句法协调,对跨越千年的多语言斯拉夫语数据进行了训练。早期斯拉夫和现代俄罗斯数据是从特罗姆瑟古教会斯拉夫语和古俄罗斯树库(TOROT)[1](特别是其教会斯拉夫语和古俄罗斯子语料库的全部,以及SynTagRus的一部分[2]从其现代俄罗斯子语料库中获得),而现代塞尔维亚语数据则从通用语言(UD)塞尔维亚语-SET树库中收集[3]。与其他关于历史语言解析的实验(例如[4]关于前现代日耳曼语)以及用于历史语言的形态标记的类似转移技术不同,包括斯拉夫语(例如[5]),OldSlavNet不依赖于历史文本及其模式之间的注释投影。 ern翻译,而是基于来自不同流派的各种当代资源的现代数据。这是一个特别受欢迎的特性,因为它使解析器成为一个可伸缩的工具:从任何流派的原始当代来源中添加,以改进解析器,而无需从头开始训练它协调脚本,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:nilo. ling-phil.ox.ac.uk(N. Pedrazzini)。https://doi.org/10.1016/j.simpa.2021.100063接收日期:2021年1月23日;接收日期:2021年2月11日;接受日期:2021年2月12日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsN. Pedrazzini和H.M. 埃克霍夫软件影响8(2021)1000632图1.一、使 用 w w w . e x a m p l e . c o m 获 得 的标记化、每行一句的 文本文件(左)及其CoNLL-U版本(右)converter.py。现在可用于俄语和塞尔维亚语,可以从解析器的存储库下载,并用于协调新的现代俄语和塞尔维亚语文本与早期斯拉夫语,从而潜在地提高解析性能。解析器对于扩展历史树库(用句法信息注释的大量数字文本集合)尤其重要:树库是一种多功能的数据源,不仅直接用于许多NLP任务(如前面提到的任务),而且被人文学科广泛用作精心数字化的文本数据的独立集合,这些文本数据丰富了语言信息。2. 数据和解析器体系结构解析器在UD框架[6]中工作,UD框架是依赖解析最广泛使用的格式该工具以下是OldSlavNet模型中的主要新功能- ArgParse取代了旧的OptParse,以允许我们的代码更广泛的可重用性。- 采用RMSProp [8]代替Adam [9]作为优化器,以避免梯度爆炸。初始学习率设置为0.1而不是None。- 自[10]中的上一个实验以来,训练集已经用现代俄语和塞尔维亚语数据进行了扩展。OldSlavNet3. 使用以下是使用该工具标记新的早期斯拉夫语文本的端到端过程:1. 预 处 理 文 本 文 件 : 通 过 运 行 OldSlavNet 存 储 库 中 包 含 的converter.py脚本,将早期斯拉夫语文本转换为CoNLL-U UD格式。输入必须是一个已经标记化的、每行一句的文本文件。图1显示了典型的输入文本文件和输出CoNLL-U文件的样子。2. 下载仓库:克隆OldSlavNeta. Python脚本(parser.py、oldslavdep.py、learner.py、mnnl.py和utils.py)。decoder.pyb. model和model.params文件。c. requirement.txt文件。3. 安装所需的依赖项:运行:pip install-r requirements.txt4. 标记您的CoNLL-U文件:运行parser.py脚本和必要的超参数,如相关文档部分所述 您的输出应该如图所示。 2图二. 使用OldSlavNet添加词性和语法标记后的CoNLLU文件示例。4. 影响OldSlavNetOldSlavNet,一个通用的(即品种不可知的)解析器,被证明比两个品种特定的解析器更好地执行早期斯拉夫语,这表明显着非标准化的历史语言可能会受益于通用的,跨品种模型的发展,而不是从专门的。自[10]以来,OldSlavNet进一步提高了其现实世界的性能(即处理更广泛的前现代斯拉夫语变体和流派的能力),这要归功于来自现代俄语和现代塞尔维亚语的额外数据,如表A.1所示。OldSlavNet已经在TOROT树库中的新文本上进行了试验[1,2],这是一个主要的斯拉夫语注释历史语料库,也是PROIEL项目的后代[11,12]。使用OldSlavNet扩展历史斯拉夫树库将有助于从语法注释数据中受益的研究领域的进步,特别是来自拼写变化较大的资源较少的语言:1. 语义变化检测:几十年来人们一直注意到的一个方法上的差距[13]是语义变化建模中句法信息的整合。早期的斯拉夫树库数据现在可以通过生成语义和句法约束的单词表示(例如句法单词嵌入[14]和句法主题模型[15])来用于语义变化检测,从而改进语义模型本身。理解不同历史背景下意义变化的机制将有助于设计更好的语义变化检测工具,语义变化检测在文本处理中具有广泛的应用,包括信息检索[16N. Pedrazzini和H.M. 埃克霍夫软件影响8(2021)1000633图3.第三章。 现代塞尔维亚语数据在 与早期斯拉夫语 正字法和形态学协调之前和之后的例子。图四、 与早期斯拉夫语 正字法和词法协调前后的现代俄语数据示例。文化组学[19]、历时文本评估(DTE)[20,21]、过去文本的重新语境化[22]、OCR纠错[23]和滥用内容检测[24]等(参见[25]以了解应用的详细调查)。2. 改进NLP系统评估实践:早期斯拉夫语非常适合用于评估NLP系统和方法, 鉴于它的许多相关的亚种和它的高度正写法变异。这在语言变化的计算模型中是一个挑战,因为NLP系统倾向于忽略低频类型,这在历史来源中是不可避免的。早期斯拉夫语的更多语法注释数据将使我们能够系统地研究NLP方法如何影响系统结果的泛化1[1]请注意,评估实践的改进是计算语言学研究的一个日益增长的领域,有专门 的 场 所 , 如 HumEval ( https://humeval.github.io ) 和 SemEval(https://semeval.github。io)。3. 提高代表性:扩展早期斯拉夫语树库将使我们能够开发出对英语以外的语言现象进行大规模定量历时分析的方法。文献(例如[26]和[25])强调缺乏大型非英语历时语料库是历史语言学研究中的一个可能的偏见,旨在跨语言地概括研究结果。5. 局限性和今后的改进用于协调俄罗斯和塞尔维亚的正字法和形态学与早期斯拉夫语的脚本仍然是实验性的。目前,只有属于最常见的形态标签的标记已经统一。图图3和图4分别说明了协调例程目前如何在塞尔维亚语和俄语句子上工作。鉴于有希望的结果,在接下来的版本中,我们计划开发包含更广泛的morphotags的harmonization脚本,这有望在前现代斯拉夫语变体上产生更好的解析性能。N. Pedrazzini和H.M. 埃克霍夫软件影响8(2021)1000634表A.1OldSlavNet的性能与以前的技术水平相比模型测试装置UAS LASOldSlavNet Codex Marianus84.12 78.92日本PTDP-GEN [10] 83.79 78.42OldSlavNet Primary Chronicle(PVL)85.33 79.66日本PTDP-ESL [9]85.70 80.16OldSlavNet维塔康斯坦丁尼70.72 56.64jPTDP-GEN 69.23 56.41OldSlavNet Codex Suprasliensis日本PTDP-GEN 72.28 63.38OldSlavNet拉多涅日的谢尔盖的生活74.10 66.11日本PTDP-GEN 73.90 65.76OldSlavNet当前版本的一个缺点是,它采用已经格式化的文本(即每行一句话,如图1)作为输入,这需要用户手动将其文本分割成句子。然而,使用spaCy [27]实现OldSlavNet正在进行中,以便用早期斯拉夫语解析器补充解析器,该解析器将完整的文本作为输入并提供每行一次的输出,然后可以直接馈送到OldSlavNet添加语法注释。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作确认这项工作得到了大不列颠及北爱尔兰联合王国经济和社会研究理事会的支助[赠款号ES/P000649/1]。我们感谢Dat Quoc Nguyen允许我们使用OldSlavNet开发的原始神经网络模型(jPTDP [7])阑尾 解析器性能OldSlavNet已开发为适用于不同的早期斯拉夫语品种和更广泛的流派比以前的,实验性的版本。在表A.1中,我们报告了它在属于各种前现代斯拉夫方言的测试集上的性能,并提出了主要的拼写和形态差异。引用[1]H.M. Eckhoff,A. Berdičevskis,语言学与数字版本:特罗姆瑟古俄语和OCS树库,Scr。e-Scripta 14[2]A. Berdičevskis,H.M. Eckhoff,跨越一千多年的俄罗斯历时树库,在:第12届语言资源和评估会议,欧洲语言资源协会,马赛,法国,2020年,页。5251https://www.aclweb.org/anthology/2020.lrec-1。646.[3]T. Samardžić,M. Starović,P. Agić,N. Ljubešić,塞尔维亚语与克罗地亚语和其他斯拉夫语比较的普遍性,载于:第六届波罗的海-斯拉夫语自然语言处理研讨会会议记录,协会 for Computational Linguistics,Valencia,Spain,2017,pp. 39http://dx.doi。org/10.18653/v1/W17-1407。[4]M.苏哈雷瓦角跨语言分析器投射中的历时接近性与数据稀疏性。关于日耳曼语的案例研究,在:第一次研讨会的会议记录应用NLP工具到类似的语言,品种和方言,计算语言学协会和都柏林城市大学,都柏林,爱尔兰,2014年,pp。11http://dx.doi.org/10.3115/v1/W14-5302[5]R.迈耶,旧皮袋装新酒?从现代翻译中通过注释投影标记古俄语,俄罗斯语言学家。35(2011)267//dx.doi.org/10.1007/s11185-011-9075-x网站。[6] J. Nivre,M.- C. de Marneffe,F. Ginter,J. Hajietan,C. Manning,S. Pyysalo,S.Schus-ter,F. Tyers,D.泽曼,通用语言库v2:一个不断增长的多语言树库集合,在:第12届语言资源和评估国际会议(LREC 2020),欧洲语言资源协会,马赛,法国,2020年,第12页。4027-https://www.aclweb.org/[7]差量阮氏K. Verspoor,一种改进的神经网络模型,用于联合POS标记和依赖解析,在:CoNLL 2018共享任务的会议记录:从原始文本到通用语法的多语言解析,计算语言学协会,布鲁塞尔,比利时,2018年,pp。81http://dx.doi.org/10.18653/v1/K18-2008。[8]T. Tieleman,G. Hinton,Lecture 6.5-rmsprop:用一个连续的它的平均值最近的大小,COURSERA神经网络。马赫学习. 4(2)(2012)26-31。[9]D.P. Kingma,J.Ba,Adam:一种随机优化方法,在:Y。 Bengio和Y. LeCun(Eds.),第三届学习表征国际会议,ICLR 2015,美国加利福尼亚州圣地亚哥,2015年5月7日至9日,会议记录,2015年,http://arxiv.org/abs/1412.6980。[10] N. Pedrazzini,利用低资源历史语言的跨方言黄金语法:面向前现代斯拉夫语的通用解析器,在:计算人文研究研讨会会议记录(2020年),CEUR研讨会会议记录,阿姆斯特丹,荷兰,2020年,第100页。237http://ceur-ws.org/Vol-2723/short48.pdf。[11] D.T.T. Haug,M.L. Jøhndal,Creating a parallel treebank of the old Indo-EuropeanBible translations,in:C.Sporleder,K.Ribarov,A.范登博施议员多布雷娃M.J. Drivel,C. Grover,P. Lendvai,A. Luedeling,M. Passarotti(Eds.),继续-2008年6月1日在摩洛哥马拉喀什举行的文化遗产数据语言技术研讨会(LaTeCH2008),ELRA,2008年,第100页。 27 -3 4 , ht t p : // w w w .lrec-conf.org/proceedings/lrec2008/workshops/W22_Proceedings.pdf#page=31 网站。[12] H.M. Eckhoff,K. Bech,G. Bouma,K.艾德,D.T.T. Haug,O.E. Haugen,M.约翰达尔PROIEL树库家族:印欧语系早期证明的标准。资源。Eval. 52(1)(2018)29http://dx.doi.org/10.1007/电话:10579 -017-9388-5。[13] S. 帕多湾 Lapata,基于依赖性的语义空间模型构建,Comput. 语言学家 33(2007)161 http://dx.doi.org/10.1162/coli.2007.33。2.161[14] Z. 叶,H.基于依存句法的句法词嵌入多义词分析法前线Inf. Technol. Electron. Eng. 19(2018)524http://dx.doi.org/10.1631/FITEE.1601846[15] J. Boeon-Graber,D.M. Blei,句法主题模型,Comput。语言学家1(1)(2006)。[16] S. Morsy,G. Karypis,在文档相似性搜索中考虑语言随时间的变化,ACMTrans.INF. 系统35(1)(2016)http://dx.doi.org/10.1145/2934671。[17] K. Berberich,S.J. Bedathur,M. 索齐奥湾 Weikum,Bridging the term gap inweb archive search,第12届国际网络研讨会和数据库,WebDB,2009年,http://webdb09.cse.buffalo.edu/papers/Paper20/webdb2009-final.pdf。[18] H. Holzmann,G. Gossen,N. Tahmasebi,Fokas:以前称为2012年,第页 215https://www.aclweb.org/anthology/C12-3027[19] J. - B. Michel,Y.K. Shen,A.P. Aiden,A. Veres,M.K.作者:J. Pickett,D. 霍贝格,D. Clancy, P. Norvig ,J.Orwant, S. Pinker, 文 学 硕 士 Nowak, E.L. Aiden,Quantitative analysis of culture using millions of digitalized books,Science 331(6014)(2011)176http://dx.doi.org/10.1126/science.1199644[20] L. Frermann,M.李文,《汉语词义历时变化的贝叶斯模型》,北京:北京大学出版社,2000。语言学家4(2016)31https://www.aclweb.org/anthology/Q16-1003.pdf。[21] O.波佩斯库角Strapparava,SemEval 2015,任务7:历时文本评估,在:第九届语义评估国际研讨会论文集(SemEVal 2015),计算语言学协会,丹佛,科罗拉多州,2015年,pp.870http://dx.doi.org/10.18653/v1/S15-2147[22] N.K. Tran , A. 切 罗 尼 湾 坎 哈 布 瓦 角 Niederée , Back to the past : Supportinginterpretations of forgotten stories by time-aware re-contextualization,in:Pro-ceedings of the Eighth ACM International Conference on Web Search and DataMining,in:WSDMUSA,2015,pp. 339http://dx.doi.org/10.1145/2684822.2685315[23] G. Chiron,A. 杜塞M. 库斯塔蒂,J. - P. 莫勒,ICDAR2017 竞争2017年第14届IAPR文档分析与识别国际会议(ICDAR),第一卷。01,2017,pp.1423-1428年,doi:10.1109/ICDAR.2019.00255。[24] B. Vidgen,A.哈里斯,D。阮河,巴西-地Tromble,S. Hale,H. Margetts,滥用内容检测的挑战和前沿,在:在线滥用语言第三次研讨会的会议记录,计算语言学协会,佛罗伦萨,意大利,2019,pp。 80http://dx.doi.org/10.18653/v1/W19-3509[25] N. 塔赫马塞比湖Borin,A.Jatowt,词汇计算方法的调查semantic change,2019,arXiv:1811.06278.[26] X. 唐,语义变化计算的最新进展,自然语言学。24(5)(2018)649http://dx.doi.org/10.1017/S1351324918000220[27] M.霍尼巴尔岛Montani,S. Van Landeghem,A. Boyd,spaCy:Python中的工业级自然语言处理,Zenodo,2020,http://dx.doi.org/10。5281/zenodo.1212303。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功