没有合适的资源?快使用搜索试试~ 我知道了~
社交媒体文本规范化中的变音符号恢复研究
工程科学与技术,国际期刊21(2018)1120完整文章用word2vecZeynep Ozer,Ilyas Ozer,Oguz FindikKarabuk University,Karabuk,Turkey阿提奇莱因福奥文章历史记录:2018年5月17日收到2018年7月28日修订2018年9月7日接受在线发售2018年保留字:文本挖掘变音符号恢复Twitter推文规范化A B S T R A C TTwitter等社交媒体平台近年来以惊人的速度增长,并已成为无数领域提供信息的重要数据来源。这种情况引起了研究人员的兴趣,许多关于机器学习和自然语言处理的研究都是在社交媒体数据上进行的然而,社交媒体中使用的语言比正式的书面语言包含了非常高的噪音数据量。在这篇文章中,我们提出了一个变音恢复的研究,这是社会媒体文本规范化的重要难点之一,以减少噪音问题。变音符号是一组用来改变字母的声音值的符号,除了土耳其语外,它还用于许多语言。我们建议本研究的3步模型,以克服变音恢复问题的顶部。在第一步中,候选词生成器产生可能的单词形式,在第二步中,语言验证器选择正确的单词形式,并在最后使用Word2vec来创建单词的矢量表示,并通过使用余弦相似度来选择最合适的单词。所提出的方法进行了测试的2ad-hoc创建的数据集和真实的数据集。对小型ad-hoc创建的数据集和真实数据集的研究提供了37.8%的相对误差减少,平均性能为94.5%。此外,在大型ad-hoc创建的数据集上对超过600万个单词进行的测试此外,所提出的方法进行了测试,由高速公路交通数据的二进制分类问题,以评估对分类性能的影响,并取得了3.1%的分类性能的提高©2018 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在过去的几年中,诸如Twitter和Facebook的社交网络的使用在全世界范围内增长非常迅速,并且研究人员变得非常感兴趣,使得社交网络已经成为人们在各个领域分享他们的观点的平台,并且从社交网络获得的数据开始在从实时事件检测[1]、情感检测[2]和交通异常检测[3]到犯罪预测[4]的广泛领域中使用。然而,社交网络中使用的拼写语言与正式的拼写语言有很大的不同,并且存在非常大量的噪声数据,这使得研究人员的工作变得非常出于这个原因,在使用前规范化社交网络数据的努力最近获得了动力[5本文主要讨论在社交网络中常见的变音符号恢复(DR)问题。变音符号是添加到字母上并改变其语音的一组标记,它们*通讯作者。电子邮件地址:zeynep. outlook.com(Z. Ozer),oguzfindik@karabuk.edu. tr(O. Findik)。由Karabuk大学负责进行同行审查土耳其语、法语、希腊语、匈牙利语和西班牙语等多种语言使用。移动设备使用的增加导致美国信息交换标准代码(ASCII)等效物的使用由于诸如这些设备上的不适当键盘布局以及区分字母是次要字符的原因而被广泛使用。土耳其语包含七个变音字符,包括(,,I_,g,<$,s,ü),这些字符的ASCII如表1所示。变音符号恢复,又称去ASCII化或变音符号化,是将部分或全部ASCII格式的单词以正确的方式书写。这里的主要问题是变音字符的ASCII等价物是有效的字母,在土耳其字母表中使用因此,在变音符号恢复过程中,这些字母中的每一个都有两种不同的可能性,即非变音符号形式和非变音符号形式。在这种情况下,例如,因此,要获得正确的单词后,变音,这是不够的,只是看目前https://doi.org/10.1016/j.jestch.2018.09.0022215-0986/©2018 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchZ. Ozer等人/工程科学与技术,国际期刊21(2018)11201121表1土耳其变音字符及其ASCII对应字符列表土耳其语g,s与许多其他模型不同,Zemerek[17]是土耳其研究中最常用的工具之一,每个标记有一个候选词,根据这些词进行排名ÇG˘I_S,与它们的根的频率相在Emacs的研究ASCII c g i o s u C G I O SUtoken. 相反,它们应该与相邻的单词一起评估另一方面,土耳其语的绝大多数变音研究要么基于字符级建模,要么基于语料库中可能的词根的频率,基于上下文的研究非常有限。在这项研究中,我们提出了一个三步模型来解决DR的问题。在所提出的模型中,首先可能的表面形式产生的候选词生成器。在第二步中,形态分析器检查所产生的表面形式是否是合法的土耳其语单词。在这一步,我们不喜欢词典查找方法,因为土耳其语是芬兰语和韩语等形态丰富(MRL)语言的一个非常好的例子,也就是说,它可以通过向词根引入新的添加来生成无限数量的单词。在这些语言中,通过在不同的词根上引入新的附加词,可以获得大量的新词和新义。在MRL和黏着语中,每个动词词根可以产生数百万种表面形式[8]。此外,如果在这个阶段只产生一种表面形式,即正确的土耳其语单词,则去社会化过程完成。但是,如果产生了一个以上的正确土耳其语单词,则必须确定哪个是最合适的单词。在最后一步中,我们使用Word2vec工具在高维向量空间中学习向量表示,并通过使用余弦相似度评估候选词与相邻词的语义关系来选择最合适的词。所提出的方法提供了一个相当高的性能相比,最先进的技术。本文的组织如下:第2 节和第 3节简要介绍了相关的工作和Word2vec。第4节介绍了我们提出的模型细节。第5给出了实验装置和结果。最后,第6节给出了结论。2. 相关作品近年来,根据诸如移动终端使用和用户习惯的原因,在社交网络中使用的拼写语言中出现了非常高的错误量。使用缺失的变音标记也是打字错误中最大的部分之一[7]。可以将变音符号恢复过程定义为当变音符号丢失或根本没有时自动添加这些标记。在DR的研究[9]中,提出了一种基于字母级学习机制的独立于语言的方法,该方法不需要任何额外的标记工具,特别适用于资源较少的语言。类似地,在[10]中,提出了一种在字母级具有学习机制的方法。他们提出的方法适用于没有大字典的语言,并且可以进行推广。在[11]中,一种基于统计机器翻译而不是字母级学习机制的方法被用于恢复阿尔及利亚的变音文字。除了这些研究之外,还对克罗地亚语[12]、越南语[13]、罗马尼亚语[14]和阿拉伯语[15]等语言进行了DR研究。在第一项关于土耳其DR的研究中[16],使用1800万字的汇编构建了一个具有字符库的隐马尔可夫模型。使用不同的n-gram语言模型测试系统性能,与3-gram模型相比,4-gram模型提供了显着的Turkish Mode[18]是受[16]研究的启发,利用Greedy Prepend算法构造决策表,这是一种百万字的决策表算法。在土耳其语的研究中[7],使用条件随机场(CRF)和语言验证器提出了一种语言独立模型,并在两个单独的数据集(ad-hoc创建的和真实的)上测试了所提出的模型。对于每个测试,分别达到97.06%和95.43%的准确度。在对社交媒体文本规范化的研究中[6,7],使用了推荐的方法。另一个令人感兴趣的领域是信息检索(IR)应用,这在很大程度上受到去分类性能的影响。[19]和[20]中的研究讨论了去腹水性能对IR实践的影响。正如[20]的研究中所提到的,对国际关系的研究通常是基于英语的。英语是欧洲语言中唯一使用拉丁字母的非变音语言。该领域的研究相对很少,因为大多数关于IR的工作都是用英语进行的。在这项研究中,研究了在商业搜索引擎上使用变音标记对查询性能的影响[21]。在另一项研究中,发现英语和其他语言的搜索引擎的性能相当[22],具有特殊字符的语言的搜索性能低于其他语言。在对波兰语的研究[23]中,发现变音字符与[21]相似,并且结果与没有这些字符的搜索不同。土耳其变音字符的恢复过程中的研究一般是成功的候选字生成过程中,也有可能产生所有可能的解决方案与蛮力算法和没有有效的单词区分与形态分析仪,即使在最坏的情况下,因为已经有2n的概率。另一方面,这里的主要问题是在语义上彼此相距很远的词中选择最正确的候选词,例如在“süt(牛奶)”和"s,ut(射击)"的情况下这个问题是一个内容 问 题 , 而 不 仅 仅 是 产 生 一 个 可 以 确 定 的 词 。 在 这 个 意 义 上 ,Word2vec通过提供词之间的向量距离,为评估词的语义关系提供了重要的便利。在使用Word2vec[24]进行的研究中,使用词嵌入和卷积神经网络对中文法律问题进行分类。在另一项研究中,使用Word2vec工具在中国最大的社交网络之一微博上进行语义分类结果,语义分类性能达到83%。与这些研究不同,Word2vec工具用于纠正[26]中的语法错误。在另一项关于语义分类的研究中[27],对汽车网站的评论进行了检查并进行了语义分类。在[28]中,已经评估了该工具在命名实体识别上的性能。在另一项旨在实现语言之间语义转换的研究[29]中,使用通用Word2vec工具获得了两种语言的统一语义向量空间。3. Word2vecWord2vec是一个浅层神经网络[30],它输入一个语料库并输出一个向量集。神经网络在许多领域都得到了广泛的应用[31Word2vec预测单词基于两种不同的神经模型:连续词袋(CBOW)和跳跃图。CBOW模型根据上下文预测当前单词,而Skip-Gram模型则相反,试图根据当前单词猜测该单词周围的其他单词的1122Z. Ozer等人/工程科学与技术,国际期刊21(2018)1120X.Σka kkb kþ1212X.X-两个þ2cosh <$cos a;b1ai-bið6ÞCBOW模型比较单词和输出,并根据误差梯度的反向传播校正单词的表示事实上,CBOW试图最大化以下等式。(1):1vlog P m tjm tc:m tc在变音符号恢复后,可以出现有效的土耳其语单词。这就造成了一种歧义,即所产生的合法词语中哪一个才是正确的词语。出于这个原因,为了确定正确的单词,仅在字符级别对相关的标记进行建模或者在语料库中查看所获得的单词的词根是不够的。另一方面,大多数变音符号恢复工具另一方面,Skip-Gram搜索给定单词的上下文的(二):1Vtouchdown在角色层次上的bilistic建模。如果我们在Twitter上的一条真实推文上评估这个问题:在句子“Hakem bunu sut olarak degerlendirdi”中有两个变音词。 只有VX Xlogpmjjmt对于“degerlendirdi”标记,有2个有效的t<$1j<$t-c;j- t一旦获得每个词的特征向量,就使用余弦相似度计算两个词之间的设a(x1,y1)和b(x2,y2)是二维空间中给定的2个点,这两个点之间的余弦相似度可以写为(3):是“süt(牛奶)”和“sut”标记的“s,ut(射击)”。在这种情况下,有两个可能的句子可以写:例一:哈肯·布努是一位伟大的作家。cosh <$cosa;ba·bxx y y¼qx2x2×qy2y2ð3Þ(裁判员认为它是牛奶。)哈肯布努斯,我的神,我的神。(The裁判员认为这是一次射门。)另一方面,如果我们增加尺寸,我们可以显示矢量-将a和b作为a(a1,a2,a3,. . a n)和b(b1,b2,b3,.. . bn)。在这种情况下,我们可以将(3)改写为(4):Pnai×bi从语义上看,上面的句子显然是正确的我们提出的模型最重要的创新是根据当一个以上的人可以-sPna2sPnb211didate word生成。为此,候选词和tweet中其他拼写正确的单词的向量相似度这里,cosh在[0,1]范围内,0表示两个单词之间没有语义此外,余弦相似性和常用的欧几里得、曼哈顿、闵可夫斯基和切比雪夫向量距离度量-比较数据以评估对DR性能的影响对于上述a和b多维向量,d是两个向量之间的距离,欧几里得距离可以写为(5):比较了另一方面,在一条推文中,通常不止一个单词存在变音为此,我们使用一个2阶段的架构,以提高性能的disambiguation过程。如图1所示,在第一阶段,对tweet中没有歧义问题的单词(即只有一个可能解决方案的单词)进行DR。通过增加计算向量相似度的单词数量,可以进行更准确的比较。如可见于图 1、推文首先被标记化。在-da;bqa1-b12a2-b22在这种情况下,等式可以重写为(6):vutX1/1ð5Þ相反,以特殊字符(如属于Twitter的@和#)开头的标记被分离,剩余的标记用LV进行形态学分析如果该标记不是有效的土耳其语单词,并且包含了任何变音字符的ASCII等价物,则执行DR操作。如见于图1和2,候选词生成过程使用类似于[18]中的决策列表,这些解决方案是曼哈顿距离遵循两点之间的网格状路径,并且可以表示为(7):nda;bjai-bij1/1闵可夫斯基距离可以被认为是曼哈顿和欧几里得距离的广义版本,p是两点之间的阶数,因此等式可以表示为(8):如果生成解决方案,则发送到LV层LV层对所产生的表面形式进行形态分析如果可以作为形态分析的结果生成输出,则这意味着所生成的表面形式是有效的单词。否则,表面形式不是有效的词,并且候选词被从词列表中移除如果不能产生候选词,则通过应用基于规则的方法获得所有可能的表面形式并将其发送到LV层。使用词典查找方法来查找非常丰富的语言da;bbn1/1jai-bij!1=pð8Þ在形态学方面,如土耳其语,是不是很有效,由于可能的表面形式的大小,所以形态分析仪LV是首选在这项研究中。如果只获得一个有效单词,最后,称为棋盘距离的切比雪夫距离可以表示为(9):da;b:最大值的1/4jai-bi94. 该模型由于土耳其语字母表中使用的变音字符的ASCII等价物也是合法的字母,因此在形态学分析之后,完成了变音符号恢复过程。另一方面,如果获得一个以上的有效土耳其语单词,则有必要进行语义评估。如图2所示,此过程在第二阶段完成。为此,通过使用语料库,语料库中的每个词的特征向量由Word2vec工具确定。在这一步之后,使用余弦相似度来计算该词与其它词的和谐度。这里,pVt1我为土耳其开发的,其中deasciificantly通过使proba-1212ð4Þi×我da;bbZ. Ozer等人/工程科学与技术,国际期刊21(2018)11201123XPð×Þiti1×XFig. 1.建议架构的第一阶段。图二. 建议架构的第二阶段。词和对于每个候选词,计算作为其他词的总相似度值,并且具有最高相似度值的词被认为是变音符号恢复处理的结果。图 3详细显示了变音符号恢复过程。此外,为了测试对DR性能的影响,单词与另一个单词的兼容性由第3章中提到的向量距离测量确定。在这种情况下,总距离dt计算为:vdt¼da;bt 11t1/2在这种情况下,与余弦相似度相反,具有较低总距离值的单词被认为是DR过程的结果5. 实验装置和结果在本节中,我们提供了有关我们首先使用的数据集和评估方法的信息。我们正在讨论我们后来取得的成果。5.1. 数据集实验评价对于变音符号化任务,创建了两个不同的ad-hoc数据集,主要是小型和大型数据集。特别创建的数据集创建是一个简单的任务,不像变音符号化过程。单词中的所有区别字符都被ASCII等价物替换,以形成专门创建的数据集。我们创建的小型ad-hoc数据集的最大特点是观察歧义问题,并选择在变音符号恢复后构成多个有效土耳其语单词的单词,以便将我们的工作与其他研究进行通过这种方式,可以更好地观察词的语义评估过程的性能。为此,使用Twitter RESTAPI,我们在安卡拉省会城市的边界内收集了6,146,742条推文,该城市宽27公里,坐标为“39.913543 °,32.816591°”,时间为2016年8月10日至2017年4月25日。我们从这些数据中随机选择1000条推文,根据上述规则使用小型临时创建的数据集。我们还创建了一个由包含6.009.229个评论词的2.107.366条推文组成的大型ad-hoc数据集,以通过从上述6.146.742条推文中删除转发来确定所提出模型的总性能,以便在统计上不产生误导。在准备大型自组织创建的数据集期间,应用高级标记化操作以提取以twitter特殊字符(例如@和#)开头的标记、情感符号和URL除此之外,还对所有15,987,738个标记进行了形态分析,以确定剩余标记是否为有效的土耳其语单词,并确定对应于约14%的2,240,955个标记不是有效的将包含变音字符的单词和同时有效的单词替换为ASCII等价物,以获得大型临时创建的数据集。此数据集包含两种可能的解决方案,一种是多个可能的解决方案,另一种是只有一个可能的解决方案。另一方面,我们使用直接转换为ASCII形式的推文来处理真实数据集。在这个数据集中,单词的描述形式由2个人工注释者手动识别,并且只有两个注释者以DEASCII形式同意的单词才包括在数据集中。同样,我们的数据集中有1000条推文,小型临时创建的数据集。na bpcosmetica;btcosmetic1tið10Þ与数据集相关的另一个重要问题是需要一个大型语料库,以便可以对单词进行语义评估。为¼t1/2sPna2sPnb2p11为此,它被用作Hürriyet报纸档案的语料库[35]和土耳其维基百科转储(TRWiki-1124Z. Ozer等人/工程科学与技术,国际期刊21(2018)1120¼×DFI图三. 变音符号恢复过程。20150121-Meta-current)数据集也用于[20]中的研究。该数据集共有129,288,786个单词,其中53,375,687个单词至少包含一个变音字符。除此之外,我们还包括一些电子书,以增加语料库的代表性,我们总共创建了200,822,716个单词。我们还对整个语料库进行了形态分析,以消除语料库中的外来词和写作错误我们使用Zemerek 2工具和我们自己的形态分析器进行形态分析过程,并且我们包括了在我们的第二个语料库中仅使用这两种分析工具的结果产生的单词结果,我们获得了另一个185,503,508个单词的第二语料库。除了这些数据集之外,为了评估所提出的DR模型对文本分类的效果,我们准备了一个真实的数据集,该数据集由2个类和总共1500条与道路交通问题相关和不相关的推文组成。与DR数据集类似,收集了此数据集对剩余的标记进行形态分析,检测到1827个拼写错误的单词。在这些拼写错误中,共有466个错误,占25.51%。无论语料库有多大,在土耳其语等黏着语中,每个词的表面形式都太多了,所以在语料库中可能找不到所有的表面形式。在这种情况下,基于单词的最长根来计算相似度。在社交网络中也有许多拼写错误或社交媒体专用的单词。出于这个原因,我们用LV检查推文中的单词并识别正确的单词。然后,对这些词与恢复词进行相似度计算。为了比较所提出的模型的性能,类似于[7使用Twitter REST API。 另一方面,与其他数据集不同的是,搜索使用了21个不同的关键词,如“tra-fik(交通)",”kaza(事故)",“yol(道路)",”s,erit(车道)”和“kuyruk(队列)"。由此产生的推文由两名人工注释者手动标记,并包含在推文数据集中,这是由两位评审员同意示例2显示了一个示例Accr#of corr· diacritizedwords字数5.2. 交通相关推文ð12Þ为“yol(road)”关键字创建两个不同的类实施例3,可以看到与DEASCII形式的“arızas(breakdown)”变音符号形式相关的两个类的示例例二:Atam bize yol göstermeye devamediyor.(My我们的祖先继续带领我们。20天50米的车程,但交通堵塞。(我不能得到一个50米的道路20分钟,所以我快要疯了。例三:他的血是从天上滴下来的,他的血是从天上滴下来的。ASCII字符的使用是最常见的问题之一土耳其社交媒体消息(SMM)中遇到的问题。我们测试了DR模型对分类性能的影响,这是我们提出的,使用上一节介绍的流量数据集。为此,我们使用词频(tf)逆文档频率(IDF)加权。Tf-idf加权是文本挖掘中常用的方法之一。一元词和二元词等语言学术语的重要性随着在文本中出现的频率而增加,但也会被所有文档的出现频率所抵消。来识别更有特色的语言术语。N是文档的总数,tfi,j是i在j中出现的次数,dfi是包含i的文档的数量,在这种情况下,权重被计算为(13):(根据最新的信息,有一个汽车故障在一,sehir,愿真主给耐心的朋友来自wi;j¼tfi;j×log。北13北Dudullu.)Arabian Motor Beyin Arizasi Nasil Anlasilir?(How了解汽车发动机的脑故障?)准备好的数据集包含885条与交通相关的推文和615条与交通无关的推文此外,与大型ad- hoc创建的数据集类似,在删除以@和#等twitter特殊字符开头的令牌、表情符号和URL我们还得到的特征向量进行分类,广泛使用的方法是支持向量机(SVM),朴素贝叶斯(NB)分类器和k-最近邻(k-NN)。具有区分分类算法的SVM基于超平面定义决策边界,并且期望超平面之间的距离尽可能大。NB分类器是一种基于贝叶斯定理的概率分类算法,本文采用的是多项NB分类器。最后,k-NN是一种懒惰的Z. Ozer等人/工程科学与技术,国际期刊21(2018)112011250.60.40.200.48零点三零八0.51零点三一0.0060.00900.009南方0.40.30.20.10VanfutbolVanfutbol100200格勒河学习算法,其功能基于将每个不可见样本与一组预分类的训练样本进行比较,并基于距离度量来评估相似性6. 结果和讨论我们为土耳其语的这项研究提出的DR工具最重要的创新是根据Word 2- vec工具的内容在可能的歧义情况下确定最合适的词,并确定最准确的词。在这方面,我们主要通过使用以ASCII形式编写的1000字的小型ad-hoc创建的数据集来评估Word 2 Vec模型的性能,同时考虑到不同的语料库大小和不同的向量大小。我们将常用的欧几里得、曼哈顿、闵可夫斯基和切比雪夫向量距离测量与余弦相似性进行比较,以了解设置所需的Word2vec模型参数后对DR性能的影响。在确定了所有模型参数后,我们将我们的DR过程的性能与其他研究进行了比较。在与其他研究的部分比较中,我们提供了关于我们的系统和以前的DR工具性能的信息,并在小型ad-hoc创建的和真实的数据集上进行了测试。在这种情况下,我们将我们的系统性能与[7,17,18]的系统性能进行比较。它包含在[7]中研究的工具[36]中。我们还比较了 Zemerek 2 的结 果, 因为 Zemerek 库在 其最 终版 本中不 包括DEASCII工具我们将我们的大型ad-hoc创建的数据集与仅Zemerek2进行比较,因为除了Zemerek 2之外的DR工具都是基于Web的,并且我们的大型ad-hoc创建的数据集的大小很大。我们正在测试我们的Word 2 vec模型的性能,主要是针对具有1000个不同单词,不同类型的数组和不同向量大小的小型ad-hoc创建的数据集正如你在表2中看到的,我们在我们的模型中只使用Hürriyet报纸档案的体育部分获得了明显较低的性能,并且在我们的形态分析Corpus-2模型中获得了最好的结果另一方面,语料库-1,这是我们形态学上未经测试的数据集,显示的值接近语料库-2。对于Word2vec模型,我们发现在不同向量大小的测试中,语料库1和语料库2的向量大小为200的情况下获得了最好的结果在Corpus-Sport中,最好的结果是向量大小为100,这取决于数据大小是否比其他语料库小得多。由于此阶段的最佳结果是在Corpus-2和向量大小200中获得的,因此在此模型上进行了剩余的测试。除此之外,图1和图2示出了基于Corpus-2的余弦相似向量维度的100和200值的一些变音当图1中的“süt(milk)”和"s,ut(shot)”变音词与“hakem(referee)”和“bebek(baby)”词的余弦相似度进行评估时,“hakem”-“bebek”余弦相似度向量大小对于100为0.006,对于200为0。 另一方面,“hakem“-”,sut”相似性比率相对于“hakem”-“süt”相似性比率显著增加,并且向量大小对于100为0.308,对于200为0.31。此外,当比较“süt”-“bebek”和“hakem”-“süt”词之间的相似性时哈凯姆100bebek哈凯姆200bebek图1. 向量大小为100和200时,“süt(牛奶)”和“,s ut(射击)”变音词与“hakem(裁判)”和“bebek(婴儿)”词的余弦相似性。图2.向量大小为100和200的“göl(湖)”和“gol(目标)”变音词的“Van”和“futbol(足球)”的余弦相似性“süt”-“bebek”词中的余弦相似性在两个向量大小上都显著增加。类似地,如图2所示,当我们评估“göl(lake)”和“gol(goal)”变音词与“futbol(football)”和“Van”词之间的余弦相似度时这里的余弦相似性,取决于是否是土耳其此外,当我们看“futbol”单词的单词“göl”和“gol”的相似率时确定两个不同单词之间的向量相似性的方法与获得单词的向量表示同样重要。在使用表3所示的Skip-gram模型进行的测试中,使用余弦相似性获得了最高结果,并且使用略低于余弦相似性的Euclidean、Manhattan和Minkowski方法获得了相同的值。切比雪夫法所得结果最低.余弦相似性是向量相对于彼此的方向,而不是两个向量之间距离的大小值。因此,在我们的小的特别创建的数据集上,已经用余弦相似性获得表2Word2vec模型在不同语料库和向量大小下的性能(最佳结果以粗体显示)。表3DR评估结果与向量相似性方法。欧几里得93.20矢量大小系统准确度(%)100150200250300余弦94.80语料库-Spor28.725.323.723.021.1曼哈顿93.20语料库-185.288.091.487.185.8Minkowski93.20语料库-288.991.394.893.293.1Chebyshev92.401126Z. Ozer等人/工程科学与技术,国际期刊21(2018)1120此外,如果我们将我们的DR工具与其他工具进行比较,如表4所示,我们获得了最佳评分Skip-Gram模型,对于真实和临时创建的数据集分别为94.2%和94.8%。对于Skip-Gram模型,两组数据的平均性能均达到94.5%此外,在[7]和[18]中,工具实现了类似的结果,而Zemerek我们还测试了四种不同的模型,以确定是否是足够的语义评估只有一个相邻的字与恢复的字。通过这种方式,我们测试了在语义评估方面检查整个推文的必要性。在这个方向上,首先,我们使用变音词和它后面的第一个词应用CBOW和Skip-Gram模型,如表5所示,我们分别获得了85.7%和84.3%的CBOW结果,86.2%和85.9%的skip-gram结果,对于ad-hoc创建和真实数据集中的单个单词模态。这些结果与以前的研究结果相似。另一方面,当我们评估相关推文中所有其他单词之间的关系时,结果显着增加,CBOW分别达到94.1%和93.3%,Skip-Gram分别达到94.8%和94.2%。此外,我们对600多万字的测试结果表明,表6中示出了具有2个或更多个解决方案的略多于1M单词的大型自组织创建的数据集。非常接近表4DR评估结果与以前的工作。系统准确度(%)临时创建的小型数据集真实数据集阿达勒86.6082.00于雷88.3082.60曾贝雷克76.8075.30CBOW94.1093.30Skip-Gram94.8094.20表5DR评估结果与以前的工作。准确度(%)临时创建的小型数据集真实数据集CBOW185.7084.30CBOW全部94.1093.30Skip-Gram186.2085.90Skip-Gramall94.8094.20表6大型临时创建数据集的DR评估结果。错误计数错误率(%)曾贝雷克783,30713.04DL + Unigram788,01913.11DL + RB + Unigram734,13612.22DL + RB + Skip-Gram全部234,2463.90从由Zemerek、决策列表和unigram组成的DL + Unigram模型获得值另一方面,当添加基于规则的方法时,错误率降低了约0.9%至12.22%。此外,我们使用Skip-Gram所有模型进行的测试中的错误率显着降低到3.9%。最后,我们使用我们的流量数据集来测试所提出的DR工具对分类性能的有效性。使用SVM、Multino- mial NB和k-NN对流量数据集中的1500条推文进行了测试,其中1000条用于训练,500条用于测试。我们对每种方法进行5次交叉验证,并给出平均分数。为了查看分类性能,我们比较了通过使用DR工具恢复数据集获得的测试结果,直接使用它而无需恢复和手动恢复整个人类注释器。在所有三个测试中,我们将所有单词转换为小写,并使用一元语法和词级的二元组作为特征向量,用Tf-idf对它们进行加权。我们的DR工具正确地恢复了流量数据集中总共466个关键词中的447个,对应于95.9%。如表7所示,使用SVM获得了所有三个测试用例中的最佳结果。在人工和所提出的模型的恢复结果中,所有的分类方法都得到了非常接近的分数。另一方面,当使用DR工具恢复的数据集与未恢复的数据集相比时,SVM和Multinomial NB的分类性能提高了3.1%,而k-NN的1,3和5 k值分别为2.3%,2.4%和2.3%,分类性能提高。7. 结论在这篇文章中,我们提出了一个基于Word2vec的DR工具,用于解决社交媒体文本中经常遇到的DR问题我们已经测试了我们的系统,通过使用不同的参数,为了能够确定Word2vec参数的模型,我们首先提出。之后,我们用以前的作品在土耳其语单词上测试了所提出的DR模型,并且还用与恢复的单词相邻的单个单词进行了测试,以便在语义评估方面检查整个推文我们还使用我们的大型ad-hoc创建的数据集比较了Zemerek 2和我们建议的模型的性能我们在ad-hoc创建的和真实的数据集上获得了最好的结果,基于整个tweet的DL +RB + Skip-gram模型。另一方面,在基于一个词的评价中,我们得到了与文献中其他研究相似的结果。在Skip-Gram的整句模型中,与之前的研究相比,我们在数据集中实现了37.8%的相对错误减少,平均性能为94.5%。与Zemerek 2相比,我们还实现了9.14%的错误减少,在我们对600万单词的大型数据集测试中,错误率为3.9%。除此之外,我们还测试了一个与高速公路交通相关的二元分类问题 , 以 观 察 所 提 出 的 模 型 对 分 类 性 能 的 影 响 。 在 使 用 SVM 和Multinomial NB进行DR之后,表7公路交通数据集的分类结果。分类器无DR手动DRDR工具准确度(%)精密度(%)召回率(%)准确度(%)精密度(%)召回率(%)准确度(%)精密度(%)召回率(%)SVM87,286,491,890,390,892,690,390,792,7MNB84,784,189,587,888,890,387,888,890,31NN86,385,391,288,789,591,188,689,491,23NN85,485,289,787,988,690,587,888,590,45NN85,484,990,087,788,490,487,788,490,3Z. Ozer等人/工程科学与技术,国际期刊21(2018)11201127与非DR数据集相比,实现了3.1%的改善。在这项研究中,只有DR问题,这是经常遇到的SMMs,已被讨论,并获得的结果是有希望的,一个完整的规范化架构可能有积极的影响分类性能。此外,模型可以适应其他拼写错误,需要根据语义注释。然而,在我们提出的模型中,收集是相当前沿的。馆藏的发展将对系统的性能产生积极的影响。在此背景下,系统性能可以用Word2vec模型进行测试,该模型将在未来的工作中通过查找行中单词的词根来形成。引用[1] M. Hasan , 文 学 硕 士 奥 尔 贡 河 Schwitter , 使 用 TwitterNews+ Framework 从Twitter数据流中进行实时事件检测,Inf. 过程管理。(2018年)。[2] D. Vilares,M.A.阿隆索角Gómez-Rodríguez,多语言环境中的监督情感分析,Inf.Process。管理。53(3)(2017)595-607。[3] P. Giridhar,M.T. Amin,T. Abdelzaher,D. 王湖,加-地卡普兰,J.乔治,R.Ganti,Clarisense+:使用社交网络源的增强型流量异常解释服务,PervasiveMob。Comput. 33(2016)140-155。[4] X. Wang , M.S. Gerber , D.E. Brown , Automatic crime prediction usingeventsextractedfromtwitterposts , in : InternationalConferenceonSocialComputing,Behavioral-Cultural Modeling,and Prediction,Springer,Berlin,Heidelberg,2012,pp. 231- 238[5] M.A.Saloot , N. 伊 德 里 斯 河 Mahmud , AnarchitectureforMalayTweetnormalization,Inf. 过程管理。 50(5)(2014)621-633。[6] G. Eryi_xuai_t,D. I_.L.A.R. ATorunoetlu-Selamet,社交媒体文本规范化土耳其语,自然Lang. Eng. 23(6)(2017)835-875。[7] K. Adali,G. EryigZahit,社交媒体文本的元音和变音符号恢复,第五届社交媒体语言分析研讨会论文集(LASM),2014年,pp. 53比61[8] J. Hankamer,November).形态分析和词汇,在:词汇表示和过程,麻省理工学院出版社,1989年,页。 392- 408[9] R.Mihalcea,V.Nastase,Letterlevellearningforlanguageindependentdiacritics restoration , in : Proceedings of the 6th Conference onNaturalLanguageLearning-Volume,AssociationforComputationalLinguistics,2002,pp. 1-7号。[10] R.F. Mihalcea , Diacritics restoration : Learning fromletters versuslearningfrom words , in : International Conference on Intelligent TextProcessing andComputational Linguis
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功