没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报:基于深度学习的旁遮普语农民自杀情感分类研究
沙特国王大学学报使用深度学习分类Jaspreet Singha,Sunday,Gurvinder Singhb,Rajinder Singha,Prithvipal Singhaa计算机科学系,Guru Nanak Dev大学,阿姆利则143005旁遮普,印度bGuru Nanak Dev大学工程与技术学院计算机科学系,阿姆利则143005旁遮普,印度阿提奇莱因福奥文章历史记录:2018年1月19日收到2018年3月12日修订2018年4月4日接受在线提供2018年A B S T R A C T印度语言的形态学处理是自过去十年以来自然语言处理(NLP)时代最具发展潜力的领域之一。在文本挖掘和信息检索的时代,亚洲语言的评价是一个高度文本的形态学评价可以用于知识的提取和分类。本文融合了旁遮普语文本的形态评估和情感预测。旁遮普语的文本数据与印度旁遮普省报告的农民自杀案件有关。本研究的预处理阶段包括形态评估和规范化旁遮普语的话,以各自的规范形式。下一阶段对从早期阶段获得的精炼旁遮普语令牌进行深度神经网络模型的训练和测试。该模型将旁遮普令牌分为四个面向农民自杀案件量身定制的负面类。在10倍交叉验证后,四个类别的情感预测的平均准确率分别为93.85%,88.53%,83.3%和95.45%该框架在275个旁遮普语文本上取得了令人满意的结果,情感分类的总体准确率为90.29%。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍印度语言的数字内容正在迅速增长,这是由于语言模型的演变和互联网的可访问性。因此,在计算语言学中需要进行大量的研究工作,以按照本地语言使用来解决现实世界的问题本研究旨在评估和分析当地报纸上有关农民自杀的旁遮普语内容。在印度旁遮普邦,旁 遮 普 邦 农 民 自 杀 的 趋 势 正 在 惊 人 地 上 升 ( Jagbani 电 子 报 ;Chardikala新闻; Ajit周刊; Daily Pehredar; Doaba头条新闻; JanJagrati; Nawan Zamana; Punjabi Jagran; Punjabi Tribune;Punjab Times)。这项工作的动机来自Patiala的旁遮普大学,他们在那里调查了旁遮普的七个地区,并收集了农民自杀的情况。*通讯作者。电子邮件地址:profjaspreetbatth@gmail.com(J.Singh ),gurvinder.dcse@gndu. ac.in(G. Singh)。沙特国王大学负责同行审查制作和主办:Elsevier报告时间为2010年1月至2016年12月。他们收集了1309起农民和工人自杀的案例,以评估旁遮普农民这种可怕的痛苦问题背后的原因(印度教徒,2017)。我们从表12中提到的旁遮普在线新闻网站获得了2017年1月1日至2017年11月30日期间农民自杀案件的文本数据。本文在手稿的第二部分中列举了旁遮普语文本的四个形态特征。四种形态类型学被用来研究农民自杀报告,见第3节。论文第四用于量化旁遮普语句子和单词的文本。与旁遮普语文本评价相关的文献总结见第5节表11。手稿的第6第7节介绍了拟议方法的预处理阶段和数据收集方法。第8节介绍了拟议模型的框架,第9节介绍了结果和分析,第10节是结论性意见。2. 旁遮普语文本语言学的一个分支,研究单词和短语的构成以及单词之间的相互作用https://doi.org/10.1016/j.jksuci.2018.04.0031319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comJ. Singh等人/Journal of King Saud University509被称为形态学。语言形态特征的识别和处理是一些现实生活任务所必需的。本文运用旁遮普语文本的四个形态特征对印度旁遮普省农民自杀事件进行情感分析。2.1. 旁遮普语单词和标记旁遮普语中的单词由空格限定表3旁遮普语中的词素。S. 号Punjabi lingues对应的英语表达1自杀或自杀-ਜੀਵਨ ਲੀਲਾ ਸਮਾਪਤ ਕਰ ਲੈਣਾਫਾਹਾ ਲੈ ਲੈਣਾਜਹਹਰੀਲਾ ਪਦਾਰਥ ਪੀ ਕੇਸਲਫਾਸ ਖਾ ਲਈ2消极或紧张的状态就像英语中的单词一样。词是句子的最小单位,承载着语义信息。旁遮普语中的单词由标点符号和空格分隔,如ਸੂਦਖੋਰਾਂ ਵੱਲਂੋੋ ਦਬਾਅਆੜਤੀ ਦਾ ਪਰੇਸ਼ਾਨ ਕਰਨਾਬੈਕ ਦੀ ਨੀਲਾਮੀ ਦਾ ਡਰਜਮੀਨ ਦੀ ਕੁਰਕੀ负债心理英语单词(Liberman,2009)。以SIM卡为例下面的表1这里的第一个句子以单词“什么”(什么)开始英语中的疑问句。双字母短语如“自杀-自杀”(suicide)、“自杀的主要原因”(main reason)、“自杀的主要原因”(mental stress)等一起引入了复杂的词典结构,表4Punjabi文本中的变体。S. 号连接形式对应的英语术语Punjabi语言语言学术语的联想,如在英语中,“在农民自杀个案的情感分析任务2.2. 旁遮普语词素旁遮普语中的单词由空格和标点符号分隔,就像英语中的单词一样。除去后缀和前缀后得到的词的进一步规范形式称为词素。词素是承载语义信息的词根。下面的表2显示了从农民自杀数据集中使用的单词中提取的旁遮普语词素的例子。2.3. Punjabi Linges有时,短语和单词表示相同的语义,但具有不同的替代形式。一个词或一个短语的每一种形式都在句子中引入一个概念。这些具有交替形式的词被称为词素。农民自杀报告中使用的旁遮普语词汇见下表3表1旁遮普语的单词。1吸毒成瘾者2土地补偿3债务人债务人4作物歉收5绝望的人2.4. Punjabi Allomorphs同素异形是语素的替代形式。许多亚洲语言包含像英语一样的连接词组的缩写形式。有时,这些压缩形式被称为有序项组的一个词替换(Beesley和Karttunen,2003)。表4给出了旁遮普语异形词的五个例子以及从数据集中获得的等效英语术语。3. 农民自杀报告中使用的旁遮普语文本的形态类型学旁遮普语类型学研究与词及其词素有关的定性特征并对其进行分类。旁遮普语的类型学给出了词与其变体之间的定性关系,类似于S.号Punjabi句子取自数据集英语中的旁遮普语对应词英语。虽然旁遮普语中有许多类型学,但本文只考虑四种旁遮普语1、你知道吗?2表2旁遮普语中的lapes。旁遮普农民自杀的主要原因是什么农民自杀的主要原因是债务和债务引起的急性精神压力。,ਹਕਸਾਨਾ-,,ਕਾਰਨ,-,,,,,,,ਤਣਾਅ从农民自杀数据集中提取的类型学3.1. 分离/分析关联当一个句子中的一个词在不同的语境中带有多个变体时,我们就说它是孤立的,或者说它与其他概念有分析上的联系情感分析的任务在很大程度上取决于孤立或绑定的上下文条款与多个变体在不同的概念。表5揭示了一个旁遮普语词素英语等价词1债务管理系统ਕਰਜਾਈਕਰਜਈਕਰਜਦਾਰਕਰਜੇ表5Punjabi文本的类型学。旁遮普语句子英语等价孤立类型学2019年10月22日ਬੇਜਮੀਨੀਬੇਜਮੀਨੀਆਜਮੀਨਦਾਰਜਮੀਨਦਾਰੀਤਲਵਡੀ ਸਾਬੋ ਹਵੱਚ ਕਰਜੇ ਦੀ ਪੰਡਹੇਠ ਦੱਬੇ ਇੱਕ ਹੋਰ ਹਕਸਾਨ ਨਖੁਦਕੁਸ਼ੀ ਕਰ ਲਈ।Talwandi Saabo村的另一名农民因巨额债务而自杀。(债务)()-一个饲料510J. Singh等人/Journal of King Saud University¼ð Þ ¼Punjabi句子取自具有孤立类型学的数据集(示例词3.2. 合成语素旁遮普语包含合成语素,而不是类似于英语的一个词替换。合成短语不是语言中常用的标准短语;它们的用法可能因主题和上下文而异。下面的表6列出了语言术语及其合成变体和等效英语术语的几个示例。3.3. 黏着语素黏着语素是指在报道中某一特定位置上具有单一使用功能的语言短语。旁遮普语在报道某些事件时就有这一特点。通过对农民自杀报告的深入调查发现,农民自杀报告中存在大量的粘着本族词素. 表7给出了一个从数据集中提取的旁遮普语句子的例子,这里提到了该报告的英语等价物及其3.4. 连接语素4. 旁遮普语文本任何自然语言中的单词、短语和句子都是用来以有序的方式表达思想、观点和情感的。任何语言最直观的单位都是词,通过词来定义短语和语言表达。在形态学处理和情感分析过程的特征提取阶段,需要量化与单词相关的形态学特征(Nidhi和Gupta,2012 a; Jain和Saini,2015)。本研究考虑了旁遮普语文本的四个统计特征,即句子长度(SL),旁遮普语词频-逆句频(TF-ISF),旁遮普语名词,通用旁遮普语-英语名词特征(CPEN)。4.1. 句子长度(SL)SL被定义为任意选取的句子中的单词数量与最长句子中的单词数量的比率,如等式(1)所示。据观察,从农民自杀报告文本涉及较长的句子比正常的小说和文本书籍的旁遮普语写作的句子。刑期较长的原因是,以肯定为导向的农民自杀报告在同一句话中提到了精神压力和情况的原因,从而使刑期变长。连接词素彼此之间形成连续的顺序,从而产生有意义的短语。旁遮普语包含简单术语的连接,以使语义上正确的连接词素类似于英语,如下表8所示(Munro和Manning,2010)。SL编号 句子中的单词数量 最长句子其中0SL 1<<4.2. 词频-逆句频ð1Þ表6旁遮普语文本中合成语素的一个例子旁遮普语的语言表达合成语素英语对等词金融危机连续自杀ਕੀਟਨਾਸ਼ਕ ਪੀ ਕੇ ਹਜੰਦਗੀ ਸਮਾਪਤ ਕਰ ਲਈ第1004章自杀一个词在文档中的重要性取决于它在句子中的出现频率。术语频率在等式中定义为TF(w,s)。(二)、TFw;sd0w0出现在ce0s02中的次数整个语料库对单词“w”的重要性的评估ISF(w)在等式中给出。(三)、表7旁遮普语中的一个黏着语素例子。ISF wlogjSjS.F.W.ð3Þ旁遮普语文本来自www.jagbani.com英语中与之对应的黏着词素语料库中的句子总数表示为|S|,其中SF(w)确定在哪个单词中的句子的数量ਗੁਰਦਾਸਪੁਰ ਦੇ ਹਪੰਡ ਅਲਾਵਲਪੁਰ ਦਹਕਸਾਨ ਰੇਸ਼ਮ ਹਸ()ਵੱਲੋ ਕਰਜਤੋ ਪਰੇਸ਼ਾਨ ਹੋ ਕੇ ਖੁਦਕੁਸ਼ੀ ਕਰਨ ਦਾਸਮਾਚਾਰ ਪ੍ਹਪਤ ਹੋਇਆ ਹੈ। ਸੂਤਰਾਂਅਨੁਸਾਰ ਹਮਲੀ ਜਾਣਕਾਰੀ ਮੁਤਾਬਕਹਕਸਾਨ ਦੇ ਹਸਰ ਹਤਨ ਲੱਖ ਦਾ ਕਰਜਾਸੀ,ਹਜਸ ਦੇ ਚਲਹਦਆਂ ਉਹ ਮਾਨਹਸਕਤੌਰ ਤਂੋੋ ਪਰੇਸ਼ਾਨ ਰਹਹਦਾ ਸੀ।表8来自Gurdaspur区Alawalpur村的一位名叫Resham Singh(30岁)的农民因债务抽搐而自杀。据消息人士称,这位农民欠了3万卢比的债务,因此他精神上感到不安。()-据消息来源()-精神上(Mindly)-由于出现“w”。TF-ISF特征突出等式(4)中给出的语料库的句子内的单词的重要性。TFISF(英语:TFISF)4.3. 旁遮普语名词名词是语言中的重要词,它承载着句子所指向的语境的主观信息在预处理阶段,在农民自杀数据集的形态学处理过程中识别了15,445个旁遮普语名词。旁遮普语文本中的一个连接词素例子实验《易经》中的易经与易经的关系来自新闻报道的旁遮普语文本英语连接词素的对等词英语等价术语见下表9。ਆਰਹਥਕ ਤੰਗੀ ਅਤੇ ਹਚੱਟੀ ਮੱਖੀ ਕਾਰਨਤਬਾਹ ਹੋਈ ਨਰਮੇ ਦੀ ਫਸਲ ਕਾਰਨਗਰੀਬ ਹਕਸਾਨ ਵੱਲੋ ਹਜਹਰੀਲਾਪਦਾਰਥ ਪੀਣ ਦਾ ਸਮਾਚਾਰ ਪ੍ਾਪਤਹੋਇਆ ਹੈ।财政困难和棉花作物歉收,由于攻击的白色蜜蜂,新闻的一个贫穷的农民喝毒药已经收到。(毒药)-毒药(毒药)-白蜂(白蜂)-金融危机4.4. 常见旁遮普语-英语名词(CPEN)旁遮普语的现代化在过去的几十年里见证了英语名词在旁遮普语中的使用在农民自杀数据集的预处理阶段,说旁遮普语的人使用的一些名词在发音上与J. Singh等人/Journal of King Saud University511表9Punjabi Nouns取自Farmer Suicide Datasets。旁遮普语名词对等英语翻译债务管理第1004章自杀税务代理人吊绳系列投资者关系毒药,毒药Darwish,2013; Eshrag Refaee,2014)。另一个旁遮普语特有的挑战与本体有关,其中旁遮普语文本到其各自类别的形态映射是复杂的NP难题(Nidhi和Gupta,2012 b; Kaur和Sharma,2016)。旁遮普语文本处理的关键问题是资源的可用性,如旁遮普语语料库、软件库和旁遮普语识别工具(Kaur等人,2010; Gupta和Lehal,2011;Nidhi和Gupta,2012 a; Gupta,2013)。有184个旁遮普语停用词介绍ਹਪਪਡੋੰ乡村负担/压力(Kaur和Saini,2016)用于拟议工作的预处理阶段。除了旁遮普的具体问题,还有Insecticide自杀自杀表10从农民自杀数据集获得的CPENPunjabi Noun(CPEN)英语新闻中心中国银行贾朗达尔联系我们电子邮件:info@mart.com收割者收割者电动叉车拉克联系我们产品介绍英语名词下表10列出了数据集中5. 相关工作词法处理和情感分析是计算语言学中低资源亚洲语言的新兴研究领域。旁遮普语是一种低资源的亚洲语言,在过去十年中对其进行的形态学评估工作非常有限。迄今为止形态学评价的研究结果总结见下表11。6. 挑战旁遮普语中涉及的形态处理和情感分析问题旁遮普语文本的情感分析和形态学处理的主要目的是实现高精度的分类。实现高精度存在某些问题和挑战(Hamdi等人,2016; Ahmed等人,2013年),分为两大方面,即旁遮普语的具体挑战和一般语言问题。这项研究面临着旁遮普语的具体挑战,同时在预处理阶段实施形态处理。在情感分析阶段,一般的语言学问题更加突出.旁遮普语的复杂性是从其复杂的形态结构中发现的,从词根复杂性和句子的多样性中观察到的(Kaur,2017)。旁遮普语在旁遮普的五个相邻邦使用,因此有许多方言版本。最突出的方言有三种,即Maa- jhi(在阿姆利则,Gurdaspur 和 Tarn-Taran 地 区 使 用 ) , Malwai ( Mallinda ,Patiala,Firozpur和Moga)和Doabi(Jaland- har,Hoshiarpur和Nakodar)(Kaur等人,2017年)。旁遮普语诗歌观察在数据集收集和预处理阶段的这项研究。旁遮普语诗歌带来了有序的短语和单词排列,这些短语和单词通常适用于旁遮普社会和文化方面的讽刺(Kaur和Saini,2017; Mourad和一些一般的语言学问题,这是造成文本分类准确率低的原因。垃圾邮件和讽刺是(Liu,2012)针对阿拉伯语发现的情感分类中的一般语言问题。领域特异性决定了作者在(Varghese和Jayasree,2013)中观察到的文本情感。农民自杀数据集的处理演化了领域依赖的概念。有时,由于旁遮普语短语的客观性质,无法确定文本的隐含情感(Abdul-Mageed等人,2011;Abdul-Mageed and Diab,2012).例如:”这个句子没有情绪,但我们提出的系统将其归类为否定类C1,因为存在“情绪化的句子”和“情绪化的句子”(Arora和Kaur,2015; Kaur和Kaur,2015)。报告中的消极程度总是模糊的。例如:“”-“。这里,术语“贷款”和“利息”没有量化为数学数字,从而使其在本质上模糊(Wang等人,2015年)。下面的图1显示了与旁遮普语文本分类相关的关键挑战和问题的摘要。7. 数据收集和预处理从 Web 原 始 文 本 数 据 中 抽 取 有 意 义 的 文 本 Kaggle ( KaggleDatasets ) 和 UCI 机 器 学 习 库 ( UCIMachineLearningRepository)等真实来源提供的大部分数据集都有英文版本。此外,在这些网站上很难找到与印度旁遮普邦等特定地区相关的数据集 我们利用了当地报纸的认证网站,如Jagbani,Ajitweekly,PunjabiJagran,Punjabi Tribune,Nawan Zamana,Pehredar和PunjabTimes。由于本研究关注的是农民自杀事件的情感分析,因此,"自杀“、”土地危机“、”贷款危机“、”金融危机“等术语在本研究中被广泛使用。用于提取与农民自杀案件有关的旁遮普语文本旁遮普语版本的自杀报告及其报告发布日期均可用;因此,我们将这些文件按月细分为11个文本文件(2017年1月至11月)。数据集的数据收集和统计描述详情分别见表12和表13。从各种在线网络来源获得的旁遮普语文本是字体样式和字体大小不同因此,我们遵循所有字体样式到Asses(旁遮 普 字 体 ) 的 系 统 转 换 , 以 实 现 统 一 性 ( 使 用www.punjabiconverter.com),并最终实现Unicode(旁遮普转换器)转换如图所示。下面2个。包含旁遮普语文本的11个Unicode文件已经通过了停用词删除阶段和标点符号删除阶段。一般认为,停用词和标点符号并不携带任何重要信息,影响文件的整体发送。从标准化旁遮普语词素中提取的词素已经被识别,随后是来自前面讨论的三种旁遮普语方言的方言词识别(Kaur等人, 2017年)。 Malwai和Doabi的方言,如“中心”、“兴趣”和"兄弟“等,分别被其标准的Maajhi语对应词如"中心”、“兴趣”和"兄弟“取代。一套精致的旁遮普语单词512J. Singh等人/Journal of King Saud University表11Punjabi文本处理的最新文章摘要作者(出版年份)描述方法/算法数据集性能Kaur等人(2017年)Kaur(2017)三种旁遮普方言的研究,即。Majhi、Maalvi和Doabi(Kaur等人,(2017年)执行光学特性基于规则词法分析器的旁遮普方言转换系统图像采集、识别和开发了9本词典,包含约6000个方言单词,并验证了从小说和文章中提取的11,000多个旁遮普语单词。旁遮普语文本Majhi的准确率为96.58%,Maalvi为96.48%,Doabi取得令人满意的结果,旁遮普语Gurmukhi分类算法使用都是从旁遮普语旁遮普语分类Kaur和Saini短信了(Kaur,2017)旁遮普诗歌Matlab对10个模型进行了训练和测试作家手工获得240旁遮普语字符.50.63%的准确度使用(2017年)旁遮普语分为四类用于诗歌分类,通过www.punjabi的诗歌-超管道,kNN为52.92%,Sahani等人(2016年)电影HanumanthappaandNarayanaSwamy(2016)Kaur &Saini(2016)Hentschel和Eugene(2015)Kaur&Sharma(2016)Salesky 和 Shen(2014)诗歌(Kaur和Saini,2017)用于一般文本文档和新闻文档的马拉地语文本分类(Sahani等人,印度语言文档的文本分类和关键字提取(Hanumanthappa和NarayanaSwamy,2016)关于旁遮普语停用词的报告(Kaur和Saini,2016)Punjabi语言文本,音频和视频数据在线众包(Hentschel和Pennsylvania,2015)Punjabi领域本体论开发的基于自动图的系统(Kaur和Sharma,2016)评估四种语言,即英语,达里语,普什图语和阿拉伯语的词法和语法(Salesky和Shen,2014)机器学习算法提出了一种用于聚类标签归纳和聚类内容发现的针对印度语言的KNN、NB、C4.5(J48)机器学习算法使用传统方法中的语言学方法提议建立一个网站,其中载有群众来源的旁遮普语内容建议系统生成领域本体的旁遮普语文本。使用SVM和Margin InfusedRelaxed算法kavita.com,www.punjabizm.com,网址:www.punjabimaaboli.com24个一般类别文档和33个新闻文档是从在线网络源手动收集的卡纳达语、泰米尔语和泰卢固语文档(各100个)是从网络源手动获得的旁遮普语文献取自旁遮普语的文章、新闻、小说和书籍。最初的档案包括旁遮普语文本和视频,通过采访来自不同学科的8名旁遮普语发言者获得。旁遮普语文档(1000个)涉及农业,健康,娱乐,政治和体育是手动从Web上获得的。1390份文件来自DLIFLC(国防语言学院外语中心)NB为52.75%,SVM为58.79%对一般文档的Rand测度为95.83%,对新闻文档的Rand测度为93.93%,使用kNN的准确率为93%,使用J48的准确率为97.33%,使用NB的准确率为手动获得系统在旁遮普含量积累方面表现显著。在旁遮普语文件的正确分类方面取得了重大成果普什图语Gupta(2013)自动标准化NLP应用程序的旁遮普语单词(Gupta,2013)基于规则的旁遮普语名词50篇旁遮普语新闻文章是从在线新闻来源手动收集的。旁 遮 普 语 名 词 的 显 著 规 范化,拼写变化为1.562%Nidhi和Gupta(2012年a)Nidhi和Gupta(2012年b)Gupta和Lehal(2011))将旁遮普语文本分类为预定义的8类(Nidhi和Gupta,2012 a)基于领域本体和混合技术的旁遮普语文本分类使用特征选择和权重学习的旁遮普语文本摘要(Gupta和Lehal,2011)提出了一种基于本体的分类算法提出了一种基于本体和混合方法的预处理算法,训练和测试了机器学习算法进行分类使用回归方法估计文本特征及其从Web源获得150个旁遮普语文本文档,www.likhari.org,www.jagbani.com访问以下网址:www.ajitweekly.com等。180旁遮普语新闻文章的语料库是从在线网络资源中提取的。50个旁遮普语文本文件取自在线旁遮普语新闻网站在正确分类基于本体和混合的分类准确率为85%,基于质心的分类准确率为71%,朴素贝叶斯分类准确率为64%Kaur等人(2010年)Punjabi Synset和旁遮普语WordNet关系的句法评估(Kaur等人,(2010年)基于传统自然语言处理技术的语义关系印地语的同义词集(35000个)被用来评估旁遮普语的同义词集旁遮普语中的重要概念识别Kaumar和Goyal(2010)02The Dog( 2009)使用印地语-旁遮普语平行语料库开发了印地语-旁遮普语机器翻译系统(Kaumar和Goyal,2010)使用旁遮普语文本的形态处理将旁遮普语开发为通用语言网络(UNL)使用NLP技术的采用基于规则的转换算法设计转换器从网络来源获得50 k句子:http://h2plearnpunjabi.org旁遮普语句子从书籍,小说和旁遮普语文章被用来定义形态规则建议的系统被发现在翻译方面准确率为94.5%拟议的系统在转换令牌被收集在一个输出文本文件中,如图所示。下文第3段(Šilic等人, 2007年)。8. 旁遮普语文本使用Python 3.6加载器函数的NLTK(自然语言工具包)UTF-16编码Punjabi文本的解码版本在Python的shell中加载回其原始形式。旁遮普语单词标记的类分配是手动完成的,最初的在表13中设计了四个类及其各自的情感得分(Hrala和Kral,2013)。四个特征(在第4节中讨论),即SL、TFISF、Punjabi Nouns和CPEN是从标记的Punjabi token中提取的矢量化一词J. Singh等人/Journal of King Saud University513SLSrii1图1.一、形态处理和情感分析中的挑战和问题表12农民自杀数据库Python 3.6 Relu和sigmoid激活Sr.没有月(2017)农民自杀案件数量来源在深度神经网络模型的训练期间使用函数。前十次连续运行和测试向量适合于DNN模型的验证,然后是10倍交叉验证1十一月25Jagbani(Jagbani E-Newspaper),Ajit-情绪预测。 图下面的4显示了10月21日星期二9月3日星期三8月4日星期四7月21日星期五6月23日星期六5月7日星期五4月31日星期三3月9日星期三2月10日星期四1月11日星期一表13周刊(Ajit Weekly)、Rojana Spokes-man(Rojana发言人)、PunjabiJagran(Punjabi Jagran)、PunjabKesri(Jagbani电子报纸)、PunjabiTri- bune(Punjabi Tribune)、Chardikala News(ChardikalaNews)、Nawan Zamana(NawanZamana)、Pehredar(DailyPehredar)、Jan Jagrati(JanJagrati)、Doaba Headlines(DoabaHeadlines)和Punjab Times(PunjabTimes)旁遮普省农民自杀案件的情感分类模型该模型使用递归神经网络训练DNN,以研究旁遮普语文本进行情感预测。output.txt文件中的文本以80:20的比例分为两个子集。前者用于DNN的训练,后者用于分类的测试。在训练子集中的旁遮普语文本的标记是使用人力资源手动完成的,而测试集保持未标记。传统的NLTK的功能被用来提取四个特征,即SL,TFISF,旁遮普语名词和CPEN。旁遮普语的句子由“|字符和旁 遮普 语的 单词 像英 语单 词一 样被 “ 空间”字符限制。从数据集获取的特征统计信息。特征数量实例这些单词令牌被馈送到序列中的建议DNN模型w1;w2;w3............................wn.该模型的输出产生带有各自情感类的旁遮普语句子。形态特征旁遮普代币52181209年等式(5)和(6)分别表示单词wias cwl 而右上下文由C.词素1812同形异形体198cwl¼Wl cwl我we我ð5Þ形态类型学分离/分析关联154i i-1i-1合成语素71凝聚语素238cwrwrwe第一章1ð6Þ连接词素413Punjabi单词标记的生成是通过CBOW(连续词袋)方法完成的,然后使用sklearn,tensorflow将初始权重和情感得分分配给单词向量这里,ewi-1和ewi1分别是目标词wi的第一左侧和第一右侧的词的词向量上下文隐藏层到下一隐藏层的映射由Wl表示。和Wr。Wsl和Wsr分别给出了目标词上下文与目标词左右两边词的语义矩阵映射。 扫描字514J. Singh等人/Journal of King Saud University我324443n我e我K我我我我我我图二. 旁遮普语文本收集的步骤。这种激活在DNN的输入层中的每个神经元上执行,如等式10所示。(9)下面。在这里,krykr2表示语义向量,max. 池化层从中提取最大阿夫里 1/4最大值其中16i6n9最后,等式(10)给出了通过max.池化层ðy Þ¼ ðW Þ ðy Þþ ðbÞ ð10Þ输出层语义向量的验证DNN的计算是使用等式中给出的softmax分类器完成的(十一)、Pj¼ 埃吉吉X-2004年k¼1ð11Þ这里Pj给出了词向量属于jth文本类其中16j64图三.建议模型的数据预处理阶段。从左到右的向量由此计算所有的c_w_l0 ,而反向传递计算所有的c_w_r0。DNN为公式中给出的单词wi的单词嵌入向量xi(7)下面。x9. 结果和分析旁遮普农民自杀的话题本身就代表了情感极性中的消极性因此,为了对农民自杀案例进行分类,设计了四个负向类别消极的极性从C1类增加到C4类,情绪得分分别从0到1。通过对农民自杀案例的深入调查,发现了自杀背后的七个社会经济因素,即:贷款压力、女儿的描述四个类别的情况见下表14此外,DNN利用的激活函数(在等式(8)中给出)是双曲正切函数tanh,其构成上下文向量和权重矩阵的线性组合以及下一隐藏层中的偏置这是2.25泰铢。W2017年1月1日至2017年11月30日期间农民年龄与报告自杀的农民人数之间的关系见表15。51至60岁年龄组自杀人数最多,这反映了青年农民的社会经济状况。两个更突出的因素,即。贷款压力和女儿的婚姻年龄组别的自杀个案中,4J. Singh等人/Journal of King Saud University515见图4。拟议系统的架构。表14四类农民自杀案例(F1:贷款偿还,F2:女儿结婚,F3:作物歉收,F4:吸毒,F5:土地抵押,F6:失业,F7:赌博)。从51岁到60岁另一方面,71至80岁及81岁以上的长者自杀个案则很少。表16列出了农民自杀案件的按月分类。平均每月约有25宗自杀个案,农民自杀课堂情绪评分描述(英文版)描述(旁遮普语)C1类自杀案例数量最多,这表明农民的主要压力来源是贷款C1 0.00C2 0.26-0.50F1 + F2双金属复合材料C3 0.51-0.75F1 + F2 + F3 +F4无菌灌装、无菌灌装、无菌灌装和经济困难。自杀人数高于平均水平是在四月和九月发现虽然,几乎没有任何工作提供旁遮普语文本C4 0.76F5 + F6 + F7表15,ਧੀ ਦਾ ਹਵਆਹ,ਫਸਲ ਅਤੇ ਨਸ਼ਾ,,ਬੇਰੋਜਗਾਰੀ ਅਤੇ ਜੂਆ।虽然对农民自杀这样的社会问题进行分类是不可能的,但是,一些研究人员已经针对不同的基准对印度语言进行了分类和分类,如下表17所示通过比较所提出的模型,旁遮普报纸报道的自杀案件。农民年龄50岁以下自杀个案数目第五章. 51第61第7181岁以上用于基准测试中文本分类的精度和技术表18显示了使用所提出的方法处理的旁遮普语句子的两个示例。这里第一句话是分类的由于存在单词“贷款"(Loan),第二句被归类为C1类 , 而 由 于 存 在 单 词 ” 女 儿的 婚 姻 “ ( D a u g h t e r ' sM a r r i a g e ) 和 ” 毒 品“ ( D r u g ) , 第 二 句 被 归 类 为 C 3 类成瘾)。516J. Singh等人/Journal of King Saud University表16农民自杀案例的按月分类矩阵,其中T表示类中的案例总数,C表示通过所提出的框架正确分类的案例数量。Unicode预处理数据集文件C1类类别C2C3类C4级不C不C不C不C2017年1月1日13117733222017年2月2日11118742112017年3月3日15146677332017年4月4日19157433222017年5月5日13139832212017年6月6日11107643112017年7月7日11106633112017年8月8日14143343332017年9月9日1615223322D10_Oct_20171212652211D11_Nov_20171515752111表17用现有基准验证拟议模型文本分类的准确性使用的技术从2017年1月1日至2017年11月30日在旁遮普省提取了275例自杀病例,并根据农民的年龄对病例进行了分类,如表15所示。分类后发现,51-60岁年龄组的农民Punjabi PoetryclassificationbyKaur andSaini(2017)Marathi文本分类由Sahani等人。(2016年)Hanumanthappa和NarayanaSwamy的印度语言文本Nidhi和Gupta基于域的旁遮普语文本分类(2012b)建议使用DNN分类器对旁遮普语文本进行形态处理和情感NB为52.75%,SVM为58.79%,KNN94.一般类文档的Rand测度为83%,新闻类文档为93.93%93%的文本分类总体平均准确率基于本体和混合方法的准确率均为85%,基于质心的准确率为71%,NB最高精度达到95.45%朴素贝叶斯、支持向量机和K-近邻马拉地语C4.5、NB和KNN基于本体的混合方法,基于质心的文本分类,以及用于学习的深度神经网络和形态学旁遮普语文本分类在自杀人数方面,71-80岁和81岁以上年龄组的自杀人数很少。此外,分类发现,大多数自杀案件属于前两类。通过该框架连续10个时期后观察到的平均分类准确率为90.29%,参数SL和TFISF的平均值分别为0.89和3.82这些平均值高于SL和TFISF的正常旁遮普语文本的书籍,小说和文章的值这一结果推断,旁遮普农民的痛苦背后的主要原因是贷款的压力和女儿的婚姻。这两个因素相互交织,代表了旁遮普农民的社会经济地位。因此,这是一个普通人的共同责任,宗教团体和旁遮普政府硬币适当的措施,以减少旁遮普农民的自杀倾向。这项研究工作的未来范围是调查更复杂的特征,即文化、个人、宗教和地质的重要性,并扩展对旁遮普农民痛苦背后更多原因的评估。此外,这项研究没有考虑到语法错误,这是经常出现在报告旁遮普语文本。这项工作的扩展版本将考虑到语法错误。表18使用建议的框架处理的分类示例。旁遮普语文本情感示例评分自杀课堂引用(未注明)。摘自旁遮普语转换器:www.punjabiconverter.com(未注明)。检索自UCI机器学习存储库:https://archive.ics.uci.edu/ml/index.php(未注明)。检索自Kaggle数据集:https://www.kaggle.com但是,如果你不想让你的朋友们知道你的名字,你就不能让他们知道你的名字,你就不能让他们知道你的名字。੫ ਲੱਖਰੁਪਏ ਦਾ ਕਰਜਾ ਸੀ ਤੇ ਉਸ ਕੋਲ ਹਸਰਫ ੪ ਹਕੱਲੇ ਜਮੀਨ ਸੀ।ਤਲਵੰਡੀ ਸਾਬੋ ਹਵਚ ਕਰਜੇ ਦੇ ਬੋਝ ਹੇਠ ਦੱਬੇ ਇਕ ਹੋਰ ਹਕਸਾਨ ਨੇ ਖੁਦਕੁਸ਼ੀ ਕਰਲਈ। ਹਪਡ ਜੱਗਾ ਰਾਮ ਤੀਰਥ ਦੇ ਹਨਰਭੈ ਹਸਘ ਨੇ ਫਾਹਾ ਲਾ ਕੇ ਮੌਤ ਨੂੰਗਲੇ ਲਾ ਹਲਆ। ਘੱਟਨਾ ਰਾਤ ੧੧ ਵਜੇ ਦੇ ਕਰੀਬ ਦੀ ਹੈ।ਦਹਸਆ ਜਾ ਹਰਹਾਹੈ ਹਕ ਹਕਸਾਨ ਦੇ ਹਸਰ ਕਰੀਬ ੧੨ ਲੱਖ ਦਾ ਕਰਜਾ ਸੀ। ਹਕਸਾਨ ਦੀਆਂ ਦੋਧੀਆ ਤੇ ਇਕ ਪੱੋੁਤਰ ਸੀ। ਇਕ ਧੀ ਦਾ ਹਵਆਹ ਕਰਜਾ ਚੁੱਕ ਕੇ ਕੀਤਾ ਸੀਅਤੇ ਪੱੋੁਤਰ ਨਹਸ਼ਆਂ ਦੀ ਬਹਹਣੀ ਬਹਹ ਹਗਆ ਸੀ।10. 结论0.23 C10.69 C3(未注明)。摘自Ajit Weekly:http://www.ajitjalandhar.com/(未注明)。摘自Rojana发言人:https://rozanaspokesman.com/(n.d.)。摘自Punjabi Jagran:http://punjabi.jagran.com/(未注明)。摘自Punjabi Tribune:http://punjabitribuneonline.com/(n.d.)。检索自Chardikala新闻:http://charhdikala.com/(未注明)。检索自Nawan Zamana:http://nawanzamana.in/(未注明)。摘自Daily Pehredar:http://www.dailypehredar.com/(n.d.)。摘自Jan Jagrati:http://www.dailyjanjagriti.com/(未注明)。检索自Doaba标题:htt
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AirKiss技术详解:无线传递信息与智能家居连接
- Hibernate主键生成策略详解
- 操作系统实验:位示图法管理磁盘空闲空间
- JSON详解:数据交换的主流格式
- Win7安装Ubuntu双系统详细指南
- FPGA内部结构与工作原理探索
- 信用评分模型解析:WOE、IV与ROC
- 使用LVS+Keepalived构建高可用负载均衡集群
- 微信小程序驱动餐饮与服装业创新转型:便捷管理与低成本优势
- 机器学习入门指南:从基础到进阶
- 解决Win7 IIS配置错误500.22与0x80070032
- SQL-DFS:优化HDFS小文件存储的解决方案
- Hadoop、Hbase、Spark环境部署与主机配置详解
- Kisso:加密会话Cookie实现的单点登录SSO
- OpenCV读取与拼接多幅图像教程
- QT实战:轻松生成与解析JSON数据
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功