没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报信德语文本语料库Mazhar Ali Dootioa,b,Asim Imdad Waganca巴基斯坦信德省卡拉奇Shaheed Zulifqar Ali Bhutto科学技术学院巴基斯坦信德省卡拉奇市利亚里贝娜齐尔·布托·沙希德大学cMohammad Ali Jinnah University卡拉奇,信德,巴基斯坦阿提奇莱因福奥文章历史记录:2018年11月3日收到2019年1月22日修订2019年2月3日接受在线提供2019年关键词:文本语料库自然语言处理信德DTMTF-IDFA B S T R A C T信德语是一种丰富的语言,有大量的文学和一般文本。有大量的书籍,报纸,杂志和互联网材料可用于开发信德语文本语料库,但尚未开发出合适的和有用的文本语料库,并在网上提供研究,语言特征分析,语言学分析和信息检索系统。计算语言学研究和信德语自然语言处理应用的资源缺乏是现阶段的挑战性任务然而,我们已经开发了Sindhi文本语料库,以便为计算语言学家,自然语言处理(NLP)专家和研究人员提供文本资源。利用在线书籍、报纸、杂志、博客和社交网站来构建信德语文本语料库。本文利用n-gram模型中的2-gram技术,利用文档词项矩阵和TF-IDF模型开发了基于信德语情感的文本语料库,并对语料库进行了分析。该语料库可用于语言变异分析、情感分析、基于方面的情感分析、语义分析、机器翻译、信息检索、Word2Vec、主题建模和聚类分析等研究。©2019作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍语言是从一组符号中衍生出来的,这些符号可以用于书面或口头语言。它是人类社会进行交流和商业交易的基础和人们通过他们的语言分享他们的思想,价值观和资源。博士说Alana(2010)认为,语言和人类的其他问题一样,都是一个语言的过程和问题,从人类诞生到生命终结,一直伴随着人类。语言学的发展使之更加完善和科学。语言学不仅仅是一门语法学,而是一门语言的科学,它使人们能够获得语言的特征,提高交际能力,并为人们提供对语言的多个方面和功能的深入学习计算语言学解决和关注人类语言问题,理论问题,*通讯作者。电子邮件地址:mazharaliabro@gmail.com,mazharaliabro@bbsul.edu.pk(硕士)Dootio)。沙特国王大学负责同行审查制作和主办:Elsevier语言的认知问题和实际问题使用不同的计算应用程序,因此,计算语言学过程工作的理论和应用组件的语言。由于自然语言处理和计算语言学的发展,世界上不同的社区和民族可以很容易地理解彼此的语言。因此;由于计算语言学和自然语言过程的发展和研究工作,在机器翻译、信息检索、文本分析、文本分割、句法分析等方面取得了最新进展。这些发展和研究工作是对世界上资源较少的语言(如信德语)进行技术改造的动力。现在,信德语的研究工作正在进行中(Dootio和Wagan,2019;Ali和Wagan,2017; Jumani等人,2018; Shah等人,2018; AliandWagan,2019; Dootio and Wagan,2018)来评估和分析其语言学问题。本研究是目前致力于发展信德语文本语料库的动机的一部分。1.1. 文本语料库任何语言的语料库都可能是一种语言的重要组成部分,人们正在对其进行研究,因为语言的实际研究可以使用该语言的语料库进行。语料库是为进行语言学分析而建立的书面语篇的https://doi.org/10.1016/j.jksuci.2019.02.0021319-1578/©2019作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM.A. Dootio,AI.Wagan/ Journal of King Saud University469(Kennedy,2014)。因此,它是为词典编纂者、语法学家和其他感兴趣的人提供很好的语言解释的重要数据。对语料库的分析,提供了词法、句法分析、词汇结构、语义、语用等语言学成分的信息.语言语料库可以是书面的或口语的,开放的或封闭的。 封闭语料库是特定的、有约束力的,而开放语料库是不特定的、不受主题约束的。然而,语料库可用于用于信息检索、机器翻译、模式识别、语音识别、文本到语音和语音到文本的识别和合成、特征提取和分析、向量化、词到向量分析、词典开发、saurus和WordNet开发、词标记化、文本标记、文本解析、形态分析、机器学习过程、分类、聚类分析等。在信德语文本语料库方面的研究还不多见,而在信德语的信息检索、句法分析、情感分析和机器翻译方面的研究更是少之又少。本研究开发了信德语文本语料库,并提取了信德语的特征和变体。DTM和TF-IDF模型被用来发现信德语的术语和特征2. 相关工作多语言国家善于理解和说多种语言,而计算机很难理解各种自然语言。统一代码解决了语言的问题,使它们为计算机系统所熟悉正确的Cristina Bosco论述了文本语料库的发展过程,认为文本语料库的发展分为收集、注释和分析三个阶段。注释的语料库适合于情感的分类(Bosco等人, 2013年)。S Sharoff定义了语料库开发和分析的四个步骤,即数据收集、基本语料库清理、语言处理和语料库评估(Schäfer and Bildhauer,2013)。语料库可以是主题方面的和极性方面的。Amitava Das和et.al讨论了从文档中提取相关信息的主题或极性语料库(Das et al.,2012年)。SS Agrawal和et.al对多语言语料库进行了研究,以了解语言的复杂性和区别。 他们解释了尼泊尔语比印地语和旁遮普语更复杂的结果(Agrawal等人, 2014年)。 Baseer等人(2016)进行了乌尔都语脚本语料库开发和分析的研究,因此,他们使用K-means机器学习方法训练机器进行聚类分析,并取得了良好的效果。这些调查显示了语料库在语言模式与发展。信德语是一种形态和语法丰富而复杂的语言,因此,开发一个文本语料库并分析其内容,从根本上解决信德语的计算语言学问题。右书面语的结构在某些层面上是相同的,但在语音、词汇结构、形态结构、语法等方面存在差异,因此,研究工作和一些语言学工具在某些层面上可能是相互有益的,但并不是完全有用的。阿拉纳(2010)标记信德语的形态丰富和复杂的语言,因为它是使用所有形式的形态,包括重叠词和复合动词在其文本。因此,本研究使用2-gram模型开发了DTM和TF-IDF模型来识别信德语文本语料中的复杂词和复合词。Motlani(2016)认为信德语是技术资源贫乏的语言,因为在信德语的技术发展方面所做的工作很少。尽管如此,从计算语言学的角度对信德语做了一些工作。拉赫曼,Mutee。对信德语语料库的建设进行了研究,并阐述了信德语语料库建设的基本要求。在该研究中,讨论了信德语语料库开发的基本思想(Rahman,2010)。由于缺乏合适的阿拉伯-波斯语信德语文本语料库和分析阿拉伯-波斯语信德语文本语料库的有效分析模型,这是信德语文本语料库开发和分析的一大吸引力本研究设计了自己的模型来构建和分析信德语文本语料库,以进行语言变异和情感分析。3. 材料和方法使用文本语料库构建过程技术进行文本语料库开发。这些文本收集自在线信德书籍、报纸、网站和博客。对信德语文本语料进行了标记化、通用词性标注、词形化、词干提取、情感分析、基于方面的情感分析、形态分析等处理。图1描述了信德语文本语料库的开发过程和流程,包括处理技术和数据收集的来源。这个过程从问题理解开始,到文本语料库开发结束3.1. 信德语文本语料库开发互联网上的可访问资源并没有提供大量的信德语文本数据,但这并不足以成为不进行信德语文本语料库建设和分析的借口。鉴于信德语文本语料库对语言学、语言学和其他自然语言处理发展的重要性,本文建立了信德语文本语料库采用以下步骤和标准来开发一个基于信德语情感的文本语料库,用于情感分析、基于方面的情感分析、语言变异和其他未来的研究。3.1.1. 代表性文本语料库的构建是选择语言、文本类型、目标人群、样本或文本数量、样本长度的过程。因此,语料库代表性反映了语料库的结构、语料库的总体、语料库总体中语言特征的分布范围以及语料库中的词汇数量。建立了信德语文本语料库Fig. 1. 信德语文本语料库的开发过程。470M.A. Dootio,AI.Wagan/ Journal of King Saud University基于信德故事书、社会政治分析书籍、科学书籍、小说书籍、历史书籍、语言学书籍、文学书籍、报纸文章、诗歌、游记和博客。信德语文本语料库中的焦油量是专有的,并被分成若干文档.每个文本语料库文档不同于具有不同数量的标记的其他文档。本研究开发了信德语文本语料库,对信德语的变体、特征分布、句法分析、词性标注、词干提取、词形还原、语义分析、语言建模、机器翻译、信息检索和情感分析进行了更多的研究。图2显示了按主题的信德语文本语料库的细节。然而,讨论和分析的信德语文本语料库是基于情感的文本语料库,它描述的文档具有积极和消极的极性。正极性文件11864份,负极性文件3924份。因此,文本语料库中的文档总数为15788。总体而言,有23728个词,这是显示积极的极性和7848个词,这是显示负极性的文本语料库。语料库呈现了两种电子设备的七个特征以及每个特征的极性。基于意见的极性可以是积极的、消极的或中性的。电子设备是笔记本电脑和移动手机。这两款设备的特点是电池、麦克风、扬声器、内存、摄像头、显示屏和价格。3.1.2. 为信德语文本语料库开发语料库建设的一个重要过程是收集合适的语料为了开发信德语文本语料库,通过在线资源收集文本。对收集到的文本进行处理,构建信德语文本语料库。每个文本语料库都有有限的文档大小文本语料库的大小取决于文档的类型,然而,每个文档的大小因其他文档的大小而异。用于情感分析的信德语文本语料库是信德语文本语料库的一部分,它是通过从社交媒体网站(如Facebook和twitter)、在线报纸、博客、产品网站、信德语网站和谷歌表单收集文本数据而开发的。关于产品的评论在社交媒体上以非结构化模式可用,因此,这些评论可以用于基于特征或基于方面的情感分析(Krishna等人,2018年; Negi和Buitelaar,2017年)。该文本语料库为当前的研究提供了产品信息,包括它们的方面和极性。该语料库呈现的是用户对笔记本电脑和手机的情感和意见,是封闭的语料库。语料库文档呈现了两种电子产品的不同用户的意见和情感。不同类型的移动电话和笔记本电脑产品包括在用于基于方面的情感分析的Sindhi文本语料库。下面给出了信德语文本文档(图3)的示例,以显示信德语文本语料库文档的风格和结构。(三星手机suthi手机aahay,在我相机suthi aahay,麦克风theekathas , 扬 声 器 suthaa athas , qeemat theek athas aen in ji 电 池kharaab aahay).基于信德语情感的文本语料库文档的英文含义是“三星是一款好手机,它的相机很好,麦克风很好,扬声器很好,价格很好,电池很差。”这句话表达了对手机及其特点的看法和感受。句子由积极、中立和消极的意见组成,但积极的情绪占多数。图4示出了作为名词的特征名称、作为形容词的意见和情感以及意见和情感的极性3.1.3. 机读语料库计算机技术的进步使人们能够理解世界上的语言。计算语言学和语言学家在这方面的作用至关重要。因此,文本语料库应该是机器可读的形式。信德语文本语料库以机器可读的形式提供。使用unicode utf-8对信德语文本语料进行机器识别和阅读。纯信德语文本语料库是在信德语NLP工具(http://www.sindhi.com)上处理的。sindhinlp.com)进行标记化、标记、解析、词形化、词干提取和情感分析,并得到了更好的结果。图5示出了信德语文本语料库文档的词标记化、UPOS标注和句法分析,图6示出了信德语文本的情感分析。在极性分析的基础上进行了情感分析。结果显示了文本语料库文档的情感分析,并给出了产品的特征以及每个特征的意见和情感。整个文档的极性是基于整体极性的高置信水平来显示的。图7示出了文本语料库文档的词干提取和词形化过程。屈折变化使信德语变得复杂,机器无法理解。然而,SindhiNLP工具被训练来理解屈折的Sindhi文本。 词干提取和词形还原过程是在信德语变形文本上执行的。图8示出了用于屈折的信德语文本的词干提取和词形还原过程。词缀和后缀被机器正确地从信德语屈折文本中去除。因此,讨论语篇语料库非常适合不同类型的分析信德语文本。这些工具理解信德语文本,并执行所需的计算语言学和NLP对信德语文本的图三. Sindhi示例文本。图二. Sindhi文本语料库的详细信息。见图4。特征名称、情感及其极性,从信德语文本文档中识别。M.A. Dootio,AI.Wagan/ Journal of King Saud University471图五.词标记化,UPOS标注,基于信德语情感的文本语料库句法分析。图六、基于信德语情感文本语料库文档的情感分析过程相应地可以使用不同类型的机器学习方法对信德语文本语料库执行机器学习过程以进行监督和无监督分析。深度学习过程也可以在信德语语料库上执行,用于信德语文本的深度分析。这一切都证明了信德语文本语料库是完全机器可读的。3.2. 信德语停用词停用词对于信息检索、搜索引擎和其他文本分析过程来说并不重要。这些词在句子中的作用是使句子完整,给人一种理解句子的感觉,所以停用词能恰当地构成句子。计算机科学不重视停用词,但它在搜索和其他文本分析过程中过滤这些词。为了对信德语文本语料进行分析处理,从描述的文本语料中识别信德语停用词。信德语停用词选自介词或广告位、限定词、动词、连词、疑问词和冠词。图9描述了从信德语文本语料库中识别出的一些停用词,以示出信德语停用词的风格和结构。通过计算基于情感表达的信德语语料库中停用词的使用频率,说明信德语停用词在信德语语料库中的可用性。表1显示了停用词,它们的发音,在英语中的意义,语法地位和频率472M.A. Dootio,AI.Wagan/ Journal of King Saud University见图7。 基于信德语情感的文本语料库文档的词干和词形化过程。见图8。Sindhi屈折文本的词干和词形化过程。在基于信德语情感的文本语料库中可用的一些停用词。信德语词(Aahay)的意思是“ 是 ” , 它 是 助 动 词 ( ) , 在 信 德 语文 本中 比其 他 停用 词 使用 得 更多见图9。 信德语停止词。M.A. Dootio,AI.Wagan/ Journal of King Saud University473表1信德语停用词,它们的发音,意义和频率。信德语停用词发音UPOS标签集英文含义语篇语料库啊哈AUX是27236Jay/JeeADP的14000在DET这个/那个/它12920Ee微粒/ADV只1320::* *Athas*动词* **11339ParCONJ.但4797比微粒/ADV还可以2549Bi微粒/ADV也1455TaADP787语料库因此,信德语词(Aahay)在停用词列表中排名较高,然而,另一个信德语词(ji或jay)在英语中表示“of”,它是广告位置,在信德语文本语料库中排名第二。 信 德 语 词( In ) 是 限 定 词(),在英语中表示这个或那个,在第三个最高级别。在信德语文本语料库中,信德语词(Athas)是动词(),排在第四位停用词的使用频率较高,说明动词和介词或广告词在信德语中的重要性4. 结果和讨论为了模型开发和性能分析的目的,对文本语料进行了预处理和规范化从文本语料库中删除所有识别出的停用词然而,识别和删除停用词的过程已经做了仔细,因为有时代词,特别是人称代词(坎贝尔和Pennebaker,2003)可能是有用的文本语料库分析。4.1. 文档术语矩阵(DTM)目前,文本语料库分析是自然语言处理的重要课题,因为许多组织出于多种目的关注不同语言的文本语料库。信德语在几个国家被书写、阅读和使用,信德语人在社交媒体上用信德语撰写他们对不同产品、个性和主题的观点和帖子,还有几个用信德语撰写的博客,因此,信德语的文本语料库对不同类型的组织、语言学和自然语言处理研究更为重要。DTM将文本向量表示出来,以显示它们在不同文档中的使用、变化和特征分布。它就像一个术语和文档的网格,显示了两个实体的内部联系。这种连接在文本语料库的文档中发现并固定术语,称为特征分布。该功能显示DTM中标记的出现频率。文本语料库的所有文档不一定都包含所有的术语。对文本语料库中的文档,假设其为多变量样本,指定所有标记频率的向量。因此,向量化是将文本语料库文档转换为数值特征向量的术语。信德语文本语料的DTM是一个C列N行的二维矩阵列显示不同的单词,行显示文档中这些不同单词的可用性。DTM中的每一行表示文本语料库的文档文档用数字0; 1; 2; 3;................................................. ; n表示。DTM的每个单元格显示唯一的可用性和频率Word文档通常,xij解释第j个数据变量的值为的第i文件或行,其中i/4 1; 2; 3; 4;........ .......... :;n和第1条;第2条;c.因此,M = c × n,其第i个和第j个元素是mij。这里,mi是长度为c的向量,由第i个文档的c个数据变量测量值组成。矩阵的向量是矩阵的列,而矩阵的文档是矩阵的行。N-gram模型用于信息检索和计算语言学的其他一些功能,以建立语言模型,进行语言特征分析等。gram是文本项,而n-gram从给定的语料库中找到n个项的邻接项n元语法可以是一元语法、二元语法和三元语法。Uni-gram将n-gram的大小显示为1克,Bi-gram将n-gram的大小显示为2克,Tri-gram将n-gram的大小显示为3克。因此,信德语文本的n-grams找到信德语文本语料库中可用的信德语词的序列。例如,信德语句子( 信 德 语 是 世 界 上 最 古 老 的 语言)。信德语文本句子被适当地分解成一元、二元和三元。Unigram模型二元模型三元模型因此,DTM开发被用来了解信德语术语在文本语料库的单独文档中的频率和变化474M.A. Dootio,AI.Wagan/ Journal of King Saud University(c) Þ¼这表明了信德语和词汇的特点和重要性。信德语文本语料库的DTM是使用n元模型开发的,其中n = 2,因此,词频与文本语料库中可用的文档的基础上的n元词。2gram的提取显示了信德语的复杂性信德语文本语料库的一个重要特点是使用了com-在语料库的几个文件中的英镑的话的频率一元词可能是常见的,但2元词的频率并不常见。2-gram术语与文档的对应关系表明了信德语文本语料库对于文本挖掘和分析的重要性DTM播种了语言变化,因为它识别了Sindhi文本语料库的不相似术语。图10示出了基于Sindhi情感的文本语料库的文档术语矩阵。矩阵显示了单独文件中术语的可用性和语言差异。有单独的情绪用于单独的条款,确认信德语的语言变异因此,术语的频率数除以文档中的术语总数,表示文档中的词的总术语下式显示了术语频率测量的方法。ft;d=Xf t0;dXf t0;d1t02dt02d文档d中术语t的频率显示文档d中术语/术语的频率的总数TF方程描述了文献d中出现的术语t的频率数除以文献中可用术语的总数或总和D. IDF表示词的状态,即词是独立的还是共有的,因此,它表示了词的所有信息。IDF是以文本语料库中可用文档总数的对数来衡量的。语言DTM显示了信德语复合词的频率,这是在2-gram模型的基础上观察的。这些词由名词和形容词组成。形容词表示idft DlogNjfd2D:t2dgjð2Þ信德语名词。DTM显示了大量术语的结果及其在信德语文本语料库的不同文档中的可用性。它对文本语料库中文档的动机特征和有趣特征的数量进行分类和识别。DTM表示文本语料库中各个文档中术语的出现频率和相关性,体现了文档术语的重要性。这些术语对于信息检索、情感分析、聚类分析以及其他监督和无监督机器学习过程可能至关重要。该矩阵反映了文本语料库中不同文档中术语的语言差异。4.2. 词频逆文档频率术语加权方案对于信息检索过程是新颖且重要的,因此,术语加权的主要功能是测量文档的术语的显著性特征(Paik,2013),因此,基于术语的权重对文档进行排序。词频逆文档频率,又称tf-idf,是信息检索、文本挖掘和机器学习过程中重要而有用的统计模型。它从文本语料库的所有文档中找出关键词,使其成为文档的关键词。tf-idf权重描述了文本语料库中作为术语的词对文档的重要性。基本上,tf-idf是两个术语的组合:TF(术语频率)和IDF(逆文档频率),因此,它是二维矩阵。词频(TF)计算文档中可用的一个或多个术语或一个或多个单词的IDF(t)被测量为文档数量的对数将文本语料库N中可用的项d除以所有文档中可用的项t的文档的频率数。TF-IDF使用N-gram模型。分子N表示语料库N中可用的文档数量,而分母描述了其中项t可用的文档的频率总数。文档d属于文本语料库,因此,D示出了文档d(d1,d2,d3,...,dn)在信德语文本语料库信德语文本语料库的TF-IDF找出在文本语料库文档中起重要作用的信德语重要词。特征名是一种特殊的术语,对于文本语料库的文档来说,特征名称来自信德语文本语料库中可用的术语。该功能显示N-gram术语。图11示出了信德语文本语料库中可用的文档术语的TF-IDFTF-IDF的结果表明,在信德语文本语料库中的术语和文档的重要性tf-idf表示文本语料库的文档中单词的值,因此,见图10。DTM表示Sindhi术语及其在文本语料库文档中的频率。图十一岁信德语术语及其与文件的关联M.A. Dootio,AI.Wagan/ Journal of King Saud University475显示了通过2-gram模型从Sindhi文本语料库文档中导出的单词的结果。2元词在文本语料库中的出现频率显示了信德语词的特征所呈现的特征及其名称显示了与信德语文本语料库的不同文档的对应关系。文档的这些特征对于文本语料库中的文档来说是非常重要的。文本分析是数据挖掘应用和研究的重要课题,因为互联网资源产生了大量的社会、政治、教育、科学等文本。文本语料库的分析使组织能够提取有用的数据和信息,从而为决策者做出正确的决策,翻译人员可以将语言翻译成其他语言,并可以观察语言的变化和特征分布,以便进行信息检索。5. 结论信德语文本语料库提供了额外的语言特征。对文本语料库及其特征进行了分析。评估和分析是在一个单一的纯文本语料库上进行的。大量的复杂词使信德语文本语料库更加丰富。该语料库是为使用N-gram模型开发文档术语矩阵而准备的。DTM对信德语文本术语进行分类和识别,并显示它们在不同文档中的出现频率。DTM以语言术语和主题的形式呈现语言变异。词频逆文档频率矩阵使用N-gram模型得到了更好的结果。TF-IDF体现了词对文本语料库文档的重要性。DTM和TF-IDF表明了信德语文本语料库在信息检索、情感分析和模式识别方面的重要性。不同主题的研究带来了计算机科学、应用科学、社会科学等领域的变化,因此,这是一个不断完善事物并有利于社会发展的过程本研究是对阿拉伯-波斯语信德语文本语料库的开发和分析的基础性研究,但在使用Word 2 vec、聚类分析、术语相似性分析、主题建模和情感分析等方法对信德语文本语料库进行分析方面还需要进一步的研究本研究为NLP和计算语言学领域的未来研究提供了信德语文本语料确认本研究是根据我在SZABIST提交的“Sindhi文本的情感分析”的研究工作而产生的巴基斯坦卡拉奇信德省作为我的博士研究。我感谢项目协调员Dr.Hussnain Mansoor Ali Khan和部门负责人Imran Amin博士提供实验室资源和环境。引用阿兰娜,GA 2010. Sindhi Boli jo Tashreehi grammar.巴基斯坦信德省海得拉巴信德语管理局。Dootio,文学硕士,瓦甘人工智能2019.信德语的句法分析和监督分析短信了Elsevier J.KingSaudUniversity-Comput.信息科学31,105-112。https://doi.org/10.1016/j.jksuci.2017.10.004.阿里,M.,瓦甘人工智能2017年。信德语文本的情感总结与分析Int.J. Adv. Comput. Sci. 8(10),296-300中所述。Jumani,A.K.,梅蒙,硕士,Khoso,F.H.,Sanjrani,A.A.,Soomro,S.,2018.信德语命名实体识别系统。在:国际会议新兴技术在计算。施普林格,pp. 237-246。Shah,S.M.A.,伊斯梅利,洛杉矶,Bhatti,Z.,Waqas,A.,2018年 基于xml标签的信德语语料库设计。在:2018年计算,数学和工程技术国 际 会 议 (iCoMET)IEEE,pp。1比5。阿里,M.,瓦甘人工智能2019.基于监督式机器学习的信德语标注语料库分析。梅塞德斯大学Res.J. Eng. Technol. 38(1),185-196。Dootio,文学硕士,瓦甘人工智能2018.基于Unicode-8的注释信德语文本语言学数据集。Elsevier Data in Brief 19,1504-1514.肯尼迪,G.,2014年。语料库语言学导论劳特利奇。博斯科角,帕蒂,V,Bolioli,A.,2013.开发情感分析语料库:以反语和情感为例。IEEEIntell.系统 28(2),55-63。谢弗河,Bildhauer,F.,2013.网络语料库建设。人类语言技术综合讲座6(4),1-145。达斯,A.,Bandyaopadhyay,S.,Gambäck,B.,2012.情感总结-可视化-跟踪的5 w结构。在:智能文本处理和计算语言学国际会议。施普林格,pp. 540- 555Agrawal,S.S.,Abhimanue,S.B.,班萨尔,S.,Mahajan,M.,2014.多语种文本语料库统计分析与语言模型开发。在:LREC。Citeseer,pp. 2436- 2440Baseer,F.,Habib,A.,Ashraf,J.,2016.罗马化乌尔都语语料库开发模型:基于编辑距离的实时交互数据集最频繁唯一单字抽取方法。在:创新计算技术(INTECH),2016年第六届国际会议上,IEEE,pp。 513- 518莫特拉尼河,2016.为资源贫乏的语言开发语言技术工具和资源:信德语。NAACL-HLT的会议记录,51-58。拉赫曼,密歇根大学,2010.信德语语料库建设。在:语言和技术会议,拉合尔,巴基斯坦。Krishna,B.V.,Pandey,A.K.,Kumar,A.S.,2018.使用模糊逻辑的基于特征的意见挖掘和情感分析。在:认知科学和人工智能。施普林格,pp. 79比89Negi , S. , Buitelaar , P. , 2017. 从 固 执 己 见 的 文 本 中 挖 掘 建 议 。 情 感 肛 门 。 Soc.Networks,129-139.坎贝尔,R.S.,Pennebaker,J.W.,2003.代词的秘密生活:写作风格的灵活性和身体健康。心理学。Sci. 14(1),60-65。Paik,J.H.,2013.一种新的TF-IDF加权算法。在:第36届国际ACM SIGIR会议的研究和发展信息检索ACM,pp。 343-352.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功