印尼语双字母词规则用于处理多标签学生投诉的方法的有效性

176 浏览量更新于2023-12-09 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志20（2019）151全文Ina-BWR：印尼双字母词规则用于多标签学生投诉Tora Fahrudina，b，Joko Lianto Bulialia，Chastine Bachachahaa信息学系，Institute Teknologi Sepuluh Nopalan，Surabaya 60111，IndonesiabTelkom大学应用科学学院，印度尼西亚万隆40257阿提奇莱因福奥文章历史记录：2018年11月23日收到2019年3月6日修订2019年3月17日接受在线预订2019年保留字：多标签学生投诉一袋字印度尼西亚语双字母词规则A B S T R A C T处理多标签学生投诉是一个有趣的研究课题。用于处理多标签学生投诉的技术之一是词袋（BoW）方法。本文提出了二元词为了证明所提出的方法的有效性，从Telkom大学的学生数据和其他相关的数据，通过使用hashtag的数据被用作测试数据。我们开发了印尼语双字母词规则的多标签学生投诉（Ina-BWR），以确定多标签的学生问题的双字母词规则的基础上Ina-BWR包括三个过程，即非正式文本的预处理，从文本中识别抱怨和对象.进行额外的预处理技术以形式化文本，诸如解析标签、校正词缀词、校正连词、解析后缀人称代词和校正错别字。在意见识别规则的基础上，采用印尼语双字母词规则，并增加了3个语料库（-）NN、（-）JJ和（-）VB，用于识别学生投诉。为了识别投诉，手动创建了四个标签语料库。实验结果表明，Ina-BWR可以提高个人，主题和关系标签的准确性。当Ina-BWR与BoW方法相结合时，四种标记的精度最高.©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍全球智能手机用户数量正在迅速增长。与此同时，互联网的可访问性逐年增加。两者都有助于社交媒体用户的增长。根据Hootsuite 2017年1月的数据，全球智能手机渗透率约为66%，全球互联网渗透率约为50%，全球社交媒体活跃用户渗透率约为37%。根据2018年社交媒体趋势[2]，社交媒体应用排名第一的是Facebook，拥有20.7亿活跃用户，其次是Instagram（8亿），Twitter（3.3亿），*通讯作者。电子邮件地址： tora15@mhs.if.its.ac.id ，torafahrudin@telkomuniversity.ac.id（ T.Fahrudin ）， joko@cs.its.ac.id （ J.L. Buliali ）， chastine@if.its.ac.id （ C.（Abraham）。开罗大学计算机和信息系负责同行审查。制作和主办：Elsevierlion）、LinkedIn（5亿）、Pinterest（2亿），还有Snap- Chat（1. 78亿）。根据印尼通讯和信息部的网络新闻，2013年，印尼Twitter用户数量为1950万[3]。本研究选择Twitter作为数据源的原因是：Twitter一般公开且简洁（140-280个[5]，也用于许多研究，如情感分析[6]、印度尼西亚语的趋势主题检测[7]，一些印度尼西亚地方政府办公室使用Twitter获取印度尼西亚语的公共投诉（如万隆地方政府办公室[8]）。对于学生来说，Twitter是一个分享经验，分享情感和寻求社会支持的媒体Chen[4]使用来自Twitter的数据来了解他们教育经历中的问题。研究结果可供教育机构用来发现学习有问题的学生。在学术失败检测主题中，使用社交媒体作为数据源相对较新。传统上，人口统计学，学术，社交网络或这些数据的组合被用来检测学术失败。据我们所知，从英语推文中提取内容来理解学生的问题是如此https://doi.org/10.1016/j.eij.2019.03.0011110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com152T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151目前只有[4]做过，它使用了五个突出的标签在学生问题：沉重的学习负担，缺乏社会参与，负面情绪，睡眠问题和多样性问题。Zhang[9]提出了与学生问题相关的7个因素：个人因素、家庭因素、同伴因素、学科/内容因素、机构因素、机构因素和社会因素。从七个因素中选出四个因素作为突出标签：个人、关系、主体和机构代理。个人标签是包含生病、困惑等个人抱怨的标签;关系标签是家庭与同伴相关标签的组合，包含思念家庭、与朋友有问题等关系抱怨的标签;学科标签是包含学习负担重、物质课程重等关系抱怨的标签。最后，机构代理标签是一个包含对教师、教师、指导教师等的抱怨的标签，在本研究中，我们将这四个标签作为类别标签。这些标签已经覆盖了[4]中的五个标签。文[4]中使用的词袋法存在语序缺失、忽略语法等缺点[10]。我们提出了印尼语双字母词规则的多标签学生投诉（Ina-BWR），识别印尼语多标签学生投诉的语义方法，Ina-BWR方法包括三个过程：非正式文本的预处理、抱怨识别和对象识别。需要对文本数据进行预处理，因为社交媒体中的文本数据通常是非正式和非结构化的[4，11]。在印度尼西亚社交媒体数据的预处理中进行了一些研究，并进行了一些预处理，如删除标点符号，将数字转换为字母，删除字母重复[11]，删除标签，将俚语转换为正式语言[12]。然而，在多标签学生投诉中，需要对现有的一些预处理进行修改，如：不删除主题标签，而是解析主题标签，修正单独词，修正连词，解析后缀人称代词和自动修正词，以形成句子，使文本为投诉和对象识别做好准备。识别抱怨句是通过使用二元词规则。采用[13，14]提出的识别印尼人意见的二元词规则，发展出二元词规则。词性标注器用于逐词确定标签对多标签学生投诉进行了一些修改，并增加了额外的规则，以确定一个新的双元词规则。通过将一个对象词与四个语料库进行匹配来识别抱怨对象：个人、关系、主体和机构代理。这四个语料库主要取自IndoWordList1，并从其他资源中获得一些额外的数据，以帮助对象投诉识别过程。IndoWordList是一个dictionary，它被微软Word用来自动拼写检查印尼语语法。印度尼西亚自然语言处理工具包（InaNLP）[15]用于形式化句子，并为每个单词提供POS标记，并对输入单词进行词形化本研究的动机是：产生四个与多标签学生抱怨相关的印尼语对象语料库，并产生印尼语模式规则用于学生抱怨识别，以支持未来的另一项研究，特别是在印尼语。本文的主要贡献有两点。首先，针对多标签学生投诉问题，增加了一些新的预处理方法。其次，介绍了印尼语双元词规则Ina-BWR方法识别抱怨词和多标签对象抱怨词。第1http://indodic.com/SpellCheckInstall.html12. 材料2.1. 数据集在这项研究中，使用了两个数据集：第一个数据集来自Telkom大学第一学期的学生数据，第二个数据集来自hashtag数据。数据采集过程是通过使用Twitter API完成的[16]。2014/2015和2015/2016年进入大学的151名小学生数据，他们获得了合法的入学许可。选择第一学期的学生推文是因为这学期是学生从高中到大学的第一个过渡期，这通常并不容易[17]，高中没有为学生在任务数量，压力，工作难度和理解大学的指示方面做好充分的准备[18]。次要数据由55个hashtag数据组成，例如：#算法（算法），#penat（累），#anakteknik（工科学生），#banyaktugas（a lot of work），#banyakpikiran（心里有很多事情），#bosan（无聊），#bingung（困惑），#emosi（情绪），#malas（懒惰），#mengantuk（困倦）等。从4428条推文（来自151名学生）中，我们获得了625条相关的学生推文。此外，从4736个标签推文中，我们获得了426个相关推文。因此，相关推文总数为1051。从625条相关的学生推文来看，个人标签是最大的抱怨（67%），其次是主题，关系和机构代理标签（分别为15%，15%，3%）。1.一、第一学期学生的个人问题以个人问题为主（71.62%），其次是学生疲劳和生病（ 18.02% ），缺乏睡眠不足（ 7.21% ）和无法管理财务（1.35%）。对于学科标签，第一学期的主要抱怨是：任务多（34%），材料课程困难（16%），时间表满（10%）和其他课程活动，如大量的实验室工作，大量的新生入学指导任务，期中考试和期末考试没有准备，以及其他问题（40%）。在关系标签上，第一学期抱怨最多的是：恋爱关系（36.73%）、交友困难（30.61%）、想家（20.41%）、其他问题（12.24%）。对于机构代理标签，第一学期投诉的主导是：lec的延迟或缺失问题（70%）和其他问题（30%）。2.2. TwitterTwitter是世界各地的人们发布他们的感受的微型博客之一。Twitter是全球第三大社交媒体应用程序[2]。Twitter允许用户以140至280个字符分享他们的感受Twitter提供了一些功能，如提及，标签，转推，表情符号等。提及#标签Retweets使用Twitter作为数据源的研究已经由许多研究人员进行。该研究包括情感分析、情感/情绪识别、意见挖掘、主题建模、趋势主题、社会网络、抱怨挖掘和挖掘多标签学生问题。关于情感分析的研究示例，例如雅加达州长选举的印度尼西亚Twitter中的情感分类[12]，印度尼西亚Twit- ter中的情感分类，分为四类：积极，消极，中性和问题[11]，以及通过使用类似的上下文语义和情感的隐式情感表达[6]。Twitter中的另一个主题是情绪/情绪识别，例如使用语法规则对印度尼西亚推文进行自动情绪分类[20]和积极的消极情绪，以及七个T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151153≥投诉量第一学期百分之三百分之十五个人百分之十五百分之六十七主题关系代理机构Fig. 1. 第一学期每个标签的学生投诉百分比。使用分层分类进行情感分类[21]。Twitter中的一个观点挖掘已经由[22]进行，通过使用带有动词的意图和带有非动词的主题来获得主题模型（V-BTM：动词-双项主题模型）。Indra[7]比较了两种方法：用于检测印度尼西亚推文趋势主题的文档枢轴和BN-gramZhao[23]分析了 Twitter 数据，以更好地了解澳大利亚移民和公民部（DIAC）的分析研究周。Chen[4]使用学生推文数据来挖掘英语中的多标签学生问题。据我们所知，在印尼语中还没有关于多标签学生问题的研究。英语和印度尼西亚语之间存在一些差异，如句法，音素，发音，含义，语法和时态[24]。在印尼推文中，许多非正式的特征出现在文本中，如缩写，感叹词，外国词，印尼语和外国词的混合，表情符号等[25]。因此，本研究将探讨印尼语多标签学生问题中的各种问题或挑战，以获得更精确的方法。2.3. 教育数据挖掘EDM是在教育环境中实现数据挖掘方法的一个研究课题。EDM的主要目标是找出描述学习者行为和成就、领域知识内容、评估、教育功能和应用的描述模式[26]。EDM的主要目标之一是预测学生的表现。已经进行了一些研究，以预测学生的表现与多种数据源，如人口统计数据[27，28]，学术数据[29-据我们所知，另一个数据数据学生问题的五个突出类别被定义为：沉重的学习负担，缺乏社会参与，负面情绪，睡眠问题和多样性问题。他们使用多标签分类方法，因为一条推文可以包含多个类别（y 1，y 2，. . ，y n），其中n为1。[4]中的多标签分类使用问题转换方法作为多标签学习方法（MLL）之一[37]。问题转换方法采用二元关联法.二进制相关性分别对每个标签类别的每个数据进行二进制相关性假设每个标签分类独立。根据[4]，与SVM和M3L相比，Naive Bayes在使用Bag of Word方法的多标签学生问题中获得了最好的准确率结果。文[4]所用的词袋法存在语序缺失、忽略语法、忽略数字等缺点。表1给出了BoW方法在多标签学生投诉中的两个错误示例因此，语义方法使用二元词规则和四个语料库提出了纠正这一错误。2.5. 意见挖掘意见挖掘是一种用于提取、分类、理解和评估各种用户生成内容中表达的意见的技术[38]。意见挖掘的目标是将文本分类为意见或事实[13]。印度尼西亚的意见挖掘研究已由[13，14]进行。该研究包括三个子过程：文献主观性、观点导向和目标检测。文献主观性是判断一个句子是否为观点的子过程。舆论导向是一个子过程，旨在提供舆论导向（积极或消极）。目标检测是意见挖掘过程中的一部分，用于识别意见的目标对象[13]的结果之一，[14]是文档主观性子过程二元语法规则列表在这项研究中，使用了[13]中的19个二元组规则，如表2所示2.6. InaNLPInaNLP是一个自然语言处理工具包，用于正式和非正式印度尼西亚语[15]。InaNLP有九个用于文本处理的模块，例如句子分割器，标记化，单词形式化，形态分析器（词干分析器），POS标记器，短语分块器，命名实体标记器，句法分析器和语义分析器。几个模块使用基于规则的方法和其他使用基于统计的方法。InaNLP模块可以独立访问。InaNLP的准确率为93.41%的名称实体（NE）标签和96.5%的POS标签[15]。表1多标签学生投诉的BoW方法中的两个错误示例它已经被探索来支持学生的表现预测，问题模型是多标号学生问题[4]。他们在社交媒体上捕捉到了与学习有关的学生表情Tweets examples多标签结果经验Fahrudin[27]使用多标签学生问题作为第一年学业失败检测的主要框架的一部分。2.4.用词袋法解决多标号学生问题Chen[4]开发了一个工作流程，将定性分析和大规模数据挖掘结合起来，使用普渡大学的Bag of Word方法解决多标签学生问题。他们添加了标签数据#engineeringproblem，以获得更多相关信息。我是说，在这之前，我已经把我的工作做好了。mereka malas。要想获得幸福和动力，（我很感激;有一个预先检查，他们没有故意遵循。他们是懒惰的，这是一个很好的机会来了解他们的质量和动机）卡穆·陶·加·拉沙尼亚·贾迪·阿库·塞卡朗·伊努辛·米克尔·卡穆(You知道吗，现在我想你的时候感觉好晕弓：个人&关系语义：关系Bow：人际关系语义：关系154T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151表2意见检测规则。无规则示例1RB JJ sangat buruk（very bad）表3预处理方法之前和之后的非正式学生投诉推文的例子进行了。输入过程输出2RB VB semoga工作（希望工作）3NNJJbuku bagus（好书）4NN VB perkataannya menjengkelkan（his words are annoying）5JJ VB cepat梅马哈米（快速理解）德里达·西兰·穆里德#banyaktgs(an苦难学生#manytasks）解析主题标签Derita seorang murid图加斯乡(an苦难学生许多任务）6CK JJbagus atau baik（好的或好的）7JJ BB samabagus（同样好）8VB VB membikin pusing（make a headache）9JJ RB indah塞卡利(very美丽）10VB JJ会员宾贡（make confuse）11NEG JJ tidak semudah（not as easy）12NEG VB tidak mengerti（不明白）13PRP VBI Saya menyukai（我喜欢）14PRP VBT kita suka（我们喜欢）15VBT NN Memiliki kedekatan（有亲密）16MD VBT Perlu mengambil referenci（need to take reference）17MD VBI Perlu dikembangkan（need to be developed）18UH VBP Tolong dicat（请涂漆）19JJ VBP Mudah迪特里马（容易接受）有一些研究已经使用InaNLP进行，如：投诉消息的推文分类[15]，印度尼西亚新闻文章的自动多标签分类[39]，使用自然语言处理的印度尼西亚文章分级模块[40]，集成社交媒体知识捕获模型[41]，hari yang di penuhiquiz（一天满足于一个测验）Mata dan tugastidakbekerjasama(eye和任务不合作）Aku mulai tersadar bahwaaku membutukannya（我开始意识到我需要它）KamuPergiMeninggalkanku（你离开我）6个月后，masuj，libur？？（又是6分钟）“不来了，放假了？”正缀词正字连词删除停止字解析人称代词后缀纠正错别字hari yang dipenuhi quiz（一天满足于一个测验）Mata tidakbekerjasama，tugas tidakbekerjasama（eye is notcooperated，tasks is notcooperated）（眼睛不合作，任务不合作）（我意识到我需要它）卡穆佩尔吉梅宁加尔坎aku(you离开我）6个月后，masuk，libur？？（6分钟再讲）不来了，假期？？）印度尼西亚的医疗领域[41]，使用关键词识别技术和基于学习的方法在短篇小说中识别主导情绪[42]，基于方面的情感分析用于评论评级预测[43]。在本研究中，使用了词的形式化，词性标注和词干分析模块。词形式化模块用于将非正式句子形式化为正式句子。POS Tagger用于为tweet中的每个单词标记标签。Stemmer用于对一个词进行词元化，并提供词的词元和词缀3. 该方法所提出的方法旨在改进在[4]中使用的Bag of Word多标签分类方法的两个贡献：将非正式会话转化为正式会话，改进多标签学生投诉推文的词袋方法。据我们所知，这种BoW方法用于多标签分类[44]对文件分类非常有效[45]。在第一个贡献中，我们的数据中的非正式会话模式进行了分析，并添加了额外的预处理步骤来解决这些非正式会话模式问题。在第二篇文章中，Ina-BWR运用语义学方法解决了词袋法中的语序错误和语法错误。3.1. Ina-BWR中的附加文本预处理在文本挖掘中，预处理是信息检索方法对文本进行处理之前的一个必要步骤。在印度尼西亚语中，将非正式文本预处理为正式文本可以减少Out Of Vocabulary条件，因此可以将分类准确率提高3表3示出了进行预处理方法之前和之后的单词的示例。解析hashtag是一个额外的过程来解析hashtag中的串联单词，例如： #banyaktugas 到 '' banyak tugas' （很多任务），#banyaktgsberat 到 ''banyak tugas berat' （很多繁重的任务），#fluberat到'' flu berat '（严重流感）等。已经开发了一种算法来解析标签词。该算法试图将hashtag中的一个词分离为适当的通过使用连续字符比较在字典中查找单词。如果找到合适的词，具有相同的词长和相同的字符顺序的分离过程进行图 2 显示了#banyaktgs的解析过程示例。在一条推文中的字符数的限制可能会迫使用户删除一些词，如在词缀词，例子：''d pndh”（应该是''dipindah”）。此外，在印尼语中使用词缀词时也可能出现错误，例如： “di kerjakan” （应该是“dikerjakan”）。那个错误可能会导致因为在字典中找不到单词，它不能匹配我们的投诉bigram词规则。单词连接的过程中，单独的连接词是通过使用IndoWordList字典援助.如果找到这些单独的单词，则使用字典并进行连接过程。连词是把两个独立的词连接起来的词它的功能之一加法连词的一个例子是句子中有两个宾语，眼睛和任务。因此，需要预处理将一个句子中的两个对象分离成两个单独的句子，因此Ina-BWR中的识别过程将发现具有两个对象的两个投诉。在学生申诉的认定过程中，需要认定的对象之一是人称代词，如：dia（他）和mereka（他们）。Aku（我），saya（我），diriku（我自己）是个人语料库的例子。同时，迪日姆（你自己）、迪里尼亚（他）、卡木（你）是关系主体的例子.因此，需要对人称代词进行分离，以便在语料库的基础上识别宾语。InaNLP词干分析器用于分离单词的人称代词的后缀。表4是如何区分人称代词后缀的说明对字典列表中不存在的单词执行自动校正处理。最小的levensthein距离用于选择最佳的适当的候选者。Levensthein是一种算法，它比较两个字符串：源字符串（ss）和目标字符串（dt），然后计算删除，插入或替换步骤，将（ss）替换为（dt）[46]。T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151155图二. 解析主题标签插图。表4人物代词的分隔后缀图解通常从IndoWordList字典和印度尼西亚医学委员会获得额外的疾病列表表6显示了列表示例所有格代词后缀后缀人称代词示例我们的尸体。投诉识别流程从标记以下词语开始：-ku Aku（me）pergi meninggalkanku> pergi meninggalkan aku（Leave me）-mu Kamu（you）bosan menunggumu > bosan menunggu kamu（无聊等你）3.2. 二元词概念Bigram 是n-gram 概念中的一个，在大多数NLP 领域中使用[47]。N-gram有两个术语：n-gram字符和n-gram词。N-gram字是n个字的连续序列，而N-gram字符是n个字符的连续序列[48]。在本研究中，使用的是二元词这是一个由五个单词组成的二元词的例子有（n-1）个二元词的组合，例如：{dompet，makin}，{makin，menipis}，{menipus，haduhhhhh}，{haduhhhh，pusing}。利用这些组合进行投诉识别过程和对象识别过程。3.3. Ina-BWRIna-BWR包括三个过程：预处理非正式文本、识别抱怨和识别对象。图图3为Ina-BWR框图。在Indonesian意见挖掘中，通过采用Ham- zah二元语法规则[13]进行文档主观性处理Ina-NLP中保留了一些停用词，例如：sangat（非常），banyak（许多），selalu（总是），boleh（可以），tidak（不）。Ina-BWR中需要这些词（如表5所示）。使用InaNLP的词性标注结果和一些额外的语料库，如：动词（943个词），名词（1386个词）和形容词（167个词），这些词具有否定意义。那些尸体是被挑选出来的每一条推特之后，采用二元组标记化处理此外，这些二元组标记与投诉二元组单词规则配对。此过程的最终结果是一个投诉二元词规则的列表和索引位置在建立投诉词二元词规则和索引位置后，识别出投诉对象及其位置。宾语抱怨有三个位置：在二元词规则内、二元词规则前和二元词规则后。为了帮助识别对象，从IndoWordList词典中手动排列了四个对象投诉语料库（个人（47个单词），主题（3480个单词），关系（93个单词）和机构代理（2120个单词））。对于主题语料库，添加来自主题名称及其缩写的附加语料库数据。而一些讲师代码列表作为附加语料库数据添加到机构代理中表7显示了投诉匹配过程的示例。表8显示了每个标签语料库的例子：个人，主题，关系和机构代理。表9示出了Ina-BWR中的对象识别过程的图示。对象识别过程是通过使用四个语料库匹配对象来进行的（图4）。基于POS标记器结果的对象位置有三种模式，如表10所示。4. 实验及结果在本节中，进行了观察Ina-BWR方法和BoW方法的实验方案。对于BoW方法，观察到两种观测场景：无附加预处理和Ina-BWR附加预处理（图5）。对于每个场景，应用Unigram和Bigram Bag of Word。根据文献[4]，采用二进制相关变换方法的多标记BoW方法在朴素贝叶斯中具有最佳性能，因此在本实验中选择朴素贝叶斯作为BoW基分类器。为了研究Ina-BWR和BoW方法的性能，采用了10折交叉验证。最后，对Ina-BWR与BoW方法的结合进行了研究。156T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151[图三. Ina-BWR框图。表5双字母词规则修改投诉。没有规则修改规则意见中的例子投诉案例1RB JJRB（-）JJsangat bagus（非常好）sangat buruk（非常糟糕）2RB VBTRB（-）VBTSemoga Berjalan（希望工作）selalu mengalah（总是屈服）3NN JJNN（-）JJbukunya bagus（他的书很好）matakulihnya sulit（课程很难）(-)JJNNbagus bukunya（好书）sulit matakulahnya（困难课程）JJ（-）NN–banyak hambatan（许多障碍）(-)NNJJ–hambatan banyak（许多障碍）4NN VBNN（-）VB人民日报人民运动报(he愉快地说(the课程很无聊）5JJ VB(-)JJVBmudah dipahami（易于理解）sulit dipahami（难以理解）JJ（-）VB–mudah mengumpat（容易骂人）6VB VBVB（-）VBmembuat begadang（使熬夜）membuat begadang（使熬夜）7JJ RB(-)JJRBindah sekali（非常漂亮）jelek sekali（真的很丑）8VB JJVB（-）JJmembikin bingung（使困惑）membikin bingung（使困惑）9JJ RB(-)JJRBindah sekali（非常漂亮）jelek sekali（真的很丑）10VB JJVB（-）JJmembikin bingung（使困惑）membikin bingung（使困惑）11阴性JJ阴性JJtidak mudah（不容易）tidak mudah（不容易）12阴性VB阴性VBtidak mengerti（tidak mengerti（13PRP VBIPRP（-）VBIKita Suka（我们喜欢）Kita Benci（我们讨厌）14PRP VBTPRP（-）VBTsaya menyukai（我喜欢）saya membenci（i hate）15VBT神经网络（-）VBT NNmemiliki kepekaan（有敏感性）membenci pelajaran（hates lessons）VBT（-）NN–membuat kegaduhan（make rowdy）16MD VBIMD（-）VBI佩尔卢迪肯邦坎伯莱贝基拉(need（待制定）(may争论）17–PRP（-）JJ–Mereka Malas（他们很懒）在多标签中，评估措施可以分为两种：基于示例的措施和基于标签的措施[49]。基于示例的测量的准确性是在每个推文上计算的，然后在所有推文上平均而在基于标签的测量中，计算每个标签的准确度，然后对所有标签进行平均。每个类别标签（a）的列联表见表11。4.1. 基于实例的评价方法对于具有实际标签C和预测标签D的一个tweet（t），n个tweet的准确度是D除以C D的并集中的标签数量。精确度是由正确预测的标签数除以D的总数得到的。召回准确率是从正确预测的标签T. Fahrudin等人/Egyptian Informatics Journal 20（2019）151157X1C\Dn表6列出我们语料库的例子。（-）VB（-）NN（-）JJ表9对象识别过程的示例文本预处理后的句子对象标记化安卡姆（恐吓）过敏aneh（奇怪）拉吉穆西姆萨基特阿库哈拉普丘库普阿库识别1，object =个人= 1贝加当(stay上）健忘症（健忘症）arogan（傲慢）萨基特(sick季节，我希望没有人生病2，object =aku 6，object= aku受试者= 0Relasi = 0benci（hate）bentak（厉声）Bentrok（碰撞）beban（load）cemooh（scorn）demam（fever）bau（smell）bencong（sissy）bengkak（肿胀）（除了我）拉马·门盖贾坎·图加斯depan laptop lelah mata aku lelah（长时间在笔记本电脑前做任务，眼睛累了）0，object =tugas 5，object= mata代理机构= 0个人= 1主题= 1Relasi =0代理伯博洪halangan（障碍）beringas（暴力）lari lari kecil dari asrama sampai 8，机构= 0个人= 0.. .. . ... .. . ... .. ......你好。阮根·多森·蒂达·阿达·邦克对象= dosen受试者= 0蒂杜尔（睡眠）ujian（考试）sulit（困难）（从学生宿舍慢跑到讲师室，但讲师不存在）关系= 0代理机构= 1表7投诉二元词规则匹配程序实例文本预处理后的句子拉吉·穆西姆·萨基特·阿库哈拉普·库库普·萨基特(sick我希望没有人生病，除了我。Lama mengerjakan tugasdepan laptop莱莱马塔阿库（在笔记本电脑前做任务很长一段时间，我的眼睛累）拉里·拉里·凯希尔·达里·阿斯拉马·桑帕伊·阮甘多森蒂达克阿达（从学生宿舍慢跑到讲师室，但讲师不存在）二元组词表规则NN（-）JJ=musim萨基特（-）JJNN=sakitakuNN（-）JJ=aku萨基特（-）JJVBT=lama门盖亚坎（-）JJNN=lelah马塔NEG VBI =tidak ada二元组世界规则126058见图4。识别对象过程。表8个人，主体，关系和机构代理语料库的例子。个人主体关系制度n准确度aiini¼1Ci\Dinð1Þ剂精密压铸件1XCi\Dið2Þaku（me）absensi（presence）abah（父亲）阿拉伯联合酋长国Þ¼nni¼1Dibadan（body）akuntansi（会计）阿邦AAC（AAC）调用配置文件1XCi\Dið3Þ（哥哥）bibir（lip）agama（religion）adek（sister）阿德米西（入学）buku（书）alin（线性代数）adik（姐妹）akademiknFmeasure1/1Ci1X2：pi：rið4Þdada（胸部）alpro（编程算法）adinda（妹妹）（学术）母校Þ¼n1/1 比阿日里diri（self）hafalan（recitation）dia（you）asisten（assisten）mata（eye）jadwal（schedule）dirimu（你自己）tangan（hand）tugas（task）suami（husband）大学校长4.2. 基于标签的评价措施在基于标签的情况下，计算每个标签的性能。因此，使用表11中的矩阵，准确率，性能，召回率和f-登戈罗坎158T. Fahrudin等人/Egyptian Informatics Journal 20（2019）1512019 -0 4 -25lTPlFPl（喉咙）UTS（期中考试）（朋友）参议院从总共m个标签中计算每个标签（l）的度量，使用tulang（bone）uas（final exam）wanita（女）校长（副校长）等式（5）（8）分别。准确度aTPlTNlTPlFNlFPlTNlð5Þ除以C的总数。因此，对于从t1，t2，t3，.. . ，tn，使用等式（1）计算准确率、精确率、召回率和f-度量。（1）（4）分别。高精度激光切割机TPlð6ÞT. Fahrudin等人/Egyptian Informatics Journal 20（2019）151159M2：TPlFPlFNlLð Þ¼表10基于POS Tagger的对象定位。POS标记器二元语法标识示例/二元语法规则对象PRP/NN在第i个bigram观察mereka malas（PRP（-）JJ）（他们是懒惰的）kita benci（PRP（-）VBI）（我们恨）saya membenci（PRP（-）VBT）（我恨）matakulihnya sulit（NN（-）JJ）（这门课很难）sulit matakulahnya（（-）JJNN）（difficult course）pelajarannya membosankan（NN（-）VB）（the lessons are boring）（课程很无聊）所有在前面的第i个bigram观察dosen jarang muncul（（-）NN VBT）（讲师很少出现）mata dan tugas tidak bekerja sama（NEGVBI）（眼睛和任务不合作）kuliah makin berat jelang pra-thesis（RB（-）JJ）（course getting heavy towards pre-thesis）All Behind the ith bigram observation gagal lagi aku（（-）JJ RB）（我又失败了）mudah mengumpat dia sekarang（JJ（-）VBT）（他现在很容易被诅咒）panas banget badanku（（-）JJNN）（my body get fever）梅雷卡北萨亚马塔库利亚马塔图加斯库利亚阿库迪亚巴丹5. 结果表11图五. 两袋单词实验场景。每个场景的性能结果见表12这些表格中每项评价措施的最佳结果以黑体字突出显示。对于每种评价方法，还评价了Ina-BWR和最佳BoW组合的结果。表12示出了基于实施例的评价的评价结果。Ina-BWR的额外预处理可以将Unigram BoW的准确率，精确率，召回率和f-测量分别提高 6.27% ， 6.53% ， 6.79% 和 6.67%Ina-BWR 的额外预处理也使Bigram BoW方法的准确率、精确率、召回率和f-度量分别提高了2.4% 、 1.85% 、 2.28% 和 2.07% 虽然 Ina-BWR 与最佳 BoW 方法（Unigram BoW与Ina-BWR场景的额外预处理）的比较分别使精确度，召回率和f-测量提高了10.47%，2.84%和6.3%。应急标签。真a真不a很好与最佳BoW方法相比，Ina-BWR和Unigram BoW的组合以及Ina-BWR附加预处理预测aTPa FPa预测不是FNa TNa召回rTPlTPlFNlð7Þ在查准率、查全率和f-measure上分别提高了10.54%、2.89%和6.35%与Unigram BoW相比，两

下载后可阅读完整内容，剩余1页未读，立即下载