没有合适的资源?快使用搜索试试~ 我知道了~
⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)253www.elsevier.com/locate/icte基于情感分析的科技论文客观评价指标Sarabjeet Kaur Kochhara,Uma Ojhab,a印度新德里德里大学Indraprastha女子学院计算机科学系b印度新德里德里大学Atma Ram Sanatan Dharma学院计算机科学系接收日期:2019年11月28日;接受日期:2020年2月25日2020年3月3日网上发售摘要确定研究论文的影响力对学术界、工业界和研究界都至关重要。迄今为止,在这方面所做的尝试仅限于一些客观的指标,主要是基于引用计数。引用次数一直被用作用于确定研究论文的质量和受欢迎程度的措施。虽然引文在学术研究中起着至关重要的作用,但有时研究人员可能会引用一篇论文来指出其弱点和弱点。一个主观的看法背后的感情引用一个 研究论文有助于了解同行研究团体对论文的意见。客观措施,如引用作者的 影响因子和出版物的影响因子,可能有助于量化引用本身的权重,也应该包括在 评估研究论文的影响力。在本文中,我们制定了一个模型,结合了客观和主观的指标并形成索引的基础,以客观地传达研究论文的影响c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:影响因子;索引;度量;情感分析; SentiWordNet;引文情感分析;情感得分;引文提取;出版影响因子; ACL选集1. 介绍确定研究论文的影响力是一个重要问题,涉及所有学科和几乎所有参与学术界和工业界研发工作的社区[1在工业领域,最重要的研究是由工业巨头挑选的,并以小工具,软件和应用程序等形式成为我们生活的一部分。对于研究社区来说,确定问题领域中完成的重要工作的重大任务是任何希望研究的科学家的先决条件。找到解决当前问题的方法。同样,学者需要值得注意的研究知识,不仅要让学生社区跟上他们学科的最新进展,而且要根据他们的研究质量来评估教师,以促进职业发展。∗通讯作者。电子邮件地址:sarabjeet. gmail.com(S.K.Kochhar),uojha@arsd.du.ac.in(美国)。Ojha)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.02.001唯一流行的客观衡量标准,已与量化的研究工作的质量,引用数是指一篇研究论文被其他作者引用的次数[3,6]。已经引入的一些其他客观指标也仅基于引用计数。其中一些是期刊影响因子[7-然而,引用计数,仅仅是计数频率实际上可能误导对研究工作引用有时仅仅是因为关注或共同作者,以增加参考文献的数量[1,3]。有时,引用论文提及被引用的工作只是为了讨论其不足之处和改进建议。传统上,即使是这样的引文也会在计算引文索引时计算[13]。只有少数作品在主观领域中评估给定研究论文的影响的问题。虽然基于人的主观性的评估是不可模仿的,但单一的主观分析会带来人的偏见和偏见[4]。此外,鉴于现有的研究文献数量,单纯的人工(主观)分析显然是不可行的。因此,必须辅之以客观措施。2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。254S.K. Kochhar和U.Ojha/ICT Express 6(2020)253我∑()下一页一J我一IR=(∑[(IJJ i i AJ++因此,需要一个度量标准,不仅要客观地表达研究论文的影响,而且要客观地考虑论文的基调和主旨表1属性的描述。属性描述引文,其出版物来源的强度和引用作者等。我们尝试设计这样一个度量在目前的工作。一个索引,如本文中开发的索引,应该能够更明智地向新的研究人员和同行传达特定研究论文对研究人员,学术界和从业者的影响和影响。cAicJiRARJSCcCT论文引用作者引用论文i发表的期刊被引论文R发表的期刊R的引文总数本文的结构如下。第二节介绍了相关的工作。第3节将此讨论形式化开发一个模型来确定研究论文的影响力。第四部分介绍了实现细节和实验研究。第五部分总结全文,并提出今后的工作方向。2. 相关工作采矿界已根据引文数量制定了大量客观指标,用于对期刊、作者和文章进行排名。一些重要的基于引用计数的指标来排名期刊的质量和影响力:期刊影响因子[7],SNIP(每篇论文的来源标准化影响)[8],SJR(SCIMago期刊排名)[9],SJR指标[14]和Eigen因子[11]。客观的,基于引用计数的指标也被提出来建立作者的影响力。最受欢迎的指标是赫希在2005年引入的h指数,以显示科学家研究工作的影响[10]。作者级特征因子[15]和作者影响因子[16]是属于这一类别的其他指标。Altmetrics [17],PlumAnalytics和公共科学图书馆文章级别指标是文章级别指标的一些示例,这些指标传达了一篇文章在社交媒体中的影响力[18]。然而,这些指标需要谨慎使用,因为最终用户很容易影响它[19]。主观排名在研究界很少被提及. F1000 Prime是一个生物学出版物数据库,著名科学家和专家以及3. 一种基于方程的研究影响在本节中,我们确定并讨论了影响研究论文影响力的属性,因此必须对研究论文影响力进行综合评估。然后,我们使用这个讨论开发一个基于方程的模型,用于开发一个指数来传达研究论文以下三个属性影响或提供输入,以帮助评估研究论文引文情感分析:论文的引文无可争议地提供了对研究工作对其同行的影响的直接洞察[3,6]。然而,引文背后的背景和情感是反馈的非常重要的线索,引用作者希望提供关于特定工作的信息[13,21因此,对引文的情感分析大大有助于确定研究工作的真正价值[20]。出版论文发表的时间直接影响研究论文影响力的量化,引用[17,18]。作者根据上述讨论,我们建立了一个基于方程的模型来计算指数IR.|ct|他们的解释是手动对论文进行评分[18]。引文情感分析是文献计量学领域的一个新的研究领域[20]。这些引文是c艾i=1+Ic)SCc])+(IR+IR)(1)使用机器学习技术分配极性,例如正,负或客观[13]。一些作者使用sentiWordNet词典来为引文分配类似的极性[21,22]。引文情感分析也用于使用机器学习技术的生物医学研究[23]。Wang Wan开发了一个自动预测系统,可以根据同行评议文本预测研究论文的接受或拒绝决定,并识别这些评论的情绪[24]。Ikram和Afzal使用了一种方法来使用语言学方法识别方面水平的情感,以便可以根据引文识别研究论文的相关性[25]。表1以表格形式以便于参考。项(Ic Ic)SCc乘以从以下所有引文的情感分析获得的总得分:引用论文i,注明其作者和发表期刊的影响力得分之和。目的是根据作者和出版物来源的影响来衡量引文中表达的情感。将引文的引文情绪分数与各自出版物和作者的影响力总和合并。术语 IRIR 总结了作者和R发表的期刊的影响。可以注意到,不失一般性,期刊的影响因子可以使用数据挖掘社区已经开发的任何度量来导出,我我我我S.K. Kochhar和U.Ojha/ICT Express 6(2020)253255∀ ∈====i=1我=∑如期刊影响因子[7]、特征因子[11]等。类似地,作者的影响力可以使用任何一种方法来计算,以确定作者的影响力,例如h指数[10],g指数[25]或e指数[27]等。4. 实施与实验研究该模式的实施分为四个阶段。第一阶段是抽取引文句建立语料库。第二阶段通过使用SentiWordNet 3.0 [21]对引文进行情感分析,以了解引用作者所做引文的上下文。在第三阶段,根据引用论文的作者和期刊的影响力分配情感权重最后,计算了该指数的IR值,并与引文量进行了比较,验证了本文的研究目的4.1. 数据集由Radev等人发起的AAN存储库是一个拥有超过23,000篇自然语言处理(NLP)论文的存储库,这些论文已在ACL或或领先的NLP期刊和会议。从ACL选集网络(AAN)第13版中随机选择10篇论文作为本研究的参考论文[28]。只有那些引用了给定存储库中引用这10篇论文的论文才被选中。在所有91篇论文进行了研究,根据这项研究工作。这些论文的第一作者(非本人)的h指数是从知识库本身获得的。这意味着如果引用作者和被引用作者是同一个人,那么这些论文的h指数不计算在内。会议/研讨会/期刊对研究论文的影响因子也来自ACL选集网络。所 有10 篇 参考 文 献均 来 自 计算 语 言学 协 会北 美 分会(NACL 2000),因此其出版影响因子为1.29,也来自AAN本身。4.2. 引文提取部署Shell脚本来构建引文语料库,用于执行以下任务的引文情感分析:(a) 科研论文引用文献的识别从AAN仓库。(b) 引文的提取-明确的引文,即那些带有论文R作者姓名的句子被提取出来。(c) 从引文中删除作者(d) 建立引文语料库:对R研究论文的所有摘录引文进行汇编。4.3. 引文情感分析开 发 了 一 个 Java 程 序 , 使 用 基 于 WordNet 3.0 的SentiWordNet 3.0计算每个引用的情感得分[21]。运行时环境包括1.4 GHz Intel Core i5处理器,4 GB RAM,支持Mac OSSierra操作系统。该程序在没有其他并发进程的独立环境中运行。在SentiWordNet 3.0中,每个单词或同义词集根据极性分配三个分数,即积极,消极和客观分数,范围从0.0到1.0。每个同义词集的所有三个分数的总和为1.0。在这里,如果分数大于零,那么它被认为是积极的,如果分数小于零,情绪被认为是消极的。要计算每个引用句子的情感得分,请执行以下步骤被带走了:(a) 首先,句子被标记化,然后被词形化。(b) 然后对每个词元进行词性标注。(c) 使用SentiWordNet 3.0分配单个词元的分数。(d) 将每个分数相加,得到每个引文句子的最终分数,如表2所示:表2从研究论文中提取的引文的情感评分判决:TREC评估的最新结果是由美国国家标准与技术研究所(NIST)组织的一系列研讨会,旨在推进信息检索(IR)的最新技术,表明信息检索(IR)技术本身不足以找到高精度的答案。情绪评分:-0.9025判决:MIMIC通过采用主动模块来自动调整对话策略的能力,该主动模块基于参与者角色、在当前用户话语期间检测到的线索和对话历史来确定主动分配情绪评分:1.7475在表2中,已经显示了使用SentiWordNet 3.0计算的两个随机引用句子得分。第一个句子的分数为负数,第二个句子的分数为正数,因为它大于零。下面详细介绍了基于使用上述方法为研究论文的每个引用计算的情感得分(SC算法:基于引用的研究论文R的情感输入:情绪评分(SC),引用计数(cc)输出:平均情绪得分(ass),R的情绪(s)1.计算所有引文的总情感得分(tsc)(c),S.T. C RTSC|CT|(SC c)计算asstsc/cc3.如果(ass> 0. 7)s=“非常积极”4.否则if(ass>0。4&&屁股<0. 7)s=“阳性”5.否则if(ass>0&&屁股<0。4)s=“中性”6.否则s=在上面的算法中,我们选择将所有引用的情绪分类为2.256S.K. Kochhar和U.Ojha/ICT Express 6(2020)253−表310篇参考文献的情感总分及其极性。论文ID作者一论文引用引用次数总情绪评分∑SCc极性表410篇参考文献的影响力评分文件ID编号情感得分总数R-1R-2R-312R-418R-5R-66R-712R-810R-921R-1014“原因是引用句在描述工作或方法或相关工作时通常是此外,在引文中发现情感往往是困难的,因为它是隐藏的。因此,我们不能直接将论文的极性分为正面或负面,因为引用作者避免在已被引用的研究论文中直接吹毛求疵。因此,平均分数被分为上述类别,以清晰地了解论文的情感4.4. 计算指数并找出影响基于第3节中开发的基于方程的模型,我们使用情感评分、作者结果示于表4中。4.5. 实验观察“观察结果1:通过分析表4所示的结果,可以观察到,尽管论文R1和R5具有相同的引用计数,但R5的影响因子高于R1。这一结果显示了影响因子IR在判断研究论文质量方面优于单纯引用计数的功效。观察结果2:有趣的是,尽管R2的情绪评分为负,但其影响力大于R6和R10。对参数的详细检查(见表5)显示,尽管收到了负面评论,从引用的论文ct4、ct7和ct8来看,论文R2R2本身的h指数和影响因子也很高。这些因素帮助R2获得比R6和R10更高的影响力.5. 结论和今后的工作目前,学术界对论文影响力的评估主要是基于引文计数,而引文计数仅仅是一种频率计数。重要的是,在考虑所有引文对一篇论文的积极影响做出同等贡献之前,要考虑引文的语气和主旨。我们已经证明,这是可能的,通过评估引用背后的情绪。此外,我们还引入了一些公认的客观指标,如作者和出版期刊的影响力等,以衡量每篇引文的情感得分,从而实现了客观和主观分析,以评估研究论文的影响力。开发了一个基于方程的模型,以结合上述确定的参数。这个等式给出了一个指标,客观地传达了一篇研究论文的影响。实验观察证明了呼吁一个更全面的措施来衡量一个文件的质量比仅仅引用的数量的有效性。他们还提出了有趣的相互作用的研究属性,即引用情绪得分,作者和出版物来源与引用计数的影响。作为这项工作的延伸,进一步研究这种相互作用肯定是有益的未来的工作还可能涉及识别影响研究论文影响的其他指标或因素。来自情感引用分析领域的即兴创作也是可取的。例如,隐式引用分析领域的研究有望对情感权重的质量产生积极影响。分析和确定微妙情绪的问题也有待准确解决,因为负面引用有时会以非常精细的方式被提及,人类可能会检测到,但算法可能无法正确识别。竞合利益作者声明,本文中不存在利益冲突。h指数IrR |CT|句子|CT|我i=1R-169157.005积极R-21088 −0.035阴性R-3108128.959非常积极R-4411184.876中性R-5106156.54积极R-65660.522中性R-799120.265中性R-818104.697积极R-976218.454积极R-10410141.85中性S.K. Kochhar和U.Ojha/ICT Express 6(2020)253257- -表5计算IR2文件的影响因子。Published inC/J影响因子h指数作者引文计数情感得分评分R2C 1.29 10 1 11.290.038 0.1690.090 0.22 0.090 0.090 0.090 0.0901.79 3 1 0.255 1.22环丙沙星1.48 3 1 0.297 1.331.48 3 1 0.413 1.851.48 1 1 0.172 0.43ct7 C 1.48 0 1 −0.424 −0.63ct8 C 1.6 1 1 −0.282 −0.73总情绪分数−0.035影响系数:IR212.48C-Conference,J-Journal。CRediT作者贡献声明Sarabjeet Kaur:概念化,方法论,写作- 审查编辑,监督。Uma Ojha:调查、软件、确认、原始草案。引用[1] 操纵影响因子:一个不道德的问题还是编辑的选择?瑞士医学周134(2004年)。[2] Sarah Huggett,Journal bibliometrics indicators and citation ethics:adiscussionof current issues,Athereconomy(2013)。[3] Lutz Bornmann,Hans-Dieter Danie等人,引用计数是衡量什么的?引用行为研究综述,J。Doc. (2008年)。[4] EmilyPronin,Perceptionandmisperceptionofbiasinhumanjudgment,Trends Cognit。Sci. (2007年)。[5] C. Papakostidis,P.V. Giannoudis,影响因子和altmetrics:什么是未来,在:C。Mauffrey,M. Scarlat(Eds.),骨科医生的医学写作和研究方法,Springer,2018年。[6] A. Agarwal , D. Durairajanayagam , S. 南 卡 罗 来 纳 州 塔 塔 加 里Esteves,A. 哈列夫河Henkel,S. Roychoudhury,S. Homa,N.G.普查尔特河Ramasamy,A. Majzoub,文献计量学:通过选择适当的指标跟踪研究影响,亚洲J。安德罗尔. 18(2)(2016)296.[7] E. Garfield,The history and meaning of the journal impact factor,JAMA 295(1)(2006)90-93.[8] L. Leydesdorff,T. Opthof,Scopus的来源标准化每篇论文的影响(SNIP)与基于引用分数计数的期刊影响因子,J. Am.社会信息科学Technol.61(11)(2010)2365-2369。[9] 法医Falagas,V.D.库拉诺斯河Arencibia-Jorge,D.E.陈晓,陈晓生,等.期刊影响因子与期刊等级的比较.中 国 期 刊 学 报 ,20 0 0 , 24 (3 ):11 7 - 11 8 . 22(8)(2008)2623[10] J.E.赫希,一个指数,以量化个人的 科 学 研 究 产 出 , Proc. Natl.Acad. Sci. 102(46)(2005)16569[11] C.T. 伯格斯特罗姆,J.D.韦斯特,用特征因子评估引文TMmetrics,Neurology 71(23)(2008)1850-1851。[12] I.R. Bienert,R.C.D. Oliveira,P.B.D. Andrade,C.A. Caramori,心脏病学文献计量索引、数据库和影响因素,Braz。J. Cardiovasc.Surg. 30(2)(2015)254[13] A. Athar,S. Teufel,Context-enhanced citation sentiment detection,in:Proceedings of the 2012 Conference of the North AmericanChapterof the Association for Computational Linguistics : HumanLanguageTechnologies,Association for Computational Linguistics,2012,pp.597-601[14] B. González-Pereira,V.P. Guerrero-Bote,F. Moya-Ajinón,期刊科学声望度量的新方法: SJR 指 标 , J 。信息技术4(3)(2010)379[15] J.D. West,M.C.放大图片作者:J. J.作者级特征因子度量:评估社会科学研究网络社区中作者、机构和国家的 影 响 力 。Am. Soc.INF. Sci. Technol. 64(4)(2013)787[16] R.K. Pan,S.作者影响因素:跟踪个人科学影响的动态,Sci。众议员4(4880)(2014)。[17] R. Melero,Altmetrics-常规指标的补充,Biochemiamed.:生化的。25(2)(2015)152[18] L. Bornmann,哪种纸的altmetric计数较高或较低?一项使用PLOS和F1000Prime 2014文章级指标的研究,p. v1,arXiv:1409.[19] M. Thelwall,S. Haustein,V. Larivière,C.R. Sugimoto,Altmetrics工作吗?Twitter and ten other social web services,PLoS One 8(5)(2013)e64841.[20] Sarabjeet Kaur,Uma Ojha,引文背后的情感:跟踪第一届可持续信息技术与工程国际会议(SIET)引文情感分析的需求,当前工作和未来方向。[21] S. Baccianella,A. Esuli,F. Sentiwordnet 3.0:一个用于情感分析和意见挖掘的增强型词汇资源,Lrec,Vol. 10,2010,pp.22002010年。[22] D. C. Cavalcanti,R. B. Prudêncio,S.S. Pradhan,J.Y. Shah,R.S.彼得罗邦,好人变坏人?区分科学影响中的正面和负面引用,2011年第23届IEEE人工智能工具国际会议,IEEE,2011年,pp.156-162.[23] 徐建,Y. Zhang, Y. Wu,J. Wang,X. Dong,H. Xu,临床试验论文中的引文情感分析,AMIA年度研讨会论文集,第2015卷,美国医学信息学协会,2015年,p. 1334年[24] K. Wang,X. Wan,学术论文同行评审文本的情感分析,在:第41届国际ACM SIGIR信息检索研究发展会议&,ACM,2018年,第101 页。175-184。[25] M.T. Ikram , M.T. Afzal , Aspect based citation sentiment analysisusinglinguistic patterns for better understanding of scientometrics ,Scientometrics 119(1)(2019)73-95。[26] P. Kazi,M. Patwardhan,P. Joglekar,基于上下文的研究论文引文索引的新视角,Scientometrics 107 (1)(2016)103[27] L. Egghe,g指数的理论与实践,Scientometrics 69(1)(2006)131-152。[28] D.R.作者:A. Abu-Jbara,ACL选集网络语料库,Lang. Resour。Eval. 47(4)(2013)919-944。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ayotidur
- Exsty-crx插件
- Language-zone
- SCATTERBAR3:创建一个 3-D 条形图,其中条形放置在用户指定的 XY 位置。-matlab开发
- TensorFlow2实战-系列教程14:Resnet实战
- [新闻文章]小虫新闻管理系统V1.0_xcnewsv1.0.rar
- AzureDiagnosticsPipeline:此存储库具有构建Azure诊断DevOps管道的源,以将诊断设置应用于Azure资源(动态)
- 蛇:基于控制台的蛇游戏
- TurboCStudy,c语言编译的源码,c语言项目
- Biorhythm:你的一周过得怎么样?-matlab开发
- koa-template-project:Koa模板项目
- 简洁棕色线条响应式html5模板5598.zip
- Coin Master Free Spins Loader-crx插件
- 苹果手机
- click-and-meet-calendar-generator:生成可打印的日历,以根据德国的COVID-19规则管理“点击并开会”约会
- -123r
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功