没有合适的资源?快使用搜索试试~ 我知道了~
LAC软件:作者聚类的新方法
软件影响10(2021)100119原始软件出版物LAC:短文本Rafi TradMr.,Myra Spiliopoulou德国马格德堡奥托·冯·格里克大学计算机科学学院A R T I C L E I N F O保留字:作者聚类文档聚类作者分析A B标准对文档语料库的作者聚类导致将它们分组,使得每个组包围由同一作者撰写的那些。LAC,所提出的软件,实现了一种新的方法对作者聚类的段落长的文本。它通过一个灵活的命令行界面对在低维语言独立的基于主题的向量空间中建模的文档进行操作。使用LAC可以更容易地评估这种表示的优点并将其与其他方法进行比较。此外,LAC还有助于研究作者聚类的半监督以及如何最好地确定作者聚类的数量���在一个语料库中。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-50可复制胶囊法律代码许可证GPL-2.0使用git的代码版本控制系统使用Python 3.8.8的软件代码语言、工具和服务编译要求,操作环境依赖性HDP(https://github.com/blei-lab/hdp),numpy 1.19.2,seaborn 0.11.1,scipy 1.6.2,gensim 3.8.3,pandas 1.2.4,bcubed 1.5,pyclustering 0.10.1.2,matplotlib 3.3.4,nltk 3.6.1,joblib 1.0.1,gap-stat2.0.1、langdetect 1.0.8、scikit-learn 0.22.0如果可用,链接到开发人员文档/手册https://github.com/rtrad89/authorship_clustering_code_repo/blob/master/README.md支持问题电子邮件rafi. yahoo.com软件元数据当前软件版本1.0此版本可执行文件的永久链接https://github.com/rtrad89/authorship_clustering_code_repo可复制胶囊法律软件许可证GPL-2.0操作系统Microsoft Windows 10安装要求依赖HDP(https://github.com/blei-lab/hdp),numpy 1.19.2,seaborn 0.11.1,scipy 1.6.2,gensim 3.8.3,pandas 1.2.4,bcubed 1.5,pyclustering 0.10.1.2,matplotlib3.3.4,nltk 3.6.1,joblib 1.0.1,gap-stat 2.0.1,langdetect 1.0.8,scikit-learn 0.22.0如果可用,请链接到用户手册-如果正式出版,请包括参考参考文献列表https://github.com/rtrad89/authorship_clustering_code_repo/blob/master/README.md技术支持电子邮件rafi. yahoo.com1. 拉加经委会简介及其宗旨随着各种类型的生成数据量在当今时代不断激增,在许多方面对它们进行分类和访问的能力和通用手段变得更加迫切。不幸的是,一个不受欢迎的副产品是在线使用的虚假数据,∗通讯作者。威胁和危害(勒索、垃圾邮件、欺骗和其他在线犯罪)也在增加,需要立即干预。一个解决方案也应该考虑到问题的严重性,即它应该是自动的和可扩展的,最少的人为交互。电子邮件地址:rafi. yahoo.com(R. Trad),myra@ovgu.de(M.Spiliopoulou)。https://doi.org/10.1016/j.simpa.2021.100119接收日期:2021年5月5日;接收日期:2021年7月23日;接受日期:2021年8月7日2665-9638/©2021作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsR. Trad和M.斯皮利奥普卢软件影响10(2021)1001192就像在现实中一样,将生成的数据附加到其背后的实体上,将为虚拟现实中以自动化的方式利用文档的作者身份可以为许多应用程序铺平道路,甚至可以在一些危险的场景中实现关键功能,例如数字文本取证和网络安全。当涉及到文本数据时,理论上似乎可以假设用户展示了某些可以表明其个人身份的写作风格[1]。 量化用户的写作风格并进行作者身份分析是有序的,有助于网络安全,社交媒体和数字人文分析[2]。LAC,我们提出的软件,是针对执行一组文件,这是数字文本取证下的子任务的作者聚类。给定一组假设为单一作者的文档,作者聚类倾向于按作者身份对它们进行分组,解决作者身份信息的不可用性或不可靠性[3]。由于按作者对文档进行聚类可以有多个应用领域,因此LAC侧重于完整的作者聚类场景(我们称之为作者聚类)。这包括识别一组文档中的作者数量,并将每个文档分配给唯一可能的聚类中的一个聚类,从而提供了现有作者聚类的完整和详细的图片[3]。作者聚类本身是一个基本的处理步骤,更先进的任务,如作者日记和剽窃检测。2. 功能和技术细节为了对文本文档进行聚类,需要对这些文档进行矢量化和模型化。LAC依赖于在基于主题的向量空间模型中表示文档,这是一种在兄弟任务(即作者身份验证)中展示出有希望结果的技术[4]。主题建模用于产生文档的潜在语义空间表示,或LSSR。LSSR是一种低维的文本表示,它的噪声较小,并且与语言无关。建立了一个非参数贝叶斯模型,即分层狄利克雷过程(HDP),实现吉布斯抽样,并从数据本身自动推断主题的数量[5]。该软件提供了在文档语料库上运行HDP的能力,将HDP1的原始实现包装到Python调用中。LAC是命令行接口(CLI)软件。除了一个辅助入口点lssr_docs.py之外,还有一个主要入口点:cluster_docs.py。顾名思义,lssr_docs.py从文档语料库构建相关的LSSR,而cluster_docs.py则对LSSR中表示的文档进行聚类。这意味着需要编译HDP 妥善 在 秩序 到 在我们的代码中调用它。 运行主代码cluster_docs.py会得到两个CSV文件:authorial_clustering_results和authorial_clustering_kvals。作者聚类结果暴露了给定基本事实的运行聚类方法的不同的外在和内在聚类评估得分(表1),而通过这些方法对作者聚类(AUG)的数量的估计被存储在文件authorial_clustering_kvals中,因此也可以被分析。3. 对研究的即使是最先进的作者聚类性能(PAN-2017竞赛获胜者的性能[6,7])也是适度的,仍然有改进的空间。LAC软件提供了一个基于主题的基线来比较未来的研究工作的能力,因为它生成了一个综合的CSV表,其中包含多个外在和内在聚类评价指标的结果,如:NMI、ARI、NMI、Silhouette和������LAC打开了门,因为1 https://github.com/blei-lab/hdp。表1输出authorial_clustering_results CSV表的真实示例。在一个语料库上运行多种方法,计算聚类评价指标。无法计算Singleton基线的某些内在评估指标,因此Silhouette下的单元格为空。语料库方法nmiaribcubed_fscore剪影. . .语料库001B L _随机0.1905-0.02170.3827- 0.5639。. .语料库001B L _单例0.27570.3333。. .语料库001地面_真相111−0.4578. .语料库001S P K 平均值0.22710.03810.5228- 0.4852。. .语料库001C O P _K平均值0.45050.43170.709- 0.529。. .第一次,半监督学习被用于作者聚类设置和测试。由于LAC生成了大量的标准评估指标,研究人员可以直接将他们的方法与LAC实施的方法进行比较,或者使用其可定制的界面来改变不同的因素,并在相关研究问题的背景下研究它们的影响。LAC是高度参数化的,允许研究改变许多相关的变量,如背景知识的程度和所需的集群数量。通过authorial_clustering_kvals输出,研究人员可以开发和测试新的搜索引擎选择方法,并将它们与通过LAC合并的方法进行比较。 为了选择代理,它使用G-means 算 法 [8] 和 Gap 统 计 量 [9] 在 其 无 监 督 变 体 中 , 而 它���������������������������������������������������������在其半监督变体中优化了数量(×)。这些都是为聚类选择样本的既定方法,专注于此特定任务的研究问题可以从此输出中受益。 为了方便研究人员,LAC它可以无缝地处理一组语料库,并将所有数据集的结果集成到一个最终输出中,以实现更可重复和可靠的性能水平报告。到目前为止,LAC已经使Trad和Spiliopoulou [10]所做的工作成为可能。下一步将是设计一个定制的相似性度量,通过它我们可以评估两个文档在写作风格方面的相似程度。LAC以模块化的方式设计,可以使这项研究向前推进,并将所提出的度量与传统的度量(如余弦相似性)进行比较。最后,本地法律援助只是一个起步阶段,它的用户群仍然集中在我们CRediT作者贡献声明Rafi Trad:概念化,方法论,软件,验证,形式分析,调查,数据管理,写作Myra Spiliopoulou:概念化,撰写竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]E. Stamatatos,现代作者归属方法的调查,J。Soc.信息科学60(3)(2009)538https://onlinelibrary.wiley.com/doi/pdf/10.1002/asi.21001http://dx.doi.org/10.1002/asi.21001网址onlinelibrary.wiley.com/doi/abs/10.1002/asi.21001.[2]M. Potthast,P. Rosso,E.斯塔马塔托斯湾 斯坦,在PAN的数字文本取证中的十年共享任务,在:欧洲信息检索会议,施普林格,2019年,pp. 291-300[3]E. Stamatatos,M.奇纳格纳尔湾 Verhoeven,W. Daelemans,G. 斯佩希特湾 斯泰因,M。Potthast,根据文档内和跨文档的作者进行聚类,在:CLEF 2016评估实验室的工作说明文件中。CEUR研讨会论文集/Besides,Krisztian [编辑];例如,2016年,页691-715R. Trad和M.斯皮利奥普卢软件影响10(2021)1001193[4]N. Potha,E. Stamatatos,使用主题建模的内在作者验证,在:第10届希腊人工智能会议论文集,ACM,2018年,p. 20.[5]Y. W. Teh,M. I. Jordan,M.J. Beal,D.M.黄文,层次Dirichlet过程,统计学杂志。101(476)(2006)1566http://dx.doi.org/10.1198/https://doi.org/10.1198/016214506000000302。[6]H.戈麦斯-阿多诺角Martín-del Campo-Rodríguez,G. Sidorov,Y.阿莱曼湾比拉里尼奥湾Pinto,分层聚类分析:PAN 2017作者聚类任务中表现最好的方法, 在:P. Bellot,C。Trabelsi,J. Mothe,F. Murtagh,J.Y.涅湖 ,加-地Soulier,E.圣胡安湖Cappellato,N. Ferro(Eds.), Experimental IR MeetsMultilinguality , Multimodality , and Interaction , SpringerInternationalPublishing,Cham,2018,pp. 216-223[7]M. Tschuggnall,E.斯塔马塔托斯湾Verhoeven,W.Daelemans,G.斯佩希特湾斯坦,M. Potthast,PAN-2017作者识别任务概述:风格违规检测和作者聚类,在:CLEF 2017评估实验室的工作笔记论文/Cappellato,Linda [编辑];例如,2017年,页1-22[8]G. Hamerly 角 Elkan , Learning the k in k-means , in : Advances inNeuralInformation Processing Systems,2004,pp. 281-288.[9]R. Tibshirani,G. Walther,T. Hastie,估计数据中的聚类数通过间隙统计,J.R。Stat. Soc. Ser. B Stat.美沙酮63(2)(2001)411-423。[10] R.特拉德,M. Spiliopoulou,一个短文本作者聚类的框架在潜在语义空间,在 : P. H 。Abreu , P.P. Rodrigues , A.Fernández , J.a.Gama ( Eds. ) ,Advances in Intelligent Data Analysis XIX, Springer International Publishing ,Cham,2021,pp. 301-http://dx.doi.org/10.1007/978-3-030-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功