没有合适的资源?快使用搜索试试~ 我知道了~
Scopus软件的Python包装器:简化数据检索和分析
软件X 10(2019)100263原始软件出版物pibliometrics:使用Scopus的Python接口的脚本化文献计量学Michael E.放大图片作者:John R.基钦湾德国马克斯·普朗克创新与竞争研究所b美国卡内基梅隆大学化学工程系ar t i cl e i nf o文章历史记录:收到2019年收到修订版2019年6月19日接受2019年6月19日关键词:Scopus软件Python文献计量学科学计量学a b st ra ct我们为Python 3编写了一个Scopus RESTful API的包装器。该包装器允许用户通过用户友好的界面访问Scopus数据库,并且可以在不了解RESTful API的情况下使用。该包提供了与不同Scopus API交互的类,以检索引用计数、作者信息或文档摘要等各种信息。文件被缓存以加速后续分析。该软件包面向Scopus数据的所有用户,例如在科学科学或评估科学工作的研究人员。它促进了研究项目的可重复性,并增强了使用Scopus数据的研究人员©2019作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本2.1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2019_55法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性请求、pbr如果可用,链接到开发人员文档/手册https://pybliometrics.readthedocs.io/en/stable/技术支持邮箱Michael. ip.mpg.de1. 动机和意义Scopus是引文、文献计量学和摘要数据库之一,已成为科学计量学和文献计量学领域的标准[12019年1月至2019年1月在GoogleScholar上搜索“Scopus”返回了约1,990,000条结果,其中约24,200条来自2018年。例如,最近科学经济学领域的一些研究强调了Scopus的重要性[5为 了 简 化 Scopus 数 据 的 使 用 , 我 们 开 发了 pybliomet-rics,这是一个Python包,用于访问Scopus提供的RESTfulAPI我们的解决方案的替代方案是手动从Scopus下载信息,或者使用少数几个*通讯作者。电子邮件地址:Michael. ip.mpg.de(M.E. Rose)。https://doi.org/10.1016/j.softx.2019.100263解决方案的语言不如Python突出。后者包括PHP和bash [12],DSpace [13]或Apache上的JavaScript [14]。然而,Python中的功能使已经使用Python的科学家掌握了数据计量学(例如,用于数据分析,可视化等)。另一方面,手动下载有其自身的局限性。例如,一次搜索只能下载2000条记录手动工作也容易出错,而自动化过程避免了特殊错误,更有效,允许再现性并充当pybliometrics具有一致、简单的界面,不需要服务器,并且可以轻松地与Python数据科学生态系统中的所有内容集成,包括可视化工具和机器学习。2352-7110/©2019作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2法医罗斯和J.R.Kitchin/SoftwareX 10(2019)100263表1生物计量学中的类概述API类型休息计量学分类目的联系方式搜索搜索合作伙伴搜索搜索附属实体作者检索搜索作者搜索搜索作者Scopus检索搜索ScopusSearch搜索文档摘要检索检索摘要检索关于文件的联系检索检索内容关联检索关于附属机构作者检索检索作者检索关于作者引文计数元数据元数据X引用文献计数引文概述元数据X引文概述按年份统计PlumX指标元数据文档的PlumX指标(社交媒体提及)序列标题元数据元数据X序列标题期刊信息主题分类元数据搜索和检索主题分类作者反馈其他X提供作者反馈(即更正)注:表中列出了Scopus数据库当前(2019年1月)可用的RESTful API。休息表示订阅者需要Elsevier对此API的额外许可(即,所使用的密钥需要更多特权)或API的所有视图都受到限制。2. 软件描述Pybliometrics 构 建 在 requests 包 [16] 上 , 可 以 从 PythonProject Inventory(PyPI)获得。 它可以在Python解释器或脚本模式中跨平台使用。2.1. 软件构架Pybliometrics实现了 Scopus数据库的八个 RESTful API(表1 ) 。 这 些 API 包 括 三 个 搜 索 API ( Abstract Search 、 AuthorSearch、Affiliation Search)、三个检索API(Abstract Retrieval、Affiliation Retrieval、Author Retrieval)和五个元数据API中的两个(Citation Overview API、Serial Title API)。每个类都以一致的方式设计。所需的参数是搜索查询字符串(用于搜索类)或Scopus实体的标识符(用于检索和元数据类),如作者、文档或隶属关系。只有Citation Overview类需要一个额外的参数,即起始年份。查询和检索结果被缓存以供后续分析。2.2. 计量学.scopus例外参考文献计量学根据收到的错误类型虽然它们都继承了requests包提供的exceptions,但它们允许特定于错误的处理。2.3. 配置配置文件存储两个重要的信息:身份验证凭据和缓存文件的路径。第一次使用时,如果配置文件不存在,则生物计量学将指导创建过程。的文件存储在用户的主目录(home/)中名为“. scopus”的隐藏文件夹中2.4. 软件功能通常,用户感兴趣的信息存储在属性中。大多数属性都是对象类型字符串或命名元组列表(例如,如果返回多个结果和多个信息字段)。属性的名称与Scopus文档中的字段名称对齐图1.一、 SoftwareX期刊的协作网络。 注:图中显示了截至2019年使用SoftwareX杂志上出版物的共同作者网络。 每个蓝点代表一个作者。两个作者通过一个未指明的和未加权的黑色链接连接起来。根据采用的Fruchtermann-Reingold算法使用NetworkX进行图形布局3. 说明性实例3.1. 自动下载信息人们通常只对Scopus提供的出版物和信息列表感兴趣。下面的代码提供了下载2010年《科学》杂志上所有出版物所需的时间。结果总数(即出版物的数量)等于2260,这已经超过了手动下载所允许的数量。 取决于下载速度,下载信息的时间不到5分钟。然而,由于Pybliomet-rics缓存信息,重用它只需要不到一秒。3.2. 创建协作网络文献计量学分析的一个共同任务是创建一个如此-共同作者的社 会 网 络 。 下 面 的 例 子 使 用 Net-workX [17] ( 版 本 2.3 ) 为SoftwareX期刊创建合著者网络:图1中描绘了所得到的曲线图。该网络由734名独立作者组成,发表在228篇论文上。 图中的节点通过1636条边连接。 因为我们使用Scopus提供的作者配置文件ID,所以我们不需要消除作者姓名的歧义。法医罗斯和J.R.Kitchin/SoftwareX 10(2019)1002633×3.3. 分析引文分布论文引文是许多评价工作的基础。类CitationOverview()提供对(受限的)Citation Overview API的访问。下面的练习收集了经济学家理查德·H·诺奖决定中引用的三种出版物的年度引用计数,直到2018年初泰勒我们使用pandas [18](版本0.24.2)和seaborn [19](版本0.9.0)。此外,我们使用scipy [ 20 ](版本1.2.1)对引文分布的相似性进行了双侧这三篇论文的引文分布如图2所示。p值为<2。9 10−16,检验拒绝了零假设,即第一个和第二个的引用分布第二张纸是一样的。4法医罗斯和J.R.Kitchin/SoftwareX 10(2019)100263图二. 三篇 选定论文的引文分布。注:图中显示了截至2018年初的三篇选定论文的年度引用计数3.4. 使用摘要的最后一个练习连接到机器学习和自然语言处理的新兴领域。有兴趣了解研究主题的研究人员可以使用文献计量学,例如,快速获得大量的科学摘要,并使用专门的软件进行分析。在源代码4中,我们使用拉滕狄利克雷分配在科学文章的语料库中找到主题 。 我 们 使 用 nltk [21] ( 版 本 3.4.3 ) 和 sklearn [22] ( 版 本0.20.2)。我们使用截至2019年6月在SoftwareX上发表的226篇论文的摘要,并假设3个主题。第一个主题涵盖用于描述所呈现软件的技术术语,第二个主题包括呈现软件的术语,而第三个主题似乎是关于作者用于描述软件可用于什么的4. 影响生物计量学有几个特点,使其成为对使用Scopus数据感兴趣的科学家的最佳选择。不需要理解RESTful API或知道如何解析XML或JSON。bypliometrics代码是开源的。 唯一的要求是对Python有一定的了解。由于其可用性在PyPI上,Pybliometrics是广泛可用的。使用文献计量学,在科学领域工作的科学家[23](替代名称包括科学经济学[24]和科学社会学)可以提高他们项目的可重复性和准确性由于用户以相同的方式从相同的源获取数据,并且数据的来源变得透明,因此可重复性增加法医罗斯和J.R.Kitchin/SoftwareX 10(2019)1002635如何获得[25]。1准确性提高,因为将更新的数据集成到分析中变得非常容易。5. 结论生物计量学帮助研究人员进行生物计量学研究的能力是基于一致、简单的界面,自动化所有数据检索、JSON序列化、缓存和错误处理。它使研究人员能够以可重复的方式加快分析速度,使科学评估人员能够自动检索评估数据。致谢我 们 感 谢 https : //github 上 列 出 的 各 种 贡 献 者 。com/pybliometrics-dev/pybliometrics/graphs/contributors. 为 了帮助准备这篇论文,我们感谢编辑,两位匿名裁判,StefanoBaruffaldi,Felix Pöge和Nurzhan Sapartan。[1]应当指出的是,使用来自数据库的数据,其中增加、删除和更正是频繁的,限制了重复性本身。竞合利益我们希望确认,本出版物不存在任何已知的利益冲突,也不存在可能影响其结果的重大财务支持。引用[1][10] Zhang Jiang,Li Li,Pappas G.比较PubMed,Scopus,Web of Science和 Google Scholar : 优 势 和 劣 势 。 FASEB J 2007;22 ( 2 ) : 338-42 。http://dx.doi.org/10.1007/978-94-007-7618-0_310.[2]Harzing A-W,Alakangas S. Google Scholar,Scopus和Web of Science:纵向 和 跨 学 科 比 较 。 Scientometrics2016;106 ( 2 ) : 787-804.http://dx.doi.org/10.1007/s11192-015-1798-9网站。[3]放大图片作者:Paul Hus A. Web of Science与Scopus期刊覆盖率的比较分析Scientometrics 2016;106(1):213网址://dx.doi.org/10.1007/s11192-015-1765-5网站。[4]Zeng A,Shen Z,Zhou J,Wu J,Fan Y,Wang Y,Stanley HE. 科学的科学 : 从 复 杂 系 统 的 角 度 。 PhysRep2017;714-715 : 1-73 。http://dx.doi.org/10.1016/j.physrep.2017.10.001网站。[5]放大图片作者:J. 计量经济学杂志四十年:合著模式和网络。J Econometrics2016;195(1):23-32. http://dx.doi.org/10.1016/j.jeconom.2016.04.018网站。[6]张文辉,张文辉,张文辉.科学成果的出版前披露:规范、竞争和商业导向。Sci Adv 2018;4 ( 5 ) . eaar2133. http://dx.doi.org/10.1126/sciadv.aar2133 网站。6法医罗斯和J.R.Kitchin/SoftwareX 10(2019)100263[7]Catalini C,Fons-Fosen C,Gaulé P,Shape Collaboration.旅行费用如何?NBER 工 作 文 件 系 列 , 第 24780 卷 , 2018 年 , http://dx.doi.org/10 。3386/w24780。[8]张伟,王伟,王伟.从导师网络中聘用的理工科博士生的生产力。Res Policy2016;45(4):785-96. http://dx.doi.org/10.1016/j.respol.2015.12.006网站。[9]放 大 图 片 作 者 : J. 作 者 和 贡 献 披 露 。 Sci Adv 2017;3 ( 11 ) . e1700404 。http://dx.doi.org/10.1126/sciadv.1700404网站。[10]杨伟,王伟,王伟.公共资金对研究产出的影响:新西兰马斯登基金。新西兰经济论文2018;52(2):227http://dx.doi.org/10.1080/00779954.2017.1325921网站。[11]Heckman J,Moktan S.经济学的出版与推广:前五名的暴政。NBER工作文件系列,第25093卷,2018年,http://dx.doi。org/10.3386/w25093。[12]Montoya FG,Alcayde A,Baños R,Manzano-Agugliaro F.使用Scopus数据库识别全球科学合作的快速方法。Telemat Inform 2018;35(1):168-85.http://dx.doi.org/10.1016/j.tele.2017的网站。十点十分[13]阿 特 迈 尔DSpace 开 发 者 , DSpace 爱 思 唯 尔 补 丁 。 Tech. 代 表 , 2017 年 ,URLhttps://atmire.github.io/Elsevier/#/。[14]贝里河Eprints Scopus Screen插件开发人员,Eprints Scopus Screen插件。Tech.代表,2012年。[15]作 者 : J.J. 社 会 科 学 代 码 与 数 据 : 实 践 者 指 南 。 2014 年 ,URLhttps://web.stanford.edu/~gentzkow/research/CodeAndData.pdf。[16]Reitz K,请求开发人员。请求:HTTP用于人类。Tech.代表Cary,NC,2019,URLhttps://2python-requests.org/en/master/。[17]Hagberg A,Schult D,Swart P,Networkx developers. NetworkX. Tech.代表,2004年,URLhttps://networkx.github.io/documentation/stable/index.html。[18]麦金尼W Python中统计计算的数据结构。 在:S。van der Walt,J. Millman(编辑),2010年第9届Python in Science会议论文集。p. 51比6[19]Waskom M,Botvinnik O,D. Ruiter J,Pye C,Hoyer S,Vanderplas J,Villalba S,Kunter G,QuinteroE,Bachant P,Martin M,Meyer K,Miles A,Ram Y,Brunner T,YarkoniT , WilliamsML , EvansC , FitzgeraldC , Brian , QaliehA.Mwaskom/seaborn:v090. 2018年,URLhttps://zenodo.org/record/1313201。[20]Jones E,Oliphant T,Peterson P,SciPy开发人员。SciPy:Python的开源科学工具Tech. 代表,2001年,URLhttp://www.scipy.org/。[21]Bird S,Loper E,Klein E.用Python进行自然语言处理O'ReillyMedia Inc;2009.[22]Pedregosa F,Michel V,Grisel O,Blondel M,Prettenhofer P,Weiss R,Vanderplas J,Cournapeau D,Varoquaux G,Gramfort A,Thirion B,GriselO,Dubboutin V,Passos A,Brucher M,Perrot,Duchesnay E. Scikit-learn:Python中的机器学习。J Mach Learn Res 2011;12:2825-learn.sourceforge.net[23][10] J.J. S,Bergstrom CT,Börner K,Evans JA,Helbing D,Milojević S,Pe- tersen AM,Radicchi F,Sinatra R,Uzzi B,Vespignani A,WaltmanL,Wang D,Barabási A-L.科学的科学科学2018;359(6379)。eao0185。网址://dx.doi.org/10.1126/science.aao0185网站。[24]斯蒂芬·佩科学经济学。J Econ Lit 2010;34:217网址://dx.doi.org/10.1016/S0169-7218(10)01005-1.[25]杨伟杰,李伟杰,李伟杰.可重复计算研究的十条简单规则。PLoS ComputBiol 2013;9(10). e1003285。http://dx.doi.org/10.1371/journal.pcbi.1003285网站。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功