
软件影响14(2022)100444
原始软件出版物
R-classify
:从受控词汇表中提取研究论文的相关概念
Tanay Aggarwal、Angelo Salatino、Francesco Osborne、Enrico Motta
KMi
,开放大学,沃尔顿大厅,米尔顿凯恩斯,
MK7 6AA
,英国
A R T I C L E I N F O
保留字:
主题检测主题提取
学术数据科学文本
挖掘学术本体
A B标准
在过去的几十年里,我们看到网上的科学文章激增。这种数据丰富的环境提供了若干机会,但也带来了挑战,
因为探索这些资源并确定 所有相关内容。因此,至关重要的是,要用相关概念对它们进行适当的注释 以增
加它们被正确索引和检索的机会。在本文中,我们提出了R-分类,网络工具,帮助用户识别最相关的概念,根
据大规模的本体论的研究领域在计算机科学领域
代码元数据
当前代码版本
v1.0
用于此代码版本的代码
/
存储库的永久链接
https://github.com/SoftwareImpacts/SIMPAC-2022-247
可复制胶囊
法律代码许可证
Apache
许可证
2.0
使用
git
的
代码版本控制系统
使用的软件代码语言、工具和服务语言
:
Python
、
JavaScript
、
PHP
、
HTML
、
CSS
、
Java
。框架:
Django.
数据库:
MongoDB
。其他工具:
Grobid
。
编译要求,操作环境依赖性所有必要的要求都列在文件
requirements. txt
中。参阅文档
自动安装它们。
如果可用,链接到开发人员文档
/
手册
https://github.com/angelosalatino/r-classify/blob/master/README.md
问题支持电子邮件
angelo. open.ac.uk
1.
介绍
近年来,科学界以前所未有的速度生产和传播知识。据估计,每年
有超过200万篇研究论文发表[1]。因此,导航和搜索如此大量的文档变
得具有挑战性。在某些情况下,网络搜索引擎很难找到相关信息,最终
导致令人沮丧和不满意的体验[2]。由于缺乏界定一套主题领域的具体准
则, 或用于注释研究文档的关键字。这些通常由研究人员或图书馆员
手动选择,然而他们可能使用非常不同的风格和粒度级别,导致非常稀
疏和嘈杂的表示。例如,他们通常使用大量的
∗
通讯作者。
相同概念的语法形式,例如,
点对点
,
对等
,
对等网络
,
对等系
统
。
为了提高研究内容的可检索性,有必要用一组概念对文档进行注
释,
(i)
标准化
,(二)
高质量
,(三)
全面
。这样的表示可以更有效地支持
数字图书馆、搜索引擎和推荐系统[3,4]。它还可以促进科学计量学分
析和监测和预测研究趋势的系统[5]。在本文中,我们提出了R-
Classify,一种新的Web应用程序,用于帮助用户选择最佳的研究主题集
来描述科学文章。其主要目的是帮助研究人员提高他们用来注释论文的
关键词的质量。 然而,它也可以被图书馆员、出版编辑和许多其他人
使用。
电子邮件地址:
tanay. open.ac.uk(T.Aggarwal),angelo. open.ac.uk(A.Salatino),francesco. open.ac.uk(F.奥斯本),恩里科.莫塔@ open.ac.uk(E。
Motta)。
https://doi.org/10.1016/j.simpa.2022.100444
接收日期:2022年10月28日;接受日期:2022年11月7日
2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。
可在ScienceDirect上获得目录列表
软件影响
杂志 首页:www.journals.elsevier.com/software-impacts