没有合适的资源?快使用搜索试试~ 我知道了~
主题轨迹识别和可视化的软件平台
≥软件X 22(2023)101330原始软件出版物TopicTracker:一个主题轨迹识别和可视化的平台Yong-Bin Kanga,李永斌,Timos Sellisb,1澳大利亚维多利亚州斯威本科技大学ARC自动决策与社会卓越中心b希腊雅典娜研究中心阿基米德研究所ar t i cl e i nf o文章历史记录:接收1三月2021收到修订版2022年11月24日接受2022年关键词:TopicTracker话题轨迹话题进化话题跟踪a b st ra ct主题轨迹信息提供了关键的洞察动态的主题和它们的演变关系在一个给定的时间。此外,这些信息可以提高我们对新主题如何通过先前主题的出现、修改和整合的连续或相互关联的事件而出现或形成的理解 。 然 而 , 现 有 的 主 题 轨 迹 识 别 方 法 的 实 现 很 少 作 为 可 用 的 软 件 。 在 本 文 中 , 我 们 提 出 了TopicTracker,主题轨迹识别和可视化的平台。TopicTracker的关键是它可以同时表示三个方面的信息,给定两种输入:一个时间戳的主题轮廓,由一组潜在的主题随着时间的推移,其中的演变强度矩阵:动态主题的演变路径,主题的演变状态和主题的重要性。TopicTracker是一个使用R软件实现的公开可用的软件。版权所有©2023作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。代码元数据当前代码版本V1.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00046法律代码许可证MIT许可证使用git的代码版本控制系统软件代码语言、工具和服务使用R编译要求、操作环境依赖性R 3.6版和R软件包(igraph、hash、plogram)如果可用开发人员文档/手册链接https://github.com/Yongbinkang/topicTracker/README技术支持邮箱:ykang@swin.edu.au,yongbin. gmail.com1. 动机和意义主题轨迹识别是一个备受科研机构和创新产业界关注的研究领域。在这一领域,一个基本的是使用主题建模来从文档集合中发现潜在的主题主题(或概念),其中每个主题由从集合中提取的代表性术语组成[1]。最近,动态主题建模也被用来识别主题及其在一段时间内的演变[2识别主题轨迹提供了宝贵的见解*通讯作者。随着时间的推移,主题的动态。例如,在科学和专利创新领域,这种轨迹可以显著帮助区分杰出的研究或技术主题,并发现它们的演变路径,反映新主题如何通过过去主题的出现,修改和整合的一系列事件而出现或形成[5我们将主题的轨迹视为主题随时间推移的主流或演变路径。[2]此外,我们将演化路径定义为旧主题和新主题之间的一系列演化关系。因此,由于电子邮件地址:ykang@swin.edu.au(康永斌),timos@athenarc.gr(Timos Sellis).1 在Swinburne University of Technology工作2 为了简化介绍,我们不区分https://doi.org/10.1016/j.softx.2023.1013302352-7110/©2023作者。由爱思唯尔公司出版。这是一篇开放获取的文章,使用CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx康永斌,Timos Sellis软件X 22(2023)1013302×PPP表1主题轨迹识别与软件可用性的研究。研究软件可用性域He等人2009年[9]Jo等人2011年[10]Song等人2014年[6]Zhou等人(2017年)[5]Zhang等人(2017年)[8]Jung等人(2020年)[11]Yoon等人2 0 1 1 年[7]Zhong等人2016年[第12话]Lee等人(2017年)[1]Park等人(2017年)[13]Triulzi等人(2020年)[14]Huang等人(2020年)[15]Qiu等人(2020年)[16]科学文献(主题:技术/知识概念)专利(主题:技术/知识概念)Zhang等人201 5 年[2]电子商务(主题:市场品牌)Greene等人2016年[3]政治(英语:Politics)Song等人2 0 1 6 年[4]历史(英语:History(topic:historical event))Gaul等人(2017)[17]在线新闻(主题:在线新闻)然而,近年来进行了许多研究,以设计用于主题轨迹识别的不同方法(见表1)。不幸的是,这些方法的实施,以鼓励他们的使用更广泛的科学界感兴趣的主题轨迹识别仍然是有限的。首先,大量的方法并不像表1中所示的易于使用的软件那样可用。在专题建模及其应用领域,现有的软件工具在开发时很少考虑以简单易用的方式为专题轨迹识别准备和格式化数据这要求用户直接实现他们的算法,从主题建模的结果中识别主题轨迹此外,这导致花费不必要的时间来准备数据,并限制了对不同方法产生的结果的有效比较。主题轨迹识别模型。为了解决这些问题,我们开发了TopicTracker,这是一个主题轨迹识别和可视化的平台。Top-icTracker是一个使用R软件实现的软件。2. 软件描述我们提出了TopicTracker的体系结构和它的主要功能。2.1. 软件构架TopicTracker的代码设计架构如图所示。1.一、它旨在区分用于构建主题的主题进化树(TET)(阶段1)的推理模块和用于可视化其主题轨迹(阶段2)的代码。设计TopicTracker的一个关键思想是发现进化路径(即,主题轨迹)通过构建它们最可能的系谱树(即,在给定的时间内。由于这种灵活性,人们可以很容易地定制代码来修改或定义TET的新形状以下总结了架构中的工作流程:首先,必须提供两种输入数据:包括底层时间戳主题的简档的时间主题简档,以及N-N主题演进强度(TES)矩阵,其中N表示简档中的主题的数量。其次,TopicTracker利用用户指定的参数min_tes(阶段1)推断简档中的主题的TET,该参数是主题之间的最小TES,以找到其可能的TET。祖先TES小于min_tes的主题在查找其祖先时将不被考虑。 在TET中给定一个话题v,它通向最古老话题的路径指示了v的轨迹。因此,TET是反映主题演化路径的主干。第三,TopicTracker使用三个参数可视化了五个中心模块(第二阶段)的推断TET:min_reborn是主题出现的时刻到其演变的主题出现之间所经过的最小时间段;min_dead是未观察到的主题的最小时间段;以及min_tes。一个示例TET如图所示。2,其中每个节点去注释一个主题。两个主题之间的演变关系由有向边缘表示,并且其TES由不同的边缘颜色表示。每个节点的演化状态用不同的节点颜色标记。y轴显示在[0,1]中标准化的主题的重要性。我们强调,TET中三个信息方面的整合提供了对主题轨迹的洞察:主题及其TES随时间的演变路径、主题随时间的演变状态和主题重要性。下面我们详细介绍TET的构建过程2.2. 软件功能我们现在给出关于输入数据和TopicTracker中包含的两个阶段的详细描述。2.2.1. 输入数据格式必须给出两种输入数据3来运行Top-icTracker:时间主题简档和TES矩阵M。包含关于将生成其trajecory的目标主题的描述。表2中给出了一个示例,每个主题v都有以下字段:id是v的唯一标识符。index是v的唯一整数索引(从0开始)。weight是v每年给定的权重。year(格式为yyyy)是生成v的年份。单词是表示v的前N个单词。关于权重、年份和单词的信息可以由主题模型生成。43 生成此输入数据的讨论超出了本文的范围4 例如,动态主题模型[18]可以生成这样的信息。关于生成此类信息的讨论超出了本文的范围········康永斌,Timos Sellis软件X 22(2023)1013303==-Fig. 1. TopicTracker的架构。图二. TopicTracker生成的TET示例。参数设置为:min_reborn2年,min_dead1年,min_tes0.2。关于这个例子的解释在第3节中提供。(有关本图例中颜色的解释,请参阅本文的网络版本M矩阵是一个N×N矩阵,其中N是在P中呈现的主题的数量,其中:M的第i行和第j列表示第i行主题(旧)朝向第j列主题(新)。TES仅存在于一对两个非当代主题之间,因为我们仅估计不同时隙上的主题之间的TES。因此,我们将当代主题之间的TES设置为0。此外,默认情况下,我们将对角线项设置为1。所有的主题都是按照时间段升序排列的。因此,第一个是最古老的话题,最后一个是最新的话题。M是非对称矩阵,其中主对角线以下的所有条目不保持任何值,因为我们只对两个主题x和y之间的TES的计算感兴趣,只要time(x)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)