没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学1(2017)40VISTopic:一个可视化分析系统,用于使用分层主题建模来理解杨毅a,b,*,姚全明a,曲华民aa香港科技大学,香港B 香港联想集团有限公司ar t i cl e i nf o文章历史记录:2017年1月18日在线提供保留字:主题建模文本可视化可视化分析a b st ra ct鉴于文本数量的不断增长,对大型文本集进行有效分析仍然是一个具有挑战性的问题可用的文本数据。近年来,文本挖掘技术得到了迅速发展,用于从大量文本数据中自动提取关键信息。主题建模作为一种从文档中提取主题结构的新技术,被广泛用于生成文本摘要和促进对语料库内容的全面理解。虽然功能强大,但这种技术可能不直接适用于一般的分析场景,因为主题和此外,在知识发现中起重要作用的信息,如时代和作者,很在本文中,我们提出了一个可视化的分析系统,VISTopic,以帮助用户理解大型文档集合的主题建模的基础上VISTopic首先使用新的分层潜在树模型(HLTM)提取一组分层主题(Liu等人,2014年)。具体而言,设计了一个考虑模型特征的主题视图,用于对主题组织的全面理解和交互式为了利用多视角信息进行可视化分析,VISTopic还提供了一个演化视图来揭示主题的趋势,以及一个文档视图来显示主题文档的详细信息基于IEEE VIS会议数据集的三个案例研究表明,我们的系统在获得大的文档集合的见解的有效性2017浙江大学出版社由爱思唯尔公司出版这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍近年来,JSTOR、IEEE Xplorer、ACM等数字图书馆的发展,使得知识库越来越多地向公众开放。基于关键词的文献检索是用户与图书馆进行交互的典型方式,是获取有针对性知识的有效途径然而,由于语料库中信息量巨大,用户很难从语料库中探索性地学习和获取新知识近年来,文本挖掘技术以其强大的计算能力自动分析大量的文本数据而备受关注。主题建模就是这样一种技术。基于无监督的机器学习模型,主题建模可以发现描述主题所涵盖的主题以及主题和文档如何在其中相关的主题结构。通讯作者。电子邮件地址:yyangao@connect.ust.hk(Y. Yang)。同行评议由浙江大学和浙江大学出版社负责http://dx.doi.org/10.1016/j.visinf.2017.01.005从 统 计 学 的 观 点 来 看 , 语 料 库 ( Landauer 等 人 , 1998;Hofmann,1999; Blei等人,2003年)。许多不同的语料库,包括人文学科(Blei,2012),社交媒体(Xu等人,2013)和在线评论(Titov和McDonald,2008),在研究中调查这些特定领域的主题摘要时进行了分析虽然功能强大,但主题建模在直接应用于现实世界的分析任务时有一些限制首先,正如以概率的方式呈现的那样,主题模型不太容易被人读懂。它使得知识发现效率较低,因为用户必须在整个模式输出中基于数值解释每个主题和其次,它通常需要链接主题和其他信息,如时间,人员和位置,以从文档集合中发现洞察力。然而,这些观点是可用的,在少数文本挖掘工具,导致在盗版使用的文本挖掘技术和要求之间的差距在本文中,我们提出了一个可视化分析系统,VISTopic,利用交互式可视化技术来理解具有主题建模的大型文档集合。具体地,我们使用分层潜在树模型(HLTM)(Liu等人,2014),其是提取一组分层主题的新颖主题模型,以2468- 502 X/©2017浙江大学和浙江大学出版社。由爱思唯尔公司出版这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)上提供。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf*Y. Yang等人/视觉信息学1(2017)4041在不同的抽象层次上总结语料库为了解决上述局限性,VISTopic首先提供了一个主题可视化设计,重点关注HLTM的结构和语义特征,以促进更好地理解建模结果。然后,从文档中提取时间,作者和其他详细的Meta数据,并集成到VISTopic中进行可视化分析。通过这种方法,VISTopic可以方便用户从两个层面对文档集进行分析:一是对主题系统进行全面的探索和研究,二是从多个角度对感兴趣的主题进行细致的分析,包括主题层次的语义模式、时间域的趋势以及作者或地点分布的聚合模式这项工作的贡献可归纳如下:设计并实现了一个具有三个链接视图的综合可视化分析系统,以基于多视角信息调查文档集合;针对新的层次化主题模型的特点,提出了新颖的可视化设计,便于对主题组织的全面理解和交互式探索;基于IEEE VIS会议数据集的综合案例研究,展示了我们的系统如何产生有趣的见解并处理各种分析任务。本文的其余部分组织如下。第二节回顾了相关领域,包括主题建模和可视化技术.第3节介绍了VISTopic的设计原理。第四章介绍了系统设计,包括数据处理器和可视化界面。第5节介绍了VISTopic应用于探索和分析IEEE VIS语料库的案例研究。最后,第6节对本文进行了讨论和总结2. 相关工作主题建模和主题可视化技术是VISTopic设计的主要灵感来源。2.1. 主题建模在主题建模研究中,“主题”被定义为彼此高度相关的词语集合。主题建模是指应用概率模型从大型文档集合中提取隐藏主题的方法。这些模型通常定义文档生成的生成过程,描述单词如何进入他们的位置。 最后,每个文档将被表示为主题的混合。潜在狄利克雷分配(LDA)(Blei等人,2003)是最常用的主题模型,例如,分析社交媒体内容(Hong和Davison,2010)和历史文献(Yang等人,2011年)。然而,LDA等传统模型会产生大量的主题,使得用户很难从不同的层次理解底层文档。因此,它们未能解决可扩展分析的问题。为了解决这个问题,提出了分层主题模型来将主题组织成树结构(Blei等人,2010; Ghahramani等人, 2010; Liu等人, 2014年)。 其中,HLTM(Liu et al., 2014年)正在成为一种新的方法来检测分层主题。它以自下而上的方式构建层次结构最具体的主题作为底层节点,它们是通过将词汇分离成独立的相关词集而生成的然后,基于节点的语义相似性,将节点因此,HLTM显示出在所有词汇的基础上呈现清晰的语义结构的优势注意我们集中描述HLTM的模型特征,而不是主题层次结构如何构建的技术细节感兴趣的读者可以参考Mourad等人(2013)和Liu等人(2014),以获得更全面的技术描述。2.2. 主题可视化主题建模结果的可视化呈现对主题模型的使用有着重要的意义。基于主题信息可视化的目的,我们通常可以将这些可视化工具分为两类:模型评估工具和文本分析工具。模型评估工具中的可视化有助于模型设计者和用户评估模型质量。通常模型驱动的可视化被设计为捕获目标主题模型的特征例如,平行坐标隐喻已被用于隐喻主题(Douetal., 2011)、LDAexplore(Ganesan等人, 2015)和其他基于LDA的主题模型,以揭示概率歧视的模式。随着分层主题模型的发展,树可视化已经成为呈现主题分层的流行方法(Dou等人,2013; Smith等人, 2014年)。与这些应用程序不同的是,VISTopic进一步考虑了HLTM的模型特征,并基于已建立的方法实现了特定于模型的语义设计。最后,已经存在一些用户界面,诸如UTOPIAN(Choo等人,2013年),专注于交互式模型验证和细化。考虑到HLTM模型的复杂性,VISTopic离线提取主题层次,并从接口中排除在文本分析工具中,高级信息,如文本和-通常从用于可视化的文本数据中提取marization作为先驱工作之一,计算机科学地图(MoCS)项目(Fried和Kobourov,2014)设计了一个地理地图隐喻来直观地总结DBLP数据库中的底层主题。此外,主位的时间模式对许多分析任务至关重要在这方面,ThemeRiver(Havre等人, 2002年)提出了一个通用的解决方案来描述多个主题的演变模式。此后,视觉上吸引人的河流隐喻已被广泛接受并扩展为趋势分析(Cui等人, 2011年; Wei等人, 2010;Sun等人, 2014年)。在现实世界的应用程序中,分面信息需要一起探索和分析。然而,在将语义、时间和书目信息合并为一个单一分 析工具方 面所做的努 力相对较少 。因 此,我 们开发VISTopic,基于三个独立但协调的观点,以促进全面的分析任务。3. 设计原理遵循以用户为中心的设计流程来开发和改进我们的可视化分析系统。我们与两位领域专家密切合作,一位是信息可视化专业的教授,另一位是机器学习领域的研究人员,讨论设计需求并迭代地呈现VISTopic的原型。以下设计指南是根据他们的反馈得出的。R1主题组织的概述。专家需要一个有效的可视化,使他们能够轻松地形成主题组织的全貌,包括其分支总数,具有大语义覆盖范围的主题等。此外,一个可视化的表示来描述主题的语义特征是必要的,不仅有利于发现显着的主题,而且还能够更深入地理解模型的机制。···42Y. Yang等人/视觉信息学1(2017)40Fig. 1. VISTopic的系统架构R2.多角度分析题目。我们的合作者需要访问一个主题的多个方面进行深入分析。 因此,在主题层次的全局视野中,主题信息被突出,遵循“焦点+语境”需要有一个时间轴,以反映专题文件的力度随时间的变化。专家们还要求用视觉表示法显示文件在地点、时间、文章影响、作者和其他角度的分布情况,以全面了解这一专题。R3. 通过用户交互进行详细探索 为了实际应用,需要对细节进行适当的探索。特别是,交互式可视化背后的确切数字,如主题的人口统计数据和主题文件的确切权重,应在用户要求时提供。同时,文章的全部内容应该提供给有兴趣阅读的用户我们还提供了可以毫不费力地翻阅的表示,例如两个视角来显示主题的时间强度,从而允许用户实现各种分析任务。4. 系统设计VISTopic是一个可视化分析系统,由两个主要组件组成:数据处理器和交互式可视化界面。系统架构的概述如图所示。1.一、4.1. 数据处理器在数据处理器中,文档被收集并转换为纯文本。清洗后的数据经过两个过程,即词汇选择和主题建模。首先,我们确定一个词汇表,形成主题建模的词空间这些词既可以基于自然语言处理方法自动生成,也可以利用领域知识来决定然后,文档被转换为基于词的表示,这是一个词的文档矩阵,作为主题建模的训练数据所有主题建模结果和单个文档的Meta数据数据处理的一个说明性例子可以在第5节的案例研究中找到。4.2. 用户界面如 示 于 图 2 、 VISTopic 包 括 三 个 主 要 视 图 : Topic 视 图 、Evolution视图和Document视图。每个视图提供特定视角的模式,更重要的是,这些视图相互关联,以允许用 户通过对 主题的联 合分析来 学习和获取 知识此外 ,VISTopic还包括一个文章查看器,允许用户阅读原始文档。4.2.1. 主题视图主题视图(图2(a))基于两种直观可视化(即朝阳图和标签云)的组合,呈现了分层主题组织的数据驱动视图。可视化的目的是提供主题组织的概述(R1)和支持主题语义的深入分析(R2)。在本节中,我们将介绍在这些原理指导下的具体设计用于结构可视化的朝阳图。如Tree.net(Schulz,2011)所调查的,已经开发了相当数量的树可视化来可视化分层数据。我们选择了朝阳图(Stasko和Zhang,2000)作为主题层次可视化,从两个方面,即,可扩展性和节点形状。首先,朝阳图的特点是放射状布局,适合大型树。如图3(a)所示,树数据的每一层上的节点被布置为围绕根的同心环随着级别的增加,较大的区域被分配给具有较大数量的节点的级别,因此,空间被有效地利用然后,节点具有扫过区域的切片弧的形状。通过这种空间填充方式,父节点和子节点之间的连接通过弧邻接隐含地显示此外,用弧的角宽来识别节点下的后代数量是直观的通过这种方式,用户可以快速识别具有大语义覆盖范围的主题进行调查。在朝阳图的基础上,我们进一步采用了Smithetal.(2014)提出的语境锚。如图3(b)所示,上下文锚通过突出显示节点在层次结构中的祖先来示出节点位于何处。这样的视觉编码是直观的,以提醒用户围绕主题的上下文。修改标签云以实现语义可视化。 主题的基础是由概率加权的单词集合。标签云作为一种将词的权重与字体颜色或大小进行编码的文本可视化,在主题语义可视化中得到了广泛的应用。例如,HLTM生成的一段主题层次结构由图1中分层排列的标签云表示。四、然而,在传统的使用中,识别父主题如何在语义上接近标签云中的其子主题是无效的因此,我们设计了一个修改后的标签云,强调重叠的词在分层的主题。更具体地说,我们首先Y. Yang等人/视觉信息学1(2017)4043图二. VISTopic接口概述。该界面有三个主要视图:主题视图(a)、演化视图(b)和文档视图(c)。用户正在详细探索主题Z215(浅紫色)。(a) 父主题和其子主题的语义分别显示。(a) 树数据概述(b)地点的亮点。图三. 放射状布局和空间填充方式的朝阳图,用于层次可视化。图四、H L T M 生成的一段主题层次结构的常规标记云。把图中所示的标签云。 4、在图中。 5(a),通过将单词出现的级别映射到其颜色饱和度。然后,我们分解父主题的标签云,并将所有单词覆盖到它在最低级别出现的位置(图5(b))。对于较大的主题层次结构,显示的颜色与使用单词的最高主题级别一致利用修改后的标签云,不再需要显式地呈现用于高级别主题的标签云,并且空间显示主题的组织可以减少。此外,集成上述可视化的方法变得清晰:从朝阳图的边界辐射标记云,并将它们与叶节点对齐(图6(a))。或者,用户可以将该组合理解为围绕中心卷起图5(b) 父主题的语义覆盖在子主题之上。图五. 一个修改后的标签云,显示语义接近。概述和详细分析主题层次结构。 借助Sun-burst可视化,用户可以快速识别整个主题组织的规模.我们进一步选择颜色编码方案来丰富概览中显示的信息。首先,在改进的标签云设计中,我们使用颜色饱和度来区分不同抽象层次的主题。此外,我们映射的子树,直接分隔主题空间的颜色色调,以显示在特定领域(R1)的主要主题分支。当一个感兴趣的主题被确定,它的语义可以强调与用户交互的整体语义的“上下文”。此时,除了重点主题及其祖先主题之外,所有主题都以灰色淡化,以作为提醒。 图图6示出了焦点沿着主题分支(R2)中的路径移动的效果。此外,如图2(a)所示,包括主题名称、缩写标签及其强度的信息被显示在图中心,以促进对主题的理解(R3)。4.2.2. 进化观在进化论中(图)。2(b)),提出了一个基于ThemeRiver的时间轴,以显示主题的时间强度。在本节中,我们介绍了几种设计,以帮助用户了解主题趋势,并通过比较多个主题(R2)获得更多见解主题趋势可视化。由于我们分析的是随时间累积的文档,因此可以通过总结不同时间范围内的主题文档来得出时间强度。然后,44Y. Yang等人/视觉信息学1(2017)40(a)主题分支的概述(b)重点关注的高级别专题。(c)一个中等水平的主题聚焦。(d)重点关注的低层次专题。见图6。交互式可视化,用于概述和详细分析主题层次结构。如2.2节所述,ThemeRiver可视化呈现了多个主题,以揭示整体时间模式。 一组堆叠的河流构成了这个可视化的基础,其中每条从左到右流动的河流代表一个特定的主题,其宽度的变化显示了时间强度的演变。在演化观点中,有两种观点可以用来衡量时间强度:绝对数量和比例。这种设计背后的考虑是双重的。一是灵活满足不同场景下的需求。第二是提供一个联合视图,以了解变化的强度。事实上,任何一种观点都可能导致偏见的理解。例如,时间强度可以同时在绝对计数上增加和在比例上减小当语料库随着时间以比主题文档更快的速度增长时,可能会发生这种情况。因此,这种设计允许用户使用任一表示来检查趋势,并切换到另一个以验证理解。主题趋势比较。我们允许用户比较从同一父主题分支出来的主题。虽然这项任务在现实应用程序中很常见,但ThemeRiver未能提供视觉提示来进行直观的比较。在我们的进化视图中,我们允许在每隔几个时间戳对多个主题进行排序,以便在主题的权重重新排序时检测事件。更具体地,允许用户设置频率以检测重新排序模式。 在每次检测过程中,主题都会根据当前的强度进行排名,在堆叠图中,较强主题的河流将向下流动,而较弱主题的河流将向上流动(图10)。(见第7(a)段)。通过这种方法,用户不仅可以识别不同时期的主导主题,而且还可以识别特定主题分支的总体演变模式。此外,我们还提供了一个工具提示来显示按需时间强度(R3)的确切数字工具提示将保持隐藏状态,直到用户与图中的河流交互 然后,工具提示会显示在相应的时间戳上,统计数据可以用红色或绿色显示,表明时间强度是否比其在时间上的平均强度更强或更弱(图2)。7(b))。4.2.3. 文档视图文档视图(图 2(c))提供了一个交互式的可视化,以适应主题文档中的高维Meta数据。用户可以从不同的角度分析它们的整体模式(R2),也可以访问文档的细节(R3)。在本节中,我们将介绍促进上述使用场景的视觉设计和用户交互。基于气泡的文档表示。我们将单个文档表示为气泡有两个原因。首先,它是直观地识别由气泡的大小,位置和颜色编码的多维信息。更重要的是,气泡可以被包装在一起以提供空间有效的解决方案,如图8所示。可伸缩性问题是紧迫的,因为当主题是董事会时,可以检索大量的文档在包装布局中,气泡的位置通常只是由图形绘制算法确定的稳定状态。尽管如此,我们还是有动力通过对相同属性的文档强制缩短距离来使布局更为此,我们参考力导向算法(Kamada和Kawai,1989)气泡布局。在该算法中,整个气泡被建模为具有两个不同力的物理系统:吸引力以减少气泡对之间的空间,排斥力以确保它们不重叠。我们进一步添加第三个力到系统中,以保持垂直层中的气泡群。因此,文档属性的一个维度,例如,发布时间,可以用来组织可视化气泡,以促进文档导航和知识发现。气泡大小编码文档的重要性在我们的案例研究中,VISTopic被应用于探索和分析学术出版物。因此,我们将其重要性确定为在此学术档案中引用它的以下出版物的总数默认情况下,我们部分地利用颜色通道,简单地提供时间信息与颜色饱和度的双重编码(图1)。 8(a))。交互式探索和分析。通过上述可视化编码,用户可以对主题文档的时间分布、影响文档的数量等有一个基本的了解。此外,它们可以与可视化交互以搜索显著模式,将视觉编码切换到特定维度的文档聚类,并详细查找Meta数据首先,我们允许用户检索由相同的人创作或共同创作的主题文档 。 例 如 , 用 红 色 标 记 的 19 个 突 出 显 示 的 文 档 是 由 同 一 作 者Hansen,C.在图2(c)中。对于可能对主题和领域没有足够了解的用户,我们还允许他们浏览作者列表进行探索性搜索。特别地,该列表通过h指数值排名,该h指数值表明作者对对应于该集合的社区做出了多少影响或贡献。然后,默认的颜色编码可以被catecorical颜色替换,以指定的角度显示文档聚类结果(图1)。 8(b))。例如,在我们的案例研究中,视角被因此,用户可以很容易地组合多个视觉线索来识别模式并回答综合问题,例如哪个场地更致力于此主题。此外,直接显示了用于编码气泡大小的属性,例如,我们案例研究中的引用数量Y. Yang等人/视觉信息学1(2017)4045(a) 多个主题每三年重新排序。(b) 工具提示中显示了确切的数字见图7。 演化视图中的特定设计。见图8。颜色方案表示数据不同方面的信息。(a)时间信息的双重编码,突出显示重要文档。(b)分类颜色用于文档聚类。当用户悬停在气泡上时(图9)。一个工具提示描述了详细的Meta数据文档也将显示。该工具提示可以进一步扩展为一个完整的文本的论文摘要,根据用户的要求。我们进一步使用小标记,其颜色色调和饱和度对应于主题的分支和级别来注释文本中的关键词。通过这种方法,用户可以很容易地发现一个文件是否集中在一个单一的主题或混合其中的几个和摘要是如何组成的主题词的基础上。5. 案例研究IEEE VIS会议数据集被用作我们的VISTopic系统的示例性语料库在本节中,我们首先介绍数据处理方法,重点是特定领域的词汇选择。然后,我们提出了两个用例,应用VISTopic分析IEEEVIS语料库和发现有趣的模式。5.1. 数据处理和主题建模首先,我们收集了从1990年到2014年的所有VIS出版物整个集合包含2592个文档,它们都由Vispubdata索引(Isenberg等人,2015年),也可以下载。我们还清理和存储与每个文档相关的Meta数据。见图9。在文档视图中详细分析Meta数据和主题分配的工具提示。为了获得合适的词汇表,我们根据主题建模结果迭代地改进选择方法。在试验性实验中,所有的词都被作为候选词,我们使用TF-IDF(Jones,1972)的得分来对然而,顶部的词是由一般的词,如可视化,节点和链接,而一些常见的术语,如平行(平行坐标)和转移(传递函数)被排除在外。尽管主题建模工作得很好,但我们的合作者需要更多的领域驱动词汇表来显示主题建模结果中特定于领域的模式因此,我们努力手动阐述候选词我们参考了两个权威资源来指导我们的候选人选择。第一个是作者为他们的会议论文分配的关键 字 。 我 们 收 集 了 2629 个 作 者 关 键 词 的 列 表 , 包 括 来 自www.example.com的单词和短语keyvis.org(Isenberg等人,2014年)。另一本是介绍问题和方法的教科书46Y. Yang等人/视觉信息学1(2017)40见图10。用主题可视化进行模型检验,发现两个语义模式不同的主题分支。在 研 究 领 域 。 我 们 使 用 图 书 可 视 化 分 析 设 计 ( Munzner ,2014),并在书末的概念索引中收集了450个术语我们根据单词和短语进一步筛选候选人。最终选出了TF-IDF得分高的220个词汇与词汇表,一个分层的主题组织63个主题与HLTM生成主题层次结构分为3个级别,第一(顶部)、第二和第三(底部)级别分别为42、15和65.2. 案例研究一:评估主题建模结果主题建模结果的评估是包括模型设计者和用户在内的广大受众感兴趣的领域。虽然发现基于单词的主题的含义并不难,但注意多个主题之间的语义模式,例如,分层主题,是一项具有挑战性的任务。在这种情况下,我们展示了我们的主题可视化的有效性,为用户提供视觉线索,以确定主题组织中的结构和语义模式。从IEEEVIS语料库中提取的分层主题呈现在主题视图中,如图所示。 10(a). 首先,我们很快就发现了六个主题分支占据了这个领域,每个分支都有不同的色调。此外,分支不是均匀的加权,其中浅紫色的一个和橙色的一个已经涵盖了多达一半的总具体主题。然后,我们从语义学的角度对话题进行了研究,重点考察了层次话题之间的语义接近程度。我们注意到一些叶主题显示出一种模式的显性影响,他们的父母相比,兄弟主题。例如,图10(b)中的所有三个词(隐喻、美学和叙事)都用表示最高抽象水平的饱和度着色,这意味着在分层主题的描述中重复使用这样的模式可以从HLTM如何构建层次主题的角度激发用户作为一个例子,我们假设这个叶子主题位于这个分支的语义覆盖的“中心”附近(a) 进化模式(b) 文档聚类。(c) 摘要标有主题分配。见图11。从多角度考察“视觉分析学”的研究领域。距离,从高维空间来看。相比之下,蓝色分支(图10(c))在高级语义分布方面显示了更加平衡的模式。在此过程中,我们对主题模型有了更深入的理解,并收集了一些观察结果,以建议该模型的潜在扩展。5.3. 案例研究二:调查一个研究领域对研究者来说,对特定研究领域进行调查以总结相关著作并获得见解是很重要的。然而,由于缺乏领域知识和以往的经验,要对一个研究领域有一个快速而全面的了解并不是一件容易的事情在这种情况下,我们将展示如何使用VISTopic调查研究领域,并提出一些与领域相关的发现。我们选择由主题“Visual Analytics”表示的字段作为目标字段。这一课题近年来作为一个快速增长的课题吸引了我们,它在进化论的观点中得到了呈现(图11(a))。视觉模式符合我们的期望,因为视觉分析科学与技术(VAST),IEEE VIS的儿童会议之一,专注于视觉分析,自2006年以来开始在这个特定领域进行研究。此外,我们还从文献的角度验证了我们关于研究场所的假设。图11(b)中的气泡可视化通过显示黄色为主导颜色证实了这一假设。视觉线索也反映了这个领域的年轻和活力,因为大量的小尺寸(意味着在现场引用较少)的气泡被提出。当放大到文档的细节时,我们发现其中许多都有彩色注释的摘要(图11(c))。这意味着这些文件是以跨学科的方式合成的。并不奇怪Y. Yang等人/视觉信息学1(2017)4047见图12。主题文档的两个数据驱动视图,突出显示同一作者。(a)由主题“图形布局”标记的文档我们发现这种模式是可视化分析技术和方法,可以解决各种数据集和使用场景中的问题5.4. 案例研究三:推理作者在主题文献的研究过程中,我们也得到了一些与作者主题演变相关的有趣发现一个作者的名字,范维克,J. J。,出现在多个主题的文件中。此外,由他撰写或合著的出版物对以下工作具有整体高影响力,如从气泡的大小确定的。我们进一步确定了一个有趣的模式,即作者在“图形布局”(图12(a))和“向量场”(图12(b))中发表了论文“矢量场”的文献大多是在20世纪90年代出版的,而“图形布局”的文献则是从2000年开始的。基于这些视觉线索,我们对他这些年来的研究进展做出了一个假设。领域专家证实了作者的主题演变,尽管现实世界中的模式更加复杂和嘈杂。6. 结论在本文中,我们提出了VISTopic,一个可视化的分析系统,使大型文档集合的层次潜在树模型(HLTM)的意义。交互式可视化的设计和链接视图,以帮助用户同时发现知识的主题信息,时间信息和书目信息。在案例研究中,我们得到了有趣的发现,并验证了我们对VIS研究领域的假设作为一个未来的工作,它是希望有一个用户研究,以探讨VISTopic的有效性,为非专家谁可能没有信息可视化的知识这种用户研究的反馈对我们识别不太直观的设计和建议潜在的改进方向应该是有价值的此外,VISTopic中的底层技术和方法是通用的,并不局限于VIS数据集,我们稍后也会将其应用于其他数据集,例如历史报纸和社交媒体。致谢我们要感谢Nevin L教授。张和他的博士学位。感谢科大计算机科学与工程系陈培贤同学在主题建模方面的技术支持。此外,我们还要感谢傅四维准备了IEEE VIS语料库的pdf文件和关于数据处理的讨论。本项目得到了华为诺亚方舟实验室的资助申请(Ref:YBCB2009041 -44)。我们感谢华为最后,我们感谢匿名评论者的宝贵反馈。引用Blei,D.,2012. 主题建模与数字人文。J. Digital Humanities2(1),8Blei,D.,Griffiths,T.,Jordan,M.,2010. 嵌套中餐厅过程与主题层次的baidu非参数推理。J. ACM57(2),1- 30.Blei,D.,吴,A.,Jordan,M.,2003. 潜Dirichlet分配J·马赫。学习. Res.3,993-1022.朱,J。,李,C.,Reddy,C.,帕克,H.,2013. Utopian:基于交互式非负矩阵分解的用户驱动主题建模。 IEEE Trans. 目视Comput. Graphics19(12),1992-2001.崔,W.,Liu,S.,谭湖,加-地施,C.,宋,Y.,Gao,Z.J.,Qu,H.,唐,X.,2011. 文本流:更好地理解文本中不断变化的主题。 IEEE Trans. 目视Comput.Graphics17(12),2412- 2421。Dou,W.,王,X.,张河,Ribarsky,W. 2011. 1996年,《数据库主题:探索文档集 合 的 概 率 方 法 》 , IEEE Conference on Visual Analytics Science andTechnology,pp. 231-240。Dou,W.,Yu,L.,(1991 - 1995),美国,王,X.,妈,Z.,Ribarsky,W.,2013. Hierarchicaltopics:使用主题层次结构可视化地探索大型文本集合。 IEEETrans. 目视Comput. Graphics19(12),2002- 2011.弗里德,D.,Kobourov,S.,2014. 计算机科学地图。在:IEEE太平洋可视化研讨会。pp. 113-120Ganesan,A.,布兰特利,K.,潘,S.,陈杰,2015. LDAEXplore:可视化使用潜在Dirichlet分配生成的主题模型。技术报告,部门马里兰大学计算机科学&与电气工程系。Ghahramani,Z.,Jordan,M.,亚当斯河,2010. 分层数据的树结构断棒。在:神经信息处理系统的进展。pp. 19-27Havre,S.,Hetzler,E.,Whitney,P.,诺埃尔湖2002年。Themeriver:可视化大型文档集合中的主题变化。 IEEE Trans. 目视Comput. 图形8(1),9- 20。霍夫曼,T.,1999. 概率潜在语义索引。在:第五届人工智能不确定性会议论文集。pp. -57洪湖,戴维森湾2010年。Twitter中主题建模的实证研究,在:第一届社会媒体分析研讨会的进展,第10页。80比88Isenberg,P.,Heimerl,F.,科赫,S.,伊森伯格,T.,徐,P.,Stolper,C.,Sedlmair , M. , 陈 杰 , Möller , T. , Stasko , J. 2015.可 视 化 发 布 数 据 集 。Dataset:URLhttp://vispubdata.org/.发布君2015年。Isenberg,P.,伊森伯格,T.,Sedlmair,M.,陈杰,Möller,T. 2014.通过关键字分析更深入地理解可视化,INRIA技术报告。琼斯,K.,1972. 术语特异性的统计解释及其在检索中的应用。J. Doc. 28(1),11-21.卡马达,T.,卡瓦伊,S.,一九八九年 一般无向图的一个绘制算法。告知。过程Lett. 31(1),7- 15。Landauer,T.,Foltz,P.,拉哈姆,D.,1998年 潜在语义分析导论。话语过程。25(2Liu,T.,Zhang,N.和Chen,P.2014年。用于主题检测的分层潜在树分析,在:欧洲机器学习和数据库知识发现会议,pp.256-272。穆拉德河,Sinoquet,C.,张,N.,Liu,T.,Leray,P.,2013. 潜在树模型及其应用综述。J. Artif.内特尔Res.47,157- 203.Munzner,T.,2014年。 可视化分析与设计。 CRC出版社。舒尔茨,H.-J.,2011年。崔维斯net:一个树的可视化参考。 IEEE计算Graph.Appl·31(6),11史密斯,A.,Hawes,T.和Myers,M. 2014. Hiérarchie:Interactive visualizationfor hierarchical topic models , in : ACL Workshop on Interactive LanguageLearning,Visualization,and Interfaces,pp.71比78Stasko,J.,张,E.,2000. 焦点+上下文显示和导航技术,用于增强放射状、空间填充层次结构可视化。在:IEEE信息可视化研讨会。pp. 57比65孙,G.,吴,Y.,Liu,S.,彭,T.,Zhu,J.,梁,R.,2014年。Evoriver:社交媒体话题竞合的可视化分析。IEEE Trans. Vis. Comput. Graphics20(12),1753-1762.蒂托夫岛,麦克唐纳河2008年使用多粒度主题模型建模在线评论,见:第17届万维网国际会议论文集,第17页。111-120魏,F.,Liu,S.,宋,Y.,潘,S.,周,M.,Qian,W.,Shi,L.,美国,谭湖,加 - 地 张 , Q , 2010 年 。 一 个 可 视 化 的 探 索 性 文 本 分 析 系 统 。第 16 届ACMSIGKDD知识发现和数据挖掘国际会议论文集。pp. 153-162徐,P.,吴,Y.,Wei,E.,彭,T.-问:Liu,S.,Zhu,J.,Qu,H.,2013. 社交媒体上话题竞争的视觉分析。IEEE Trans. Vis. Comput. Graphics19(12),2012-2021.杨,T.-一、Torget,A.,米哈尔恰河2011年。历史报纸的主题建模。在:ACL研讨会语言技术的文化遗产,社会科学和人文科学。pp. 96-104
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功