主题驱动的学术社区发现算法优化：解决数据稀疏问题

下载需积分: 10 | PDF格式 | 581KB | 更新于2024-09-06 | 43 浏览量 | 举报

在当前的学术研究领域，学术社区发现算法是一项关键的技术，它有助于理解研究者之间的合作模式和知识领域内的群体动态。这篇名为"基于主题的学术社区发现算法"的论文由王萌星和卢美莲共同撰写，发表在中国科技论文在线。两位作者分别来自北京邮电大学网络与交换技术国家重点实验室，其中王萌星专注于宽带及无线移动网络技术与应用，而卢美莲是副教授，专攻下一代网络技术。论文的核心问题是针对基于拓扑的社区发现算法在处理数据集时的局限性，尤其是当引用关系稀疏导致网络结构松散时，这类算法往往无法提供满意的社区划分结果。为了解决这个问题，作者们提出了一个新颖的策略，即采用主题模型。主题模型，如Latent Dirichlet Allocation (LDA)，能够有效地从文献内容中抽取潜在的主题，进而揭示作者之间的隐含关系。首先，作者通过主题模型对学术文献中的内容进行分析，识别出作者之间的共同研究兴趣或关注点，这形成了一个作者关联网络。这个网络的构建基于共享的主题，而不是直接的引用关系，因此即使引用数据不足，也能更好地反映研究者之间的实际连接。接下来，作者利用GN算法（可能指的是Girvan-Newman算法，一种常用的社区检测算法）在这个作者关联网络上进行社区发现。GN算法通过计算边的去除过程中社区的模块度变化来寻找最优的社区划分，这种方法在主题模型构建的网络中可以更好地捕捉到学术领域的内在结构，从而提高社区的模块度，也就是社区内部联系的紧密程度。这篇论文创新地将主题模型与社区发现算法结合，克服了传统方法在数据稀疏情况下社区识别的挑战，为学术社区的研究提供了更准确和深入的方法。关键词包括数据挖掘、主题模型（如LDA）、社区发现、GN算法等，这些都是论文探讨的核心概念和技术手段。通过这种方法，研究人员可以更好地理解和分析学术界的知识结构和合作模式，促进知识的传播和交流。

http://www.paper.edu.cn

- 1 -

中国科技论文在线

基于主题的学术社区发现算法

王萌星，卢美莲

作者简介：王萌星（1989-），女，硕士研究生，宽带及无线移动网络技术与应用

通信联系人：卢美莲（1967-），女，副教授，下一代网络技术，宽带及无线移动网络技术与应用. E-mail:

mllu@bupt.edu.cn

（北京邮电大学网络与交换技术国家重点实验室，北京 100876）

摘要：针对基于拓扑的社区发现算法存在的对数据集要求较高等问题，本文提出一种基于主

题的学术社区发现算法。首先利用主题模型提取作者间关系，构建作者关联网络；在此基

础上利用 GN 算法进行社区发现。该方法有效解决了引用关系稀疏导致网络结构松散的问

题，从而得到很好的社区构建结果，提高了社区的模块度。

关键词：数据挖掘；主题模型；社区发现；GN 算法；LDA

中图分类号：TP391

The Academic Community Identification based on Topic

WANG Mengxing, LU Meilian

(State Key Lab of Networking & Switching Technology, Beijing University of Posts &

Telecommunication, Beijing 100876)

Abstract: In the field of community identification, the commuinty identification algorithm based

on topology can't get good identification result with sparse information in dataset. Aiming to solve

the problem, in this paper, we proposed a new academic community identification algorithm based

on topic. First, topic model is utilized to extract relationships among authors and build the

associated network of authors. Then on the basis of the author's associated network, GN algorithm

is used to find the community. As shown in experimental result, the proposed algorithm is

effective to solve the problem of loose network structure result from the sparse reference

information. And the proposed algorithm also obtains better community identification result, and

improves the modularity of community.

Key words: Data Mining; Topic Model; Community Identification; GN Algorithm; LDA

0 引言

现实生活中的许多系统都可以用复杂网络的抽象图来表示，其中网络中的每个节点对应

个体，连接节点的边则表示个体间的某种关系。随着对网络性质与数学特性的深入研究，学

者发现大多网络都具有社区结构的共性。也就是说，整个网络是由若干个“群”或“团”构

成的，每个社区的内部节点之间的连接相对非常紧密，但是各个社区之间的连接相对来说却

比较稀疏

[1]

。在学术网络中，每个节点代表作者，边代表作者间关系；同一个社区的成员可

能表示一群具有相同或相似的研究方向的作者。通过社区发现，在网络中挖掘隐藏在表面关

系以下的隐性关系，对科学研究和商业应用都具有很高的价值

[2]

。基于社区发现的个性化服

务系统可以克服传统系统的很多缺陷，例如缺乏建立用户模型的信息、缺乏用户的评价信息

等。将社区发现技术应用到学术推荐中，不但可以提高推荐效果，更能加快计算速度

[3]

。因

此，发现网络中的社区结构具有非常重要的意义。为了研究网络中社区的结构特性，研究学

者已经提出了若干基本的社区发现方法

[3]

，利用尽量少的信息得到尽量准确的网络社区结

构。其中，最具有代表性的是基于拓扑的社区发现算法--GN 算法

[4]

。但 GN 算法的划分效果

与网络质量有很大关系，若网络结构松散，则得到的划分结果也会比较松散。而在学术领域，

常用引用关系来对网络中作者间关系进行描述

[5]

。但在实际学术过程中，节点间的引用关系

下载后可阅读完整内容，剩余8页未读，立即下载

普通网友

粉丝: 484

主题驱动的学术社区发现算法优化：解决数据稀疏问题

算法的python实现代码、测试数据集及结果

论文研究-改进的协同过滤推荐算法.pdf

论文研究-基于单音素的高斯选择 .pdf

论文研究-基于社团的网络演化算法研究 .pdf

论文研究-基于运动速度的视频水印算法.pdf

最新资源