邮件社区划分算法:基于邮箱活跃度的分析

需积分: 5 0 下载量 39 浏览量 更新于2024-08-08 收藏 4.15MB PDF 举报
"基于邮箱活跃度的邮件社区划分研究 (2013年) 是一篇探讨互联网邮件通联关系的论文,提出了名为MAS的算法,该算法通过邮箱的活跃度来划分邮件社区。MAS利用邮箱之间的通信频度计算余弦相似度,并采用层次聚类方法进行社区聚类,随后对社区中心进行动态调整。实验结果证明,此算法在模拟数据集上表现出有效性。邮件社区在网络中反映了现实社会关系,具有六度分离特性,是研究社会网络的重要载体。目前,尽管有对网页社区和微博社区的研究,但邮件社区的相关研究相对较弱,尤其在利用邮件通联关系构建社会网络方面。文章还讨论了邮箱活跃度分析,将邮件社区视为图结构,并定义了相关的网络参数,如社区直径和平均距离,这些对于理解社区结构和功能至关重要。" 本文的核心知识点包括: 1. **邮件社区**:邮件社区是互联网邮件网络中的社交群体,由共同兴趣或联系的邮箱用户构成,与现实社会网络同构,反映了用户的通信信息和兴趣主题。 2. **MAS算法**:这是一种基于邮箱活跃度的邮件社区划分方法,通过计算邮箱间的通信频度(关联频度)来评估相似性,用层次聚类进行初步聚类,再通过动态调整社区中心以优化划分。 3. **余弦相似度**:计算邮箱间相似性的度量,基于它们的通信活跃度,即通信次数。 4. **层次聚类**:一种将相似对象分组的统计方法,通过不断合并相似的子集来构建层级结构。 5. **社区中心动态调整**:为了更准确地划分社区,算法会根据社区内部的关系调整中心节点,确保社区的合理性。 6. **邮件网络的图表示**:邮件网络被表示为加权图,其中邮箱是节点,通信联系是边,边的权重表示通信频度。 7. **社区属性**:社区直径(D(Gk))是社区内最远两个节点间的最大距离,平均距离(davg(Gk))是所有节点对距离的平均值,有效直径(Dv)是衡量社区内部节点间紧密程度的指标。 8. **网络社区研究背景**:虽然网页社区和微博社区研究广泛,但邮件社区的研究相对较少,尤其是在社会网络构建方面的应用。 9. **实际应用**:邮件社区的研究有助于发现犯罪网络、分析网络核心成员,具有重要的实际价值。 这篇论文的贡献在于提供了一种新的邮件社区分析方法,对于理解和挖掘互联网邮件网络的结构和动态提供了有价值的工具。