基于兴趣的属性社交网络推荐

174 浏览量更新于2023-10-16 收藏 12.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12350在属性社交网络中使用基于兴趣的社区进行推荐0Amani H. B. Eissa Mohamed E. El-Sharkawi Hoda M. O.Mokhtar（a.hassan，m.elsharkawi，h.mokhtar）@fci-cu.edu.eg 信息系统系计算机与信息学院开罗大学，埃及开罗0摘要0社交网络可以被建模为属性网络，其中节点表示用户，边表示用户之间的关系（例如友谊/关注），属性向量保存节点和/或边的属性。在本文中，我们考虑基于基于主题的属性社交网络（TbASN）生成的基于兴趣的社区的朋友推荐。在我们的模型中，属性向量不仅仅是存储在社交网络数据集中的显式用户个人资料数据的容器，而且还包含从分析用户在社交网络上的帖子（例如Twitter中的推文，Facebook中的帖子）中聚合的用户的隐式兴趣的主题向量。在我们的框架中，兴趣主题被表示为形成层次化基于兴趣的社区的主题（主题/子主题）的层次结构。每个基于兴趣的社区内的用户根据其个人资料特征（年龄，位置，教育等）进行聚类。这些聚类后来在推荐中使用，其中推荐目标是同一聚类的成员，以确保推荐的质量和一致性。此外，我们提出了一种推荐选择方法来处理大量的推荐候选人。所提出方法的主要优势在于它考虑了候选人选择的多个标准，包括共同社区的数量，基本特征的相似性以及网络接近度。0除了推荐具有相似兴趣的朋友外，还使用频繁模式挖掘来发现频繁出现的兴趣，以便用于推荐用户加入的社区。尽管我们的方法是通用的，可以应用于大多数现有的社交网络，但我们将Twitter作为目标社交网络。0关键词0社交网络，属性网络，推荐，社区检测，主题识别0ACM参考格式0Amani H. B. Eissa，Mohamed E. El-Sharkawi和Hoda M. O.Mokhtar。2018。在属性社交网络中使用基于兴趣的社区进行推荐。在《2018年Web会议伴随会议论文集》（WWW '18Companion）中。ACM，纽约，美国，8页。https://doi.org/10.1145/3184558.319156201 引言0社交网络（SN）被表示为一个图形，其中节点是用户，边是用户之间的关系。边可以是有向的（如Twitter或Instagram中的关注关系）或无向的（如Facebook或DBLP中的友谊或合著关系）。最近，属性社交网络（ASN）作为社交网络（SN）的扩展出现。在属性社交网络[6]中，网络的基本图结构通过为节点和/或边增加属性来扩展，这些属性携带有关节点/边的更多信息，从而允许对网络进行进一步和更有用的分析。在本文中，社交网络的用户通过其兴趣进行扩展。也就是说，每个用户都有一个向量，其中包含她的兴趣主题列表，这些主题是从用户的帖子中推断出来的。使用现有的知识库DMOZ [4][8]构建主题树。主题树的节点通过与节点主题相关的关键词进行扩展。这些关键词是从用户的帖子和其他外部来源（如DBpedia [3][10]和WordNet [12][11]）中提取的。我们利用这些信息构建基于虚拟兴趣的社区（IBC），使得IBC中的所有成员都共享相同的兴趣，但不一定在拓扑上相关，例如，对于对古典音乐感兴趣的用户，他们可以成为“古典音乐”社区的成员，但他们之间没有直接的关注链接。由于主题是在层次化的主题/子主题结构中构建的，因此构建了嵌套的社区，其中“古典音乐”社区的成员同时也是超级社区“音乐”的成员。利用虚拟兴趣社区，我们基于共同兴趣向用户推荐朋友。向用户推荐的朋友不一定与用户之间具有传递性的基于边的关系（即网络中用户和推荐的朋友之间没有共同的朋友）。为了0本文发表在知识共享署名4.0国际许可证（CC-BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY4.0许可证发布。ACM ISBN 978-1-4503-5640-4/18/04https://doi.org/10.1145/3184558.31915620Track: 挖掘属性网络 WWW 2018，2018年4月23日至27日，法国里昂 12360为了生成同质化的推荐，我们根据用户的基本属性对社区进行聚类。同一聚类中的用户是推荐的候选人。例如，我们可以根据“年龄”这个基本属性对“古典音乐”社区进行聚类，然后，同一年龄组的成员是推荐的候选人。因此，我们提出的推荐方法不仅基于用户之间的共同兴趣，还基于他们共享的基本配置文件属性，以确保一致的推荐。本文的贡献有三个方面：（1）描述了一种将社交网络成员与其兴趣联系起来的方法；（2）基于用户的兴趣构建虚拟社区的层次结构；（3）为基于兴趣的社区成员提供好友推荐。我们选择Twitter社交网络来应用和描述我们的方法。本文的结构如下。下一节我们将回顾关于主题识别、社区检测和属性网络推荐的相关工作。第3节介绍了基于兴趣的社区生成过程。第4节解释了基于IBC的好友推荐。第5节描述了实现所提出框架所使用的第一步和数据集。最后，第6节总结了我们的工作并提出了一些未来工作的方向。02 相关工作0在本节中，我们回顾了与我们框架中使用的主要概念相关的工作，即主题识别、社区检测和ASN中的推荐。在社交网络中识别用户帖子的主题是许多研究的兴趣，并在许多应用中得到利用[16，21，24，26]。许多研究还专注于构建用户兴趣本体，如[10，19]。本文中使用的主题树可以与[10]进行比较，后者专注于使用多个知识库构建用户兴趣本体。在[10]中，作者使用潜在语义分析技术来衡量基于知识库（如维基百科[28]、WordNet和DMoz）上的定义的兴趣之间的相似性。他们还应用聚类将相似的兴趣组合成更高级别的概念。受到他们的研究结果的启发，该研究指出DMoz相对于其他知识库更能代表社交网络用户的兴趣，我们使用的树（在[5]中详细描述）主要是使用DMoz层次结构的前两个级别构建的。此外，我们还使用从多个来源聚合的与主题相关的关键词来帮助进行主题识别。将社交网络表示为ASN在许多研究中得到了应用，如[7，8，12-15]。这些研究中的大多数存储了从用户/关系的显性基本数据中派生的节点或边属性。很少有研究将网络的属性与用户发布的内容和/或网络中的用户交互导出的数据相结合。[7]中的工作是那些考虑将从用户的兴趣中派生的关键词添加到节点属性中以用于在网络中回答社区查询的方法之一，但是该论文中没有解释检索这些关键词的方法。在我们的0在这里描述了一种将用户与其在网络中的帖子中隐含兴趣关联起来的详细方法。此外，社区检测（CD）领域一直是SN研究的核心部分。许多研究，如[25，27，29，30]，讨论了属性网络中的CD。大多数CD方法主要依赖于检测社区的网络拓扑结构，有些方法将拓扑结构与属性相似性混合在一起，如[7，15，18]。[20]中的工作建议使用深度学习来确定用户配置文件中的哪个维度导致社区的凝聚力。另一方面，我们的方法生成的虚拟社区主要保留了用户的隐含兴趣以及显性基本特征的相似性，而不考虑网络连接性。许多研究已经讨论了社交网络中的推荐，如[6，31]。我们的好友推荐方法考虑了共享多个兴趣、相似的基本特征和兴趣因素的程度，以选择高质量的推荐。0从ASN生成基于兴趣的社区（IBCS）0在本节中，我们介绍了一种生成Twitter用户虚拟社区的过程，该过程不依赖于网络的拓扑结构，而是依赖于用户的共同兴趣。第3.1节将Twitter网络表示为基于主题的属性社交网络，并介绍了将兴趣主题分配给用户的方法。在第3.2节中，使用从用户在Twitter上的互动中获得的隐含用户兴趣生成基于兴趣的虚拟社区。0Twitter的基于主题的属性网络表示0将Twitter表示为ASN是通过为节点增加两个属性向量来实现的：用户特征向量（UFV）和用户兴趣向量（UIV）。用户特征向量（UFV）是从用户基本数据中派生出来的，这些数据在社交网络的数据存储中是明确的。这些特征包括：出生日期/年龄，不同粒度的位置（区，城市，国家），教育，职业等。附加到每个节点描述的第二个向量称为用户兴趣向量（UIV），它从用户在Twitter上的互动中隐含地获得用户的兴趣主题。以下是0Track: Mining Attributed Networks WWW 2018, April 23-27, 2018, Lyon, France12370本小节介绍构建UIV的过程。UIV的构建基本上分为两个步骤：首先识别推文主题（在3.1.1中描述），然后生成UIV（在3.1.2中讨论）03.1.1识别推文主题：为了识别用户推文中的主题，使用了一个主题树，该树按照[5]的建议组织主题为主题/子主题的层次结构，并且树的每个叶节点与一个称为“XWords列表”的排序主题相关关键词列表相关联。这些关键词最初从多个来源提取，包括DMoz、DBpedia和WordNet。主题树的内部节点的XWords是其后代节点的XWords的并集。图1显示了一个2级主题树的示例。音乐节点（艺术的子主题）的XWords列表包含关键词{钢琴，乐队，吉他，爵士，歌词，乡村，古典，嘻哈，Eminem，甲壳虫乐队，MTV，音乐会，歌剧，iPod，扬声器，耳机等}。通过从推文本身提取关键词来扩展XWords列表。通过执行共现分析来聚合主题，以提取与主题的XWords频繁共现的单词。例如，hashtag“#Rio2016”被发现与包含词“体育、游泳、铁人三项、体育场、体操等”的大量推文频繁共现，这些推文关键词都是“体育”节点的XWords列表的成员。因此，单词“#Rio2016”随后被添加到“体育”节点的XWords列表中。然而，XWords也用于在推文中不明确包含主题名称的情况下识别主题。例如：“200M蝶泳是一场艰苦的比赛”，这条推文并没有明确提到主题“游泳”，但是单词{蝶泳，比赛}在“游泳”XWords列表中找到，因此可以将主题“游泳”与推文用户的兴趣主题关联起来。算法1详细说明了将主题分配给推文的步骤。算法的输入是一组“干净”的推文和主题树。推文清理是作为预处理进行的0在这一步骤中，所有非英语推文都被排除在外，并且从推文的文本中删除了所有停用词。对于每个用户，算法选择她的所有推文，对干净的推文单词按字母顺序进行排序以便于搜索，然后使用树的XWords列表将每个单词映射到相应的主题。设TWEETS = {tw 1 , tw 2 ,…,twn }为干净推文集合，每个推文tw i 是一个三元组(TID i , wordsList i ,UID)，其中TID i 是推文ID，wordsList i 是tw i中的单词列表，UID是发布推文的用户。类似地，设TopicTree为{(t1 , XList 1 ), (t 2 , XList02），…（tm，XListm）}将主题树表示为一组（tj，XListj）0j）对，其中tj是叶节点的主题名称，XListj是tj的指示关键词XWords的集合。topicList（twi）是推文twi的主题列表，如果twi中的单词w是TopicTree的任何主题tj的成员，则将tj添加到topicList（twi）中。所提出的主题分配算法的步骤如下：首先，算法检查每个干净推文的wordsList中的每个单词w，如果w明确是主题树中的一个主题，则将该主题添加到推文的主题列表中。否则，它检查w是否存在于树中所有XWords列表中，如果w在其中一个XWords列表中找到，则将该列表的主题添加到推文的主题列表中。如果单词w存在于多个XWords列表中（这意味着该单词可能指示多个主题），则将所有匹配的主题添加到推文的主题列表中。在检查完所有推文的单词后，将检查以下情况：情况1：推文中的单词没有映射到任何主题，将推文的主题标记为“未定义”。情况2：推文映射到多个主题，我们计算推文的主题列表中每个主题的出现次数，使用多数函数，出现次数最多的主题被认为是推文的主题。情况3：推文映射到多个具有相等频率的主题，如果推文映射到多个主题且这些主题没有获得出现次数的多数（即主题在多个主题中以相等的频率出现），则将推文的主题视为“未定义”。图2说明了将推文映射到主题的示例。首先，数据清理删除了所有停用词，然后主题映射器通过查找主题的XWords将干净的推文单词与其对应的主题进行匹配。0图1：具有XWords列表的2级兴趣主题树示例0Track: Mining Attributed Networks WWW 2018, 2018年4月23日至27日，法国里昂 DIF�u, t� = (1) 12380图2：将推文映射到主题的示例，如果不能通过推广主题来打破等权重主题之间的关系，即找不到共同的父主题，则将推文的主题视为“未定义”。例如，在主题列表{体操，空手道，游泳，音乐}中，没有一个主题获得多数出现次数，但是将前三个主题{体操，空手道，游泳}推广到它们的父主题：“体育”，可以实现总体出现频率为75%。然而，如果无法通过推广主题来打破等权重主题之间的关系，即找不到共同的父主题，则将推文的主题视为“未定义”。03.1.2生成用户兴趣向量（UIVs）：通过分析用户在网络上的帖子来构建用户兴趣向量（UIVs）。研究用户在社交网络上的互动可以很容易地推断出不同用户对不同主题的兴趣程度是不同的。尽管这种程度可能在用户个人资料中没有明确表达，甚至没有在她的兴趣列表中提到，但是通过分析用户的推文和这些推文的主题，可以推断出用户对每个主题的兴趣程度。在本讨论的其余部分中，让DIF代表用户对特定主题t的兴趣程度的度量。用户兴趣向量中的项目是三元组（ti，counti，DIFi），表示用户对以频率counti出现在她的推文中的主题ti感兴趣，并具有兴趣程度DIF。通过应用算法1，我们已经知道了用户的推文主题，现在我们可以将它们聚合到每个用户的一个兴趣向量中。为了获得有意义的结果，除非主题在用户的推文中出现了最低次数，否则不认为用户对该主题感兴趣。为了做到这一点，定义了一个固定的最小阈值来确定一个主题是否对用户感兴趣。然而，用户在社交网络中的活动水平并不是恒定的，例如，如果我们将最小阈值设置为每月5次，以将用户标记为对一个主题“感兴趣”，对于每月发布10条推文的用户来说可能是有意义的，但对于每天发布100条推文的活跃用户来说可能是非常微不足道的。因此，预先定义阈值的值并将其固定给所有用户是没有意义的，因此，不是设置全局阈值0对于每个用户，根据她的总推文数量的百分比定义了一个最小阈值，如果在分析期间她对某个主题的推文超过了总推文的20％，则认为她对该主题感兴趣。此外，对于每个用户感兴趣的每个主题，计算了一种称为兴趣因子度量（DIF）的度量。用户u在主题t上的DIF通过将用户u在主题t上发布的推文数除以用户u发布的总推文数乘以u的兴趣向量中的主题数来计算。0推文数�u�在t上发布的�u�的兴趣向量中的主题数发布的总推文数�u�0DIF度量是用户u对主题t的重要性的指示，与用户感兴趣的主题数量有关。例如，考虑用户C，他的UIV中有5个主题，C总共发了100条推文，其中10条是关于主题t1的。而另一个用户D，他的UIV中有50个主题，也发了100条推文，其中10条是关于主题t2的。尽管总推文数和特定主题推文数相似，但两种情况下的DIF值并不相同。在第一种情况下，DIF0算法1：将主题分配给推文01 输入：TWEETS，TopicTree02 输出：TWEETS中每个推文的主题列表 3 开始： 4对于TWEETS中的每个推文tw i ： 5 对于wordsListi中的每个单词w： 6 如果w等于TopicTree中的任何t j ：//单词是 7 将t j 添加到topicList(tw i)中；//一个主题名称 8 否则： 9对于TopicTree中的每个列表XList v： 10如果w存在于XList v中： 11 将t v添加到topicList(tw i)中； 12 如果|topicList(tw i)| = 0： 13 返回“未定义”； 14 对于topicList(tw i)中的每个主题t x ： 15 如果| t x |在topicList(tw i)中�|topicList(tw i)|/2： 16返回t x ； 17 否则，如果(getCommonParent(topicList(twi)) = true)： 18 返回commonParent(topicList(tw i))； 19 否则返回“未定义”； 20 结束；0跟踪：Mining Attributed Networks WWW 2018，2018年4月23日至27日，法国里昂 12390(C,t1)的计算结果为0.5，这意味着用户C对t1的兴趣是他对UIV中所有主题兴趣的一半；即如果他对UIV中的所有主题都有相同的兴趣，他会在每个主题中发20条推文。而DIF(D,t2)的计算结果为5，这意味着用户D对t2的兴趣是他对UIV中所有主题兴趣的五倍。因此，DIF(u,t)的值越大，主题t对用户u的重要性越高。值得一提的是，DIF度量不受用户在社交网络上的活动水平的影响，因为它考虑了用户的总推文数以及UIV中的主题数。为了构建用户的UIV，假设U是用户集合，Ltt(TID, UID,t)是每个用户的推文/主题列表，其中TID是推文ID，UID是发布推文的用户ID，t是由算法1识别的推文主题。如果用户u在主题t上写的推文数除以u写的所有推文数大于或等于最小阈值min_threshold，则认为用户u对主题t感兴趣。算法2为每个用户u构建用户兴趣向量（UIV）。算法2的输入是：用户列表U、每个用户的推文/主题列表Ltt和最小阈值min_threshold。0算法2：使用DIF构建用户兴趣向量01 输入：Ltt，U，min_threshold2输出：每个用户u∈U的UIV3 开始：4对于U中的每个用户u，执行以下操作：5初始化列表UIV（u）（topic，count，DIF）=ϕ；06 从Ltt中选择Ltt（TID，UID，t），count（tweets）whereUID=u作为UserTweets，NumTweets按UID分组；7对于UserTweets中的每个推文tw，执行以下操作：8如果UIV（u）中不存在t，则：09 将（t，1）添加到UIV（u）中；010 否则：11 将（t，count）修改为（t，count+1）；12阈值=最小阈值*用户推文数；13从UIV（u）中删除所有计数

下载后可阅读完整内容，剩余1页未读，立即下载