用户生成内容网站的富类型社交网络时间和语义分析

15 浏览量更新于2024-02-01 收藏 8.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于用户生成内容网站的富类型社交网络的时间和语义分析引用此版本：孟子德。从用户生成的内容网站对丰富类型的社交网络进行时间和语义分析其他[cs.OH]。蔚蓝海岸大学，2016年。英语NNT：2016AZUR4090。电话：01402612v3HAL Id：tel-01402612https://hal.inria.fr/tel-01402612v32017年2月9日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire蔚蓝海岸大学学校简介信息与通信科学与方法P H D T H E S I S获得...的称号理学博士蓝色海岸大学专长：计算机科学捍卫公司简介基于用户生成内容站点的富类型社交网络的时间和语义分析论文指导：Fabien GANDON和Catherine FARON-ZUCKER在INRIA Sophia Antipolis准备，WIMMICS团队2016年11月07日陪审团：审稿人：PR。Frédérique LAFOREST-Télécom Saint-Etienne博士John BRESLIN-爱尔兰国立大学，戈尔韦审查员：Pr. Martin ARNAUD-雷恩第一顾问：Dr. Fabien GANDON-INRIA Sophia Antipolis共同顾问：Dr. Catherine FARON-ZUCKER-University Nice Sophia Antipolis主席：Frederic PRECIOSO-尼斯大学索菲亚安提波利斯致谢我要衷心感谢我的导师Fabien Gandon和Catherine Faron-Zucker，感谢他们的大力帮助、支持、启发和建议。我很幸运有他们作为我的导师，因为他们不仅支持我的研究，而且在我生活的许多方面。我也要感谢我的论文委员会的其他宝贵时间，深刻的意见和有益的建议。没有大家的帮助，我无法完成论文。我要感谢Octopus项目（ANR-12-CORD-0026）对我的研究提供的资金支持我还要感谢我们的项目合作伙伴的所有合作和会议。和他们一起工作是一件非常愉快的事。我还要感谢SMILK项目为我的研究提供的资金支持，以及将我的工作应用于其他真实世界数据集的机会。我要感谢Stack Overflow、Flickr和Viseo分享他们的数据，让我有机会进行我的研究项目。我想感谢Wimelo团队。这是一个友好和国际化的环境，我和所有同事一起度过了美好的时光。我要感谢Christine Foggia的所有帮助和支持。我要感谢我亲爱的朋友们，他们一直支持我，鼓励我。我也要感谢苏菲的帮助和支持。我特别要感谢宋福祺，他帮助我度过了许多困难时期。我很幸运拥有他们所有人我要感谢姗姗对我的爱和支持。我很高兴和幸运有她和我在一起。我想表达我深深的爱和感谢我的家人的支持和理解，无论何时何地。iii摘要我们提出了一种方法来检测主题，重叠的社区的兴趣，专业知识，趋势和活动，在用户生成的内容网站，特别是在问答论坛，如StackOverflow。我们首先描述了QASM（问答社会媒体），一个基于社会网络分析的系统来管理问答网站的两个主要资源：用户和内容。我们还介绍了QASM词汇表用于正式的兴趣和专业知识的用户对主题的水平。然后，我们提出了一种有效的方法来检测感兴趣的社区它依赖于另一种方法，在需要时使用更通用的标记来丰富问题。我们在从流行的问答网站StackOverflow提取的数据集上比较了三种检测方法。我们的方法基于主题建模和用户成员分配被证明是更简单，更快，同时保持检测的质量然后，我们提出了一个额外的方法来自动生成一个标签检测到的主题，通过分析其袋的话的含义和链接。我们进行用户研究，比较不同的算法来选择标签。最后，我们扩展了我们的概率图形模型，以联合模型的主题，expertise，活动和趋势。我们用真实世界的数据进行了实验，以确认我们的联合模型的有效性，研究用户行为和主题动态。保留字：社会语义网，社会媒体挖掘，概率图模型，问答网站，用户生成内容，主题建模，专业知识检测，重叠社区检测v简历Nous proposons une approche pour détector les sujets ， les communautésNousdécrivonsNous presésentons également le vocabulaire QASM utilisé pour formaliser à lafois le niveau d'intérêt et l'expertise des utilisaeconomy.我们建议采取一种有效的方法来检测共同体的利益她在另一种方法上休息，以便在需要时用一种更一般的方法来丰富问题。我们比较了三种方法来检测StackOverflow流行网站上的一个窗口Notre methode basée sur le se révèle être beaucoup plus simple et plus rapide，tout enpréservant la qualité de la detection.Nous pro-posons en complément une methode pourgénérer automatiquement un label pour un sujet decté en analysant le sens et les liens deses mots-clefs.Nous menons alors une étude pour comparer différents algorithmes pourgénérer ce label.因此，我们将采用我们的概率图表模型，以便更好地结合这些问题、专门知识、活动和趋势。我们对世界上的知识进行验证，以确认我们的综合利用模式的有效性和这些知识的动态性座右铭：web social sémantique，vii你不能在向前看的时候把这些点联系起来，你只能在向后看的时候把它们联系起来。所以你必须相信这些点在你的未来会以某种方式连接起来- 工作内容1介绍11.1背景：网络11.2我们的场景：管理问答网站21.3研究问题：问答网站51.4贡献：确定共同利益和时间动态。71.5社会语义网与CQA网站挖掘1.6关于论文贡献的92背景. 112.1导言. 122.2社会语义网：结合社会网络分析和语义网。122.2.1社交网络：在线社区和用户生成的内容2.2.2语义网：知识的形式化和链接202.3OCKTOPUS项目的背景：发现用户生成内容的价值272.4重叠社区检测282.4.1基于图形的方法282.4.2聚类方法292.4.3概率图模型302.4.4关于社区侦查备选办法302.5主题建模：揭示隐藏的主题结构312.6时间分析：在主题建模332.7网站管理问答342.7.1专家检测：找到“核心”用户342.7.2问题路由：向用户362.7.3类似问题：查找已回答372.8研究问题：本论文38x目录2.8.1我们如何将用户生成的内容形式化？...............................................382.8.2我们如何识别将用户绑定在一起的共同主题？...............................382.8.3我们如何为主题生成语义标签？.......................................................412.8.4我们如何检测基于主题的重叠社区？...............................................412.8.5我们如何提取基于主题的专业知识和时间动态？413QASM：社交媒体433.1导言：问答网站433.2我们的建模方法443.3QASM词汇：将问答信息453.4使用QASM词汇表形式化StackOverflow数据503.5模拟问答网站553.6总结：管理问答网站564使潜在狄利克雷分配适应重叠社区检测574.1潜在狄利克雷分配适应性介绍574.1.1问题定义：挖掘主题和社区584.2第一个实验：使用适应的LDA62查找主题和社区4.3讨论：限制和问题635主题提取：从标签695.1导言.695.2主题树分布（TTD）705.2.1First-Tag Enrichment：在需要705.2.2从标签中高效提取主题735.2.3用户兴趣检测：为用户分配775.3StackOverflow数据的TTD实验和评估785.3.1主题提取的性能：困惑度度量785.3.2用户兴趣检测的性能：相似性度量805.3.3用户研究：对用户感兴趣的主题进行排名目录Xi5.3.4基于主题的用户分配905.3.5建议的主题提取方法905.3.6讨论：Q A社交网络中的社区检测特别是925.4总结：一种高效的用户主题抽取方法946主题词袋标签的自动生成6.1Introduction：查找标签来表示主题956.1.1问题定义：词语、主题和标签966.2建议的方法：使用DBpedia信息976.2.1链接到DBpedia976.2.2使用描述6.2.3创建图表：检索资源之间的1016.3实验：调查研究1046.3.1用户6.3.2质量评估：国家发展协商小组的衡量1066.4总结：用标签1097时间主题专业知识活动（TTEA）1117.1导言：采矿专门知识和时间信息1127.1.1联合提取主题、趋势、专业知识和活动1127.1.2定义TTEA1127.2TTEA模型和计算1147.2.1TTEA概率图解模型1147.2.2TTEA模型推断：使用折叠吉布斯抽样1177.2.3后处理：提取活动指示符1187.3TTEA模型实验和对StackOverflow数据的评估1197.3.1StackOverflow数据集的基本统计：概述1197.3.2实验数据集和比较方法119xii目录7.3.3主题提取的性能：困惑得分1227.4任务评估：问题路由和专家建议1267.4.1问题路由：向潜在用户推荐新问题。1267.4.2实验参数敏感性分析1307.4.3专家用户的建议：基于主题的专门知识1357.4.4趋势：不同层次1387.5摘要：一种提取专业知识和时间指示的有效模型。1398结论1438.1捐款摘要. 1438.2前景：目前的局限性和今后的工作146A 附录149A.1调查实例149A.1.1调查标题149A.1.2调查说明149A.1.3调查内容：实例149参考书目151C障碍 1介绍内容1.1背景：网络11.2我们的场景：管理问答网站21.3研究问题：问答网站51.4贡献：确定共同利益和时间动态的模型71.5社会语义网与CQA网站挖掘1.6关于论文贡献的物................................................................................................................91.1背景：网络2000年代Web的一个重大变化是从Web 1.0转向Web 2.0。Web 2.0的一个主要属性是，它允许用户在社交媒体平台上作为用户生成内容的创建者（Moens 2014）和（虚拟）社区的成员进行交互和协作相比之下，在Web 1.0中，人们大多局限于被动观看内容。 Web 2.0站点的例子包括社交网络站点、博客、论坛、视频、图像或音乐共享站点等。Web 2.0确实依赖于贡献用户和丰富Web内容的这种组合。它不局限于用户之间的关系网，而是建立在用户之间共享的共同利益之上。因此，在分析Web 2.0结构和活动时，联合研究用户和用户生成的内容以真正理解它们至关重要。换句话说，这种分析不仅涉及社会网络分析（SNA），例如社区检测或2第1章介绍中心性计算方法，但更普遍的是社交媒体挖掘技术（例如，从用户生成的内容中进行主题检测）。此外，用户因此，在进行这种分析时，考虑时间维度也很重要。与此同时，Web也从一个文档Web演变为一个由软件和机器随时可用的数据增强的Web。根据W3C的定义，“语义Web提供了一个公共框架，允许跨应用程序、企业和社区边界共享和重用数据”。1然而，除了一些经典的超链接之外，Web上大多数用户生成的内容都是非结构化和孤立的。除了一些开创性的举措（Breslin 2006）（Breslin 2007）（Mika 2004）（Erétéo2009），大多数用户生成的内容并没有受益于关联数据和语义网的模型和形式主义。我们需要新的方法和模型，以便在Web上连接社会语义和形式语义（Gandon2013）。特别是，必须将这种信息正规化，并将其转化为知识。在这篇论文中，我们提出了一个框架，它结合了社会网络分析，社会媒体挖掘和语义网技术，以帮助管理用户生成的基于内容的网站。图1.1显示了本论文中讨论的拟议框架的概述1.2我们的场景：管理问答网站这个框架和我们的研究问题的主要激励方案是问答网站（问答网站）的情况下，这是一个非常丰富的（有价值和有用的知识）类型的用户生成内容（UGC）的网站。最初创建问答网站是为了让用户直接向专家社区提问。但是，由于这些交流是以网页的形式存档的，它们就变成了用户生成的Web内容，作为带有提交的答案和评论的公式化问题，它们可以被查看，1https://www.w3.org/2001/sw/（2016年2月访问）1.2. 我们的场景：管理问答网站3图1.1：本文提出的分析问答网站内容和社区4第1章介绍稍后再搜索有相同或相似问题的人可以通过浏览或搜索已经回答的问题来找到答案一方面，问答网站已经迅速成为巨大的问答内容库，支持高价值和高度可重用的知识（Anderson 2012）。另一方面，问答网站也聚集了大量的用户谁不断贡献的问题和答案。这些用户中的大多数更有可能就他们感兴趣的主题提出问题，并回答他们是专家的主题的因此，除了托管半结构化的内容网络之外，问答网站还具有隐含的社会结构，这就是为什么问答网站特别说明需要联合研究用户的社会结构和用户生成的内容，问答网站也被称为社区问答（CQA）网站，表明问答网站的两个关键特征的结合：社区（用户）和问题和答案（内容）。标签和大众分类法（用于收集和组织标签）是社交网络中非常常见的特征，例如在Twitter2、del.icio.us3、Flickr4中，以及在一些问答站点（诸如StackOverflow5）中。它们是用户生成内容的特殊情况，将标签与内容相关联的活动称为协作标签或社会书签。标签使用户能够通过共享标签分类和查找资源;它们可以帮助创建社区，考虑到共享相同标签的用户有共同的兴趣。此外，标签可以直接反映用户的词汇表，并且用相同标签注释的资源通常与相同的主题相关。因此，从标签中发现社区和主题是一个关键问题。我们将更具体地关注与CQA站点中的问题和答案相关的标签的分析。再次考虑我们提出的框架，第一步是设计模式，以形式化我们可以从问答站点导出的所有元信息。第二，可以从社会结构分析、内容分析和演化分析三个方面对结果数据进行分析。然后将这些分析的结果与2https://twitter.com/（2016年2月访问）3http://delicious.com/（2016年2月访问）4https://www.flickr.com/（2016年2月访问）5http://stackoverflow.com/（2016年2月访问）1.3. 研究问题：问答网站的主题、社区和趋势5原始数据集，以丰富其结构并支持新的用途。第三，基于这个集成的数据集，我们将提供几个社会应用，如问题推荐，专家检测和用户生命周期管理。这是所提出的框架的基本逻辑，在这篇论文中，我们将集中在出口和分析阶段，特别是重叠社区检测，共同利益的标签和时间分析。我们之所以进行三种分析，是因为我们认为它们解决了与问答网站的两个主要资源相关的三种需求：用户实际上，从用户的角度来看，检测兴趣社区对于揭示用户网络的子结构并识别相关对等体是有用的。更准确地说，获得这些信息可以有助于问题路由问题（Li 2010a）（Zhou 2012b），这是一个非常重要的问答网站优化问题，例如，将问题转发给活跃于相应主题并具有回答它所需的专业知识的用户。从内容的角度来看这是非常有用的，例如，检索已经张贴的答案重新提交的问题。此外，用户和主题都随着时间的推移而变化，因此检测这种时间动态对于了解新奇事物至关重要这些指标对社区管理者也特别有用;它们还可以有助于社区管理，例如通过允许人们跟踪问答网站中的兴趣演变或社区演变1.3研究问题：问答网站的主题、社区和趋势在这一节中，我们总结了本论文将解决和回答的主要研究问题。

下载后可阅读完整内容，剩余1页未读，立即下载