社交媒体博客数据的社会学分析：主题建模、NERC和情感分类

119 浏览量更新于2023-12-05 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2012作者出版社：Elsevier B.V.由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 4（2013）212 - 2222013年AASRI智能系统与控制基于主题建模、NERC和情感分类器的Blog数据挖掘V. K. Singha *，P. Wailab，R. Piryania，A. 乌丁aa印度新德里110021南亚大学计算机科学系bDST跨学科数学科学中心，Banaras Hindu大学，Varanasi 221005，印度。摘要本文介绍了我们的探索性研究工作的一种新的结合主题建模，命名实体识别和情感分类的博客数据的社会学分析的结果。我们收集了500多篇关于“对妇女的歧视、虐待和犯罪”这一更广泛主题的博客文章。我们采用主题发现来识别热门关键词和关键主题，并实现了7实体模型命名实体识别过程来识别博客文章中讨论的关键人物，组织和位置。此后，我们使用SentiWordNet对整个博客数据进行情感分类，分为积极和消极两类。所获得的结果是非常有趣的，并验证了我们的方法用于计算分析社交媒体数据的有用性。本文的主要贡献是提出了一种新的文本分析结合，并证明了其适用性的社会学分析目的的社会媒体数据的计算探索。© 2013作者。由Elsevier B. V.在CC BY-NC-ND许可下开放获取。由美国应用科学研究所负责选择和/或同行评审关键词：社交媒体;文本分析;主题建模;命名实体识别;情感分类* 通讯作者。联系电话：+91-11-24195148;传真：+91-11-24122511。电子邮件地址：vivek@cs.sau.ac.in。2212-6716 © 2013作者由Elsevier B. V.在CC BY-NC-ND许可下开放获取。美国应用科学研究所负责的选择和/或同行评审doi：10.1016/j.aasri.2013.10.033V.K. Singh等人/ AASRI Procedia 4（2013）2122131. 介绍从2006年《时代》杂志评选“你”为年度人物，到2011年评选“抗议者”为年度人物，社会媒体是共同的实体和驱动力。2006年，社交媒体平台开始流行，并迅速获得了巨大的用户群; 2011年，社交媒体平台被用于组织和协调从利比亚到突尼斯等国的抗议活动，规模空前。博客现象是这场社会革命的重要组成部分。博客（或更专业的网络日志）是一个网站，允许一个或多个人写他们想与他人分享的东西。博客可以是个人博客网站，如个人日记;也可以是社区博客网站，如讨论论坛和协作平台。一个典型的博客文章可以有文本，图像和链接到其他媒体。所有博客网站的宇宙通常被称为博客圈。博客现象以前所未有的速度增长。博客跟踪公司Technorati在2004年9月跟踪了大约400万个博客，到2011年7月已经增长到大约1.64亿个博客（Technorati Statistics，2013），在短短七年内增长了41倍。Wordpress最近的一项统计数据（Wordpress Statistics，2013）报告说，它拥有超过3.83亿人的用户群，每月有超过35亿的博客页面浏览量。仅WordPress用户每月就产生了3390万篇新博客文章和大约4090万条新评论。博客圈现在是一个关于几乎所有感兴趣的话题的讨论、评论和意见的巨大集合，它的规模和重要性每天都在增加。到目前为止，大约66%的博客是英文的。随着互联网在世界其他地区的渗透率将进一步增加，博客文章（包括其他语言）的数量将进一步增加。事实上，现在每5个互联网用户中就有4个使用某种社交网络和媒体（包括博客）。当我们查看用户个人资料统计数据时，在博客网站上创建的大量博客文章和评论变得更加有趣。根据www.example.com的估计Blogging.org，大约60%的博主是业余爱好者（Infographic，2012）。他们不受商业或专业动机的指导，而是自愿撰写从政治，宗教到社会的各种事情。博客流行的一个主要原因是易于创建博客文章，出版门槛低，内容生成的开放标准和自由形式的写作风格;但它是表达的冲动和方便的平台，这使得博客世界达到目前的规模和规模。直到最近，博客世界的一个方面仍然相对未被开发，这是一个丰富而独特的跨文化心理社会学分析宝库。本文介绍了我们的计算探索的博客文本数据与这个更广泛的目标。第二节介绍了这项工作的动机。第3节描述了我们使用的计算公式。第4节解释了数据集的收集及其属性，第5节介绍了详细的实验设置和结果。本文件最后在第6节中总结了观察结果。2. 动机博客以前所未有的速度增长，博客圈中包含了大量的数据（主要是文本），这不仅是商业开发的独特财富，也是社会学和政治分析的财富。使这一陈述更有意义的两个关键意见是：（a）互联网缩短了世界各地人与人之间的距离，使他们能够表达自己并与他人互动，而不受地理、人口、宗教和文化的限制;(b) 自由形式，未经编辑，第一手和相对更多的情感负载表达的各种人对各种社会，政治，文化问题。博客网站现在是一个非常丰富的来源，跨文化和多样化的社会政治帐户的博客对各种问题和事件。214V.K. Singh等人/ AASRI Procedia 4（2013）212在过去的几年里，来自不同领域的研究人员已经开始探索博客圈的非商业方面。这一分析工作有两大特点。一个更计算机科学导向的味道包括任务，如寻找有影响力的博客（Agarwal等人，2008）和关于事件的博客网站（Mahata和Agarwal，2012）、社区发现、过滤垃圾博客等（Liu等人，2010），（Agarwal and Liu，2008）.另一种风格更倾向于对博客文章的社会政治分析（Singh等人，2012），（Singh等人，2010），（Singh，2010）.这包括围绕特定社会政治事件绘制博客圈的任务（Mehrav等人，2012），与重要事件/人物/组织或过程相关的博客文章的分析（MoE，2011），（Suhara等人，2007），（Adamic and Glanse，2005），（Lin and Halavais，2004）.由于我们想研究与工作场所对妇女的歧视和对妇女的犯罪有关的博客文章，我们的方法是社会政治分析。我们的目标主要是探索主要实体（个人，组织等）。在博客文章中讨论;确定主题的关键问题，并了解博客作者如何看待这个主题。选择博客文本是因为它3. 计算公式本文采用了一种新颖的主题建模、命名实体识别和情感分类器相结合的方法对博客文本进行分析。在这里，我们简要地描述这三个计算公式作为普遍感知和使用我们。3.1. 主题建模主题建模（也称为主题发现）识别文档集合中固有的主题，或者换句话说，它试图用主题信息注释大量文档。它采用一组统计方法，分析集合中文本文档的单词，使用单词使用模式的信息，并连接表现出相似模式的文档。它使用基于文本文档的分层贝叶斯分析的概率模型（Blei，2012）。主题建模不仅可以用来发现主题，还可以用来弄清楚这些主题是如何相互联系的，以及它们如何随着时间的推移而变化。最简单的主题模型是潜在狄利克雷分配。潜在狄利克雷分配（LDA）（Blei等人，2003）是一种使用生成过程（一种假想的过程，模型假设文档是由主题生成的）的统计方法。一个主题在形式上被认为是一个固定词汇表的分布。LDA背后的主要思想是将文档建模为由多个主题产生，更具体地说，我们假设一些k个主题与文档集合相关联，并且每个文档以不同的比例展示这些主题。因此，集合中的所有文档共享同一组主题，但每个文档以不同的比例展示这些主题。通过良好的主题建模算法，推断出的隐藏主题结构类似于文档集合的主题结构。贝叶斯非参数主题模型，动态主题模型和相关主题模型是主题模型的其他几个变体（Blei和Lafford，2009）。3.2. 命名实体识别命名实体识别（Named Entity Recognition，NER）是信息检索中的一项任务，它试图识别文本中的单词并将其分类为一些预定义的类别，如人名、组织名称、位置、时间表达、数量、货币值、百分比等它也被称为命名实体识别和分类（NERC），因为它V.K. Singh等人/ AASRI Procedia 4（2013）212215执行识别文本中的专有名称并将其分类为预定义类别的双重任务。NER通常采用以下三种方法之一：基于规则，基于机器学习和混合（Nadeau和Sekine，2007）。现代NER系统执行实体识别和分类任务，通过使用手工制作的语言语法为基础的技术，有关的语言，或通过使用统计模型的分类。第一个涉及到计算语言学家的大量工作，为特定语言手工编码实体位置和识别规则。第二种方法使用统计模型，如朴素贝叶斯分类器，条件随机场，隐马尔可夫模型或最大熵方法，但它们需要足够数量的人工注释训练数据。在这项工作中，我们使用了7实体模型斯坦福命名实体识别器（NER，2012）。它是一种基于条件随机场的机器学习分类方法，有以下七个类：人员，组织，位置，时间，金钱，百分比和日期。例如，考虑文本：“南亚大学是由南盟国家建立的，资金支持为100万美元，其中50%的资金由印度支持，位于新德里 ” 。 NER 算法以以下指示形式解释此文本： ORGANIZATION> South AsianUniversity/ORGANIZATION>由<组织>南盟/组织>国家的财政支持$1M/MONEY>，PERCENT> 50%/PERCENT>的资金由<位置>印度/位置>，位于位置>新德里/位置>。3.3. 情感分类情感分类的目的是给每一个有主见的文本分配一个“积极”或“消极”的标签。有意见的文本的情感分类主要有三种类型的方法：（a）使用基于机器学习的文本分类器-例如朴素贝叶斯，SVM或kNN;（b）使用语义定向方案提取文本的相关n-gram;以及（c）使用基于SentiWordNet的公开可用库，为单词提供积极，消极和中性分数。在这项工作中，我们使用了SentiWordNet方法对博客中表达的情感进行分类。这种选择背后的主要原因是它不需要任何训练数据，可以很容易地实现，并获得合理的准确度。 SentiWordNet 方法涉及使用 SentiWordNet 的公开库（ SentiWordNet ， 2012 ）。为了使用SentiWordNet，我们需要首先提取相关的固执己见的术语，然后在SentiWordNet中查找它们的分数。过去的研究表明，形容词、副词+形容词和形容词+动词的组合是提取术语的几种合理选择。我们使用了 SentiWordNet 方法的一个简单版本，它提取副词 + 形容词组合并计算它们的SentiWordNet分数。这些分数的计算方式除了形容词分数之外，还对副词分数给予一定权重（Singh等人，2013年）。事实上，形容词之前的副词的存在，修改他们的SentiWordNet分数。我们还考虑了术语“not”的出现，4. 数据集集合我们收集了关于“对妇女的歧视、骚扰和犯罪”这一更广泛主题的博客文章。2012年6月，我们从Wordpress、Blogspot、Thefword、Feministblog和Blogher等非常受欢迎的博客网站收集了总共512篇博客文章。我们使用完全自动化的数据收集过程。我们编写了一个搜索客户端程序，它使用Google搜索API从上面提到的博客网站中查找相关的博客文章，并得到满足我们给定查询的博客文本的URL链接。我们建立了一个持久的URL链接库在第二阶段，我们执行了一个JAVA程序来获取216V.K. Singh等人/ AASRI Procedia 4（2013）212在我们的存储库中的URL的博客文章。所有数据都以XML格式收集。本质上，对于每一篇博客文章，我们存储以下xml标签：<博客><网址>/url>/title><中文（简体）为了找到相关的博客文章，我们向爬虫提供了以下七个手工编码的搜索查询：“工作场所歧视弱势性别”，“工作场所对妇女的性骚扰”，“工作场所对妇女的不利条件”，“对妇女的性虐待和歧视”，“防止对妇女的歧视和骚扰”，“第三世界国家的妇女”和“对妇女的犯罪”。从查询中可以看出，我们试图收集高度相关的，同时相对真实的，有争议的或固执己见的博客文章。爬虫返回的一些博客文章URL链接包含非常少量的文本或英语以外的语言，因此我们将它们过滤掉，最终我们的数据集由512篇关于此主题的文章中的485篇博客文章组成。下面的表1给出了从不同网站收集的博客文章（过滤前）的摘要表1.收集的数据集详细信息博客网站博客文章字数唯一字数平均字数Blogspot21347490982234822296.234WordPress19453086842680127364.351BlogHer101110412121110.4偷字225469328942486.045女权主义博客6037364141856227.35杂项134251834553270.6155. 实验工作和结果本节描述了逐步运行计算公式的不同部分的过程，其目的和所获得的结果。我们开发了一个集成的Java程序，能够做主题建模，向量空间模型转换从文本，词性标注的文本，命名实体识别从文本文档和情感分析，通过使用SentiWordNet库。我们在整个博客文章集合中执行的第一个任务是主题建模，我们使用斯坦福主题建模工具（Stanford Topic Modeling，2012）。主题建模的主要目标是找到贯穿整个博客数据集的关键主题。这不仅有助于确定博客作者表达的主要主题，而且还有助于捕捉人们可能期望在有关这一主题的文献和文本中找到的最具代表性的关键词。我们从主题建模结果中提取了前50个关键词，并过滤了这个列表，以获得前20个最相关的关键词。在获得20个关键字的精简列表后，我们计算了它们在整个数据集中的出现频率。表2列出了这前20个关键词及其使用频率。虽然一些出现频率最高的词，如“工作”，“性”，“暴力”，“骚扰”，“歧视”和“妇女”也是手工编码搜索查询的一部分，但我们也获得了相当不同的热门关键词。与我们的查询重叠的词是一个很好的衡量博客数据收集的相关性的分析主题获得的其他热门关键词包括V.K. Singh等人/ AASRI Procedia 4（2013）212217“社会”、“法律”、“年”、“生活”和“国家”。这是一个很好的指标的关键实体/点所涉及的著作就这一主题。虽然许多著作强调“男人”对歧视和骚扰负有主要责任;但其他人表示，这一问题需要“社会机构”、“国家”和“法律”的支持来解决。通过本文采用的计算方法获得的其他一些著作也表明，这种歧视和骚扰不仅是现代的问题，而且"多年“以来一直存在，妇女在其”一生“中以各种形式遭受歧视和骚扰。我们绘制了一个标签云的顶部关键字获得有一个更好的可视化的主要主题/演员/机构等，通过关键词表达。图1（a）展示了从顶部关键字列表中绘制的图表，该图表转换为图形数据文件（gdf），供Gephi使用（Gephi，2012）。标签云图中单词的大小表示其出现频率，即出现频率较高的单词比出现频率较低的单词看起来更大。表2.频率最高的20个关键词单词1-10计数字11-20计数工作1365使688性1205法687男人1128女人681时间1015工人620歧视946状态611权利910性别607暴力869生活582骚扰792唐568世界758劳动568社会709年567（一）218V.K. Singh等人/ AASRI Procedia 4（2013）212（b）第（1）款图1.一、（a）前50个关键词的标签云可视化;（b）数据中名词出现的标签云图在进行主题建模之后，我们认为查看整个数据集中名词出现频率的相对强度可能是一个好主意。为此，我们对所有博客文章进行了POS标记，并提取了带有标记noun>的文章。提取名词后，我们计算了这些名词在整个数据集中的出现频率，并使用频率计数将名词绘制在标签云图中，如上图1（b）所示。提取名词并绘制其相对出现频率强度的想法是识别主题数据集中的关键重要实体。正如图中清楚可见的那样，很少有值得注意的名词出现为了进一步说明博客数据中的关键实体，我们执行的下一个任务是命名实体识别（NER）。我们实现了斯坦福7实体NER模型，并获得了整个列表的类人，位置和组织等实体，此后，我们提取了所有的实体的三个重要类-人，位置和组织。NER在整个数据集中识别了2012个人实体，907个位置实体和2722个组织实体。图2（a）绘制了人员类的标签云，图2（b）绘制了位置类的标签云，图2（c）绘制了组织类的标签云;显示了它们在整个数据集中出现的相对强度。为了绘制这些图，我们只选取了具有最小出现阈值的实体（4个用于人员类，8个用于位置类，7个用于组织类）。人物类别的标签云显示了突出的实体，如“奥巴马”，“布什”，“克林顿”，“梅林达盖茨”，“斯泰西”，“默里先生”。这些是博客在这个主题上引用最多的名字。一个可能的原因是，这些人一直在倡导这方面的政策，和/或人们对这些人寄予希望，希望他们摆脱歧视妇女的威胁。类似地，位置云具有突出的实体，范围从“美国”、“加拿大”、“英国”到“新加坡”、“澳大利亚”以及“印度”、“中国”、“沙特阿拉伯”。因此，可以清楚地推断，这是一个世界性的问题，在几乎所有社会和国家的不同发展阶段都可以看到。这也可能是一种描述，即世界上几乎所有国家都在努力通过立法、社区意识和其他种类的平权行动来解决这个问题。组织类实体的标签云图提到了一些重要的组织名称，从国家，政府，公司和大学到个人。V.K. Singh等人/ AASRI Procedia 4（2013）212219(a)（b）第（1）款（c）第（1）款图二.（a）个人类实体;（b）位置类实体;（c）职业类实体我们执行的下一个计算任务是博客数据的情感分析。我们首先提取所有的副词+形容词组合在博客文章，然后使用基于SentiWordNet的公式来计算情感得分的博客文章通过聚合的情感值的各个副词+形容词组合。我们在图3中绘制了数据集中所有博客的情感极性强度。所绘制的情感值是该博客文章的“正面”和“负面”分数的总和6. 结论我们设计的计算框架，对博客数据的探索性分析，在一个特定的主题已经能够获得非常有趣的和相关的结果。通过主题建模的实现，我们能够从整个博客数据集合中找出主要的主题关键词。这些主题关键词描述了与“歧视和骚扰妇女”主题相关的主要问题、角色和实体。词性标注有助于识别名词220V.K. Singh等人/ AASRI Procedia 4（2013）212数据集中发生的事件，进一步阐述了与这一主题有关的关键问题/机构和其他实体。NER的实现有助于进一步识别实体，允许提取数据集中提到的人员，地点和组织。我们能够确定在关于这一主题的所有著作中经常谈到或与这一问题密切相关的主要人物、地点和组织。同样，情感分析的结果表明，整个数据集在“积极”和“消极”情感量表上的分布相对均匀，从而表明关于这一主题的文章不仅是消极的，而且其中很多表达了对改善情况的希望和乐观。基于实体的情感分析可以通过帮助获得数据集中讨论的所有主要实体的情感取向来进一步关注它。博客数据图三.博客数据我们承担的分析任务是在当今世界的一个非常相关的主题，我们建议通过计算公式，使用主题建模，NER和情感分析相结合的方法来处理这个分析任务。这种方法与传统的主观分析相比具有许多优点，但它并不旨在取代传统的主观分析。首先，我们的计算公式自动收集世界各地人们撰写的相关文本，从而允许对这个问题进行固有的跨文化和人口视角。其次，我们可以快速分析的数据量不受限制。以传统的手动方式分析这种规模的数据需要更多的精力和时间。第三，这种表述可以确定贯穿整个文本集的主要主题，并衡量其相对优势。因此，这种计算公式提出了一个独特的框架，自动分析文本文件，在更少的努力和时间相比，传统的主观方法，并固有地提供了跨文化的社会学和社会政治100806040200-20-40-60-80-1000 50 100 150 200 250 300 350 400 450 500正强度负强度情感强度V.K. Singh等人/ AASRI Procedia 4（2013）212221对任何重要主题/感兴趣的问题进行分析。调查结果还可以为围绕主题进行详细的主观分析提供一个初始起点（或思考的食物）。引用[1] Technorati Blogpulse Blogging Statistics，2013年1月15日从http://www.socialmediaexaminer.com/tag/blogging-statistics/[2] Wordpress博客统计，检索自en.wordpress.com.stats/ on Jan 15，2013.[3] Blogging Stats 2012（Infographic），Retrieved fromhttp://blogging.org/blog/blogging-stats-2012- infographic/ on Jan 17，2013.[4] Agarwal N，Liu H，Tang L，and Yu PS.在一个社区中寻找有影响力的博客。在网络搜索和网络数据挖掘国际会议论文集; ACM出版社，帕洛阿尔托，美国2008年，第100页。207-218[5] Mahata D和Agarwal N.大家都知道什么？从社交媒体上识别特定事件的来源。在第四届社交网络计算方面国际会议（CASoN 2012）的会议记录中; 2012年11月21日至23日;巴西圣卡洛斯。[6] Liu H，Yu PS，Agarwal N和Suel T.博客圈中的社交计算。IEEE Internet Computing; 2010年4月;pp. 12比14[7] Agarwal N和Liu H.博客圈：研究问题，工具和应用。SIGKDD Explorations; Vol. 10，No.1; pp. 18-31; 2008年。[8] Singh VK，Mukherjee M，Mehta GK，Tiwari N和Garg S.从网络日志中挖掘意见及其与社会政治研究的相关性。In M Natarajan，C Nabendu and N Dhinaharan（Eds.计算机科学与信息技术进展。计算机科学与工程;第二部分，2012年1月，LNICST 85，Springer，pp. 134-145。[9] Singh VK，Mahata D和Adhikari R.从社会政治的角度挖掘博客空间。在计算机信息系统和工业管理应用国际会议（CISIM），2010年，pp。365-370[10] Singh VK.挖掘博客圈的社会学推论。在S Ranka等人（编辑）中：Contemporary Computing;CCIS Vol.94，Springer-Verlag，Heidelberg; 2010，pp. 547-558[11] Mehrav Y，Mesquita F，Barbosa D，Yee WG和Fireder O.从博客圈中提取信息网络。ACMTransactions on the Web; Vol. 6; No. 3; September 2012.[12] MoE H.映射挪威博客圈：国际化互联网研究的方法学挑战。社会科学计算机评论29（3）313-326，2011年。[13] Suhara Y，Toda H和Sakurai A.使用主题词从博客圈挖掘事件。ICWSM会议记录; 2007年。[14] Adamic L和Glanse N.政治博客圈和2004年美国大选：他们的博客分裂。第三届链接发现国际研讨会论文集; ACM; 2005.[15] Lin J和Halavais A.在美国的博客圈地图。在WWW 2004年研讨会上的博客生态系统：聚合，分析和动态; 2004年。[16] 布莱湾概率主题模型。ACM通信; 55（4）; pp.77[17] Blei D，Ng A和Jordan M.潜在Dirichlet分配Journal of Machine Learning Research， 3; pp.993[18] Blei D和Lafford J. Topic Models。In A Srivastava and M Sahami（eds.）文本挖掘：分类，聚类和应用，Chapman Hall/CRC数据挖掘和知识发现系列; 2009。[19] Nadeau D和Sekine S.命名实体识别与分类综述。Lingvisticae Investigationes 30.1; pp.2007年3月26日[20] 斯坦福命名实体识别器，从http://nlp.stanford.edu/software/CRF-NER.shtml上检索222V.K. Singh等人/ AASRI Procedia 4（2013）21212月15日2012年。[21] SentiWordNet，12月15日从http://sentiwordnet.isti.cnr.it/检索2012年。[22] Singh VK，Piryani R，Uddin A和Waila P.电影评论和博客帖子的情感分析：用不同的语言特征和评分方案评估SentiWordNet。第三届IEEE国际高级计算会议论文集; 2013年。[23] Stanford Topic Modeling，2012年6月15日从nlp.stanford.edu/software/tmt/tmt-0.4/检索。[24] Gephi：The Open Graph Viz Platform，12月1日从https://gephi.org/检索2012年。

下载后可阅读完整内容，剩余1页未读，立即下载