网络情感沟通预测模型及其可解释的机器学习方法

138 浏览量更新于2024-01-23 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

电信和信息学报告8（2022）100019情感交流如何在社交媒体中发生：预测多维特征提取徐明华a，魏子尧a，刘伟，姜武ba华中科技大学新闻与信息传播学院，湖北省武汉市洪山区珞喻路1037号，邮编430074b武汉大学信息管理学院，中国aRT i cL e i nf o保留字：情感沟通预测模型网络舆论社交媒体可解释的机器学习a b sTR a cT网络空间弥漫的情绪表达，增加了不确定性，也给治理带来挑战。情感沟通的发生机制可以为解决这些问题提供更多的思路。本研究提出了具有多维特征的“芳香-同质-回声”模型作为细粒度研究实践的框架。该模型将情感沟通分为三个层次，并给出了它们的定义和测量方法。然后，我们创造性地将机器学习及其可解释性结合起来，预测和解释情感交流是如何发生的。利用典型事件的网上公众讨论数据拟合预测模型，总结重要特征并分析其影响因素。最优预测模型可用于评估和监控网络空间中的危机传播，而重要因素的特异性可指导干预策略，以减轻情感传播的不良影响。1. 介绍各种网络平台服务的普及性和可及性社交媒体上的谣言传播、虚假宣传、煽动极端主义、煽动暴力、沟通者所表达的情绪可以具有强烈的感染力，将听众带入情境，并将他们的情绪激发到一定程度[21，46]。作为一种包含情感表达、感染和分享的互动模式[61，66]，情感沟通可以改变受众受众将成为新的情感传播者，加剧网络舆论“重情感、轻信息”的趋势，网络空间中的情感交流已成为一个值得关注的话题。非理性的情绪表达通常在煽动中，分散观众在观众的情感本能的驱使下在这种情绪化的伎俩下，谣言和假新闻广泛传播，使网络空间充满了混合质量的信息。此外，在共鸣和积累之后，个人情绪可以成为群体情绪[68]，用“沉默的螺旋”[30]解构其他理性意见的形成，现行政策或措施强调对情绪的监督和监控，但要减少情绪的不良影响，还有很长的路要走。当探索情感沟通的影响力时，目标变量是内容的整体影响力，例如转发和评论的数量[7，53，58]。特征是从Meta数据中提取出来的，但观众的反应并不关心.通过将用户的情感嵌入至于模拟情感沟通过程的模型[59，65]，尽管考虑了干扰因素，但计算复杂性限制了因素的包含。此外，参数设置取决于以前的发现，调查缩写：LDA，潜在狄利克雷分配; TF-IDF，词频注：本研究将∗ 通讯作者。电子邮件地址：weiziyao@hust.edu.cn（中）Wei）。https://doi.org/10.1016/j.teler.2022.100019接收日期：2022年3月1日;接收日期：2022年7月29日;接受日期：2022年10月5日2772-5030/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表电信和信息学报告期刊主页：www.elsevier.com/locate/telerM. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000192或访谈，忽略了从真实数据中提取新的因素。此外，预测指标是特定时间的动态结果，而不是用户之间的情感互动情感沟通是一种心理活动，包括沟通者的评价和行为反应以及他们观察到的共同对象的亲密度[61]。因此，研究不能仅仅观察情感内容的交流效果，而应更多地关注两个用户之间情感交流的互动过程。更重要的是，交际者的情感表达对受众反应的影响机制尚不清楚。这就需要一种情感沟通的测量方法，从更广阔的视角分析影响沟通的因素。为了解决这些差距，本研究提出了一个“唤醒-同性恋-回声”模型作为细粒度实践的框架。这有助于将理论与情感交流的实际模式联系起来。基于最佳预测模型，我们利用解释机器学习模型的方法来总结重要因素并推断他们的角色鉴于现有的监管重点是控制，帐篷和传播者，本研究旨在扩大思路和方向网络空间治理的理念2. 文献综述和理论背景2.1. 情感表达的效果情感表达可以抑制社交媒体上的信息传播。内容中的情绪通常会增加被转发的概率[22，39]和频率[51]更具体地说，带有负面情绪的微博使受众有更强的转发倾向[5，63]，并且转发得更快、更频繁[48，53]。具有更强积极情绪的视频更有可能在Facebook上分享[37]。此外，不同的情绪可能会从观众那里得到不同的反应。带有忧虑的帖子会收到更多支持性评论，而带有积极情绪的帖子会收到更多带有积极情绪的评论[7]。情感表达的效果也受到用户的关注。更多的负面情绪是由非典型用户在政治论坛上表达的[9]。经常分享情感的用户会从观众那里获得更多的喜欢[8]。一个YouTube视频博主与政府和主流媒体相关的用户账户对公众情绪的影响最大拥有更多朋友关系的用户或发帖较少的用户更容易受到朋友情绪的影响上述研究描绘了情感信息传播的总体效果，但没有涉及情感传播的发生机制。影响因素主要从内容和传播者两个方面提取，缺乏对受众的考虑，尤其是不同用户的反应。因此，需要一个更细粒度的分析单元，将情感沟通纳入沟通者与受众之间的互动中。2.2. 情感交流由于情感与信息一起传播，因此情感传播可以被视为传播者与受众之间的一种特殊形式的互动[61]。一些研究将情感的效价和强度嵌入网络中，以代表这种情感关系。每个用户在转发网络中发现，在讨论同一主题的相邻用户对中，约61.4%的转发表达了与原始帖子相同的情绪[3]。计算模型被用来模拟和预测情感交流的动态过程. Cole[10]提出了一种改进的一般阈值模型，用于预测大规模网络中用户及其朋友之间的情感互动。内容因素，如作为传播范围，情绪效价和强度，以及用户因素，包括对事件的信任度，信任度和关注度，在流行病模型中被考虑以模拟情绪的传播过程[65]。传播者在观察不同关系层的情感互动时，提及层的用户最容易受到他人情感的影响，其次是 [59]第59话：一个人的故事将情感嵌入网络有助于进一步揭示帕特-观众和交流者之间情感互动的过程。然而，相关研究只是通过比较相邻用户的情感表达来描述数量关系。影响情感交流的因素仍有待讨论。模拟和预测模型考虑了一些因素，但它们从系统的角度强调不同情绪的数量或强度分布，而不是情绪关系。因此，在情感沟通的发生机制在对相关研究进行分析的基础上，本文提出了以下研究问题：RQ 1. 如何衡量传播者与受众之间的情感交流RQ 2.什么样的内容更容易激发传者与具有不同特征的受众之间的情感交流？2.3. 情绪感染情绪传染是指个体或群体直接或间接地以情绪状态和行为态度影响他人的过程[14，17]。在社交媒体上，情绪传染伴随着情绪信息的传播而发生。听众理解传播者表达的情感，然后形成他/她的态度并决定行为反应[26，38]。在这个过程中，情绪唤醒可以被特定的情绪效价激活或停用，这取决于观众这表明情绪是由潜意识对情绪内容中的刺激的评价引起的[35]。然而，并不是所有的情绪刺激都能在特定的情况下引发情绪，观众如果听众认为情感表达是不必要的或不合适的，那么他/她的反应中就会缺少情感。随着情感在社交媒体中越来越多地被用来煽动舆论对立，情感内容是否作为情绪传染的重要组成部分，模仿反馈机制表明受众Facebook用户事实证明，当用户接触到来自他人的更多积极情绪时，他们会表达更多积极的情绪[24]。然而，模仿并不是情绪传染的唯一途径，因为个体这被称为有意识的情绪感染，与基于模仿的原始情绪感染不同，但意识较少[20]。有意识的情绪感染是受众理解传播者对某一事物的感受的理性过程。如果观众认为经过比较和判断后，他/她会接受这种情绪作为自己的情绪[6]。否则，观众M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000193将独立形成态度，并根据更高层次的认知过程来调节他/她的情绪，例如将自己置于他人在情绪激发的语境中，上述情绪感染的不同路径导致了从沟通者到受众的情绪的不确定性变化。在情感交流的发生机制中应考虑这种变异。根据Rus-sell[44]，情绪可以用“效价-唤醒”二维模型来描述。效价指的是由刺激引起的愉快-不愉快的质量，从积极到消极，或被分为细粒度的情绪，如愤怒，恐惧和幸福。唤醒表示对刺激的心理和生理反应的兴奋或平静程度。它代表了情绪的数量强度，更高的唤醒意味着更强烈的情绪。在公共讨论中，用户通过个人化的心理图式进行情感表达，形成态度。如果观众和交流者一样的情感而且他们表达的相同情感可能表现出不同的强度。然而，如果更高层次的意识被激活，观众会三思而后行，以决定一个适当的情感表达。如前所述，传播者对受众的情绪感染的影响可能会有所不同，表现为他们情绪表达的存在、效价和强度想象一下，当用户遇到一个情绪化的帖子时。如果他/她表达了特定的情绪，我们认为情绪唤起发生了。此外，如果他/她表达的情感与原始帖子中表达的情感相同，我们认为情感同质性发生了。同时，情感共鸣强度概念上是情感的同质性程度，用受众与交流者的情感强度之比来衡量我们的模型包括情绪唤醒、情绪同质性和情绪回声强度三个方面，遵循条件逻辑，探讨情绪沟通的发生机制。2.4. 情感作为社会信息情感作为社会信息（EASI）理论可以丰富情感交流的影响因素。它将情感作为信息理论[47]与双过程模型[23]相结合，将情感表达视为与外部情境相关的社会线索或社会信息[54]。当决定对沟通者所表达的情感的反应时，听众启动了他/她的情感反应和推理过程[54，56]。前者直接而迅速地唤醒观众的情绪反应，类似于“原始情绪传染”的过程。相反，在推理过程中，观众将情感表达作为评价信息，并利用认知资源来处理它[55]。在情绪信息加工过程中，推理反应和推理过程共存并相互作用，并受加工程度和社会关系因素的调节[54]。信息加工越深，理性推理越占主导地位，而信息加工越浅，反应越不积极。观众使用社会关系因素来判断情绪的适当性并决定情绪反应。加工程度取决于受众上述因素的个性化差异导致的结果是，即使面对同一用户发布的相同内容，观众的情感反应也会有所不同。在加工度上，如果受众对所遇到的帖子主题不感兴趣或无法理解观点，则不得表达任何情绪或提出带有反价情绪的反对意见。一个反应可能主导这个过程。人们通常重视印象管理或自我展示对社会形象的重要性，dia[42]，导致他们的情感体验的选择性披露[29]。因此，当他们决定在线情绪反应时，社会关系因素不可避免地被视为调节和控制其在线形象的重要策略。如果观众关心他/她的声誉，他/她就不会表达在特定情况下似乎不合适的情绪。为了保持既有的默契和良好的关系，观众可以选择一种具有适当强度的情感来表达。在这样的决策过程中可以更多地利用推理过程。影响因素应根据情感沟通的细粒度测量来明确以往的研究从内容和传播者两个方面提取了一些因素[8，57，65]，但忽略了受众EASI理论认为，情感反应的选择是一个依赖于复杂认知机制的决策过程，强调听众因此，我们从内容、传播者和受众三个维度提取多维度特征，作为“芳香-同质-回声”模型的输入，构建情感传播的发生机制，如图所示。1.一、3. 方法以某热点事件的网络公众讨论为案例，从相关数据中提取多维特征，构建机器学习模型，对“Arophily-Homophily-Echo”情感交流进行预测然后，我们总结了重要的特征，并推断出他们的情感交流的解释性机器学习方法。该程序如图所示。二、3.1. 病例选择这项研究以中国对“TikTok美国禁令”1的公开讨论在传播效应上，这一事件具有重要意义，引发了持续的热议。舆情指数为94.4，在《知微2》连续6年记录的网络舆情事件中排名前1%[67]。讨论持续了两个多月，其间产生了一些子事件或副主题。几乎每个人都能找到自己感兴趣和熟悉的副标题，因此，许多网友加入了讨论，从不同的角度表达了自己的观点和情感。广泛的参与度和较长的持续时间，让“TikTok美国禁令”讨论积累了丰富的可靠数据。它具有足够的代表性，有助于发现社交媒体上更多的情感交流至于“TikTok美国禁令”事件的特点，这是一个与国际政治、互联网行业和经济全球化有关的商业丑闻。由于政治和经济问题与国家利益密切相关，情感反应与理性观点并存。理性系统与情感系统的平衡与我们分析情感交流过程的理论假设是一致的。同时，由于政治和经济问题没有标准的正确答案，每个人都可以畅所欲言，因此情绪和观点通常是多种多样的。情感表达的多样性有助于通过机器学习从更高维度提取数据背后1TikTok是一个基于短视频的社交平台它是一家由字节跳动拥有的海外 2020年7月13日，特朗普政府将禁止TikTok的消息在中国引发了公众讨论，之后特朗普在2智微（https://ef.zhiweidata.com/library）是中国的一个平台，分析热点事件并计算其影响指数。事件影响力指数是一项权威指标，根据所有自媒体和网络媒体的相关数据，用于衡量事件M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000194图1.一、“ 激励-同质 -呼应”情感沟通模式具有多维特征。图二. 研究框架。新浪微博（http://www.weibo.cn）作为中国领先的最大社交媒体平台，已成为网民获取最新消息、讨论社会问题、积极参政议政的重要渠道，被誉为“中国的Twitter”。截至2021年9月底，新浪微博月活跃用户数和日活跃用户数分别达到5. 73亿和2. 48亿[50]。因此，来自新浪微博的数据最能代表中国社交媒体上广泛和普遍的公众意见。此外，该平台集成了熟人和陌生人情感交流这有利于从真实数据中捕获更多的交互模式。3.2. 数据收集和预处理我们尝试了几种搜索策略，在新浪微博上收集了关于所选案例“TikTok美国禁令”的帖子。结果表明，主题检索是平衡检索结果召回率和准确率的最有效策略。由于在搜索引擎中对输入的搜索词进行了分割M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000195先进的搜索功能，主题检索的结果可以包括全方位的关键词组合。因此，我们选择与“TikTok美国禁令”相关的主题我们使用自己编写的爬虫程序发送请求并解析返回的数据，分三轮进行。在第一轮中，我们抓取了每个返回微博帖子的元数据，包括其唯一标识符，海报，内容以及转发，喜欢和评论的数量，这些都被放入帖子数据池。对于转贴的帖子，我们同时抓取了原始帖子的元数据。发帖者的主页链接被记录在用户数据库中。在第二轮中，我们请求每个帖子的评论，并将其元数据记录在评论池中。评论用户的主页链接被记录在用户池中。在第三轮中，我们抓取了池中每个用户的元数据，包括唯一标识符、身份验证信息以及关注者和关注者的数量。数据池中没有重复数据抓取的数据被预处理如下。首先，我们浏览了帖子池中的所有微博，并删除了与“TikTok美国禁令”无关的帖子。此外，还统一纠正了不规范的表达方式，如其次，我们处理了帖子中的一些指示性短语，例如用于标记视频或图片的短语。一个新的字段被设置为识别带有视频或图片的帖子第三，我们利用 pyhanlptoolkit3[19]将帖子中的繁体中文单词转换为简化的单词，并将微博和评论文本分割为单词。在文本切分时，利用字符串模式匹配排除了数字、日期、无效网址和无意义的英文单词此外，我们在可定制的分词器语料库中添加了一些与“TikTok美国禁令”相关的词对收集到的微博和评论进行分词，构成案例语料库。3.3. 情感分析情感交流始于微博的情感表达.在我们的研究背景下，发布微博的用户被视为传播者，在微博上转发或评论的用户被视为受众。本研究将情感传播分为三个层次，表现为传播者与受众在情感表达的多样性和唤起性上的差异。因此，对帖子和评论进行文本情感分析，以识别通信者和听众的情感。根据我们的研究目标，需要细粒度的情感提取。情感极性（积极、消极和中性）分类是情感分析的主要任务，主要基于机器学习或情感词典。情绪分析方面，在细化情绪类型和测量情绪强度方面仍有改进空间。虽然基于机器学习的方法在情感极性上已经逐渐成熟，但由于缺乏大规模和高质量的训练数据，它们在分类细粒度情感方面的表现还不够令人满意[12]。我们使用情感词典结合语义分析来提取细粒度的情感，这已被证明是有效的[45]。此外，基于词典的方法能更好地平衡汉语词汇之间的语法关系。“好”与“喜”融为一体，“怒”与“恶”融为一体。考虑到情感“怀疑”，增加了表示怀疑的词语和相应的强度。因此，这项研究将情绪分为六类：快乐、悲伤、恐惧、厌恶、惊讶和怀疑。同时，还应考虑程度副词和否定词对情感词的修饰作用。我们结合语义依存句法分析和程度副词、否定词词典来确定情感词的修饰语。对于没有通过依赖解析分析识别的修饰语，焦点情感词周围的词将与词典中的词匹配，其窗口大小为3。否定词可以改变情绪的类别，而程度副词只改变情绪的强度。pyhanlp工具包支持依赖解析分析。几个现有的否定词的词汇整合，成为我们的词汇。此外，我们还基于权威的语言知识库《知网》建立了程度副词词典。从现有的词典中添加了其他负面词，并在相同的指标下调整了每个词包括emo在内的三个词汇我们的研究使用了状态词、程度副词和否定词研究分析情感传播发生时，传者为了提高分析的准确性，我们以“Tik-Tok美国禁令”为例，对收集到的帖子和评论的分词语料进行了两步扩展。首先，选取案例语料库中出现频率较高而词典中没有的情感词进行人工标注。综合考虑质量和效率，我们将频率阈值设置为“7”，候选词为359个。3名研究生完成了情感类别的人工标注任务，一致性为89.3%。在分类和情感上的分歧紧张程度是经过讨论决定的。每个候选词的类别和相应的强度被添加到情感词典。其次，使用腾讯人工智能实验室4的中文嵌入技术，为词典添加与案件事件相关的新词和同义词。所有将案例语料库和三个常用词典中的词与腾讯嵌入式中的词进行匹配。在我们语料库中的65，590个词中，有58，450个词在腾讯嵌入式中匹配。将匹配的词作为候选词，计算每个候选词与词典中每个词的相似度我们设置了一个合适的相似度阈值来过滤与三个词典中现有词相似的候选词。通过人工检查，我们确定了每个词的类别，并统一调整其强度。最后，增加了2094个情感词、98个程度副词和138个否定词在相应的词典中。对帖子和评论的情感分析如下。当奇数个否定词修饰情感词然而，它的情绪类别和强度会发生变化，如表1所示。如果有偶数个消极词，情绪类别和强度保持不变。“”表示情感词“”的初始强度。根据实验测量结果[2，13]，情绪分类的准确率最高的是θ= 0.1和θ= 0.2。我们选择了汉语情感词本体[60]作为句子，情绪词汇，它将情绪分为七类（快乐，好，愤怒，悲伤，恐惧，厌恶和惊讶），并通过五个点（1，3，5，7，9）测量情绪强度。我们发现人们的表情 “善”与“乐”的关系是相似的，他们的“怒”在个案事件中更多地因此3Pyhanlp工具包是Hanlp的一个Python包，Hanlp是一个多语言自然语言处理库，具有各种功能。在全球最大的文本语料库的支持下，Hanlp可以高效地处理高性能的文本。4腾讯人工智能实验室嵌入语料库提供200维嵌入，超过800万个中文单词和短语，这些嵌入都是在大规模高质量数据上预先训练的。这些向量，捕捉中文单词和短语的语义，表现出更好的覆盖率，新鲜度和准确性比大多数现有的嵌入语料库。它可以广泛应用于许多下游的中文NLP处理任务和进一步的研究。5单词嵌入训练是一个将单词表示为多维空间中的向量。这两个词在这个空间中越相似，它们之间的距离就越短。本研究利用python工具包gensim.models加载词向量并计算两个词之间的余弦相似度。M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000196��√��disgust��happiness厌恶快乐��观众在评论中表达了他/她的观点。��该组⎩建模要求，与用户相关的特征包括身份标签和参与度，与内容相关的特征分为表1否定词的修饰语。Initial category Modified category Modified intensityhappinessdisgust1闪烁2快乐的人厌恶的��是由观众的情绪强度的比率估计的沟通者，如公式所示。(3).在等式中，_，de-表示交流者所表达的情感强度��在他/她的微博中，，_，表示情绪的强度��sadness happiness悲伤快乐快乐��恐惧、惊讶和怀疑无0当情感词“”被程度副词“”修饰时，其情感范畴保持不变，但其强度可能发生变化，出现在微博和评论两者中的情感被表示为“情感_评论”。该测度体现了受众在微博情感表达的影响下，其情感表达与传播者的情感表达趋于一致的程度��∈根据程度副词与否定词的位置关系，联系我们_联系我们，，��=∑��_，闪烁_闪烁��，中国（3）如Eq. (1).在这个公式中，A（否定词）表示被否定词修饰的强度，A（否定词）表示被程度副词修饰的强度��A（）��=1000。5（（）），�� 如果您认为这是一个值得考虑的问题，��3.5.特征提取从内容中提取在预测模型中使用的特征如果你不介意的话，��传播者和观众。考虑到数据的可得性，情感传播的测量需要比较传播者和受众的情感表达所以所有的帖子和评论都被记录了下来。如果一段文字中有几个词表达了同样的情感，那么，��内部和外部，如表2所示。带有前缀“c_”的变量描述例如，紧张度 ��_��，是在晚上发布的。当量 (2).在等式中，��是一组表达情感的词语，��用户文本，和_��，是这些单词的数量。��∑��_��，�� 行为。微博有四个身份标签，分别是经过验证的机构（用蓝色“V”图标标记）、已验证个人（用橙色“V”图标标记）、微博专家、微博会员。根据��联系我们��，为��∈��，��_��,��（二）信息源可信度理论认为，信息源的可信度、专业性和吸引力会增强信息的说服力[4，40]，从而促进情感交流。真的3.4. 预测变量根据情感分析的结果，对所有表达至少一种情感的微博进行过滤，然后对这些微博的70，903条评论进行匹配。基于这些微博-评论对，将计算“Arolog-Homophily-Echo”模型的预测变量当观众表达特殊的情感时，情绪后他/她读取的情感内容从通讯器情绪唤醒的变量表示为机构和个人的身份体现了他们的可信度;专家身份要求用户在特定的话题领域保持关注，反映他们的专业知识;微博会员拥有一些排他性的特权，使他们比普通用户更具吸引力。在日常社交行为中，微博发布量大、关注人数多的用户表现活跃，而关注人数多的用户则因其良好的口碑和威望而表现出较大的影响力。上述特征已被证明会影响社会媒体中的信息传播[1，64]，因此在构建预测情感传播的模型时有必要考虑这些特征。你好，你好。��每个记录代表一个emo事件-在公开讨论中，个人表现出不同程度的参与-通信器中的常规通信协议��而奥迪-��对事件的兴趣和关注，由于他们的个性化特征-腾讯微博，微博代表社区发布的微博��抽搐这将影响他们表达意见的时间和频率nicator。由于受众的情感激发，受众的情感表达不一定与交际者的情感表达相同。��如果观众在评论中表达了任何情绪，相应的记录将在这项研究中，作为用户的参与特征。对事件感兴趣的人倾向于积极表达自己的意见，情绪可能会广泛传播并影响他人。用户表示_��0.�� ，��，��为1，否则将表示为是通过他/她发布微博或评论的次数来衡量的，如Eq. （四）、在等式中，_表示��情感同质性是指受众表达的情感与交际者相同。相关记录进一步从情绪唤起发生的记录中筛选出来，标准是评论表达了与相应的情绪相同的情绪，微博。情感同质性的变量表示为你好_你好，你好，你好。��如果两个人都表达了情感��这是由用户jiang发布的关于该事件的微博和评论数量的增加。用户的兴趣可能是暂时的，但关注会持续更长时间。如果有人关注事件的过程，他/她可能会在整个公众讨论期间频繁搜索和浏览相关信息。因此，我们提出了基于发布频率的用户关注度的计算，如等式所示。（五）、用户的关注点表示为用户关注点_用户关注点，��这意味着情感上的和谐，��和_��，表示从开始到结束的时间间隔，��mophily发生，并在2016年10月24日，，��将被表示为1。如果��ℎ��，��,��+1所有评论的情绪我们都从微博的情绪中提取出来��1+1微博/评论发布的用户。用户相应的记录将表示为“_”你好，我是说你好，我是说你好��为0。随着时间间隔的减少，发布的增加。那些只发布一次的人被认为是，情感共鸣强度是指情感共鸣的程度，它是通过比较听众和交际者所表达的相同情感的强度来计算的情感回声强度的变量表示为��_��，��，他们几乎不关心这件事，并且将事件的时间表_时间表表示为0。��_��=��_��+��_��(4)��，��ℎ�� ∗��，如果在“后”后有否定词（一M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）1000197��联系我们_联系我们 ={��_��_��0��，， ��,��+1，_= 1，_> 1��为了探索哪些内容可能引发情感交流，我们从两个角度提取特征：外部元数据和内部语言特征。元数据描述了微博的产生和传播，将情感交流作为清晰的认知信号。这些特征包括微博的发布时间、原创性、受欢迎程度（转发、评论和喜欢的数量）和评论时间直接从抓取的数据中解析出来。此外，内容的语言特征，如包括文本和非文本的多种信息形式，将影响用户微博支持以“#”为前缀的主题，这些特征体现了信息的丰富性，有助于用户鉴于情感内容能够独立地激发情感反应，本文将情感丰富度作为微博的特征，以微博中情感词的数量来衡量情感丰富度。此外，讨论特定话题的情感内容可能更具煽动性。因此，我们将话题作为内容的一个特征，探讨话题与情感交流效果之间的潜在关系由于本研究涉及的微博数量超过10，000，文本平均长度为93，因此文本挖掘可能是更适合主题识别而不是手动编码。潜狄利克雷-利用LDA方法识别微博的主题，通过从词到主题的降维实现更有效的文本聚类.为了提高主题聚类结果的可靠性，在LDA建模之前，采用TF-IDF（词频3.6. 用于预测的本研究应用机器学习算法预测机器学习专注于将输入特征映射到目标值的预测它可以帮助人们在特征和目标之间找到可推广的模式，特别是通过一些事先没有指定的复杂算法结构[36]。机器学习试图用复杂但灵活的函数来拟合数据。它可以通过交叉验证和正则化等策略避免过度拟合。至于我们用于拟合预测模型的数据，记录的数量，特征的数量和每个特征的值分布使其成为利用机器学习比经典计量经济学模型更好的选择。首先，由于我们关注的是特征易于触发情感交流的交流元素问题，因此特征与目标之间的具体定量关系并不重要或必要。同时，在这样的数据量中存在较多的噪声，不可避免地存在特征间的多重共线性和内点问题因此，经典的计量经济学模型不能胜任这项研究。此外，机器学习提供了更多的非线性模型来处理数据中的复杂关系，而不限于线性模型。为了找到性能更好的模型，我们选择了几种主流的机器学习算法来拟合预测“芳香-同质-回声”情感沟通的模型。表示情绪唤醒和情绪同质性的变量是二进制变量（0表示情感回声强度是一个连续变量，因此，贝叶斯岭回归，回归的SVM，MLP，RF和XGBoost。表2情感交流预测功能。测量认证机构认证个人微博专家微博成员微博数量关注人数关注人数发布微博或评论的次数发布微博或评论的频率午夜（0：00-5：59）、上午（6：00-11：59）、下午（12：00-17：59）、晚上（18：00-23：59）原创微博转发数评论数点赞数有图片或视频热门话题提及数情感词数LDA聚类话题特征用户身份特征描述blue_v / c_blue_v oran_v/ c_oran_v expert /c_expert member / c_member post_num/c_post_num跟随_num / c_follow_num跟随_num /c_follow_num speak_count /c_speak_count speak_freq/c_speak_freq午夜/上午/下午/晚上c_midnight/c_morning/c_afternoon/c_eveningif_orignrepost_numcomment_numlike_numhas_videotopic_num情感字数LDA主题守信EX pertise吸引力活动影响力关注度发布时间创意人气用户参与功能内容的外部特征内容的内部特征信息丰富度情感丰富主题M. Xu，Z. Wei和J. 吴电信和信息学报告8（2022）10001983.7. 识别和分析重要特征对“芳香-同质-回声”情感交流的预测并不是本研究的终点。更重要的是要理解并在实践中减轻潜在的不良反应。机器学习的可解释性是可行的。它使预测结果易于理解，例如哪些特征在拟合过程中起更重要的作用以及共同特征被预测为特定值的目标首先，在拟合模型时，根据特征的重要性对其进行排序。为了使排序更可靠，我们综合了几种方法的结果，包括基于杂质的特征重要性（IFI）和基于置换的特征重要性（PFI）。IFI分析用于基于树的模型，通过计算每个特征对模型拟合的贡献值来衡量重要性。如果一个功能使杂质减少得越多，它就越重要。至于可选参数，“weight”表示使用特征分割训练数据的次数;“Gain”和“total_gain”表示使用特征的所有树分割的平均和总增益;“Cover”和“total_cover”表示所有分割的平均和总覆盖率该功能用于。我们结合这些不同参数下的结果。相比之下，置换特征重要性（PFI）分析可以克服IFI对高基数特征的偏见PFI随着模型的减少这一特点的价值[15]。我们对每个特征的值逐一进行了统计，并重新计算了每个模型的F1-score。以原最优模型为基线，新模型的F1-score与基线相比下降越大，特征越重要。我们重复了10轮模型拟合原始数据。在每一轮中，数据被随机分为训练集和测试集五次（类似于5倍交叉验证），其中计算每个特征的F1得分的平均下降SHAP（SHapley Additive Explanation）是分析特征重要性的另一种重要方法。它基于一个强大的理论，可以公平地分配效应，使其成为迄今为止给出完整解释的最佳选择[33]。SHAP方法用于解释沟通元素的哪些特征易于触发情感沟通以及它们如何触发情感沟通。SHAP方法将每个特征视为合作游戏中的计算SHAP值以描述干扰每个实例的每个特征值。每个特征的重要性取决于其对模型拟合的平均边际影响（正如对任务的贡献）。干扰方向由SHAP值的符号（正或负）表示，抽象值指示干扰程度。SHAP方法首先用于交叉验证IFI和PFI分析的结果，主要通过比较顶部特征和底部特征在来自不同的方法。然后根据实例的SHAP值在各特征中的分布情况，分析识别出的重要特征与情感交流的关系4. 结果本研究以一场关于“TikTok美国禁令”的公开讨论采用检索策略，对微博元数据、评论元数据和用户元数据进行抓取在对数据进行预处理后，我们保留了2020年7月13日至2020年9月13日发布的11744条相关微博。2020年29日。这些微博的文本被输入LDA模型，以识别“TikTok美国禁令”讨论期间的热门话题预测模型要求微博带有情感，因此选择了11，033条微博，并从评论池中匹配了70，903条评论相应地，从用户池中选择了55，126个涉及情感交流的独特账户。4.1. 特征计算每个微博的抓取元数据，评论和发布它们的用户被合并用于预测。我们创造性地定义的一些特征在添加到模型中之前需要进一步计算。表3显示了度量特征的描述性统计;其他被编码为二进制变量。在这里，我们考虑了所有涉及的微博账户，无论它们是属于传播者还是受众。此外，还利用LDA主题模型对微博主题进行了识别。微博文本的向量表示经过TF-IDF处理后，输入LDA模型进行训练。模型的参数设置为遍历文本语料库500次和1000次。为了找出最佳聚类数，我们计算了LDA模型的复杂度和不同聚类数（从2到19）下的主题一致性，如图3所示。根据从数量趋势上看，参考图4所示的主题聚类分布，我们进一步-从而确定了“七”是我们微博文本的最佳主题聚类数。根据最优LDA模型中各主题聚类的重要特征词，将“Tik- Tok美国禁令”讨论中的主要主题利用该模型对每条微博的主题进行推断。4.2. “芳香-同质-回声”情感交流的预测分别以变量情绪唤醒和情绪同质性作为预测目标，将提取的多维特征输入不同的机器学习分类器进行预测。在每次模型拟合的过程中，将数据集分为80%，20%用于培训，20%用于测试。在5重交叉验证下，预测情绪唤醒和情绪同质性的每个模型的性能在表5中示出。调整参数以优化模型。通过三个指标来评价模型的性能。准确率得分是指正确预测样本的比例;精确率得分代表模型正确预测所有阳性样本的能力;F1_score是精确率和召回率得分的调和平均值。这些分数越高，预测模型的性能越好。根据得分，选择XGBoost模型来分析影响情绪唤醒和情绪同质性的重要特征。以可变的情感回声强度作为预测目标，将提取的“多维”特征输入到不同的机器学习回归器。由于情感词的数量与情感回声强度的计算密切相关，因此在每次模型拟合的过程中，数据集分为80%用于训练，20%用于测试。每个模型预测情绪回声强度的性能如表6所示。调整参数以优化这些模型。四个指标被用来评估每个模型的性能。MAE（平均绝对误差）和M

下载后可阅读完整内容，剩余1页未读，立即下载