Twitter数据挖掘与企业成果：专家系统的因果分析

19 浏览量更新于2024-01-22 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

专家系统与应用：X 3（2019）100007挖掘Twitter数据以发现推文与现实世界结果之间的因果关系放大图片作者：Sunhoon Lim a. 塔克b，c，a韩国蔚山国立科学技术学院管理工程学院，蔚山44919b卡内基梅隆大学机械工程系，5000 Forbes Avenue Pittsburgh，Pennsylvania 15213-3890卡内基梅隆大学机器学习系，5000，福布斯大道匹兹堡，宾夕法尼亚州15213-3890Ar ticlei n f o ab st ract文章历史记录：收到2019年2019年6月11日修订2019年7月2日接受在线预订2019年7月5日保留字：专家和智能系统社交媒体企业成果共现网络时间序列分析Granger因果分析作者提出了一个专家和智能系统，该系统（1）识别与Twitter数据中的真实企业结果具有因果关系的关键词组，（2）量化关键词组和企业结果之间的适当时间滞后。现有的专家和智能系统（被定义为模仿人类决策能力的计算机系统）可以使计算机自动识别Twitter用户的企业相关反馈的传播。然而，现有的专家和智能系统在自动识别对企业结果的因果影响方面存在局限性确定对企业结果的因果影响很重要，因为Twitter用户对企业决策的反馈可能具有现实意义。建议的专家和智能系统可以支持决策者特别地，（1）利用共现网络分析模型来发现候选术语，以用于生成作为企业相关术语的组合的隐含术语组，其潜在地影响企业结果。(2)时间序列模型和（3）格兰杰因果关系分析模型，然后确定在适当的时间滞后与企业的结果具有因果关系的基本术语组。案例研究涉及现实世界的互联网视频流和光盘租赁提供商以及航空公司用于测试所提出的专家和智能系统的有效性，用于预测企业在长期内的结果和预测特定事件对企业在短期内的结果的影响。© 2019作者（S）。由Elsevier Ltd.发布。这是CC BY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。1. 介绍最近，企业已经成功地使用专家和智能系统（即，模仿人类决策能力的计算机系统Jackson，1998），以便使计算机能够从大规模和公开可用的社交媒体数据中提取社交媒体用户Twitter ， Facebook ， Instagram ）自动（ Holzinger ， Krüpl ，&Herzog ， 2006; Meire ， Ballings ， &Van den Poel ， 2017;Mostafa，2013）。社交媒体被认为不仅对企业有用，因为它很容易获得用户的信任。通讯作者：工业工程，工程设计，计算机科学与工程，213哈蒙德大楼，州立大学，PA 16802，美国。电子邮件地址： sunghoonlim@unist.ac.kr （ S.Lim ）， ctucker4@psu.edu ，conradt@andrew.cmu.edu（C.S.Tucker）。反馈，也适用于社交媒体用户，他们可以轻松发布与广泛主题相关的意见（Tuarob Tucker，2015）。特别是，由于其受欢迎程度和可扩展性，Twitter已被广泛用作专家和智能系统的合适社交媒体平台，以发现用户&&&&&&对企业决策的反馈（Culnan，McHugh ， Zubillaga ， 2010; Daniel ， Neves ， Horta ， 2017;Ghiassi，Skinner，Zimbra，2013; Greer Ferguson，2011; Ikeda，Hattori，Ono，Asoh，Higashino，2013; Oliveira，Cortez，Areal，2017）。虽然许多现有的用于Twitter用户反馈发现的专家和智能系统可以使计算机能够分析Twitter用户的反馈之间的相关性Twitter用户&&https://doi.org/10.1016/j.eswax.2019.1000072590-1885/© 2019作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可下的开放获取文章。（http://creativecommons.org/licenses/by-nc-nd/4.0/）的网站上进行了介绍。可在ScienceDirect上获得目录列表专家系统与应用：X期刊主页：www.elsevier.com/locate/eswax2S. Lim和C.S.塔克/专家系统与应用：X 3（2019）100007用户对真实世界企业成果的反馈。“Twitter用户反馈”一词“企业成果”一词这些包括企业“乘客”，“首席执行官”），这可能会在企业中产生。企业决策者（例如，CEO们在搜索未来市场所期望的新兴话题时，会认真对待Twitter用户的反馈吗？企业是否因为Twitter用户的反馈而改变了决策？因果关系不同于单纯的相关性，因为两个事件之间的相关性并不意味着一个事件（例如，Twitter用户反馈）导致其他（例如，企业成果）（Aldrich，1995年）。这项研究的主要贡献是提出了一个专家和智能系统，使计算机能够分析自然语言数据之间的因果关系（即，Twitter数据）和真实世界事件（即，现实世界的企业成果）。特别地，所提出的专家和智能系统（1）从Twitter数据中识别对企业结果具有因果影响的关键词组，以及（2）发现关键词组中识别的关键词组与企业结果之间的适当时间滞后。虽然现有的专家和智能系统可以使计算机自动识别Twitter用户的企业相关反馈的传播所提出的专家和智能系统发现候选的术语，通过（1）共现网络分析模型的非典型术语组。(2)时间序列模型和（3）格兰杰因果关系分析模型，然后确定在因果关系的长期群体，对现实世界的企业成果的因果影响。还发现了在基本术语组中识别的与企业结果之间具有因果关系的适当时间滞后，解决这些问题具有挑战性，原因有以下几个：• 有超过5亿条推文（即，Twitter消息）每天生成（Bodnar，Dering，Tucker，Hopkinson，2016），其中许多与现实世界的结果没有因果关系。因此，需要一个专家和智能系统来确定哪些Twitter用户• 推特上的积极/消极信息与现实世界的结果之间没有固定的关系。也就是说，负面Twitter用户的情绪（例如，iHOP宣布将其名称改为iHOB）对现实世界的结果产生积极影响（即，名字的改变吸引了 360 亿的社交媒体（例如，Twitter）用户相反，负面的Twitter用户情绪（例如，对联合航空公司的乘客弹射决定的强烈反对）可能导致消极的现实世界结果（即，美联航挑战在于确定Twitter用户的反馈对现实世界的影响。• 考虑到Twitter用户在解释中术语组）已经被确定为与真实世界结果具有因果关系（例如，股票价格），挑战是确定被发现的Twitter用户需要一个专家和智能系统，为企业决策者提供一个时间轴，说明他们在Twitter用户反馈发生。这将使企业决策者能够干预和探索可能减轻或扭转潜在的负面现实世界结果的解决方案（例如，通过道歉）在它们发生之前。在图1的左侧，当前概念决策树描述了Twitter用户对企业决策的反馈如何可能影响（1）企业结果，如市场销售或股票价格，以及（2）企业决策者的未来决策。企业决策对客户在社交媒体网络（包括Twitter）上的反应有因果影响。例如，微软软件先前的研究探讨了企业决策如何引起某些社交媒体反馈，如Twitter用户&&的反馈（ Bruhn ， Schoenmueller ， Schäfer ， 2012; KaplanHaenlein，2010）。然而，在探索哪些Twitter用户反馈（即，在这项工作中，术语组）导致某些企业结果。考虑Twitter用户反馈的因果效应很重要，因为Twitter用户的负面反馈会对Twitter上的其他用户和企业的未来收入产生负面影响。例如，联合航空公司&所提出的专家和智能系统专注于识别整体Twitter用户的反馈，而不是仅监视可能导致企业结果的少数典型用户的Twitter消息（例如， Kylie Jen-ner在典型的和普通的 Twitter用户中）（Bosch等人， 2013年）。这项研究发现了Twitter用户的反馈（即，对现实世界的企业产出有因果影响的因素。所提出的专家和智能系统使企业决策者能够在Twitter用户对这些当前决策的负面反馈降低未来企业成果之前改变他们当前的决策。如果Twitter用户对当前决策的积极反馈被发现，企业决策者可以做出新的决策，加强从Twitter用户反馈中发现的积极因素，以增加未来的企业成果。因此，所提出的专家和智能系统可以帮助企业决策者以低成本实时识别重要的Twitter用户的反馈。此外，建议的专家和智能系统可以用来帮助决策者的决策，这将提高未来的企业，如市场销售或股票价格。图1的右侧说明了基于所提出的专家和智能系统的企业决策树。本文的其余部分组织如下。本节提供了这项工作的介绍和动机。第二部分介绍了相关工作的背景。第三部分提出了一种识别Twitter用户反馈的专家智能系统（即，在企业术语组中）导致企业产出。第4节介绍了涉及真实世界的互联网视频流和盘租赁提供商（即，Net Ekix）和一家航空公司（即，UnitedAirlines），以便验证所提出的专家和智能系统，不仅用于预测长期的企业结果，而且用于预测短期内特定事件对企业结果的影响。第5节给出了实验结果和讨论，第6节总结了本文。S. Lim和C.S.塔克/专家系统与应用：X 3（2019）1000073图1.一、企业决策树：没有建议的专家和智能系统（左侧）和建议的专家和智能系统（右侧）。2. 文献综述文献综述部分包含与社会媒体用户反馈提取（第2.1节）和使用社会媒体数据预测现实世界事件（第2.2）相关的文献。2.1. 社交媒体用户反馈提取识别客户反馈可以使企业决策者了解导致积极或消极消费者体验的反馈（ Chang ， Chou ， Wu ， &Wu ， 2017; Lim&Tucker，2017）。从文本数据中提取客户反馈的方法是一个新兴的领域。Wang，Youn，Azarm，and Kannan（2011）提出了一种基于网络用户生成内容的产品设计选择的系统方法。Yan，Xing，Zhang和Ma（2015）开发了一种新方法，该方法在在线客户评论中对候选术语进行排名，以便自动提取客户感兴趣的企业属性。最近，已经提出了情感分析和案例分析推理模型，用于从在线消费者评论中提取企业属性和潜在客户需求（Zhou，Jiao，Linsey，2015）。在过去的几年里，包括Twitter在内的社交媒体平台已被广泛用于获取客户反馈（Li，Chen，Liou，&Lin，2014）。例如，Rui，Liu，and Whisperson（2013）提出了一个动态面板数据模型，以研究Twit- ter口碑在电影销售中的作用。提出了一种新颖的决策支持系统，用于过滤大量帖子中冻结的有价值的情报（Abrahams，Jiao，Fan，Wang，&Zhang，2013），以及发现，分类和优先考虑社交媒体中讨论的汽车缺陷（Abrahams，Jiao，Wang，&Fan，2012）。Bao和Chang（2014）调查了记者撰写的产品报告、客户撰写的社交媒体反馈与产品销售之间的关系（即，亚马逊图书销售）使用纽约时报畅销书名单和亚马逊用户评论。通过聚类分析，Zhang（2015）调查了影响公司在社交媒体上的整体信息披露及其财务信息披露的因素图阿罗布和Tucker（2015）提出了一个数学模型，该模型使用从社交媒体网络中提取的地面真实数据来发现潜在的客户反馈。由于在某些情况下，从社交媒体数据中获取地面实况数据是昂贵的或不可用的，Lim和Tucker（2016）提出了一种基于贝叶斯的统计采样算法，该算法可以在不利用地面实况数据的情况下从社交媒体网络中提取客户反馈。然而，考虑到社交媒体用户反馈对现实世界的企业成果有因果关系的影响仍然有限。这种考虑最近在企业决策中变得重要。企业的成果会极大地影响企业的收入，而实时的社交媒体用户反馈对于企业对市场的快速反应非常有用。在这项工作中，拟议的系统识别社交媒体用户反馈，导致企业决策的现实世界的结果。2.2.利用社交媒体数据预测现实世界的事件预测未来事件对现实世界的企业来说意义重大，因为预测未来事件的能力会影响企业的决策，并关系到市场的成功（Fourt& Wood-lock，1960）。最近，一些研究人员提出了使用社交媒体数据（包括Twitter数据）来预测现实世界事件的方法（Liu，Wu，Li，&Li，2015）。例如，为了预测人口健康指数，Nguyen et al.（2017）提出了一个基于Twitter数据上文本特征分布的数学模型。Gerber（2014）提出了一种基于语言分析和统计主题建模的犯罪预测模型，该模型使用伊利诺伊州芝加哥市的时空标记推文。研究人员表明，他们使用社会媒体数据的预测方法优于现有的预测现实世界事件的预测器，例如奥斯卡奖得主（Bothos，Apostolou，&Mentzas，2010），能源利用模式（Bodnar，Dering，Tucker，&Hopkinson，2016）和盒装食品收入（Asur& Huberman，2010; Ding，Cheng，Duan，&Jin，2017）。特别是，社交媒体网络上表达的情绪已被广泛用于预测企业成果（ KhadjehNas-sirtoussi ， Aghabozorgi ， Ying Wah ，&Ngo，2014）。Tuarob和Tucker（2013年）提出了一种数学算法，可以量化社交媒体网络上情绪之间的相关性4S. Lim和C.S.塔克/专家系统与应用：X 3（2019）100007表1总结以往的研究和本研究预测现实世界的企业成果。社交媒体用户情绪与企业成果的相关性社交媒体用户反馈与企业成果之间的相关性社交媒体用户情绪与企业成果之间的因果关系社交媒体用户反馈与企业成果之间的因果关系情感度量分析单位域企业成果Tuarob和Tucker（2015）103类（消极、中性和积极）产品中心产品市场产品销售《哈利波特与魔法石》（2015）103类（消极、中性和积极）牙买加证券股票市场股票价格交易所Ding等人（2017年）102班（中立和积极）Ho等人（ 2017）A范围-2至2Movies Box o Pizza Box o Pizza sales公司股票市场股票收益Asur和Huberman（2010）视频− Movies Boxo Musces Box o Musces revenueBollen等人（2011年）106班（平静警觉、肯定、有活力、善良和快乐）道琼斯工业平均指数股票价格Bae和Lee（2012）203班（消极、中性和积极）受欢迎用户社交媒体和现实世界观众的情绪和现实世界的现象Smailovic'，Grcar，Lavrac，andLennidaric（2013）Ranco，Aleksovski，Caldarelli，Grcar，anddMozetic（2015）《Checkley，Higón，andAlles》（2017）*比率积极信息103类（消极、中性和积极）范围为0到4 为看涨和看跌情绪公司股票市场股票市场公司股票市场股票价格收益公司股票市场财务指标（回报率、交易量、波动率）OursArange of−5至5公司股票市场股票价格和产品市场采用率来预测产品销售。Nguyen，Shirai和Velcin（2015）分析了使用潜在Dirichlet分配（LDA）从社交媒体网络中提取的顶级IC的情绪，用于股市预测。Ho，Damien，Gu和Konana（2017）研究了社交媒体网络上表达的情绪与未来股票回报之间的潜在动态关系。表1显示了现有研究的总结和预测现实世界企业成果的拟议研究。虽然先前的专家和智能系统已被广泛应用于预测现实世界的企业结果，但识别导致未来企业结果的社交媒体用户反馈，这可以支持企业决策者识别社交媒体用户反馈有助于企业决策者了解社交媒体用户反馈如何导致未来的企业成果。这项工作这项工作还提供了Twitter用户反馈与现实世界企业成果之间的适当时滞。3. 方法图2概述了所提出的专家和智能系统，其中包括识别Twitter用户反馈的步骤导致未来的企业成果，以及适当的时间滞后。首先，从Twitter数据中提取文本和时态数据，并进行数据预处理。被认为能够潜在影响企业成果的重要术语组的候选术语通过共现网络分析模型识别。然后，时间序列分析模型分析Twitter用户反馈的模式（即，Twitter用户的最后，Granger因果关系分析模型确定了影响企业成果的关键词组以及Twitter用户的情绪。通过Granger因果分析模型，我们还发现了Twitter用户情绪和现实世界企业结果之间的适当时滞3.1. Twitter数据采集和预处理包含公司名称的推文（例如，“net tweet ix”）以及时间信息，因为只有企业相关的推文对于该研究是必要的。如果企业名称不是一字组（例如，United Airlines），类似的表达，包括企业的缩写，（例如，“United Airlines”、“United Airlines”、“UnitedAirlines”、“UnitedAirlines”、“UA”）。Twitter应用程序接口（API）用于Twitter数据采集。推文充满了噪音，可能会导致意想不到的结果（Russell，2013）。因此，为了去除噪声，提高实验质量，S. Lim和C.S.塔克/专家系统与应用：X 3（2019）1000075图二. 建议的专家和智能系统的概述。试验结果（ Symeongland ， Effrosyngland ， Arampatzis ，2018）。词汇表外（ OOV ）单词，如拼写错误（例如，“dilivery” instead “luv”而不是“love”），以及语音替换（例如，“2day”而不是“to-day”）使用现有的OOV单词数据库（例如，Apache Lucene（Apache Lucene，2010）和拼写错误导向的单词列表（SCOWL）和朋友（Atkinson，2017）），因为推文包含高比例的OOV单词（Nikfarjam，Sarker，&O'Connor，Ginn，Gonzalez，2015）。在这项工作中，SCOWL和朋友，这是一个英语单词数据库，包含657,798个单词，用于生成高质量的单词列表，适用于大多数英语方言的拼写检查器，是有用的。Web应用程序检查单词是否在SCOWL中，并根据单词在Google Book语料库中的频率分配一个词干是使用波特词干算法（波特，2006年），以提高结果的准确性。例如，原始推文3.2.分析Twitter用户分析Twitter用户的情绪和发现关键词组的候选词用于识别Twitter用户的反馈，这些反馈可能会影响未来的企业成果。在这项工作中，时间，它具有连续的性质，近似为一个离散的时间窗口。t是基于时间单位来定义的（例如，一天）用于离散时间窗口。假设属于相同时间帧的数据（即，相同子区间）为站ary（Kaz′mierskiMorawiec，201 1），并在进一步的Granger因果关系分析中使用该假设ption3.2.1.使用Twitter数据进行情绪分析SentiStrength是Thelwall，Buckley，Paltoglou，Cai，Kappas（2010）开发的经过训练的情感分类器，用于本研究中的情感分析。每条tweet都被用作输入，输出的情感得分范围从-5到5. 正数和负数表示积极的情绪，负面情绪，分别为0和中性。令K（t）为在该时间内所写的所有推文的情感得分周期t（t ∈ {1，. . . ，T}）。3.2.2.发现基本术语组的候选术语在本研究中，候选的术语，在企业相关的术语组成的时间段的影响性术语重要的企业相关术语可以通过不同的应用程序以不同的方式确定，因为保险公司的结果的重要因素来可以不同。例如，“运输”可能是在线零售商最重要的企业相关术语之一（例如，zon.com），但是对于保险公司来说它可能不是一个重要因素（例如，GEICO）。因此，有必要提出一个通用的Twitter用户反馈发现模型，在本节中，将识别与企业相关的候选术语，以创建基本术语组。当从推文中识别企业相关术语候选时，考虑二元组和三元组关键词以及一元组关键词，因为一些企业相关表达是二元组或三元组（例如， S被定义为包含企业名称的所有tweet的集合（例如，“netﬂix”) for the whole time设S1、S2和S3分别是在S中标识的频繁一元、二元和三元的集合。只有出现超过S的0.5%的unigram、bigram和trigram分别包含在S1、S2和S3中，因为认为以低频率出现的项（即，小于0.5%的S）对企业相关术语的发现没有显著影响（Davidov、Tsur、&Rappoport，2010年; Stringam& Gerdes，2010年）。停用词（例如，“it”，“to”）被排除在S1之外，因为语言特定的功能术语和英语词典中经常出现的单词（即，停用词）对于企业相关的术语发现来说是非常复杂的。此外，只有 UrbanDictionary（Peckham，2009）中列出的二元语法和三元语法被认为是S2和S3的候选者（例如，这是因为Urban Dictionary在社交媒体分析中被广泛使用，作为一个网站，提供用户生成的内容和投票机制，用于定义口语术语（ Marwick&boyd ， 2011;Paul ， Agrawal ， Liao ，&Choudhary ，2016; Peleja ，Santos，&Magal-houches，2014;Thompson ， Rivara ， &Whitehill ， 2015; Wu ， Morstatter ，&Liu，2016）。在这项研究中，只有《城市词典》中列出的二元组和三元组被认为是基本术语组的候选术语，因为大多数二元组和三元组（例如，“worth it”，“it free”，“worth it free”在“Worth it！免费无线上网，直接支付给网络，“免费”和“寒冷&如果连词是二元语法或三元语法的一部分，则不忽略它们。S2中的频繁二元组或S3中的频繁三元组，由一个或多个频繁单字组成，出于相同的原因，被认为是与频繁单字不同的频繁项。例如，具有不同含义的“寒冷”和“净通货膨胀和寒冷”被认为是不同的术语。在本研究中不考虑4元或更大的元，因为（ 1 ）假设 S1 、 S2 或 S3 包含适当的 4 元或更大项的子序列（Fürnkranz，1998;Bodnar，Dering，Tucker，Hopkin-1999）。6S. Lim和C.S.塔克/专家系统与应用：X 3（2019）100007nw1w1中国2⎥· · ·⎢⎥⎢⎣=.⎥⎦/=pn（t）我儿子，2016年），和（2）推文通常由短消息组成，并有140个字符的限制（林，塔克，&库马拉，2017年）。提出了共现网络分析模型，对共现的一元、二元和三元词进行聚类，以生成共现词组。共现是基于它们在特定文本单元内配对存在的术语相互连接（Lim，Tucker，Jablokow，Pursel，2018）。例如，如果术语“免费”和“网络免费和寒冷”都出现在特定的推文中，“值了！免费无线上网，直接支付给Net--令wij是项ki的同现权重，另一个关键字kj（ki，kj∈{S1<$S2<$S3}，i/=j）.在本研究中，wij为定义方法类似于Ruthven和Lalmas（2003）引入的术语扩展排名函数，如公式（一）.i被定义为Eq。（二）、nij。ni−nijJIJ我.IJJIJ我nj − nij。图3.第三章。一个例子的部分同现图G的网络xix。wij= log.n — n/。n−n−n+n·。 n— n−n.（一）wi= w i1+ w i2+··+w ii−1+ w ii+1+··+w iI，i，j = 1，. . . ，我（二）其中：n：S中的推文总数（即，在整个时间段内包含企业名称的ni：包含企业名称和术语的tweet数量kinij：包含企业名称以及术语ki和kj的tweet数量（i/=j）I= |S1S2S3|然后，生成加权邻接矩阵A，其是来自S1、S2和S3的项之间的同现矩阵，基于在同现权重上，如等式（三）、矩阵A不是三角形wjwji广义对称矩阵，因为wiwj.k1k2k3···kI如果包含企业名称（例如，项G（例如，在这项工作中，X p（t）被定义为Eq。（4）基于其定义的时间段t。X（t）=n（p，t），np=1，···，P，nt=1，···，T（4）其中：n（t）：在时间段t内包含企业名称的tweet总数。n（p，t）：包含用户名的推文数量企业和属于第p项组的至少一个项，k1−w12−第13周第1···W1 III周期t，其中识别的术语组的数量是P。K2W21w31..W23w2w32w2Iw2w3I...A=k3w3w3−··· w3（三）我是我是我wI···−时间，以提取给定数据可以基于矩阵A生成同现的边加权图G。图G表示为有向图，因为矩阵A不是三角对称矩阵，并且在这种情况下方向是重要的。仅矩阵A中高于或等于每行平均权重的抽搐和预测未来的价值观的基础上，以前观察到的数据（汉密尔顿，1994 ）。时间序列模型通常用于预测企业结果的变化（Lee，Cho，Kwon，&Sohn，2019; Luo，Zeng，&Duan，2016;Rosas-Romero，Díaz-Torres，&Etchev- erry，2016; Weng，Lu，Wang，Megahed，&Martinez，2018）。在这(i.e.、wijwi（1）大于或等于1的，I−1研究中，提出了两种时间序列分析模型构造同现图G，因为与文档中的其他项相比，具有低于平均权重的分量不被认为具有显著的同现（即，所有推特）。此外，每个项组被定义为图G中的强连通分量，方法类似于Cataldi，Di Caro，and Schifanella（2010）. 图3示出了用于NetWebix的（部分）同现图的示例，其中S1={在本例中，识别了两个包含多个术语的术语组：一个包含关键字“电影”、“节目”和“电视连续剧”，另一个包含关键词“剧集”、“季节”和“时间”。一些单个分量不被忽略，因为一些频繁项可以是项组本身，即使它们没有强连接的邻居（例如，术语“ 净冷却和冷却 ” 在图 1 中没有强连接的相邻项。 3.）。在这项工作中，一个单一的术语ki是用于识别Twitter用户企业结果：（1）分析Twitter用户情绪和关键词组的时间序列分析模型时间序列分析模型用于分析Twitter用户的反馈，量化了Twitter用户的情绪和影响性术语组的趋势。K（t）是Twit- ter用户情绪的时间序列分析模型用于分析的时间序列分析模型企业成果调查现实世界企业成果随时间的趋势。 L etYj（t）（j=1，.，J）是用于分析第j个企业结果的时间序列分析模型（例如，市场销售额，股票价格），其中企业结果的数量为J。..wI1..wI2..wI33.3. 时间序列分析模型时间序列模型分析一系列数据点，S. Lim和C.S.塔克/专家系统与应用：X 3（2019）1000077−...见图4。具有正因果关系（左侧）和负因果关系（右侧）的两个不同时间序列模型的图示。3.4. Twitter用户反馈与现实企业产出的Granger因果分析模型如果可以证明X提供了关于Y的未来值的统计上重要的信息，则称X导致了Y。因果关系与单纯的相关性不同，因为两个事件之间的相关性并不意味着一个事件（例如， Twit- ter用户的反馈）导致另一个（例如，企业成果）（Aldrich，1995年）。虽然传统的回归考虑相关性，但因果关系分析可以测试两个时间序列模型之间的预测因果关系（Diebold，2001）。首先由C. W. Granger因果关系分析确定一个平稳时间序列模型是否可以用于预测另一个平稳时间序列模型的未来值。格兰杰因果关系-当量(8)是与Eq相同的时间序列分析模型。(7)除了一个附加的回归量（即，Xp（t l））。当量(9)是用于第j个企业结果的时间序列分析模型，其不反映任何Twitter用户的情绪或基本术语组的因果效应（即，简化模型）：H o（p，j）. K（t）或Xp（t）都不会导致Yj（t），（B（1））=0或Cp（1）= 0，Cp（1）=···，M）（5）H a（p，j）. K（t）或X p（t）导致Y j（t），B（l）I =0或Cp（I）I = 0，Cp（I）I=···，M）（6）船舶的定义基于两个原则（Granger，1969）。第一个M原则是原因的时间优先性，这意味着ef-Yj（t）=。A j（m）·Yj（t-m）+.B（i）·K（t-i）祸不单行。这第一个原则通常被现有的概率因果关系理论所接受（好，m=1Mi=l+11961 a，b; Suppes，1970）。第二个原则是可预测性，可以通过以下数学方法进行验证（Eichler，2012; Liu& Bahadori，2012）。在菲格的左手边。4示出了一个时间序列模型（即，蓝线）对+Cp（i）·Xp（t-i）+εj，l+1，i=l+1j=1，· · ·，J，另一个时间序列模型（即，红线），时滞为L。关于M M图的右侧。 4示出了一个时间序列模型（即，Yj（t）=.A j（m）·Yj（t-m）+.B（i）·K（t-i）蓝线）与其它时间序列模型具有负因果关系（即，红线），时滞为L。格兰杰因果m=1Mi=l+1分析适用于这项工作，因为时间序列分析模型（即，K（t），Xp（t）（p=1，+Cp（i）·Xp（t-i）+εj，l，i=l+1基于时间单位t的子间隔，并且假设在这项工作中，时间序列在每个子区间都是平稳的（见第3.2节）（Liu Bahadori，2012）。时滞L不被设置为零，因为（1）已知企业结果响应中的时间延迟（例如，股票价格反应）的新闻或事件存在（侯&Moskowitz，2005）和（2）这项研究是用于预测未来的结果，导致未来的市场成功，而不是发现当前的企业成果与Twit- ter用户的反馈的相关性。在另一步骤中，还发现时滞L在这项研究中，零假设（即，H0（p，j））和替代假设（即，（a）a（p，j））定义为等式。(5)（6）反应。Yj（t）可以表示为等式(7)，这是第j个企业结果的时间序列分析模型，反映了（1）Twitter用户的情绪（ K （ t ），设置 p = 0 ）或（ 2 ）第p在连续项组（Xp（t）（p=1，完整模型）。j=1，· · ·，J，MYj（t）=Aj（m）·Yj（t-m）+εj，m=1j=1，· · ·，J，其中：X1（t）：时间t的平均情绪得分值K（t）：在时间段t内撰写的所有推文的情感得分的平均值Xp（t）：提到来自在时间t包含企业名称的所有推文中，基本术语组中的第p个，其中8S. Lim和C.S.塔克/专家系统与应用：X 3（2019）100007p=1，···，PYj（t）：第j个企业成果在时间t的价值，1、···、JS. Lim和C.S.塔克/专家系统与应用：X 3（2019）1000079∀∀N∀∀=--σσ2ˆ1J一、Aj（m）：用于表示前一项的影响的系数Yj（t）的值，j=1，···，JB（i）：表示K（t）Cp（i）：用于指示Xp（t）的先前值的影响的系数，p=1，···，P+1P：从Twitter用户反馈中提取的术语组数量J：用于集团通用性分析的企业结果数量M：用于预测Yj（t）的先前值的数量（即，时间滞后的最大可能值j，l，j=1，· · ·，J，l=0，· · ·，M−1M（即，用于预测Yj（t）的先前值的数目）被设置为8作为该研究中的默认值。期货市场Granger因果关系分析中常用的滞后参数取值不大于8，8是常用的数字。用于预测Yj（t）的先前值的误差（Bollen等人，2011; Liew，2004; Thornton &Batten，1985）。H 0（p，j）不被拒绝，如果和只有当Cp（1）= Cp（2）=. . . = C p（M）= 0，在等式（7）或Eq. （ 8））。采用部分F检验来检验假设. 如果p值小于α（即，显著性水平，这意味着允许有一个α概率错误地拒绝零假设，Esis），零假设（即，H0（p，j））的解。然后得出结论：（1）Twitter用户的情绪（集合p0个）或者（2）第j个企业结果上的第p个项组存在。提出的Granger因果关系分析模型识别Twitter用户的反馈，影响企业的结果在整个时间段（t ∈ 1，. . .，T）。决策者可以设置用于训练系统的周期（即，T：用于发现Twitter用户反馈的先前时间单位的数量对于缺省值是合适的（Bollen等人，2011; Makchi，Shah Liao，2013; Si等人， 2013年）。下一步是确定每个事件的适当时滞。算法1确定时滞L的适当值。步骤1设置l= M−1。步骤2如果C小于或等于临界值χ21−α，则转到步骤3。否则，转到步骤4。步骤3设置l=l−1并转到步骤2。4. 停止。设置L=1+1并返回L（即，时间滞后的适当值）。Twitter用户的反馈（即，在典型术语组中）帮助企业决策者实时改变他们的决策（或做出新的决策），以便预测和改进未来的企业结果。例如，假设术语组“价格”和“折扣”被识别为对未来企业结果具有因果影响的间接术语组，并且适当的时滞为四天。预计Twitter用户关于价格折扣的实时反馈会影响未来的企业产出--在四天后。然后，所提出的专家和智能系统4. 应用本节介绍涉及互联网视频流和光盘租赁提供商（即，NetEQUIPIX）和航空公司（即，美国联合航空公司）。这些案例研究用于在相对较长的时间内验证所提出的专家和智能系统（即，一年）和特定事件（即，联合快递 3411 航班事故（VictorStevens，2017年）。实验在2.5 GHz Intel Core i7上进行，使用Python，2.7.14和R3.4.3。两个Twitter数据集，这是随机子样本使用Twitter的API，随着时间的信息，被利用的案例研究，Net的Nemix和联合航空公司，分别为-Twitter用户的情绪或术语组。如果是102j， l （即，估计活泼地在这种情况下，不以英语撰写的推文将被忽略study. Apache Lucene API以及面向拼写的Word在等式中，（ 8）在统计上显著小于σˆ2j，l+1（即，ε的估计方差j，l+1由方程式 (7)），这是con-列表用于将OOV单词转换为IV单词。狐狸站list（Fox，1989）用于删除停用词。默认值P（t-1）对预测有显著的因果关系，ingYj（t）. 在时间滞后l处的因果关系的度量被定义为Eq。(10).因果关系的测量可以使用相似性比（LR）检验统计量（等式2）进行检验。 (11)）（古里埃鲁·&蒙福尔，1997年;Gelper，Lemmens，Croux，2007年）：σˆ2用于设置α（即，0.05）和M（即，8）。建议的专家和智能系统的结果，考虑关键字频率和共现发现Twitter用户C=lnj，l+1j， l（十）事件。随机关键字抽样方法被定义为一种方法，而不是考虑关键字频率和共LR=2（log L.θj−logL。θJ+1（11）事件，从所有tweets中随机抽取术语作为基本术语组的术语集。其中：logL（θj+1）：不包含额外回归量Xk（t-l）的时间序列模型的似然性（即，当

下载后可阅读完整内容，剩余1页未读，立即下载