没有合适的资源?快使用搜索试试~ 我知道了~
加密货币市场情绪与价格因果关系分析
区块链:研究与应用3(2022)100063加密货币中情绪驱动的统计因果关系的链上分析[1] Joannis Chalkiadakisa,*,Anna Zarembab,Gareth W.作者:Michael J.Chantleraa数学与计算机科学学院,赫瑞瓦特大学,苏格兰,EH14 4AS,英国b英国伦敦大学学院计算机科学系,WC1E 7HUcJanet和Ian Duncan,美国加州大学圣巴巴拉分校统计与应用概率系精算学教授,93106A R T I C L E I N F O关键词:加密货币统计因果关系区块链回归多输出高斯过程自然语言处理Cryptonews情感A B S T R A C T本文建立了一个新的框架,用于评估加密货币市场(cryptomarket)情绪和加密货币价格过程之间的多模态统计因果关系。为了实现这一点,我们提出了一个有效的算法多模态统计因果关系分析的基础上多输出高斯过程。将来自不同信息源(模态)的信号联合建模为多输出高斯过程,然后使用基于高斯过程(GPs)的统计因果关系新方法,研究了不同模态之间的线性和非线性因果效应我们通过研究加密货币现货价格动态与加密行业特定情绪时间序列数据之间的关系,证明了我们在机器学习应用中方法的有效性,我们推测这会影响散户投资者的行为。投资者情绪是通过在被称为自然语言处理(NLP)的统计机器学习领域开发的方法从加密市场新闻数据中提取的为了捕捉情绪,我们提出了一个新的框架,文本到时间序列嵌入,然后我们用它来构建一个情绪指数从公开的新闻文章。我们对我们的情感统计指数模型进行了统计分析,并将其与NLP文献中流行的其他最先进的情感模型进行了关于多模态因果关系,除了价格和区块链技术相关指标(哈希率)之外,投资者情绪是我们探索的主要模式分析表明,我们的方法是有效的异构数据源之间的复杂程度不同的因果结构建模,并说明了某些建模选择的影响,不同的方式可以检测因果关系。对这些因素的深入了解对于衡量散户投资者对加密货币的采用并提供有关加密货币市场动态的基于情绪和技术的见解是必要的1. 介绍本文提出了一个基于多输出卷积高斯过程模型的统计因果关系框架。一个正式的推理程序已经开发,可以很容易地适应一般的因果关系结构,其中包括时间序列过程之间的线性和非线性关系的测试,同时还纳入边信息。本文的兴趣是如何开发这样一个统计因果检验框架的背景下,多模态数据。一般来说,多模态系统首先出现在人机环境中,交互[1],其中语音、视觉、手写),但在传感器网络等领域越来越受欢迎[2]。传感器数据上下文中的“模态”被理解为源自捕获不同物理现象的不同传感器的信号(例如,温度、压力、风速)或相同现象但来自不同来源(例如,通过从各个角度的音频和视频记录的语音),并且传感器上的数据本质上依赖于空间和时间。因此,多模态系统对于在复杂的多变量环境中联合建模相关数据源非常重要,而且对于理解不同模态的相互作用也很重要,这就是* 通讯作者。电子邮件地址:ic14@hw.ac.uk(I.Chalkiadakis),anna.b. gmail.co.uk(A.Zaremba),garethpeters@ucsb.edu(G.W.Peters),m.j. hw.ac.uk(M.J.Chantler)。https://doi.org/10.1016/j.bcra.2022.100063接收日期:2021年7月18日;接收日期:2022年1月4日;接受日期:2022年2096-7209/©2022作者。出版社:Elsevier B.V.代表浙江大学出版社。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表区块链:研究与应用杂志主页:www.journals.elsevier.com/blockchain-research-and-applicationsI. Chalkiadakis等人区块链:研究与应用3(2022)1000632●●●● V● DD Vð ÞÞ我们的目的是研究在这篇手稿的因果分析框架 就我们而言,我们将考虑三种方式。第一种来源于文本数据(新闻文章)的多个来源,这些数据是随着时间的推移从各种新闻来源和作者那里收集的。第二个涉及加密货币资产的各种金融市场价格和交易量数据第三个涉及加密货币协议的网络属性和区块链技术属性这三种数据模式创建了一个有趣且未充分探索的多模态数据分析框架,我们试图在其中测试新闻情绪和价格动态之间统计因果关系的关键金融假设。这将使我们能够更好地了解加密货币市场的价格发现机制,以及散户投资者在此类市场中的行为,以应对特定加密货币资产的新闻发布 通过以多模态数据格式处理这些数据模态,我们可以开发一个基于多输出卷积高斯过程的框架,以捕获每个模态内数据的局部依赖性以及不同数据源之间的跨模态依赖性。在本文中,我们将经典的格兰杰统计因果关系概念[ 3 ]发展到多模态数据框架中,作为研究不同模态(新闻情绪,价格和交易量以及技术/网络特征)之间依赖关系的一个方面的手段。我们通过从条件概率的角度量化多个信号之间的因果关系来实现这一点实际上,我们能够提出一个新的例子,允许一个高度结构化和非结构化的数据相结合,产生一个新的方法,多模态格兰杰因果分析。这是因为我们考虑的模态不仅从不同的来源,而且通过不同的媒体来描述相同的现象一方面,我们考虑结构良好的时间序列(加密货币资产价格),另一方面,我们研究来自不同长度、作者或出版来源的已发表文章的原始文本。 虽然资产汇率的价格时间序列结构良好,但必须将自然语言文本数据的模态仔细处理为情绪指数,该指数继承了可以根据观察到的价格序列的因果分析进行研究的结构化格式。这在组合非结构化文本数据的多个源以及在与价格信号信息一致的时间序列尺度上从多个文档提取表示文本的非平凡的发送索引模型两者中都是挑战在文献中有各种各样的方法,试图研究因果关系的不同概念,甚至统计因果关系概念的不同表述。例如,最初的基于趋势的单变量统计因果关系定义可以追溯到Granger [3]。从那时起,出现了更复杂的统计因果关系版本,包括[4]该研究的图形格兰杰(统计)因果关系。 在这种情况下,它是假设的时间序列的数据来自不同的分布的指数族,和向量自回归模型与Lasso罚估计。虽然相关,但我们的方法在两个关键方面有所不同。首先,我们先验地对一个特定的模型形式做出因果关系假设,并试图检验这个假设,这与模型开发和模型选择在本质上是根本不同的,然后是因果关系假设与模型组件之间的相互作用结构的后验分配。其次,我们为我们的推理过程开发了一个多输出卷积高斯过程结构,该结构可以在线性或非线性结构中的其他模态方面为每个模态局部地此外,我们的模型能够明确和容易地测试趋势和/或协方差结构中这是一个重要的发展,以前使用经典的时间序列模型进行统计因果分析时不容易实现。因此,我们开发的框架使我们能够研究更灵活的模型结构,可以将非平稳性和非线性的因果关系。后者可以是第一阶,即,基于平均值的统计因果关系,或二阶,即,基于协方差的统计因果关系与此同时,我们的高斯过程(GP)模型,我们减轻了模型风险,因为我们可以执行测试与良好的权力在一个错误的模型下的属性[5]。本文做出了以下贡献:首先,我们提出了一个系统,通过多输出高斯过程结构联合建模不同来源的异构数据,通过自动相关性确定内核将时间序列回归纳入均值和协方差函数;其次,使用开发的多输出GP模型,提出了两类因果模型(模型A和模型B),捕获特定因果结构的存在或不存在。我们认为线性和非线性因果关系的平均值和协方差的分析,这是很容易促进在建议的多输出GP框架;第三,我们采用了一种新的框架来构建文本嵌入和情绪指数从公共新闻文章。 我们进行了广泛的统计分析,以验证我们的指数的代表性,并将其与其他最先进的发送指数模型的表现力进行比较;第四,我们试图通过将区块链相关技术指数纳入多模态框架来理解底层区块链技术与加密货币价格过程之间的因果关系。最后,我们展示了上述的应用,此外,调查情绪的参数化如何影响我们观察到的因果证据。1.1. 符号在本节中,我们介绍了一些将在手稿中使用的关键符号t是单个标记,其中标记可以是一个或多个字符的任何语言单元:单词、数字、标点字符等。是词汇,即,根据语言有效的一组有限的标记是字典,即,一组有限的标记,我们认为它们在某种意义上是相关的,例如,它们与某个主题有关。请注意,在自然语言处理(NLP)文献中,不区分词汇和词典是很常见的,但在本论文中是必要的,如稍后所示。● n是n元语法,即n个可召唤令牌的集合Γ表示Gamma函数,Bν表示第二类修正贝塞尔函数[6]。● H0表示统计假设检验的零假设,H1表示备择假设。● 高斯过程(GP):设f=x=X7! R是以状态空间fxg 2X为参数的随机过程,其中X <$Rd.随机函数fx是GP,如果它的所有有限维分布都是高斯分布,其中对于任何n2N,随机向量fx1<$;fx2<$;f xn联合正态分布。μ和K分别表示GP的均值和协方差函数● Yt-1/2/2Yt-1/1;Yt-1/2;...; Y t ]表示过程f Y t g的l个滞后的向量,即, 前一时刻的观测值步骤起来到时间t. 在本文中,Y表示资产价格过程,X表示替代信号(情绪或技术指数)的过程,Z表示用作边信息的附加过程。P(Y|X)表示给定X时Y的条件概率。在第3节的统计假设检验框架中,上标A表示模型A下的参数化,而上标B表示模型B下的参数化。L X→Y|Z表示基于广义似然比的检验统计量,用于在存在边信息过程Z的情况下检验过程X是否导致过程Y。类似地,L Y→X|Z表示基于广义似然比的检验统计量,用于在存在边信息过程Z的情况下检验过程Y是否导致过程X。请注意,本研究中的因果关系是根据格兰杰的定义来理解的(见第3节)。●●●●I. Chalkiadakis等人区块链:研究与应用3(2022)1000633FGt1t不FG不X-1--1--1在实际数据分析部分中详细提供了分析,我们Z-m-1-1--1--12. 自然语言处理和加密货币资产价格动态在本节中,我们将重点介绍一些以前使用NLP的加密货币统计因果关系的例子,这是一个最近在区块链分析中越来越受欢迎的领域[7]。我们专注于在这种情况下的研究,因为它们是最接近的例子发表的工作相关的建议多模态因果分析,我们在这篇手稿中研究的非结构化的时间序列数据类型,如基于文本的数据。以前的工作检测因果对,并根据金融新闻文章和金融状态构建多个因果链[8,9]。 该方法包括提取语言特征(如词性标签,粒子对,uni-gram和bi-gram),以识别表达因果关系的句子,然后将结果与未来识别的原因联系起来,将因果对链接成一个链。 链接是基于结果和未来原因的文本表达的相似性来实现的,通常通过构建词嵌入来实现。从NLP的角度来看,这些方法很有趣,但他们提出的技术既不适用于我们探索的情感指数模型,也不直接适用于我们在本文中开发的多模态信号上下文。Granger统计因果关系也被用来探索Twitter情绪Granger是否会导致热门公司的股票市场回报[10]。 与我们的方法类似,遵循基于词典的方法进行情感提取,使用主题词增强已建立的词典[11],手动标记情感极性。 他们的Twitter数据跨越了2017年1月1日至2017年3月31日的三个月期间,并且只使用来自经过验证的帐户的推文来保持数据质量。在股票收益和情绪数据之间进行简单的格兰杰因果关系分析,发现两个方向都存在因果关系股票回报率导致Twitter情绪,而Twitter则导致某些股票市场回报率动态。 这是一个有限的数据研究,情绪指数的构建相对粗糙。 在这项工作中开发的方法将在研究的持续时间,所使用的数据的数量和质量以及情感提取和因果分析的方法学方面显着更广泛。具体来说,我们使用的数据跨度为两年,包含有关加密资产的新闻文章,而不是推文,从而提供了更大量和更广泛的文本数据和分析,从而形成更准确的情感信号。此外,我们专门构建的域字典几乎是他们如何处理消息以确定情绪极性,或者他们如何解释机器人或未经验证的社交媒体账户。这可能会对数据质量降低和引入噪声产生重大影响,这些噪声可能会使构建的情感指数和使用此类数据的任何结果模型中的因果模型风险产生我们选择通过更严格的统计方法从第一原则构建情绪指数,这将在第6节中描述。与这两种方法相比,我们注意到,通过使用新闻文章而不是粗糙的Twitter数据,我们能够利用应用的编辑过程,因此与非常嘈杂的Tweets或StockTwits相比,我们的文本数据中存在较少的噪音在指数构建方面,我们构建了更复杂的情绪指数,将在手稿中详细概述,我们进行的推理过程包括更灵活的格兰杰因果分析。从研究设计的角度来看,重要的是要注意,与传统的股票金融市场不同,加密货币市场在我们的研究期间主要以散户投资者为中心,因此容易受到散户情绪和新闻驱动的价格发现的影响。最后,我们将比较转移熵非参数方法和我们提出的多输出高斯过程因果关系测试框架,以对比性能上的差异。我们将在应用部分解释用于统计因果分析的转移熵的基本框架3. 检验统计因果关系的框架我们提出了一个基本的陈述,我们考虑的统计因果关系检验框架,这是基于经典的框架,统计因果关系检验的格兰杰。我们的假设检验推理框架的一个优点是,我们开发的检验是经典的,检验统计量是封闭形式,可以有效地逐点评估,并且在零假设下检验统计量的渐近分布被广泛研究和经典。我们带来的新颖之处在于我们在应用该测试时开发的模型类别以及我们应用这种测试的研究我们首先介绍基本的测试框架。然后,我们将在随后的章节中通过我们介绍的多输出高斯过程结构来开发这个框架的每个组件,以使这个框架变得不平凡。在该一般设置中,不失一般性,可以考虑两个实值单变量时间序列,由fXg和fYg表示,其中n和四倍大。我们在研究中证明了正确指定用于构建情感信号的词典的重要此外,还采用了其他方法来衡量社交媒体情绪与加密货币价格之间的格兰杰因果关系,见参考文献。[12 ]第10条。 在这项工作中,所使用的模型也能够适应非线性因果关系的措施,如本手稿中提出的模型。 他们实现这一点的方式与我们的框架不同,因为他们采用了转移熵的方法。与我们的方法相比,这种方法对于所研究的因果关系的具体形式的解释性较低,因为我们的方法可以通过参数指定,因此是明确和可解释的。为了比较这种直接和间接指定方法的效果因果检验,并将其与我们的特定非线性因果检验进行ny个样本,其潜在因果关系为感兴趣的测试,以及潜在的第三个实值时间序列,fZtg的长度nz,将作为边信息。参考文献中讨论了边信息的作用以及包括边信息如何有助于区分直接因果关系和间接因果关系的解释[13、14]。统计因果关系是Granger在线性自回归参数时间序列模型预测背景下定义的概念的概括:从时间序列fXtg到fYtg没有因果关系的零假设意味着包括fXtg的过去并不能改善对Yt未来的预测[3]。我们使用一个更一般的定义,写为fYtg的条件分布相等H0:P。Yt. X-tk;Y-tl1;Z-tmmm/P。Yt. Y-tl1;Z-tm多输出高斯过程测试框架。的结果H1:P.Yt. X-tk;Y-tl1;Z-tmP。Yt. Yt-11;Zt-m我相信他们清楚地解释了我们的方法在检测真实数据中的非平稳和非线性结构关于Ref.[12]在这项工作中,作者依赖于Twitter和StockTwits上的积极和消极相关消息的数量,这些消息分别通过过滤特定的hashtag和“cashtags”获得。然而,作者提到,这些数据是由一家私人公司提供的,没有任何描述。其中,P(t)表示条件概率,Y-tl是过去滞后的向量,定义为Y-l.;Yt-1],并且对于X-k和t-1类似。当量(1)也可以理解为两个竞争模型的比较,解释数据中不同的合理因果关系:模型B,包括时间序列X t作为解释变量,而模型A则没有。在这个因果推理的一般假设框架下,我们可以为高斯过程背景开发一个广义的(一)I. Chalkiadakis等人区块链:研究与应用3(2022)1000634→YjZfKg.Kti;t jti;t j-1Q2ð ðÞ ð Þ ðÞÞ.Σ.Σ·¼半小时·小时]μFgfgfg我J.Kti;t j我jti;tj(三)似然比测试设置来执行统计推断以测试这些假设。注意,这个测试框架是标准的,我们将其在这里展示我们的框架并介绍符号,我们为这个设置带来的新颖性是我们使用的高斯过程类以及我们随后为模态因果推理建立多模态卷积高斯过程测试的方式。我们的设置的优点是,这里提出的这些经典结果是由我们的框架继承的,我们认为这是我们的方法的优势,与更复杂的推理过程相比,可能会出现两个问题:第一,检验统计量在零下的渐近分布可能是未知的;第二,检验统计量可能难以逐点评估。在我们的框架中,这两种情况都不是禁止性的。在公式化检验统计量时,我们将{Xt}和{Yt}表示为两个模型的均值向量和协方差矩阵为μA,Y,KA,Y和μB,Y,KB,Y的高斯过程。正是我们如何构建这些趋势和协方差结构来编码因果关系,这在这项工作中具有重要意义,以及我们如何在这两个代表两种数据模式的高斯过程耦合依赖关系,这将形成我们方法的有趣方面我们将在手稿的后续章节中详细介绍这些方面检验统计量可以简单地表述为:L X¼. Y-μ A;K A;YA-1。Y-μA;YlogKA;Y-Y-μB;YTKB;Y-1Y-μB;Y-logKB;Y;其中GP模型参数的估计程序在以下章节中描述对于两个模型的核矩阵,我们有:Fig. 1. 如何从独立的f X,f Y和一个由平滑核(线性滤波器)h X,h Y平滑的普通白噪声过程u 0获得相关高斯过程(GP)X,Y。注意,包括f X的GPf1为了表示加密货币价格数据的多种形式A;YYi;j和B;XX1/4kA;Y.yt;ytX.xt;xtρX;(二)交易数据(哈希率)和自然语言处理情感指数时间序列数据。这将基于一类特殊的多输出卷积高斯过程时间序列回归模型。我们分两个阶段进行,首先定义每种数据形式的边际GP,然后定义耦合多输出版本,在保留联合高斯结构的.KB;YY1/4kB;Y.yt;ytpYt;YX这对于因果推理过程的评估很重要i;jB;YXi;j我Jti;tj;ti;j模型A和模型B下的检验统计量这些模型构成了我们的统计因果关系分析框架,其中,我们通过数据模态Y的模型A的内核kA,Y以及等效地,数据模态X的模型A的内核kA,X来编码边缘模态特定依赖性。类似的符号,然后采用模型B,其中的功能形式不同,以适应不同的假设的因果关系。 我们用卷积核ρY和ρX表示在模型A或模型B下耦合两个模态Y和X的依赖性。请注意,我们使用相同的卷积滤波器一阶(趋势因果关系)和二阶非线性(协方差因果关系)结构。4.1. 时间序列的高斯过程定义1.(高斯过程(GP))表示为fx:X7! R是以状态空间fxg 2X为参数的随机过程,其中X <$Rd. 的模型A和B,我们假设这两个模型是嵌套的,也就是说,如果我们选择参数,我们可以从模型B得到模型AX-tk为零。后者,连同额外的approptions详细参考。 [5]对于能够使用广义似然比检验(GLRT)的属性很重要。 根据这些性质,在原假设下,检验统计量LX→Y<$Z具有渐近χ2分布,其中q是模型A和B的参数空间之间的维数差。此外,我们注意到,卷积依赖结构意味着即使在条件随机函数f ∈ xf是GP,如果它的所有有限维分布都是高斯分布,其中对于任何nN,随机向量f x1;f x2;.; f x n联合正态分布。因此,我们可以将GP解释为等价地由以下随机函数类表征:f:1/4。f·:X:f·~GP.μ。·;θμπ ι;kπι·;·;θkπ ι(4)模型,我们仍然可以观察到模态之间的依赖性,这可以通过因子copula来描述在没有卷积分量的情况下,图1中的模型导致模态之间的条件独立性,在这种情况下,仅通过均值和其中μ;θμ:X7! R,k·;·;θk:X×X7! R表示:μ;θ:Ef;k·;·;θk:¼E。f·-μ。·;θμm。f·-μ。·;θμ:(五)协方差4. 因果推理的多输出卷积高斯过程在本节中,我们介绍了我们开发的统计模型类在我们将构建的因果关系模型类的上下文中,我们可以考虑三个时间序列分量过程:Xt,Yt和Zt,它们分别代表模态1,模态2和相关的边信息(外生协变量)我们将在下面说明模态Yt的边缘模型,然后将等效模型结构应用于另一模态Xt。我们i;jI. Chalkiadakis等人区块链:研究与应用3(2022)1000635FGfgf g¼的X不不¼.KXXY-1--1不不不不-1-1线性滤波器,用独立同分布的t;ss;tt;ss;tt1tnt1tnti;t jÞ ¼“#将时间序列Yt建模为具有加性高斯噪声的GP回归的实现,其中回归协变量进入分布滞后回归结构中的趋势和协方差函数,如下所示:Yt¼fi;Y.X-tk;Yt-1;Z-tmi;Y;(6)其中索引i 2 fA; Bg将表示模型A或模型B,f i,Y()由GP、加性噪声εi;Y~ N 0; σ2以及如先前定义的fY tg;X t和Z t的过去滞后向量建模。我们记为θ θμθk,并将θ称为GP f的超参数[15]。然后,对于模型A或模型B,我们一般表示平均函数,X t和Zt。在这里,我们希望以耦合的方式对Y t和X t的回归进行联合建模,这稍微具有上面描述的GP回归框架。将它们用于多个输出的主要困难是定义协方差函数,该函数捕获互协方差并仍然保证(半)正定协方差矩阵。有几种方法可以实现多输出GP,例如“协同克里金”[16],将输出建模为潜在通道的线性组合[17,18],或将它们建模为相同底层白噪声过程的卷积[19,20],这是我们下面描述的方法。模拟Xt和Yt模态的联合分布高斯过程回归是通过考虑高斯将fi,X和fi,Y处理为独立因子,但噪声εi;X;εi;Y现在为离子μi;Yklm→和协方差功能由ki;Yt t格勒诺布尔t:R R:R×由一个共同的随机因素u0,t驱动,如图所示。1.一、i,Xi,Y对于i2fA;Bg,Rk<$l<$m→R,注意这些将具有域输入以核ρ和ρ为特征的耦合高斯过程由以下滞后条件结构给出:μi;Y=μt.λt-k;Yt-11;Zt-m;t1; t2可以表示为平滑核之间的卷积积分和潜在功能/过程。可以使用任何类型的具有有限二阶矩的潜在过程[20],而平滑核必须ki;Y 克t1; t2.hX-k ;Y-1;Z-mi;hX-k ;Y-1;Z-min:(7)t2-1绝对可积。在这里,我们描述了hX和hY是请注意,我们为当前评估时间段添加了一个双索引下标我们选择白噪声过程作为标准正态分布,给出:和协方差结构,并将它们与高斯过程中常用的经典平稳εtþ∞hXτu0t-τdτ:(8)回归此外,请注意,趋势和协方差内核的这些滞后结构可能非常一般,包括线性和非线性结构。 我们将在随后的实验结果和分析部分中说明这些充分函数的显式函数形式,在那里我们将它们定制为我们研究的特定多模态数据设置。高斯过程的参数可以用极大似然估计。高斯白噪声随机驱动器的选择对于保持总体联合高斯多变量分布和高斯copula依赖结构是重要的。这反过来又使我们能够保持在易于处理的封闭形式测试统计规范内,我们使用该规范来测试具有这种多输出卷积高斯过程结构的因果关系结构。如果u0是均值和协方差均为零的高斯白噪声过程我们将指定与基于文本的Natural02X语言处理情感信号由过程Xt表示。在ku0σu0δz;z0,则u的协方差函数如下[19]:在我们研究的背景下,我们将构造fi;X为一个多核协变量εX;εXZ∞hXτhXs-tτdτ:(9)高斯过程模型,由d个信号的加权线性组合规则构成,每个信号由高斯过程单独建模由fi;Xt;j; j1;...;d表示,其可以表示相同底层情感主题过程的不同模态。 这样的构造对于情感时间序列模态是非常自然的,其对应于不su0-∞高斯噪声u0保持不变,但只有平滑核改变的协方差项类似地定义。对于两个过程X和Y的协方差,我们得到:结合情感时间序列高斯过程模型:1.从ρXY封面X Yσ2Z∞hτh s不τdτ(十)不同的新闻来源;或2.从不同的文本主题相关,给定的情感提取框架;或3.从不同的作者到t;s ¼(b)不受影响;S :u0-∞X轴Y轴-Y轴;捕捉他们的特定风格和个人情绪信号;或4.从不同的情感极性,例如从给定的新闻文章语料库中同时提取的积极、消极和中性情感信号我们还注意到,在研究异质数据源(如新闻文章和价格数据的文本)之间的因果关系时,“时间”的概念可能会因数据的性质而有所不同:观察的频率不同或对信息顺序性质的解释不同。在我们的例子中,后者是一个问题是文章n-gram中的索引,而其余模态是对于其他协方差也是类似的,协方差函数的对称性意味着等式:ρXYρYX和ρYXρXY。注意,Eq. (10)对于所有平滑核不具有封闭形式的解,在这种情况下,可以获得简单的近似。多输出GP的均值向量和协方差矩阵,指随机变量的联合分布1/2Xt1;μ:¼hμX;... ; μ X ; μ Y ; ... ; μ Y i;以日历时间为索引,特别是以每日为基础。请注意,加密货币市场交易每天24小时,每周7天。因此,我们总结了文本时间序列的观察,以校准-K:¼KXXKXY;KYXKYY每日频率的时间尺度 总结可以是情绪指数观察的中位数或四分位数范围(IQR),其中K2XRm,从多个新闻文章或新闻来源写在这一天的特定一天还要注意,我们提出的卷积框架可以i;Xi;XXXi;j. KYYkti;tj千分之一pti;tj ;联系我们(十二)适应f tt;j和f tt;k之间的不同类型的依赖性。4.2. 多输出高斯过程高斯过程通常用于在回归中仅对单个输出变量建模,例如以Yt的滞后表示的Yt,滞后为了获得多输出卷积GP模型的参数,我们应用了两个阶段的过程;第一阶段估计每个边缘模态的高斯过程,第二阶段估计卷积依赖性。后者可以通过将第一阶段的残差拟合到卷积滤波器的模型来估计,例如, 通过自回归滤波器的Yule-Walker方程。Z2Y-t1-1t1-1t1-1t2-1t2-1(十一)i;jti;t j-∞I. Chalkiadakis等人区块链:研究与应用3(2022)1000636τðst;j Þ¼n≥0。;;t2¼; ¼;Pn不p不X¼τ我τ¼1在同一天发布:Xns;j,对于t1,,T,PTns;jX-t1 j;Y-t1wjf;t;j不不不不s;jJT其中,X~m;m/m不τ¼11D1比11-2比1二-t1; 21比11比11比11-2比12比12比1二-5.4. 具有极性特定的估计的情况下,长记忆过滤器也是可能的,见discussions在参考。[21 ]第20段。这些模型现在可以用来制定我们专门为多模态背景提出的非线性统计因果关系测试框架5. 扩展到多模态因果关系的推理在这项工作中,我们通常将Y t称为表示资产价格动态的模态,X t将表示情绪信号动态。 在本节中,我们讨论可以用来产生情感信号X t的不同分层方法。 我们将假设X t由多个情感信号组成,一般由集合X t,1,...,X t,d表示,每个集合可以表示各种不同的情感源。作为一个例子,我们可能希望结合三种情感极性(积极,消极和中性)。在这5.1. 情感信号合并方法考虑不同的加密资产(比特币-BTC,以太坊-ETH,莱特币-LTC,Ripple-XRP,Tron-TRX),这些资产构成了本研究的重点关于这些资产中的每一个的新闻文章可以被认为是文本挖掘上下文中的“主题”。然后,我们考虑不同的选项来组合来自这些不同“主题”或不同情绪极性或不同新闻来源的情绪时间序列。我们将用Xs,j表示情感指数,其中指数s是指情感极性s2{正,负,中性},指数j是指资产j2{BTC,ETH,LTC,XRP,TRX},τ将是n元“时间”指数,并且Ns,j将表示具有情感s的“主题”j的对于第5.2和5.3小节,对于日历时间单位t1/4,分区Xs;jNs;j 通过将来自文章的观察结果分组,t,1t,2t,3ττ¼1¼ ...... 这是什么?t1/2不¼s;j极性(参见图1) 1,这里是d 3)。然后,为了检测Y→X方向上的因果关系,我们定义两个替代模型A和B如下:s;jt接下来,我们提出三种不同的情感组合规则,开发和探索,以捕捉文本情感的不同方面模型 A:XPdwfA;X.X-k Σ¼DHt* u t在cryptocurrency市场的形态。TJj1Xt;jBX。t-1;jKXl0分;(十三)其中,模型A对情绪和价格之间缺乏统计因果结构进行编码,模型B对价格和情绪之间存在统计因果结构进行编码。对于方向X→Y,我们交换X,Y。由于每个随机函数fA;X将是一个高斯过程,t;j为了捕捉给定极性s{正,负,中性}我们利用基于体积的加权规则:XsXwsjX~s;jwsjns;j(16)J模型A或模型B下的Xt过程也是高斯过程多内核结构。在本文中,每个单独的内核都将由自动相关性确定(ARD)机制捕获sj。.不ns;j Σ内核,它是各向同性的,可以使用输入之间的距离来定义kMatern x;x0¼Cdx; x0:(14)我们还注意到,我们能够通过条件均值函数指定在趋势中构建因果关系结构,并通过使用ARD核结构构建条件协方差核结构。ARD内核开发的参考。 [5]允许将因果变量依赖性编码到协方差函数中,并且其参数相关性由相应的优化超参数的值确定。这也意味着可以通过固定相关超参数的值来排除某些输入,因此,定义D<$D<$x;x0<$D <$x1-x0<$;...; x d - x 0 <$。马田主题j和情感s的每个片段(n元语法的集合)对应于时间t。权重是根据每个主题每天的n克量来分配的,这确保了文章长度对权重没有5.3. 具有时间遗忘的在这里,我们开发了一个组合规则,允许投资者和市场参与者以不同的速度忘记正面消息而不是负面消息。通常情况下,已经表明,与正面新闻事件相比,忘记负面新闻事件需要更长的时间,这归因于投资者对风险厌恶的自然倾向。我们可以通过以下权重组合来捕捉这种效果统治σ2ðDÞ ¼ΓðνÞ2ν-1.p2D½l1;TvBv.p2D½l1;T;X~s;j~stp¼1 e-βjt-pX~s;j;(十七)其中,ν表示自由度或“平滑度参数”,l j是长度尺度参数(每个输入维度一个),σ 2是协方差的参数,这也是D ¼ 0的Ma t ′ ern函数的极限。Bν(z)表示第二类修正贝塞尔函数,而Γ是其中X~(?)s;j??如上所定义,βj>0,8j。然后,我们通过对各个指数求和来组合不同的(18)t t伽玛函数令Dj<$Dj<$1/2 X-tk;j;Y-tl1]; 1/2Xt-k;j;Y-tl1] n表示距离j测量信号分量j。那么模型B的核可以是写为Ma ternkernels的总和。Eq.的成对元素(11)计算如下:kBt. hXt-k;1;X-tk;2;X-tk;3;Yt-l1i;hXt-k;1;X-tk;2;X-tk;3;Y-tl1i支持这种加权方案的解释是,关于特定新闻的新闻,例如,更受欢迎的话题(在我们的情况下加密资产),以不同的速度被遗忘。31/1 W2CDiP:(15)我们现在将所有不同主题的情绪指数值其中P是由于平滑滤波器hX,hY而产生的协方差矩阵X。根据他们对于相同日历时间t的情感类别:τCX案例,X,X,X对应积极、消极和中性情绪N和型号B:Xt¼我不知道你在说什么5.2. 基于交易量的加密货币市场情绪j1----Xs;j,其中m(n)表示从协方差ARD函数则变为:I. Chalkiadakis等人区块链:研究与应用3(2022)1000637不8Ps不D DJT不pPPnXsoT;s2 f阳性;阴性;中性g;(19)VADER是一个基于规则的模型,1:n0tt1/2在线短信来判断情绪在VADER,首先是金本位情感字典提取,然后使用定性其中,n0<$Pns;j≥0是来自所有源的n-gram的总数,时间t 我们对每个组的情感s进行总结,并将总和表示为X~s_s。然后,我们有三个利润率的情绪时间序列,我们将结合成一个全球情绪指数。我们可以在t为每个边际情绪指数值分配权重,这会对过去的情绪产生指数记忆:以及五条规则,这些规则结合了人们用来表达情感强度(效价)的这种方法的一个挑战出现在我们考虑的应用程序中,因为在加密货币背景下存在特定领域的知识和术语,而VADER的标准公式没有充分捕获然而,人们可以找到使用VADER的例子X~200s×100te-βsεt-pεX~ εsε;(20)加密市场中的情感模型[29这些研究表明,与我们的研究主要有三个方面的不同:情感类型其中βs>0,s,然后通过对加权的各个指数求和来组合不同的情绪,并增加第5.2节的权重:使用的模型;用于生成情感模型的数据的类型和质量;以及然后研究或利用情感的方式我们特别没有专注于社交媒体情绪,VADER声称要提取,因为我们发现的数据质量挑战Xt¼ XwsX~S伊希斯ns;j;w/jt(21):SJT在这一节的开始就被诅咒了相反,我们专注于公共来自社区接受可靠网站的新闻文章超过两年不ttns; j这种加权方案背后的解释是,情绪具有不同的记忆或遗忘率,并且由于风险厌恶的性质,可以合理地假设负面消息,中性消息和正面消息的记忆衰减存在顺序。6. 文本情感模态提取以前关于情绪指数构建的大部分工作都集中在社交媒体文本数据源和博客/社交技术提要上,如Twitter,Facebook,Reddit和Github[22,23]。这在很大程度上可能是由于此类数据的实时数量和可用性以及此类文本中经常提供的潜在分裂性质然而,在这些社交媒体提要上大规模发布的算法聊天机器人正越来越多地被用于操纵这些平台上呈现的观点,因此可能会对任何情感评分方法和从这些文本源构建的指数产生偏见。此外,这些媒体中的文本源通常样本量非常大(许多推文等)。但是低质量和本质上的高度重复(重复推文等)。并且在词汇和文本标记字数方面也很小,即,文本数据的量,例如,每推文。因此,为了避免在构建情感模型时与此类低质量数据相关的潜在陷阱,我们采用基于更传统和可靠的来源的文本源,这些来源已进行编辑过程,并且字数不受限制,但将产生适用于日常定期时间间隔时间序列分析的较低样本量关于使用神经网络类型模型进行情感提取的文献非常广泛,然而,对于文本时间序列情感指数来说,情况并非如此。基本的文本时间序列和情感指数在过去[24,25]中已经提出,最近在参考文献[24,25]中提出。[26],他们特别展示了如何根据推文中积极和消极单词数量之间的差异构建情感评分人们还可以确定一个有规律的时间序列,我们将证明在构建情绪指数时考虑这一点更合适在本文中,我们将开发一种新颖的情绪时间序列提取方法,该方法具有高度的可解释性,并且可以针对加密货币等特定领域进行定制我们将把我们提出的情感提取框架与现有的基于深度神经网络解决方案的最先进方法进行对比,这些方法很难在专门的小样本集领域进行训练,例如在加密货币新闻文章中遇到的领域。具体来说,我们将把我们的工作与最先 进的 情 感 分析 方 法进 行 比 较, 包 括用于情感推理的ValenceAwareDictionary(VADER)[27]和来自变压器的双向编码器表示(BERT)[28]。期间,并制定了具体的情绪指数,能够捕捉该领域中使用的词汇的特定性质基于规则的方法的替代方法包括基于词嵌入的模型。词嵌入是对应于特定词的实值高维向量,并通过复杂的非线性优化过程获得。这种方法在基于神经网络的NLP方法中很流行,并且获得嵌入的优化过程旨在学习文档语料库的文档术语矩阵的分解 GloVe [32]),或者最小化用于预测跟随给定单词序列的单词的模型的熵度量(“困惑度”)(“语言建模”,例如,BERT)。尽管这些方法很受欢迎,但我们特别选择不使用这些方法,因为它们非常复杂,并且可能难以获得有意义和可靠的可解释输出:由于优化的复杂性和参数空间的大小,我们将无法效率、透明度和可解释性在我们的工作中至关重要,如果
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功