金融推文的细粒度分析及情感预测

84 浏览量更新于2023-10-16 收藏 12.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19430金融推文的细粒度分析0陈中驰1，黄恒森1，陈欣熙1,201 计算机科学与信息工程系0台湾台北国立大学02 台湾大学大数据与人工智能联合研究中心和All Vista Healthcare0{cjchen, hhhuang}@nlg.csie.ntu.edu.tw; hhchen@ntu.edu.tw0摘要0本文描述了我们在FiQA2018任务1中的实验方法和结果。该任务有两个子任务：（1）预测-1到1之间的连续情感分数，（2）确定与金融推文内容相关的方面。首先，我们提出了一种用于分解金融推文的预处理过程。其次，我们收集了超过334K个标记的金融推文，以扩大实验的规模。第三，本文将情感预测任务分为两个步骤，即（1）看涨/看跌和（2）情感程度。我们比较了CNN、CRNN和Bi-LSTM模型的结果。此外，我们进一步将两个步骤中最佳模型的结果结合起来作为子任务1的模型。最后，我们对方面进行了深入研究，并提出了处理这14个方面的一些线索。0CCS概念0• 信息系统 → 信息检索 → 检索任务和目标 → 情感分析0关键词0金融推文；情感分析；意见挖掘0ACM参考格式：0C.C. Chen, H.H. Huang, and H.H. Chen. 2018. Fine-Grained Analysis ofFinancial Tweets. In The 2018 Web Conference Companion (WWW2018), April 23-27, 2018, Lyon, France, ACM, New York, NY, 7 pages.DOI: https://doi.org/10.1145/3184558.319182401 引言0金融科技（金融技术）是最近的热门话题之一。在金融领域，采用成熟的技术来解决问题或改进服务是一种流行的趋势之一。对于自然语言处理挑战，这个领域有很多资源。这些资源可以分为官方文件、财务报表、新闻和社交媒体信息。社交媒体数据与其他数据在非正式的写作风格上有所不同。它增加了噪音并增加了数据分析的难度。0本文发表在知识共享署名-非商业性-禁止演绎4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW '18 Companion 2018年4月23日至27日，法国里昂。©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY4.0许可证发布。ACM ISBN 978-1-4503-5640-4/18/04。DOI:https://doi.org/10.1145/3184558.31918240另一方面，我们仍然可以找到一些对分析金融社交媒体数据有用的线索。例如，cashtag是这些数据中的常见标签。cashtag通过在股票代码前面加上“$”来标记所提到的工具的股票代码，比如$AAPL，这是苹果公司股票的cashtag。这种约定使我们免于命名实体识别的挑战。情感分析在本十年的金融领域很受欢迎，并被认为是预测工具价格走势的有用信号之一。然而，直到SemEval-2017任务5数据集[3]，没有研究讨论过金融社交媒体数据的连续情感分数，这表明金融数据还存在许多未解决的挑战。0将意见分类为几个方面是意见挖掘中的重要任务之一。为了理解每条评论的主题，有必要定义一些重要的方面。这个任务的经典例子是酒店评论。顾客的评论可能会关注不同的方面，比如服务、环境等。我们将在第4节进一步讨论。0我们的贡献有三个方面。首先，我们提出了一种针对金融社交媒体数据的细粒度预处理过程。其次，我们提出了一个两步模型来预测连续情绪分数。第三，我们研究了不同方面的一些规则。0本文的剩余部分组织如下。第2节描述数据。第3节详细介绍了我们的方法。第4节提出了一些方面的规则。第5节展示了实验结果并进行了进一步讨论。我们在第6节中讨论了所提出模型在新闻标题数据集中的可预测性。在第7节中，我们将实验结果与相关工作进行了比较。最后，第8节总结了备注。02 数据02.1 训练数据0FiQA2018任务1提供了总共675个训练实例。图1显示了情绪分数的分布。其中有440个正面实例，1个中性实例和234个负面实例。由于只有一个中性实例，我们在本文中将数据分类为看涨和看跌。图2显示了情绪程度的分布。0情绪程度的平均值约为0.41。训练数据中共有83个细粒度方面。这些方面进一步分为4个级别。由于本次开放任务的目标是预测情绪程度，因此我们需要预测二级方面。0Track: Challenge #4: 多语言舆情挖掘和金融数据问答 WWW 2018, 2018年4月23日-27日，法国里昂 19440挑战是预测二级方面，我们在表1中展示了二级方面的频率信息。共有21个二级方面。总共56.15%的实例被注释为“价格行动”方面。0图1：情绪分数的分布。0图2：情绪程度分布。0表1：二级方面的频率。0方面频率方面频率方面频率0价格行动 379 股息0政策 13 基本面 50技术分析 94 期权 12 市场 30覆盖范围 41 并购 11 波动性 30风险 28 谣言 6 内幕0活动 20金融 23 策略 6 声誉 20销售 19 策略 6 条件 10信号 15 法律 5 监管 102.2 收集的数据0我们从StockTwits收集了超过334K条标记的金融推文，StockTwits是一个类似Twitter的金融社交媒体，供投资者分享他们的想法。所有推文都由原作者标注为看涨或看跌。该数据集避免了注释者和原作者之间的误解情况，并且可以被认为是高质量的数据集。此外，我们为该数据集中的每个实例创建了一个情绪程度，使用提供的训练数据。如果收集到的数据中的一个实例与提供的训练数据中的一个实例具有相同的标记，那么该训练数据的情绪程度将成为收集数据中实例的情绪程度的候选值。最后，我们对同一实例的所有候选值取平均作为其情绪分数。图3显示了情绪程度的分布。0创建的情绪程度。约有299K个实例获得了模拟的情绪程度。0图3：收集数据中情绪程度的分布。0收集的数据。03 情感分析方法0本文的细粒度情感分析任务由两个步骤组成。首先，我们预测推文的看涨/看跌情绪，然后预测其情绪程度。下面的子节将描述金融推文的预处理过程，看涨/看跌预测模型以及情绪程度预测模型。03.1 预处理过程0一个金融推文可能由单词、股票代码、用户ID、数字、URL、标签和表情符号组成。本文将标签和表情符号视为单词。在我们收集的数据集中，只有3.12%的金融推文至少包含一个标签，4.67%的金融推文至少包含一个表情符号。首先，我们用“ID”、“NUM”、“TICKER”和“URL”替换用户ID、数字、股票代码和URL。其次，我们去除停用词和标点符号。最后，我们将剩余的标记转换为小写。由于Twitter帖子的140个字符限制，用户在一条推文中只关注几个要点。通过这个预处理过程，有时只会保留意见部分。（T1-1）是原始推文，（T1-2）是预处理后的结果。在（T1-2）中，“lookinggood”这几个词可以帮助我们确定推文的情绪，即看涨或看跌，而“calls”这个词可以提供“期权”方面的线索。此外，对于像（T2-1）这样的推文，只有“longed”这个词会作为意见性词保留下来。0（T1-1）$MOS在这里看起来不错，价格为$58.65。这个月和每周都有看涨期权活跃。（T1-2）'TICKER'，'looking'，'good'，'NUM'，'calls'，'active'，'month'，'weekly'（T2-1）longed $AMZN300 @ 189.82（T2-2）'longed'，'TICKER'，'NUM'，'NUM'03.2 看涨/看跌情绪模型0卷积神经网络（CNN）、双向长短期记忆（Bi-LSTM）和卷积循环神经网络（CRNN）被用于将推文分类为看涨或看跌。CNN模型的前三层分别是嵌入层（300维）、卷积层（过滤器和内核大小分别为64和8）和最大池化层。CNN模型中的最大池化层被具有32维输出的双向LSTM层替换，这是CNN和CRNN之间的区别。Bi-LSTM的第一层是与CNN中使用的嵌入层相同，第二层是具有32维输出的双向LSTM层。每个模型的其余部分如下所示：一个全连接层（200维）、一个dropout层（dropout率为0.5）、一个修正线性单元层和softmax输出层。0Track: 挑战 #4: 多语言舆情挖掘和金融数据问答 WWW 2018, 2018年4月23-27日, 法国里昂 First, we attempt to sort out some meaningful words for “Price Action” aspect. The chi-squared test is adopted to compute the significance [7]. Table 2 shows some clues to classify “Price Action” aspect from the other aspects. Only the words appearing more than 5 times are taken into account. Some words in “Price Action” class are about the action of investor (long and short), and some words are used to describe the price action (back, bounce, and breaking). Individual investors often share the URL of news or analysis report as the reference of their tweets. However, only 22.43% of instances annotated as “Price Action” aspect contain URL, and 55.41% of instances in the other aspects contain URL. 19450用于看涨/看跌分类任务的相同模型也被用于预测情感程度，只是将softmax输出层替换为sigmoid。03.3 情感程度模型0首先，我们尝试为“价格行为”方面整理出一些有意义的词。采用卡方检验来计算显著性[7]。表2显示了一些用于将“价格行为”方面与其他方面区分的线索。只考虑出现次数超过5次的词。在“价格行为”类中，一些词是关于投资者行为（多头和空头）的，而一些词是用来描述价格行为（回调、反弹和突破）的。个体投资者经常分享新闻或分析报告的URL作为他们推文的参考。然而，只有22.43%的被标注为“价格行为”方面的实例包含URL，而其他方面的实例中有55.41%包含URL。04个方面的规则0表2：将“价格行为”与其他方面区分开的线索。0价格行为其他方面0词卡方检验0词卡方检验0多头 77.95 URL 234.200空头 68.05 股息 46.180更高 53.96 买入 37.100空头 43.96 图表 36.150收盘价 40.24 RSI 33.860回调 39.65 销售 33.860最高价 32.23 评级 30.780高点 31.81 突破 27.830反弹 29.64 技术 27.700看起来 28.68 卖出 27.550突破 27.74 目标 25.360高位 27.74 收入 24.620低点 26.37 增长 22.420其次，技术分析中通常由投资者使用两个主要工具，即技术指标和图表。因此，技术指标的名称列表，如移动平均线（MA）和相对强弱指标（RSI），以及图表模式的名称列表，如“双顶”和“头肩顶”，可能是“技术分析”方面的线索。0第三，37个“覆盖范围”方面的实例涉及分析评级和信用评级。经过卡方检验筛选出的关键词显示在表3中。此外，由于“风险”方面的23个实例描述了相同的新闻（特斯拉ModelX的召回），因此该方面不存在一般规则。“财务”方面只有一个词，即收入，显示了明显的倾向。Call，put和option是“期权”方面的关键词。“并购”是“并购”方面的关键词。“销售”，“信号”，“股利政策”，“谣言”，“信号”，“条件”和“监管”方面的关键词与其方面名称相同，特别是“股利政策”的关键词是股息。总之，我们使用经过卡方检验筛选出的关键词将推文分类为21个方面。由于某些方面的实例具有关键线索，我们首先检查这些方面的关键词。换句话说，不满足任何规则的实例将被分类为“价格行动”方面。0表3： “覆盖范围”方面的关键词。0词卡方词卡方0评级 283.43 超越市场 141.660pt 198.36 评级 141.660分析师 170.01 升级 141.660降级 141.66 研究 116.405实验 5.1实验设置0对于看涨/看跌分类任务，我们在收集的数据集中使用了40,000个看涨实例和40,000个看跌实例作为训练集，并使用了5,000个看涨实例和5,000个看跌实例作为测试集。验证集是训练集中实例的10％。实验结果是100次自助法的平均值。FiQA-2018提供的675个实例被用作第二个测试集。为了保持与训练数据的分布一致，我们将收集到的数据按照提供的训练数据的百分位数分为十个部分，其中n为10,20，...，90。图4显示了每个部分的实例数量。我们将每个部分的1,000个实例用作训练数据，即总共10,000个训练数据，并将每个部分的100个实例用作测试数据。验证和自助法的设置与看涨/看跌分类任务相同。0图4：第n个百分位的实例数量。0赛题：挑战#4：多语言舆情挖掘和金融数据问答 WWW 2018，2018年4月23日至27日，法国里昂 19460准确性用于评估看涨/看跌分类任务的结果，均方差（MSE）和R平方（R2）用于评估情感程度预测和最终预测的结果。精确度，召回率和F1得分用于评估方面分类任务的实验结果。我们的实验中采用了Keras（https://github.com/keras-team/keras）。0表4：看涨/看跌预测任务的准确率。（%）0CNN CRNN Bi-LSTM0CP Set 1 49.94 49.99 49.860Set 2 50.33 49.57 48.560FP Set 1 71.43 71.47 71.580Set 2 75.12 74.86 74.390OP Set 1 71.23 71.14 71.450Set 2 76.86 76.39 76.8505.2 情感分析实验结果0首先，看涨/看跌情感预测任务的结果如表4所示。我们不仅比较了模型的结果，还比较了不同预处理过程的结果。Set1是采集数据集的10,000个测试实例，Set2是所提供数据集中的675个实例。粗粒度预处理（CP）仅删除推文的标点符号。0细粒度预处理（FP）：我们使用第3.1节中所示的预处理过程。0观点预处理（OP）：我们从FP的结果中删除“ID”、“NUM”、“TICKER”和“URL”。0FP和OP分别在Set 1和Set 2中获得了最佳结果。在Set2中，具有不同预处理过程的CNN模型优于其他模型。因此，我们采用具有OP的CNN模型作为我们的最终模型进行看涨/看跌分类任务。在采用CNN、CRNN和Bi-LSTM模型时，我们提出的预处理过程FP相比CP可以获得超过24%的改进。将OP与FP进行比较，CNN、CRNN和Bi-LSTM模型在准确性上提高了约1.5%。因此，我们采用OP作为我们的最终预处理过程。0表5显示了情感程度预测任务的结果。（%）CNN模型在Set1中表现最好，Bi-LSTM是Set2中具有最低MSE和最高R2的最佳模型。根据实验结果，我们使用Bi-LSTM模型来预测最终提交的情感程度。0最后，我们将我们的两步模型与一步模型进行比较。我们的两步模型（CNN-Bi）通过CNN模型和OP预测看涨/看跌，并通过Bi-LSTM模型预测情感程度。表6显示了实验结果。本实验中的测试数据是所提供数据集中的675条推文。CNN-Bi在MSE上的表现优于其他模型，提高了15%以上。0表5：情感程度预测任务的结果。（%）0CNN CRNN Bi-LSTM0MSE Set 1 1.42 2.22 1.570Set 2 2.05 2.31 1.940R2 Set 1 41.17 8.16 35.210Set 2 19.06 8.55 23.310表6：细粒度情感预测的结果。（%）CNN-Bi CNN CRNNBi-LSTM0MSE 30.67 47.39 48.67 46.220R2 -79.05 -176.63 -184.06 -169.7705.3 方面实验结果0表7显示了每个方面的精确度、召回率和F1分数。微平均和宏平均的F1分数分别为75.41%和50.38%。如果只考虑前10个频繁出现的方面，微平均和宏平均的F1分数提高到78.74%和63.23%。表8显示了各个方面之间的混淆矩阵。一些“价格行动”方面的实例被错误分类为“技术分析”和“期权”方面。表9显示了一些错误分析的实例。如第4节所述，技术分析是用于预测价格走势的常用方法之一。大多数使用技术分析的投资者通常根据两种类型的指标，即技术指标和图表形态建立他们的观点。0表7：方面分类任务的结果。（%）0方面 P R F1 方面 P R F1 方面 P R F10价格行动 0.76 0.85 0.80 股息政策 1.00 1.00 1.00 基本面 0.00 0.00 0.000技术分析 0.68 0.74 0.71 期权 0.33 1.00 0.50 市场 0.00 0.00 0.000覆盖 0.94 0.73 0.82 并购 1.00 0.18 0.31 波动性 1.00 1.00 1.000风险 1.00 0.82 0.90 谣言 0.67 0.67 0.67 内部活动 0.00 0.00 0.000财务 0.71 0.22 0.33 策略 0.00 0.00 0.00 声誉 0.00 0.00 0.000销售 0.91 0.53 0.67 策略 0.00 0.00 0.00 条件 1.00 1.00 1.000信号 0.87 0.87 0.87 法律 0.00 0.00 0.00 监管 1.00 1.00 1.000Track: Challenge #4: 多语言舆情挖掘和金融数据问答 WWW 2018年4月23-27日，法国里昂 19470表8：方面分类任务的混淆矩阵。0真实价格。技术。覆盖。风险。财务。销售。重要。股息。选择。并购传闻。波动。条件。监管。0价格行动 322 32 1 0 0 0 1 0 22 0 1 0 0 00技术分析 24 70 0 0 0 0 0 0 0 0 0 0 0 00覆盖 10 0 30 0 0 0 1 0 0 0 0 0 0 00风险 3 0 1 23 0 0 0 0 1 0 0 0 0 00财务 17 0 0 0 5 1 0 0 0 0 0 0 0 00销售 6 1 0 0 2 10 0 0 0 0 0 0 0 00信号 2 0 0 0 0 0 13 0 0 0 0 0 0 00股息政策 0 0 0 0 0 0 0 13 0 0 0 0 0 00选择 0 0 0 0 0 0 0 0 12 0 0 0 0 00并购 8 0 0 0 0 0 0 0 0 2 1 0 0 00谣言 2 0 0 0 0 0 0 0 0 0 4 0 0 00波动性 0 0 0 0 0 0 0 0 0 0 0 3 0 00条件 0 0 0 0 0 0 0 0 0 0 0 0 1 00监管 0 0 0 0 0 0 0 0 0 0 0 0 0 10表9：错误分析实例。0推特真相预测0T3 $AAPL 双底可能已经形成，请记住价格行动技术分析0T4 我所有的图表都在闪烁超卖信号价格行动技术分析0T5 $CRM 9月40看涨期权自入场以来上涨35％ #BANG http://stks.co/deDm 价格行动期权0T6 $UVXY 在关键支撑位放出鱼饵，然后下一个支撑位 - 小心价格行动期权0T7 可口可乐的多头吞没形态：http://stks.co/fYCo $KO 技术分析价格行动0T8 $GOOG 经过一些整理后，正在测试200日均线 http://stks.co/h0cPJ 技术分析价格行动0T9 $AAPL AAPL：Gundlach批评iPad mini，认为股价将下跌至$425。覆盖价格行动0T10 $ISRG PT 上调至$700，之前为$640，Leerink保持跑赢大盘评级覆盖价格行动0T11 $AAPL 打破预期。由于缺乏新产品，股价仍将下跌。财务价格行动0T12 每日邮报的所有者正在考虑对雅虎的出价 $yhoo ，上涨2.05% https://t.co/extZr1riyP M&A 价格行动0(T3)中的双底是一种图表形态的名称，(T4)的作者根据图表得出了关于$RAD的分析结果，这可以被视为一种技术分析的一种。此外，在(T5)中，作者描述了$CRM的“期权”的“价格行动”。因此，我们认为我们的一些预测可以被视为正确的答案。0（T6）显示了消歧义的必要性，因为（T6）中的“put”不是$UVXY的选项。（T7）表明，参考外部参考是必要的过程，因为我们无法从此推文的上下文中获取技术分析信息。（T8）中的“200天”可能是200天移动平均的缩写。它显示了分析非正式社交媒体数据的挑战。（T9）和（T10）表明需要理解句子的含义。由于某些方面的实例少于10个，我们可以通过卡方检验筛选出一个或两个关键词。（T11）是“金融”方面的一个实例。（T12）显示链接可以再次提供一些信息。05.4 官方测试集中的实验结果0测试集中有99个实例。以下结果由组织者提供。连续的0情感分数预测任务中，CNN-Bi模型的MSE为30.58％，低于表6中的结果（30.67％），R2为-166.69％。在方面预测任务中，我们实现了75.76％的准确率，并获得了第二名。这表明了我们基于统计的关键词提取的实用性。由于某些方面的训练数据很少，我们无法为这些方面获得足够的信息。因此，这些方面的精确度、召回率和F1分数分别为30.07％、26.78％和28.32％。06 讨论0在本节中，我们使用相同的模型对金融推文进行情感分数预测，以预测新闻标题的情感分数。我们想知道为什么要在新闻标题中使用所提出的模型的性能，因为一些推文的作者可能会将新闻标题复制到他们的帖子中，并添加一些评论。（T13）是这种情况的一个例子。0（T13）路透社：绿山收入不及预期，股价暴跌http://stks.co/13mW > $GMCR打印43.80，市场情绪糟糕，令人失望的一天0因此，我们假设在用金融社交媒体数据训练模型时，可以学习到新闻标题的信息。在这个开放挑战任务中，有438个标题作为训练数据。0赛道：挑战＃4：多语言意见挖掘和金融数据问答WWW 2018年4月23日至27日，法国里昂 MSE 26.45 36.89 39.57 34.71 R2 79.28 -149.99 -168.20 -135.22 19480挑战任务1中情感分数的分布如图5所示，情感程度的分布如图6所示。由于新闻预计客观地描述一个事件，情感程度的平均值为0.34，低于推文的情感程度。此外，79.45％的新闻标题的情感程度低于0.5。0图5：情感分数分布-新闻标题0图6：情感程度分布-新闻0标题0与第5.2节中的实验一样，我们使用100次自助法的平均MSE和R2来评估每个模型的性能。实验结果如表10所示。在这个实验中，CNN-Bi模型表现最佳，并且在MSE方面比其他模型提高了超过7.5％。将新闻标题的实验结果与社交媒体数据的实验结果进行比较，使用CNN-Bi模型时，标题的MSE低于社交媒体数据，即使我们不直接使用标题作为训练数据。0表10：新闻标题的细粒度情感预测结果（%）0CNN-Bi CNN CRNN Bi-LSTM07 相关工作0Barnes等人[1]在不同的情感分析数据集中比较了几种模型的性能，并推荐了长短期记忆（LSTM）和双向LSTM模型用于细粒度情感分析。为了将该数据集中的LSTM模型的性能与其他模型进行比较，我们也使用了0我们使用LSTM模型对提供的675个实例进行了实验。LSTM模型的设置与Bi-LSTM模型类似，只是将双向LSTM层更改为LSTM层。LSTM模型在预测看涨/看跌方面表现最差，使用不同的预处理过程仅能达到约50%的准确率。LSTM模型在情感程度实验中的均方误差为2.55%，比其他模型更差。LSTM模型直接预测细粒度情感得分的均方误差为46.52%，比CNN和CRNN模型好，但比Bi-LSTM模型和CNN-Bi模型差。总之，实验结果表明LSTM模型不适用于两步模型，但在预测金融社交媒体数据的细粒度情感得分时，比CNN和CRNN模型表现更好。关于金融社交媒体数据的预处理过程的细节很少有研究讨论。Li和Shah[4]使用他们特殊的预处理过程提供了面向情感的词向量。然而，他们没有分析他们的预处理过程的影响。在本文中，我们展示了在我们的设置中粗粒度和细粒度预处理之间的实验结果差异。此外，还比较了去除金融社交媒体数据中许多常见术语（预期中性情感）的意见预处理。实验结果的改善显示了所提出的预处理过程的潜力。未来可以考虑其他信息。首先，我们在实验中没有使用任何词典。金融文本数据的情感词典对情感分析可能是有用的。陈等人[2]提供了NTUSD-Fin，这是一个用于金融社交媒体市场情绪分析的词典。他们展示了一般情感和市场情感之间的差异，并将他们的词典与Loughran和McDonald[5]进行了比较。实验结果显示了他们词典的有用性。其次，数字在金融文本数据中始终包含重要信息。Murakami等人[6]使用时间序列价格数据生成市场评论。实验结果显示数字在他们的任务中包含关键信息。因此，将数字信息纳入未来的情感分析任务中是可以考虑的。08 结论0我们提出了一个用于细粒度情感分析的两步模型，并为方面分类构建了一些规则。根据实验结果，将细粒度情感预测分为两步，即看涨/看跌和情感程度，可以提高性能。还展示了预处理过程的效果。此外，提供的数据集中可能存在一些模糊的方面分类任务实例，其中一些实例在第5.3节中展示。此外，我们指出了分析金融社交媒体数据的未来工作中的一些挑战，包括（1）消歧义，（2）外部参考和（3）非正式缩写。0Track: 挑战＃4：多语言意见挖掘和问题回答金融数据WWW 2018年4月23日至27日，法国里昂 [3] Cortis, K., Freitas, A., Daudert, T., Huerlimann, M., Zarrouk, M., Handschuh, S., [6] Murakami, S., Watanabe, A., Miyazawa, A., Goshima, K., Yanase, T., Takamura, [7] Oakes, M., Gaaizauskas, R., Fowkes, H., Jonsson, A., Wan, V., & Beaulieu, M. 19490致谢本研究得到台湾科技部的部分支持，项目编号为MOST-107-2634-F-002-011-, MOST-106-3114-E-009-008-,MOST-106-2923-E-002-012-MY3, 和MOST-105-2221-E-002-154-MY3.0参考文献0[1] Barnes, J., Klinger, R., & Walde, S. S. I. 2017. 评估最先进的0在第8届计算主观性方法研讨会论文集中的情感模型上，对最先进的情感数据集进行了评估，第2-12页0[2] 陈，C.C.，黄，H.H.，陈，H.H. 2018. NTUSD-Fin: 一个市场0金融社交媒体数据应用的情感词典。在第一届金融叙事处理研讨会 (FNP 2018)论文集中。0& Davis, B. 2017. Semeval-2017任务5：对金融微博和新闻进行细粒度情感分析。在第11届国际语义评估研讨会论文集中，页码519-5350[4] Li, Q., & Shah, S. 2017 学习股市情绪词典和0从StockTwits中获取情感导向的词向量。在第21届计算自然语言学习会议论文集中，页码301-3100[5] Loughran, T., & McDonald, B. 2011. 何时债务不是债务？文本0分析、词典和10-K。《金融学》2011年，66.1：35-650H., & Miyao, Y. 2017.从股票价格中学习生成市场评论。在第55届计算语言学协会年会论文集中，页码1374-138402001. 基于卡方检验的文档分类方法。在第24届年度国际ACMSIGIR信息检索研讨会论文集中，页码440-4410赛题：挑战#4：多语言金融数据舆情挖掘和问答 WWW 2018，2018年4月23日至27日，法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载