金融数据问答中卷积神经网络纳入统计特征

151 浏览量更新于2023-10-16 收藏 12.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19550在金融数据的问答中将统计特征纳入卷积神经网络0Shijia E 同济大学中国上海436_eshijia@tongji.edu.cn0Shiyao Xu 同济大学中国上海1452221@tongji.edu.cn0Yang Xiang 同济大学中国上海shxiangyang@tongji.edu.cn0摘要0金融数据的问答目标是从给定的文档中选择句子作为问题的答案。该任务的核心是计算问题和答案对之间的相似性分数。在本文中，我们将统计特征（如词频-逆文档频率（TF-IDF）和词重叠）纳入卷积神经网络中，以学习问题-答案对的最佳向量表示。所提出的模型不依赖于任何外部资源，并且可以轻松扩展到其他领域。我们的实验表明，TF-IDF和词重叠特征可以提高基本神经网络模型的性能。此外，根据我们的实验结果，我们可以证明基于边际损失训练的模型比传统的分类模型具有更好的性能。当每个问题的候选答案数量为500时，我们提出的模型在Top-1准确率（Top-1）方面可以达到0.622，在平均准确率（MAP）方面可以达到0.654，在归一化折现累积增益（NDCG）方面可以达到0.767，在双语评估理解（BLEU）方面可以达到0.701。如果候选答案的数量为30，则所有评估指标的值都可以达到90%以上。0CCS概念0• 计算方法 → 自然语言处理；神经网络；学习潜在表示；0关键词0问答；卷积神经网络；表示学习0ACM参考格式：Shijia E，Shiyao Xu和YangXiang。2018年。在金融数据的问答中将统计特征纳入卷积神经网络。在WWW'18Companion：2018年Web会议Companion，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，5页。https://doi.org/10.1145/3184558.319182601 引言0问答（QA）是自然语言处理（NLP）和信息检索（IR）研究领域中的关键任务。基于检索的QA系统 [ 1 ] 主要关注测量0本文根据知识共享署名4.0国际（CC BY4.0）许可发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂。© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31918260两个句子的语义相似性，并通过对一个或多个句子进行排序选择问题的可能答案 [ 15 ] [ 14]。因此，带有金融数据的问答任务可以定义为给定一个问题 q和一个答案候选池 { a 1 , a 2 , ..., a n }；我们应该选择最佳答案 ai，其中 1 <= i <=n。由于问题和答案的短文本特性，当前的文本匹配方法 [ 2 ]不能直接用于此任务。在本文中，我们主要关注以下问题：1.如何获取QA对的最有价值的特征？在分析金融数据集后，我们发现QA对大多是短文本。QA对的长度限制导致词出现的稀疏性，通常为一两个。这个特征意味着每个词可能具有重要的语义信息。2.如何训练一个能够在QA数据集中将正面答案排在负面答案之前的模型？对于金融数据集，对于一个问题的正面答案必须与负面答案在某种程度上不同。在任务中，我们将正面和负面答案放入每个问题的答案候选池中。因此，我们主要通过卷积神经网络（CNN）[ 8]来解决匹配问题，并通过结合特定特征进一步提高性能。更具体地说，我们使用TF-IDF和词重叠对金融数据集进行预处理，为QA文本生成额外的输入特征。之后，我们使用提出的QA框架提取重要特征，可以使用神经层生成问题和答案的分布式表示。本文的其余部分结构如下。第2节包含相关工作。在第3节中，我们描述了预处理的定义和实现，并分析了我们使用的模型。实验结果和讨论在第4节中呈现，最后，在第5节中给出一些结论性的评论。02 相关工作0如上所述，答案选择任务的目标是找到最佳候选答案。如果所选答案包含在相应问题的真实答案集中，则预测结果被认为是正确的。否则，它是不正确的。因此，该任务可以被视为二元分类问题。除了问题和答案的分布式表示之外，另一个重要的事情是给出一个度量来衡量QA对的匹配程度。Feng等人[4]提出了一个基于CNN的框架。问题和答案共享相同的CNN层来表示特征。它还尝试了几种常见的相似度度量，如余弦相似度。类似地，Pang等人[5, 9,10]提出了基于CNN的模型来匹配自然语言句子。Tan等人[13]考虑了CNN的缺点和0Track: Challenge #4: 多语言意见挖掘和金融数据问答 WWW 2018年4月23日至27日，法国里昂IDF = loдWO = nco�Nn=0(19560采用长短期记忆网络（LSTM）来建模QA对。LSTM本质上是一种循环神经网络（RNN），学习到的特征可以保留单词顺序，从而进一步提高模型的整体性能。03 模型描述0我们的问答模型（QA-Model）基于CNN。CNN在图像处理[7,8]和机器翻译[3]领域取得了良好的性能。我们可以借鉴将CNN应用于图像的经验，然后将其适应于金融问答任务。在CNN中，卷积核的大小始终远小于输入大小。因此，输出只与输入的一个窄窗口交互。CNN的另一个特点是在卷积操作中重用卷积核参数，而传统神经网络的权重矩阵中的元素仅用于计算输出一次。此外，通过将k-MaxPooling与CNN相结合，我们始终可以获得等变表示。如图1所示的整体框架中，问题单词序列位于输入层，嵌入层将其作为输入，生成问题的向量表示用于下一个卷积层。接下来是最大池化层和激活层。此外，答案的处理流程与问题相同。输入QA对的最终结果是两个向量表示之间的匹配分数。以下是提出的QA模型的详细描述。03.1 嵌入层0如图1所示，CNN的输入是一个单词序列（q = < q1, q2, ..., qd>，d为长度），单词向量（V，V ∈Rd）的维度为m。所有单词向量表示都来自基于金融训练数据使用word2vec [12]训练的词嵌入（W ∈ R|V|×d）。03.2 卷积层0卷积层是一种特殊的线性计算，用于提取模式。假设输入序列为 q =< q1, q2, ..., qd >（d为固定长度），第i个单词的向量为 Vqi = （m为嵌入向量的长度），它是从矩阵 Rd中得出的。卷积层将输入层投影到特征图中，计算如下：0P = ReLU(W * Vq + b) (1)0卷积权重 W 和向量 b 是需要学习的参数。ReLU是卷积神经网络中广泛使用的激活函数（在图1中表示为激活层）。P是输入的生成表示。此外，每个卷积层的步长由用户决定。对于这个任务，由于句子长度较短，我们使用步长为1，以最大化获取多个语义表示。03.3池化层0为了捕捉QA对的重要信息，我们使用池化函数将从先前的卷积层提取的所有表示P组合在一起。在本文中，我们更喜欢1-max池化，0这意味着我们考虑代表一个过滤器中最重要特征的最强值。03.4附加特征03.4.1TF-IDF特征。词频-逆文档频率（TF-IDF）[11]可用于确定在一组文档中哪些单词可能有利于在句子中使用。考虑到金融QA数据集，几乎每个QA对的主题都与其他QA对不同。这意味着每个QA对的关键词与其他QA对不同。对于每个QA对，关键词的TF低于其余单词的TF。同样，关键词的IDF远高于其余单词。IDF的计算如下：01 + | j : t i ∈ d j | (2)0其中 | D | 是所有QA对的数量，| j : t i ∈ d j | 表示包含单词 t i的文档数。因此，我们将计算所有单词的TF-IDF（TF ×IDF）值，并将这些值用于构建我们的提议模型。03.4.2单词重叠特征。单词重叠（WO）的计算如下：0n q (3)0其中 n common是问题和答案中都出现的单词数，我们可以称之为共同单词。n q是问题中的单词数。WO特征和共同单词将用于增强QA对的表示。03.4.3附加特征和神经网络的组合。使用TF-IDF和单词重叠的特征，我们提出以下特征组合方法。TF-IDF嵌入。对于一个单词，我们将原始单词向量和该单词的TF-IDF值连接起来生成TF-IDF嵌入。简单重叠。我们将余弦匹配分数和QA对的WO值连接起来，并将此表示馈送到全连接的神经层。最后一层的输出是最终得分，将用于判断QA对的匹配程度。TF-IDF重叠。在此方法中，我们使用所有共同单词的TF-IDF值。TF-IDF重叠的计算如下：0TF-IDF重叠 =0n q (4)0其中 N 是与QA对具有共同单词的数量。03.5训练损失函数0在训练过程中，我们总是为每个问题（Q）准备一个正答案（A+）和一个负答案（A-）。通过卷积层和池化层，我们的QA-Model可以捕捉问题（VQ）和答案（V A +和V A-）的分布式表示。最后，我们使用余弦相似度计算QA对的匹配分数，包括余弦（V Q，V A +）和余弦（V Q，V A -）。0跟踪：挑战＃4：多语言舆情挖掘和金融数据问答WWW 2018年4月23日至27日，法国里昂19570注意力权重（α）0问题词序列答案词序列0嵌入查找表0激活层（ReLU）0余弦匹配分数简单重叠或TF-IDF重叠0全连接层0输出层0最终得分0输入层0嵌入层0卷积层01-Max池化层0分布式表示0将其他特征合并以生成最终得分0连接0TF-IDF嵌入0图1：我们提出的解决方案的整体架构。0因此，我们最小化定义如下的排序目标函数：0L = max(0, M - cos(VQ, VA+) + cos(VQ, VA-)) (5)0其中M是常数边界，L是排序损失值。显然，损失函数的目的是增大正面答案和负面答案之间的距离。如果cos(VQ, VA+) > cos(VQ,VA-) +M，这意味着训练过程使得正面答案比负面答案更适合问题。否则，如果cos(VQ, VA+) - cos(VQ, VA-)

下载后可阅读完整内容，剩余1页未读，立即下载