创新：互联网时代下企业面对的挑战与机遇

42 浏览量更新于2023-10-15 收藏 541KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1979一种基于神经网络的非事实式问答系统框架Nam Khanh Tran，Claudia NiederéeL3S研究中心，Leibniz Universität Hannover德国汉诺威{ntran,niederee}@L3S.de摘要在本文中，我们提出了一个基于神经网络的框架表1：具有来自FiQA数据集的答案的问题的示例回答非事实性问题该框架由两个主要组件：Answer Retriever和Answer Ranker。在第一个组件中，我们利用现成的检索模型（例如BM25）以检索关于输入问题的候选答案池。然后使用答案排名器来选择最合适的答案。在这项工作中，我们采用了两个典型的基于深度学习的框架来构建Answer Ranker组件。一种是基于Siamese架构，另一种是比较-聚合框架。答案排名器组件基于流行的答案选择数据集单独评估。我们的整个系统使用FiQA数据集进行评估，这是一个新发布的金融领域数据集，并显示出良好的效果。关键词非事实性问答，表征学习ACM参考格式：Nam Khanh Tran Claudia Niederée2018年。一种基于神经网络的非事实式问答系统框架。在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。 ACM ， New York ， NY ， USA ， 5 页。https://doi.org/10.1145/3184558.31918301介绍问答（QA）是自然语言处理（NLP）和信息检索（IR）交叉领域的一项重要的终端用户任务 QA本身可以分为事实QA和非事实QA，前者能够检索事实，后者能够找到复杂的答案文本，如描述、观点或解释。表1示出了具有来自金融领域的真实答案的问题的示例。在本文中，我们给予更多的关注，非事实问答，并提出了一个两步框架，工作来解决这个问题：i）答案检索器-问题的分析和检索的候选答案; ii）答案排名器-排名和选择最合适的答案。虽然第一步骤可以通过使用现成的检索模型（例如，tf-idf，bm 25），第二步带来更多的挑战。第二个任务的一个主要挑战在于可以在问题和答案之间观察到的复杂且通用的语义关系。在非事实问答中，不同于许多其他的本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191830问：有一个单独的商业/投资银行账户，但不是商业账户？Ground-gruth回答：有一个单独的支票帐户的业务是有意义的。它简化了记录您的收入/支出。你可以解释进出账户的每一美元，而不必记住其中一些是用于非业务项目的。我看不出有必要为投资设立一个单独的支票账户。这笔钱可以放在一个单独的储蓄账户里，没有任何费用，甚至可以赚取一点利息。匹配任务时，问题和答案之间的语言相似性可以指示好的答案，也可以不指示好的答案;取决于问题在寻找什么，好的答案可以以不同的形式出现。有时候，正确的答案会准确地用缺失的信息来完成问题，而在其他情况下，好的答案需要详细说明问题的一部分，以使其合理化在其他情况下，最佳答案也可能是嘈杂的，包括与问题无关的无关信息。此外，虽然一个好的答案必须与问题相关，但它们可能没有共同的词汇单位。最近，提出了基于深度学习的方法来解决这些挑战，并显示出有竞争力的结果[5，9，12]。原则上，它们基于Siamese架构[4]和Compare- Aggregate框架[11]。在第一架构中，相同的神经网络编码器（例如，CNN或LSTM）被单独地应用于问题和答案序列，使得两个序列都被编码为相同嵌入空间中的潜在向量然后，仅基于两个特征向量[5，9]进行匹配决策在第二种架构下，首先匹配问题和答案序列的较小单元（例如单词或上下文向量），然后将匹配结果聚合（通过CNN或LSTM）到向量中以做出最终决策[11，12]。在这项工作中，我们采用这些架构，我们的答案排名组件，并评估其性能上的两个不同的非事实答案选择数据集，即。保险QA和FiQA。为了评估我们的整体系统以及参加WWW 2018挑战赛1，我们报告了FiQA数据集上的系统性能。1https://sites.google.com/view/fiqa/home挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1980.ΣQ（）下一页--联系我们J（（−））（（））J .（）下一页αtha（t）（1）.ΣTJ =aj⊙hj（f注意 =softmax不oa=W m（t）2我们的系统在下文中，我们描述了我们的用于非事实QA的系统，其由如图1所示的两个组件组成：（1）用于找到候选答案的答案检索模块，以及（2）用于选择最合适答案的答案选择模型，答案排名器。2.1应答检索器其中，Wa、Wq是关注权重矩阵，并且w是关注权重向量。BilinearAttention：In [3]，Chen et al. 提出了另一种注意力模型，该模型使用双线性项代替双曲正切层，并在机器阅读理解任务中显示了其有效性。我们调整该模型来估计注意力函数fattention：fattention=softmaxt oTWsha（t）（3）遵循经典的QA系统，我们使用一个高效的（非机器学习）答案检索系统，首先缩小我们的搜索空间，并专注于只排名可能相关的答案一个简单的倒排索引查找，然后是术语向量模型评分，在这个任务上表现得很好。特别地，我们的答案检索器基于流行的信息检索模型，即，查询似然语言模型和BM25.2.2答案排名在本文中，我们更加关注的第二个组件，使选择合适的答案从一个列表中的候选答案的输入问题。我们的答案排名模型的灵感来自最近成功的神经网络模型在这项任务。通常情况下，以前的工作，如[5，9，12]是基于两种类型的深度学习框架。一个是Siamese架构[4]，另一个是比较-聚合框架[11]。我们采用这两种类型的框架来创建答案排名器SRanker和CARanker，如下所述对于两个答案排名器，给定由m个令牌组成的问题q和l到-的候选答案a其中Ws是注意参数。在SRanker中，我们采用成对排序的方法来定义我们的目标函数。首先，使用两个向量〇q和〇a之间的余弦相似性来对输入对进行评分，即并且铰链损耗训练目标定义如下：L=max{ 0，λ−sim（q，a+）+sim（q，a−）}（4）其中a+是真实答案，a是从整个答案空间随机选择的不正确答案，并且λ是裕度。在非事实问答数据集中，我们将具有多个基础事实的任何问题视为多个训练示例。在训练过程中，对于每个问题，我们随机抽取K个否定答案，但只使用L最高的答案来更新模型。CARankerCARanker基于比较-聚合模型[11]，如图3所示。一般来说，该模型可分为四层：单词表示层：与[11]类似，我们对问题和答案进行预处理，如下所示：kens，首先检索q和a两者的词嵌入（WE），其是向量q=q1，…qm且a=ai，…其中每个qi（aj）是d维向量。qi=σ（W1qi+b1）⊙tanh（W2qi+b2）aj=σ（W1aj+b1）⊙tanh（W2aj+b2）其中W1、W2和b1、b2是网络参数。（五）SRanker是基于siamese架构[4]。首先，在两个WE序列上分别应用双向LSTM，为问题和答案创建隐藏向量，即hq（t）=LSTM（h−→q（t−1），qt）LSTM（h←−q（t+1），qt）且ha（t）=注意力层：如图3所示，在该层中，我们计算问题向量qi和答案向量aj的注意力矩阵E={ei j}，并如下获得软对齐子短语H={ha}eij=qi*ajLSTMh−→at1，atLSTMh←−at+1，at。令oq表示问题的最终表示，通过在所有隐藏向量上取最后一个隐藏向量hq（m）或最大/均值池化来表示。ha=Mi=1softmax（eij）qi（六）向量令Ha ={Ha ⑴，Ha ⑵，…ha（l）}表示隐藏状态其中ha是q中与aj对齐的对应向量。在模拟答案的时候。而不是使用最后一个隐藏状态J比较层：此比较层的目标是匹配或者对所有隐藏状态求平均值或最大值，注意力机制是每个aj（a中的第j个单词及其上下文）具有ha（a加权应用：与a最匹配的q版本Jj）。这里我们采用一个比较αt∝。我的天啊！oq，ha（t）Σ功能如下：a a其中⊙是逐元素乘法。一其中hat是在时间t的答案的隐藏状态。基本上，注意力机制给予对结果表示有更多影响的词更多权重。在斯兰克，我们采用聚合层：最后，我们使用单层CNN[7]聚合向量tj：ra = CNN（[t a，t a，...，t a]）注意力的两个最常用的实现12L（八）函数：MLP Attention [9]和Bilinear Attention [3]。MLP注意：在[9]中，Tan et al.建议计算f注意力通过多层感知器如下：m（t）=tanhWa.ha（t）+WΣqoq（二）挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1981sa=tanh（Wsra+bs）其中，W_s和b_s是预测层的权重最后的比分然后，使用SA来对候选答案进行排名。正如Bian et al.[2]，我们采用了列表排序我们的Caranker的方法具体地，我们馈送问题Q和一组候选答案A ={A1，A2…和目标标签集挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1982⋯⋯1⊗ℎ��12⊗ℎ��2斜纹布⊗ℎ��L⋯⋯CNNn.--L=n| |1问：有一个单独的商业/投资银行账户，但不是商业账户？应答检索器答案排名A3.我看不出有必要为投资设立一个单独的支票账户。这笔钱可以放在一个单独的储蓄账户里，没有任何费用，甚至可以赚取一点利息一Q图1：我们的非事实问答系统概述目标标签也需要通过Y=Y进行归一化KL发散损失被用于训练我们CARankeir=1yi1 .一、n. 最后问题回答3实验装置3.1数据集首先，为了评估我们的答案排名器，我们基于两个不同的答案选择数据集进行实证图2：SRanker概述聚合层比较层anceQA和FiQA。这些数据集包含不同领域的文本，并表现出不同的特征：InsuranceQA-这是最近发布的来自保险领域的大规模非事实QA数据集，由Feng等人创建。[6]的文件。在这项工作中，我们使用的数据集的第一个版本。数据集已经被划分为训练集、验证集和两个测试集，其中一个问题可能有多个正确答案，并且通常问题比答案短得多。令牌中问题和答案的平均长度分别为7和95。对于开发和测试集中的每个问题，存在500个候选答案的集合，其包括地面实况答案和随机选择的否定答案。更Attention层单词表示图层12⊕（）详情可参见[6]。FiQA- 该数据集最近已为WWW 2018挑战赛发布该数据集通过抓取Stackex-change、Reddit和StockTwits来构建，其中部分问题是固执己见的，针对挖掘的意见及其各自的实体、方面、情感极性和意见持有者。我们最低限度地预处理数据，只执行图3：CARanker的概述代表注意力OP-运算，表示逐元素乘法Y= y1，y2…yn进入模型，然后得到归一化的得分向量S：S= softmax（[sA1，sA2，…sAn]）⑼标记化和小写所有单词。为了减少产生的词汇量的大小，我们删除所有出现少于5次的罕见单词。词汇表的长度V=22413，令牌中的问题和答案的平均长度分别为11和135。我们将数据集分为训练集、开发集和测试集，分别由5999、323和324个问题组成。要评估我们的答案排名，回答统计Σ）12$塞吉&*关注......这是什..................$⊗ℎ��$A1.如果这能让你的财务状况更好，为什么不呢？我和我的妻子在结婚前就有了他的/她的/我们的…A2.这是一个危险的主张。你不应该把商业开支和个人开支A3.我看不出有必要为投资设立一个单独的支票账户。这笔钱可以放在一个单独的储蓄账户里，没有任何费用，甚至可以赚取一点利息⋯··KL（S ||Y）（1挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1983--[-]表2：FiQA数据集的统计对于开发和测试集中的每个问题，我们通过包括正确答案和从唯一答案的完整集合中随机选择的候选来构建答案库最后，每个问题有500个候选答案。表2显示了关于数据集的一些统计信息，包括表3：关于保险QA的答案排名器的实验结果。第一组报告InsuranceQA的几个基线的结果。Siamese-LSTM的结果在第二组中报告。我们报告的性能SRanker和CARanker在最后一组。模型测试1测试2Siamese-LSTM0.7430.6430.719 0.617每组问题的数量、问题的平均长度和答案以及开发和测试集中候选答案的平均数量为了评估我们的整体系统，我们在FiQA数据集中的开发和测试集中与Answer Ranker评估不同，这些问题首先通过AnswerRetriever来检索候选答案池然后，应用在FiQA答案选择数据集上训练的答案排名器来选择肯定答案。SRANKERmlp0.7900.6930.762 0.648SRanker双线性0.7810.6890.755 0.658卡兰克0.7830.6860.756 0.652表4：答案排名器对FiQA的实验结果。Siamese-LSTM的结果在第一组中报告SRanker和CARanker的结果显示在第二组中。3.2实现细节我们的答案检索器是基于Apache Lucene实现的2我们尝试了bm25和查询似然语言模型（LM）作为我们的检索模型，最后使用bm25，因为它产生了稍微好一点的结果。对于每个输入问题，我们使用bm25模型返回的前50和前100个答案作为答案选择步骤的候选答案。我们的答案排名器的培训如下。使用Adam优化器[1]以0的学习率优化模型参数。001. 参数被正则化，每minibatch的L2正则化强度为10 −5，dropout为d = 0。2也适用于防止过拟合。我们初始化了单词嵌入使用300维Glove vectors [8]在8400亿个单词上训练不存在于手套向量中的单词的嵌入用从0上的均匀分布采样的每个分量随机初始化。25，0。二十五在{50， 100， 150}之间调整批次大小，并最终设置为100。LSTM层的隐藏大小对于FiQA设置为512，对于InsuranceQA设置为141。我们在铰链损失函数中尝试了不同的裕度λ，并最终将裕度固定为λ = 0。2. 在训练期间使用多个否定答案K=50单词嵌入也是参数的一部分，并且在训练期间进行优化。CARankerA批次大小在{30，50，100}之间调整，并最终设置为 30 。对于 FiQA ，隐藏层的维度设置为 300 ，对于InsuranceQA，隐藏层的维度设置为282。对于每个肯定答案，否定答案的数量在从答案集合中随机选择的5、 10、 20、 50之间调整词嵌入在CARanker中的训练期间不更新。由于小批量内的序列具有不同的长度，我们使用掩码矩阵来指示每个序列的实际长度我们2https://lucene.apache.org/SRANKER双线性0.558 0.606 0.506运输车训练所有模型最多20个时期。在这项工作中，我们使用平均倒数秩（ MRR ），精度 @1 （ P@1 ）和归一化贴现累积增益（NDCG）在前10名作为我们的评估指标。我们在每个时期对开发集进行MRR评分，并保存前三个模型的网络参数我们从保存的模型中报告最佳测试分数所有型号都是在具有NvidiaGTX Ti 1080 GPU（12GB RAM）的Linux机器上构建的。复制报告结果的代码可在 www.example.com 上公开获得https://github.com/namkhanhtran/nn4nqa。4实验结果在本节中，我们首先介绍我们的答案排名器在InsuranceQA和FiQA数据集上的结果，然后描述我们的系统在FiQA数据集上的整体性能4.1答案排名我们的答案排名模型的结果如表3和表4所示。总的来说，我们的模型比简单的Siamese-LSTM模型表现得更好。这是由于非事实问答中的答案通常是嘈杂的，并且包括与问题无关的无关信息，这无法由简单的Siamese-LSTM模型处理这证实了以前的工作[9，10]的结论，其中基于注意力的模型优于基本的暹罗匹配模型。此外，SRanker和CARanker获得了可比的数据集培训开发测试平均Q Avg.A CA数量保险QA12887 1000 1800x2795500FiQA5999 323 32411135500MRRP@1MRRP@1CNN（Feng et al.[6]）-0.628-0.592CNN-GESD（Feng et al.[6]）-0.653-0.610AP-LSTM（Tan et al.[9]）-0.690-0.648IARNN-Gate（Wang等人[10]）-0.701-0.628模型NDCG MRRP@1Siamese-LSTM0.5090.5660.469斯兰克0.5620.6160.509挑战#4：金融数据的多语言意见挖掘和问题回答WWW 2018，2018年4月23日至27日，法国里昂1984表5：我们的系统在FiQA上的总体性能。考虑由AnswerRetriever返回的前100个候选答案型号NDCG MRR P@1 SRankermlp0.248 0.232 0.115引用[1] 吉米·巴和迪德里克·金玛2015. Adam：A Method for StochasticOptimization. 在国际学习代表会议上。[2] Weijie Bian，Si Li，Zhao Yang，Guang Chen，and Zhiqing Lin.2017年。基于动态剪辑注意力的比较-聚集模型及其答案选择2017年ACM信息与知识管理会议论文集。1987-1990.[3] Danqi Chen，Jason Bolton，and Christopher D.曼宁2016年。的透彻斯兰克双线性0.252 0.242 0.138CNN/Daily Mail阅读理解任务的检查法律程序计算语言学协会第54届年会（卷车辆表6：我们的系统对FiQA的总体性能。从Answer Retriever中获取前50个候选答案型号NDCG MRR P@1 SRankermlp0.278 0.242 0.119SRANKER双线性0.297 0.268 0.153运输车辆而CARanker在FiQA上优于SRanker。表3还显示，与以前的基线相比，我们的Answer Ranker模型获得了类似的性能。4.2完整的非事实性问题回答表5和表6示出了我们的系统用于回答来自FiQA数据集的非事实问题的整体性能。结果表明，通过使用答案检索器的前50个候选答案，我们的系统性能略好于使用前100个候选答案。此外，SRanker bilinear和CARanker表现出相当的性能，并且都优于SRanker mlp。一种可能的解释是，CARanker和SRanker双线性通过乘法直接建模问题和答案之间的交互，而SRankermlp通过tanh层间接建模这种交互。此外，可以观察到，这里的结果低于表4中的结果。这是由于正确答案可能不包括在从答案检索器（bm25）返回的候选答案中的事实。可以使用更高级的方法来提高答案检索步骤的性能。5结论我们已经提出了一个基于神经网络的框架，用于处理非事实问答。我们的框架包含答案检索器，它检索一个池的候选人的答案和答案排名，选择最相关的答案从答案池。对于 AnswerRanker，我们采用了最近的基于深度学习的方法，其旨在学习问题和答案的低维向量，执行匹配并可能聚合匹配分数以用于最终答案排名。实验结果表明，我们的答案排名获得可比的性能开始的最先进的方法和整体我们的系统取得了可喜的成果。致谢这项工作部分由德国联邦教育和研究部（BMBF）资助，用于项目eLabour（01UG1512C）。1：长篇论文）。2358-2367[4] Sumit Chopra Raia Hadsell和Yann LeCun。2005年区别性学习相似性度量，并应用于人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR '05）的会议记录中-第1卷-第01卷。539-546[5] Cicero dos Santos，Ming Tan，Bing Xiang，and Bowen Zhou.2016年。注意力集中网络。参见CoRR，abs/1602.03609。[6] 放大图片作者：Michael R.Glass，Lidan Wang，and Bowen Zhou.2015.将深度学习应用于答案选择：一项研究和一项开放任务。在自动语音识别和理解研讨会。813-820[7] 金允。2014.用于句子分类的卷积神经网络。2014年自然语言处理经验方法会议（EMNLP）论文集。1746-1751年。[8] Jeffrey Pennington，Richard Socher，Christopher D.曼宁2014年GloVe：单词表示的全局向量。自然语言处理的经验方法1532-1543年。[9] Ming Tan，Cicero dos Santos，Bing Xiang，and Bowen Zhou.2016年。改进的问题答案匹配表示学习。第54届计算语言学协会年会论文集（第1卷：长篇论文）。464-473[10] 王秉宁，刘康，赵军。2016年。基于内注意的递归神经网络答案选择。第54届计算语言学协会年会论文集（第1卷：长篇论文）。1288[11] 王硕航和姜静。2017年。一种文本序列匹配的比较-聚合模型。第五届学习表征国际会议论文集。[12] Radu Florian Zhiguo Wang，Wael Hamza. 2017.自然语言句子的双边多视角匹配。在第26届国际人工智能联合会议上，IJCAI-17。4144-4150

下载后可阅读完整内容，剩余1页未读，立即下载