LSTM自动编码器学习中文句子表示

4 浏览量更新于2023-10-15 收藏 12.72MB PDF 举报

深度学习

情感分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4030使用LSTM自动编码器学习中文句子表示0Mu-Yen Chen 信息管理系台中科技大学台湾mychen@nutc.edu.tw0Tien-Chi Huang 信息管理系台中科技大学台湾tchuang@nutc.edu.tw0Yu Shu 工业教育与技术系国立彰化师范大学0台湾vera.yushu@gmail.com0Chia-Chen Chen 管理信息系统系国立中兴大学台湾emily@nchu.edu.tw0Tsung-Che Hsieh 信息管理系台中科技大学台湾s4851798@gmail.com0Neil Y. Yen计算机科学与工程学院会津大学日本 neilyyen@u-aizu.ac.jp0摘要：0本研究保留了使用自动编码器（AE）的原始文本的含义。本研究使用不同的损失（包括三种类型）来训练神经网络模型，希望在压缩句子特征后，仍然能够解压缩原始输入句子并正确分类目标，如积极或消极情感。通过这种方式，它应该能够获取句子中更相关的特征（压缩句子特征），而不是使用可能通过无意义的特征（词语）进行分类的分类损失。结果表明，本研究发现添加额外的特征以纠正错误不会干扰学习。此外，并不是所有的词都需要在应用AE方法后无失真地恢复。0关键词：0深度学习，自动编码器，长短期记忆（LSTM），中文句子表示，情感分类0ACM参考格式：0M. Y. Chen, T. C. Huang, Y. Shu, C. C. Chen, T. C. Hsieh, and N. Y. Yen.2018. SIG Proceedings Paper in word Format. In The 2018 WebConference Proceedings (WWW 2018), April 23-27, 2018, Lyon, France,IW3C2, 6 pages. DOI:https://doi.org/10.1145/3184558.318635501 本论文采用知识共享署名4.0国际许可协议（CC-BY4.0）发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW '18 Companion 2018年4月23日至27日，法国里昂。©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。DOI: https://doi.org/10.1145/3184558.318635501 引言0情感分析主要应用于情感数据挖掘，以确定当前状态。因此，它主要被酒店、餐厅和在线购物平台用于收集客户意见[1]。首先，这些方法面临的一个常见问题是如何确定用户消息和评论的情感含义。为了解决这个问题，机器应该被训练以理解句子的意思。最传统的方法是找到关键特征词并对其进行分类。例如，广为人知的词频-逆文档频率（TF-IDF）。然而，它没有考虑词汇之间的复杂关系。为了解决词汇之间的隐含关系[2]，研究人员尝试使用奇异值分解（SVD）、主成分分析（PCA）和其他降维方法进行特征提取。通过这样做，句子不仅仅是分析关键词的特征，而是投影到其他向量上，随后可以显示它们的隐含特征。这个概念可以解释为研究人员试图使用连续向量来表示离散的句子。然而，这种方法不能真正显示句子的隐含特征。它只是针对文本中显示的词汇组合。对文本句子的提取研究一直在进行中。近年来，谷歌将其word2vec作为开源工具[3]，给词向量定义赋予了新的意义，它在句子结构上建立了词向量之间的隐含影响关系。这个想法为文本分析和特征提取的研究开辟了新的道路。近年来，深度学习方法在从大量数据中提取复杂特征方面变得流行。它也常用于涉及自然的研究领域中。0Track: 认知计算 WWW 2018，2018年4月23日至27日，法国里昂4040自然语言处理（NLP）。文本特征可以从许多方面提取，例如关键词特征、词汇之间的影响关系或句子的语法结构。然而，使用传统的统计方法在大数据维度下提取文本中的复杂关系可能需要大量的研究资金。此外，提取的特征应符合用户提出的假设情况。另一方面，深度学习方法极大地简化了许多复杂关系，同时采用迭代方法来近似传统统计方法内外的未发现特征。在使用深度学习方法进行文本分析时，卷积神经网络（CNN）和循环神经网络（RNN）是两种常用的结构。Kim[4]在他的实验中采用了CNN，其中根据每个窗口的过滤器大小收集了句子中词汇的特征，以将其分类为积极或消极情感。DosSantos＆Gatti[5]使用多个CNN结构对短文本进行效率实验。Li＆Qian[6]使用长短期记忆（LSTM）对文本情感进行多分类研究。值得注意的是，使用深度学习方法提取特征可能会导致过拟合。直观地说，根据无意义的词汇来正确确定积极或消极情感对于分类器来说是不合理的。因此，该研究在这方面使用自动编码器（AE）保留原始文本的含义。它作为一种常用的无监督神经模型用于压缩。该研究希望在压缩句子特征后，仍然能够解压缩和恢复原始输入句子。这样，这种压缩特征可以显示句子的隐含含义，而不是无意义词汇的特征组合。该研究使用LSTM来提取句子的隐含含义。为了确保提取的特征能够提供更好的解释，该研究融入了自动编码器的概念。该研究的假设是，当所有分类模型达到一定水平的准确性时，LSTM与AE提取的隐含含义与LSTM直接提取的隐含含义之间的差异在于前者具有更深入和更直观的含义，因此更接近预期的含义。02 文献综述02.1 情感分析0情感分析用于通过从文本中提取特征来理解文本的情感。目前有两种方法。一种是通过查询情感词典从文本中搜索[7]。从句子或文章中搜索的词汇被加权或评分。根据加权或评分确定情感的类型。另一种方法是通过进行机器学习来进行特征学习和分类。该研究使用后者。Ortigosa等人[8]挖掘了Facebook的英语词汇数据库，以绘制一个人的0情绪波动。整个过程包括数据收集、数据清洗和词汇数据库的建立（以获取特征词汇）。最后，使用支持向量机（SVM）、C4.5和朴素贝叶斯对句子进行分类。基于传统向量表示方法的输入模式通过比较句子和词汇数据库中显示和不显示的特征词汇来展示。Kim[4]采用CNN训练语义模型。由于CNN会自动使用滑动窗口收集特征，它主要作为输入的相邻词汇的收集器。Li等人[9]在微博上进行了语义挖掘，主要收集与灾难相关的文章。首先，使用Google的word2vec对文本进行预训练。然后，使用CNN进行分类和建立模型。他的文章的主要目的是挖掘词汇的特征。采用类似于词向量压缩的方法对设置的词向量内的句子进行分类。句子被分类为积极或消极情感。CNN的过滤属性用于观察选择的词汇，以确定“积极”和“消极”类别中的重要特征词汇。02.2 深度学习用于语义提取02.2.1语义向量。语义向量应首先通过小的词向量来观察，这可以被视为从离散的词汇词到具有意义的向量的转换的表示。在所有传统的转换方法中，BOW（词袋）的one-hot表示是最常用的。然而，这种方法表示的含义只能识别不同的词汇词，而类似的词可能需要参考同义词词典，使实际处理更加复杂。因此，随后的研究倾向于使用矩阵分解来提取词汇词和数据之间的关系。词向量应该包含更多的含义。因此，近年来的语义研究开始更加关注这一点。Mikolov等人[10]提出的词向量是指使用滑动窗口收集单词及其相邻单词（可以视为目标单词和目标单词旁边的特征单词）进行浅层神经网络训练。训练后，隐藏层将表示输入单词的词向量（类似于压缩的概念）。词向量的概念和其粒度可能会增加，意味着它可能超越词与词之间的关系。该概念也可以应用于句子和文章，以研究它们之间的关系。2.2.2文本分析的深度学习。程等人[11]训练了从微博收集的词汇数据，并采用RNN对每个间隔之间的输入进行文本特征分类。周等人[12]对QA（问题回答）系统进行了研究，旨在澄清问题和答案之间的隐含关系。他们的数据由YAHOOAPI提供。该研究希望在将问题和最佳答案投影到某个向量上之后，近似问题和最佳答案，因此使用自编码器来压缩语义含义。最后，使用SVMRank进行排序。0Track: 认知计算 WWW 2018年4月23日至27日，法国里昂， |�| is 4050该研究希望通过这样做，首先可以推荐最佳答案。陈等人[13]也对QA系统进行了研究。它使用从WIKI收集的数据进行训练，并使用RNN结构作为提取问题和答案之间隐含特征的模型。Araque等人[14]使用了六个开源数据集，全部来自Twitter和电影评论。这些数据集都被标记为“积极”或“消极”。在输入数据之前，对数据进行了预处理，删除了标点符号、URL、数字、用户名和其他无关的词语。使用卷积向量来提取情感极性预测的深度特征。在预测过程中，可以提取新数据中的单一逻辑特征。每个表面特征将被放入一个类别，作为其完整特征。然后，为新输入数据定义目标字段的特征，以根据其特征识别训练来确定目标字段。在实验结果中，根据不同的指标评估了六个数据集的准确性。Gui等人[15]采用线性方程来匹配产品评论的统计特征和产品用户之前的文字。然后，他们重构了一个新的特征向量，根据CNN进行分类。结果表明，这种转换是有效的。Park等人[16]从2010年到2014年收集了611,590篇新闻文章。在棒球比赛中，记录了每个球员的每一个动作以进行统计。他们的数据来自韩国棒球组织（KBO）提供的官方记分表。该研究提出了一种基于深度学习的球员评估模型。它结合了定量统计分析和新闻文章的定性分析。体育统计数据被用来将球员的表现分类和标记为“积极”或“消极”。这些标签被用作与评级球员相关的文章的目标字段。标记的文章被用于深度神经网络（DNN）分类器对逐句识别进行训练。根据QA系统的结果，他们的研究证明了在预测棒球比赛结果时使用极性分数是合理的。Ronnqvist和Sarlin[17]提出了使用深度学习方法来研究文本相关讨论的方法。他们还通过使用DNN提取自然语言描述特征。该模型基于语义向量的无监督学习机制，验证了新闻文章在金融风险研究中的适用性。此外，他们给出了示例来解释文本和不断更新的、广泛适用的描述性数据如何作为金融和系统分析的有用补充来源。Kraus和Feuerriegel[18]使用RNN从时间序列中提取特征，并发现高度非线性关系。他们使用不同的词汇数据库来预测股票趋势，并证明与传统机器学习方法相比，准确性更高。因此，揭示深度学习的商业价值是有帮助的。03 带有自编码器分类器的LSTM0本章解释了本研究的结构。首先，研究在恢复之前提取句子的特征，以确保这些特征具有更深层次的含义，而不仅仅是修改权重。本研究考虑的错误包括：单词恢复引起的错误和分类引起的错误，如下所示的公式：0所述特征，以确保所述特征具有更深层次的含义，而不仅仅是修改权重。本研究考虑的错误包括：单词恢复引起的错误和分类引起的错误，如下所示的公式：Loss �� . �� 是自编码器的损失。�� 是目标的损失，包括正面和负面情感。理论上，如果每个单词的错误严重到影响分类的效率，那么在被压缩的句子中无法提取出更深层次的含义，或者提取出的语义含义与分类设置的目标完全无关。这意味着本研究的假设在机器学习方面是无效的。相反，如果经过聚合的错误对分类没有太大影响，提取出的语义含义对抽象概念具有一定程度的解释。0图1.带有自编码器分类器的LSTM。左侧：基于自编码器的特征提取层，通过LSTM执行。右侧：用于分类（正面或负面情感）的目标；输出层都连接到softmax层。0首先，本研究使用LSTM来提取句子的概念和特征。原因是使用传统的RNN经常会导致梯度消失的严重问题。Chung等人也提出了同样的观点，因此假设每个句子中的单词顺序的重要性。由于人类倾向于从单一的角度理解一个句子的含义，因此句子从句子的开头输入到LSTM中。下图显示了LSTM修改权重的逐步过程。融入了自编码器（AE）的概念，因此其最终目的是在被压缩后输入自身以期望恢复自身。压缩的语义向量存储在256个神经元中。最后输出的目标节点数应等于字典中的单词数。LSTM和AE计算错误的公式是交叉熵，如下所示：0− ∑ |��| (�� log(�� )) |��| �� |�|0是句子的长度；w是句子中当前单词的索引；i是单词的BOW索引；0是保留值，因此计算从1开始；|BOW|是字典中单词的总数；real是实际目标值；predict是预测值。0论文集：认知计算 WWW 2018，2018年4月23日至27日，法国里昂 This chapter introduces the experiment environment of this study, which include the hardware part and the software part. Regarding hardware, the operating system is Ubuntu (64-bit), which comes with 4 CPUs and a 12G RAM. Regarding software, the study uses Python 3.6 for development. Software used for development kit includes Jieba and Pytorch. Jieba kit is an open source software from github for segmentation of Chinese characters. It is also compatible with a wide array of programming languages such as PHP, Python and R. The study uses Jieba 0.39 for segmentation and performs random manual inspection to check whether the segmented sentences make sense. Pytorch is a deep learning framework that evolved from the deep learning software developed by Torch7 for Lua. Later it was transferred to Python, hence named Pytorch. In recent years, tech giants such as Facebook, twitter and others have relied on Pytorch for software development, therefore it has become widely known. The study uses Pytorch because of its user-friendly framework design. 4.2 Experiment Process This section briefly explains the process of the experiment, which includes four stages: data collection, data pre-processing, categorization and modeling experiment, and model evaluation. Details of each stage are given in the followings. 4.2.1 Data Collection. The Chinese lexical data is collected from datatang. After deleting repeated ones, there are 16680 sets of data, among which positive sentiments for 8680 and negative sentiments for 8000. It can be inferred that data amount of both categories are on the same level. In addition, because they have yet been processed, every sentence is a complete comment and can be put into either one of the category. It is worth noting, however, that every sentence varies in length, and the sentimental lexical words in a comment may conflict with the category of the comment. The reason is that the labeling of each comment is based on the narrative of the whole sentence. Therefore, while the comment goes on, it may mix positive words with negative ones. Use traditional methods and view the weighting of each word as equal may result in great errors in constructing the modeling learning. Thankfully, models like LSTM would adjust the weighting of each word sequence, making learning easier. 4.2.2 Data Pre-Processing. This study uses dictionaries provided by Jieba for segmentation. Punctuation marks are all deleted. The study also makes the length of all sentences uniform, in that although sentences of different lengths can be input into LSTM for training, sentences that are too lengthy get higher weighting. Therefore, to solve the problem, the study makes all sentence lengths equal. If a sentence exceeds the maximum length, the maximum length would be extracted; insufficient parts are made up by padding. Furthermore, because this method may seem unfair in certain circumstances, the study adopts the try-and-error method to figure out the threshold for said batch of data. 4.2.3 Categorization and Modeling Experiment. Modeling is performed in this stage for input of processed sentences. Here, sentences can be categorized into positive sentiment or negative sentiment based on the model. This stage is mainly divided into two parts: feature extraction and sentiment categorization. Feature extraction is performed by one-way feature matching. Autoencoder is also used for addition of extracted features modified by compressed and restored errors. The positive and negative sentiment categorization is performed after determining the semantic features. The study compares proposed models and LSTM without Autoencoder. In addition, regarding the definition of loss function, the study proposes 2 hypotheses. One is that the weighting of all words equals that of the final sentiment targets; therefore, errors in �� are directly aggregated. Another is that the weighting of all 4060是预测值。总的来说，该公式将一个句子中所有单词的错误聚合起来。0图2.带有自编码器的LSTM。每次输入一个句子进行压缩。之后给出解压缩的错误反馈。在预测过程中，目标是字典中最有可能的候选词。0基于上述方法，可以从句子中提取重建特征。使用256维的向量。本研究使用这个特征来对正面和负面情感进行分类，提出以下计算错误的公式：0− ∑ |��| (�� log(�� )) �� . |class|是目标类别的总数，即正面和负面情感。0图3. 简单神经模型。输入：通过LSTM压缩的隐含含义。04 实验设计与过程04.1 实验环境0Track: Cognitive Computing WWW 2018, April 23-27, 2018, Lyon, France �|�| �|�|1 51.79 13.23 64.78 2.19 53.44 2.13 4070每个句子的权重等于最终情感目标的权重，而每个句子中每个词的权重都相同。该研究将原始公式稍作修改为：0�� 。目的是0简单地检查根据新增词汇引起的错误所做的修改是否对分类目标产生积极或消极影响。4.2.4模型评估。由于仅使用平衡的数据集来显示返回的错误是否对积极或消极情感的分类产生积极或消极影响，因此本研究采用整体准确率进行评估。损失值来自每个数据批次，但为了更清晰地呈现，它们以每个示例的平均错误值的形式显示。05 实验结果05.1 数据描述0本研究使用的开放词汇数据集的原始数据[20]分布如下。经过检查数据，研究删除了重复和无效的句子，只留下16680组数据，其中积极情感分类为8680组，消极情感分类为8000组。句子的平均长度为54.79个词。数据序列也是随机的。用于训练的数据总共为14440组。其余的2240组用于测试。训练和测试的比例约为9:1。05.2 实验结果和分析0在本研究中，时期设置为10。为了缩短实验所需的时间，批次大小统一设置为32，初始数据分配给批次。值得注意的是，如果批次大小太大，可能会将一些特征分配给同一批次，从而降低训练效率；如果太小，计算时间可能会增加，并且算法可能对少数特征更敏感。这些类型的神经模型包括LSTM。本研究中LSTM参数的输入维度设置为50，以与词嵌入的维度相对应。内部部分只有一个隐藏层，节点数为256。丢弃大小设置为0.3。采用的优化器是Adam，主要是因为传统的梯度下降方法可能会导致局部最优解；因此使用更先进的算法Adam。关于损失函数，本研究选择了交叉熵损失方法，主要是因为它对离散类别的错误提供了更好的计算。当学习率设置为0.001时，批次学习的效果更好。学习率过高时无法收敛。下表显示了实验结果。值得注意的是，本研究使用随机种子来锚定随机函数，因此每个时期都提供相同的训练数据来执行反向传播以修改神经网络模型。相同的数据用于模型测试。平等地使用这些数据不会导致反向传播或0参数的修改。结果如表1所示。其中，平均损失是所有批次损失值之和除以样本数量得到的。从表中可以推断出，在第10个时期之后，每种实验方法的整体准确率都在85%以上，平均错误率逐渐降低。时期似乎还没有达到最佳收敛。但显然，尽管由于词压缩引起的错误修正影响了收敛速度，但有利于分类。在第10个时期之后，带有AE的LSTM的错误率显著降低。即使每个词的权重等于“正面”和“负面”类别的权重，也可以大大减少错误，而不会干扰学习。加权后，带有AE的LSTM与LSTM没有区别。这可能是因为每个词的权重减少不足，整个句子的词权重等于情感类别的目标权重，导致神经模型在情感分类中获得更多好处。因此，为每个词设置适当的权重也很重要，这可能能够在训练效率和概念解释之间取得平衡。0表1：分类模型的每个Epoch0Epochs 带有自动编码器的LSTM带有自动编码器的LSTM（权重损失） LSTM0- 准确率平均损失准确率平均损失准确率平均损失02 51.79 11.64 70.09 2.00 71.74 2.03 3 51.79 11.0478.30 1.53 84.46 1.53 4 52.99 9.81 84.46 1.15 84.911.10 5 67.14 7.15 83.62 0.96 85.27 0.89 6 81.79 4.9184.42 0.81 85.31 0.74 7 80.63 3.46 86.43 0.69 83.930.64 8 81.78 2.67 85.71 0.59 86.29 0.55 9 86.16 2.1987.54 0.52 87.14 0.48 10 86.96 1.82 87.68 0.46 87.280.41 单位：百分比（%）0本研究使用上述模型进行了10次epoch的测试以检查其输出。以下是其中包含32个样本的一个批次。该批次的准确率为75%。其中，一个样本A被错误地预测为负面情感，实际上应该是正面的。另一个样本B被正确地预测为正面，正如它应该的那样。在经过自动编码器压缩后，样本A的畸变率较高。研究认为每个词对目标的权重有不同的影响。因此，不需要无畸变地恢复压缩。只要重要的词特征和句子结构（如强调语气）可以被压缩，就可以基于抽象语义概念进行正面和负面情感分类。0经过自动编码器压缩，样本A被扭曲。这是正常的。0因为测试数据没有用于训练。因此，在数据训练中，应该经常出现一个小段落（或单词）的组合。从样本A可以知道，扭曲的单词不会影响人类对情感的分类。但对于机器来说，它们稍微有影响。然而，从一个句子包含100个单词的事实来看，它们对机器分类没有显著影响，并且不太可能被标记为“正面”和“负面”。因此，研究推断这是因为自动编码器没有捕捉到强调语气的权重。尽管样本B被正确预测，但其畸变率高于样本A。研究认为每个词对目标的权重有不同的影响。因此，不需要无畸变地恢复压缩。只要重要的词特征和句子结构（如强调语气）可以被压缩，就可以基于抽象语义概念进行正面和负面情感分类。0Track: 认知计算WWW 2018，2018年4月23日至27日，法国里昂After conducting the experiment, the study discovers that adding additional features for correction of errors does not interfere with the learning. Also, not all words are needed to be restored without distortion after applying the AE method. What matters most is that important combinations of word features (meanings) can be learned. The study merely used 10 epochs to perform experiments, but the results are worth delving deeper into, especially the parts of interpretative capabilities. In the future development, to prove that the semantic compression of autoencoder is related to the training of generalized features, the study may further adopt attention-based models for visualized interpretations. In addition, to speed up the improvement in accuracy of these types of models, the study will consider using external pre-trained word vectors for initialization. 4080在进行实验后，研究发现添加额外的特征来纠正错误不会干扰学习。也不需要将所有单词在应用自动编码器方法后无畸变地恢复。最重要的是可以学习到重要的单词特征（含义）的组合。研究仅使用了10个epoch进行实验，但结果值得深入研究，特别是解释能力的部分。在未来的发展中，为了证明自动编码器的语义压缩与广义特征的训练有关，研究可能进一步采用基于注意力的模型进行可视化解释。此外，为了加快这类模型准确性的提高，研究将考虑使用外部预训练的词向量进行初始化。06 结论0致谢。作者感谢中华民国科学技术部在合同拨款号MOST106-2634-F-025-001、MOST106-2511-S-025-003-MY3、MOST105-2410-H-025-015-MY2、MOST105-2511-S-005-001-MY3和MOST104-2511-S-005-003下对本研究的财务支持。0参考文献0[1] Q. Gan, B. H. Ferns, Y. Yu, & L. Jin. 2017.在线餐厅评论的文本挖掘和多维情感分析。《酒店与旅游质量保证杂志》，18，465-492。[2] S. M. Patel, V. K. Dabhi, & H. B. Prajapati. 2017.基于抽取的自动文本摘要。《JCP》，12，550-563。[3] Q. Le, & T. Mikolov. 2014.句子和文档的分布式表示。在第31届国际机器学习大会论文集中，1188-1196。0[4] Y. Kim. 2014. 用于句子分类的卷积神经网络. arXiv预印本 arXiv:1408.5882. [5] C. DosSantos, & M. Gatti. 2014. 用于短文本情感分析的深度卷积神经网络. 在COLING , 69-78. [6] D. Li, & J. Qian. 2016. 基于长短期记忆的文本情感分析.在计算机通信和互联网（ICCCI）, 2016 IEEE国际会议上, 471-475. [7] S. Zhang, Z. Wei,Y. Wang, & T. Liao. 2018. 基于扩展情感词典的中文微博文本情感分析.未来一代计算机系统, 81, 395-403. [8] A. Ortigosa, J. M. Martín, & R. M. Carro. 2014.Facebook中的情感分析及其在电子学习中的应用. 人类行为中的计算机, 31, 527-541. [9]Q. Li, Z. Jin, C. Wang, & D. D. Zeng. 2016.在中文微博系统中使用卷积神经网络挖掘意见摘要. 基于知识的系统, 107, 289-300. [10]T. Mikolov, K. Chen, G. Corrado, & J. Dean. 2013. 在向量空间中高效估计词表示.arXiv预印本 arXiv:1301.3781. [11] J. Cheng, P. Li, Z. Ding, S. Zhang, & H. Wang.2016. 具有全局循环神经网络的中文微博文本情感分类. 在数据科学中的网络空间（DSC）,IEEE国际会议上, 653-657. [12] G. Zhou, Y. Zhou, T. He, & W. Wu. 2016.用于社区问答检索的神经网络学习语义表示. 基于知识的系统, 93, 75-83. [13] D. Chen, A.Fisch, J. Weston, & A. Bordes. 2017. 通过阅读维基百科回答开放领域问题. arXiv预印本arXiv:1704.00051. [14] O. Araque, I. Corcuera-Platas, J. F. Sánchez-Rada, & C. A.Iglesias. 2017. 在社交应用中使用集成技术增强深度学习情感分析. 专家系统与应用, 77,236-246. [15] L. Gui, Y. Zhou, R. Xu, Y. He, & Q. Lu. 2017.从异构网络中学习表示进行产品评论情感分类. 基于知识的系统, 124, 34-45. [16] Y. J.Park, H. S. Kim, H. Lee, D. Kim, S. B. Kim, & P. Kang. 2017.基于比赛统计和新闻文章的深度学习体育选手评估模型. 基于知识的系统, 138, 15-26. [17]S. Rönnqvist, & P. Sarlin. 2017. 新闻中的银行困境: 通过深度学习描述事件. 神经计算,264, 57-70 [18] M. Kraus, & S. Feuerriegel. 2017.利用深度神经网络和迁移学习从财务披露中进行决策支持. 决策支持系统, 104, 38-48.[19] J. Chung, C. Gulcehre, K. Cho, & Y. Bengio. 2014.门控循环神经网络在序列建模上的实证评估. arXiv预印本 arXiv:1412.3555. [20]DATATANG. http://www.datatang.com/index.html (2017)0会议: 2018年4月23日至27日，法国里昂举办的认知计算WWW 2018

下载后可阅读完整内容，剩余1页未读，立即下载