使用TensorFlow进行英文情感分析

134 浏览量更新于2024-08-28 1 收藏 71KB PDF 举报

"5-RNN-0501_英文情感分析项目，使用RNN（循环神经网络）进行英文文本的情感分析，特别是LSTM（长短时记忆网络）。项目包括数据预处理、网络结构构建和测试。" 在这个项目中，开发者首先导入了所需的库，如NumPy用于数学计算，TensorFlow用于构建和运行深度学习模型，以及Python的内置库来处理字符串和计数。项目的数据来源于两个文本文件，`reviews.txt`包含了评论文本，`labels.txt`包含了对应评论的情感标签（positive或negative）。在数据预处理阶段，项目执行了以下步骤： 1. 移除了所有标点符号，这有助于减少无关字符对模型训练的影响。 2. 将评论文本以`\n`为分隔符拆分成单独的评论。 3. 将拆分后的评论文本进一步拆分为单个单词。 4. 创建了一个数据字典`vocab_to_int`，将出现频率最高的单词映射到整数（从1开始，不包括0，因为0通常用作填充值）。 5. 将每个评论的单词列表转换为整数列表，以便输入到模型中。 6. 对情感标签进行了编码，positive标签映射为1，negative标签映射为0，方便模型理解。接下来，项目可能会使用这些预处理后的数据构建RNN模型，特别是LSTM层，LSTM在处理序列数据如文本时能有效地捕捉长期依赖关系。模型可能包含输入层、LSTM层、全连接层和输出层。在训练过程中，模型会学习从整数表示的单词序列中预测情感标签。测试阶段，项目会使用一部分预处理后的数据作为验证集或测试集，评估模型的性能，比如准确率、精确率、召回率和F1分数。这有助于了解模型在未见过的数据上的表现，从而调整模型参数以优化性能。这个项目对于理解和实践自然语言处理中的情感分析非常有价值，特别是使用RNN和LSTM解决序列数据的分类问题。同时，它也涵盖了数据预处理和标签编码的基础知识，这些都是深度学习应用中不可或缺的部分。通过这个项目，开发者可以提升自己在处理文本数据和构建深度学习模型方面的能力。

5-RNN-0501_英文情感分析英文情感分析

import numpy as np

import tensorflow as tf

from string import punctuation

from collections import Counter

# 介绍预览该项目，并介绍该项目网络结构！

with open('../datas/sentiment/reviews.txt', 'r') as f:

reviews = f.read()

with open('../datas/sentiment/labels.txt', 'r') as f:

labels = f.read()

print(reviews[0])

# 数据预处理

# todo-1、移除所有标点符号(生成1个没有标点符号的列表，然后再组合成文本)

all_text = ''.join([c for c in reviews if c not in punctuation])

# todo 2、以''为分隔符，拆分所有评论

reviews = all_text.split('')

all_text = ' '.join(reviews)

# 文本拆分为单独的单词列表

words = all_text.split()

# todo 1、创建数据字典：{单词：整数}。后面我们会对input向量填充0，编码的整数从1开始（不是0）

# 2、将所有文本转换成为整数，并存储到新的列表中：reviews_ints.

counts = Counter(words)

# 按计数进行排序

vocab = sorted(counts, key=counts.get, reverse=True)

# 生成字典：{单词：整数}

vocab_to_int = {word: ii for ii, word in enumerate(vocab, 1)}

# 将文本列表转换为整数列表

reviews_ints = [] for each in reviews:

reviews_ints.append([vocab_to_int[word] for word in each.split()])

# todo-对labels进行编码：将标签转换为数值：positive==1 和 negative ==0

labels = labels.split('')

labels = np.array([1 if each == 'positive' else 0 for each in labels])

# todo-有一个问题：

"""

有一条评论长度为0；且最长的评论长度为2514，过长了一点。所以将其截断成200的长度：

1、评论长度小于200的，对其左边填充0，

2、对于大于200的，只截取其前200个单词。

"""

review_lens = Counter([len(x) for x in reviews_ints])

print("长度为0的评论数量: {}".format(review_lens[0]))

print("最大评论的长度为: {}".format(max(review_lens)))

# todo-从 reviews_ints列表中移除0长度的评论。

# 获得长度非0的评论的索引号

non_zero_idx = [ii for ii, review in enumerate(reviews_ints) if len(review) != 0] # 为了确保代码不出错，用in判断下

reviews_ints = [reviews_ints[ii] for ii in non_zero_idx] labels = np.array([labels[ii] for ii in non_zero_idx])

# todo-练习

"""

需求：用 review_ints中的数据创建数组： features 。要求：每一行都是长度为200：如果评论小于200，那么对其左填充0。

举例：如果评论为 ['best', 'movie', 'ever'], 其整数形式为：[117, 18, 128],那么左填充0后，

应该像这样： [0, 0, 0, ..., 0, 117, 18, 128]；评论大于200字的，只取其前200单词即可。

"""

seq_len = 200

# 生成一个25000*200的全0矩阵。

features = np.zeros((len(reviews_ints), seq_len), dtype=int)

# 将reviews_ints值逐行赋值给features. 可以print出来检查一下。

for i, row in enumerate(reviews_ints):

features[i, -len(row):] = np.array(row)[:seq_len] # 注意这里的技巧。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38691319

粉丝: 3
资源: 908

使用TensorFlow进行英文情感分析

Reviews with conditions 有条件的评论-数据集

NLP代码.rar（python机器学习——文本情感分析（英文文本情感分析））

[深度学习] 自然语言处理 --- NLP入门指南_小墨鱼的专栏-程序员宅基地 - 程序员宅基地1

sequence-labeling-master.zip_WINDOWS_

TensorFlow中文文本分类项目：高准确率96.04%的CNN-RNN模型源码解析

pytorch-sentiment-analysis-classification:情感分析分类的PyTorch教程（RNN，LSTM，Bi-LSTM，LSTM + Attention，CNN）

my-AI-note.rar_ainote

uncased_L-12_H-768_A-12.zip

颜色分类leetcode-Perceptron_Summer_2017:感知器_Summer_2017

rnn-tutorial-gru-lstm-master分词

最新资源