使用gensim加载预训练中文词向量进行情感分析

test

情感分析

62 浏览量更新于2024-08-28 1 收藏 68KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇资源是关于使用RNN（循环神经网络）进行中文情感分析的教程。作者使用了Python的相关库，如numpy、matplotlib、jieba、scikit-learn、gensim和Keras，来构建和训练模型。文章还涉及了预训练的中文词向量，如Gensim中的sgns.zhihu.bigram模型，以及Keras中的各种层（Dense、GRU、LSTM、Bidirectional等），用于处理文本数据。此外，还提到了数据预处理步骤，包括使用Tokenizer和pad_sequences进行序列填充，以及优化器（Adam、RMSprop）、回调函数（EarlyStopping、ModelCheckpoint、TensorBoard、ReduceLROnPlateau）的使用。" 在情感分析任务中，目标是识别和理解文本中的情感倾向，通常分为正面、负面或中性。在这个案例中，重点在于处理中文文本，这需要对中文词汇进行有效的编码，以便神经网络可以理解。首先，文章导入了必要的库，如numpy用于数值计算，matplotlib用于数据可视化，jieba用于中文分词，scikit-learn的train_test_split用于划分数据集，gensim的KeyedVectors用于加载预训练的词向量，Keras则用于构建深度学习模型。预训练的词向量在这里扮演关键角色，它们能够捕获词汇之间的语义关系。在这里，作者使用了'sgns.zhihu.bigram'模型，这是基于知乎社区的大规模语料库训练得到的词向量。通过加载这些词向量，每个词汇被表示为一个固定长度的向量，这有助于模型理解词汇的意义，而不仅仅是它们的表面形式。接下来，`show_embedding()`函数展示了词向量的维度，这通常决定了每个词的表示空间的大小。`cos_similarity()`函数则演示了如何计算两个词向量之间的余弦相似度，这是衡量词向量之间语义相似度的一种方法。在模型构建部分，作者可能使用了Keras的Sequential模型，结合了Dense层（全连接层）、GRU（门控循环单元）、LSTM（长短期记忆网络）或Bidirectional（双向RNN）等层，这些是RNN的变种，特别适合处理序列数据。此外，还可能使用了Tokenizer和pad_sequences对文本进行预处理，使其适应模型输入的固定长度要求。优化器如Adam和RMSprop负责调整模型参数以最小化损失函数，而回调函数则在训练过程中监控模型性能，例如EarlyStopping防止过拟合，ModelCheckpoint保存最佳模型，TensorBoard用于可视化训练过程，ReduceLROnPlateau根据验证集性能动态调整学习率。这个资源提供了使用RNN进行中文情感分析的完整流程，涵盖了数据预处理、模型构建、训练和评估的各个阶段。通过这种方式，读者可以了解到如何利用预训练词向量和深度学习技术解决中文文本的情感分析问题。

资源详情

资源推荐

5-RNN-0502_中文情感分析中文情感分析

import numpy as np

import matplotlib.pyplot as plt

import re

import jieba

import os

from sklearn.model_selection import train_test_split

from gensim.models import KeyedVectors

from keras.models import Sequential

from keras.layers import Dense, GRU, Embedding, LSTM, Bidirectional

from keras.preprocessing.text import Tokenizer

from keras.preprocessing.sequence import pad_sequences

from keras.optimizers import Adam, RMSprop

from keras.callbacks import EarlyStopping, ModelCheckpoint, TensorBoard, ReduceLROnPlateau

import time

import warnings

warnings.filterwarnings("ignore")

# 使用gensim加载预训练的中文词向量

start_time = time.time()

cn_model = KeyedVectors.load_word2vec_format(

'../datas/chinese_word_vectors/sgns.zhihu.bigram', binary=False)

end_time = time.time()

print('加载预训练词向量所用时间：{} second'.format((end_time - start_time)))

def show_embedding():

# 由这个包训练的词向量长度为300的向量

print(cn_model['山东大学'].shape[0])

print('**' * 45)

print(cn_model['小学'])

def cos_similarity():

"""

计算余弦相似度，演示词向量的含义

:return:

"""

# 1、计算相似度

print(cn_model.similarity('橘子', '橙子'))

print(cn_model.similarity('西瓜', '橙子'))

# 2、自己实现余弦相似度的计算。

cosa_b = np.dot(cn_model['橘子'] / np.linalg.norm(cn_model['橘子']),

cn_model['橙子'] / np.linalg.norm(cn_model['橙子']))

print(cosa_b)

# 3、找出最相似的单词，（通过余弦相似度）

print(cn_model.most_similar(positive=['大学'], topn=10))

# 4、找出最不相似的单词

test_words = '老师会计师程序员律师医生老人'

test_words_result = cn_model.doesnt_match(test_words.split())

print('在词组:{}中，不同类别的是:{}'.format(test_words, test_words_result))

# 5

print(cn_model.most_similar(positive=['女人', '出轨'], negative=['男人'], topn=3))

def read_data():

"""

读入训练语料

:return:

"""

# 获得样本的索引，样本是存放在2个文件夹中，分别为 neg 和 pos文件夹中，每个文件夹中有2000个

pos_path = '../datas/chinese_sentiment/pos'

neg_path = '../datas/chinese_sentiment/neg'

pos_texts = os.listdir(pos_path)

neg_texts = os.listdir(neg_path)

print('总样本数量为:{}'.format(len(pos_texts) + len(neg_texts)))

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38732425

粉丝: 6
资源: 942

使用gensim加载预训练中文词向量进行情感分析

LSTM实现自然语言处理中的情感分析

chinese_text_cnn：TextCNN Pytorch实现中文文本分类情感分析

text-classification-cnn-rnn-master_RNN_CNN_

情感分析中文数据集tsv

nlpcc2012评估任务_面向中文微博的情感分析

中文情感分析 基于LSTM

pytorch 中文情感分析

jieba情感分析深度学习

对于文本情感分析国内研究现状怎么写

基于RNN算法的NLP，从中文和英文评论中获取情绪表达程度，以获得质量评价等级，评价分为5个等级 python代码

中文评论情感分析代码sx

RNN有哪些应用场景？

基于python的情感分析国内外研究现状

文本情感分析国内外现状研究

基于tensorflow实现中文情感分类

中文字符深度学习概述

国内外情绪识别研究现状

【多模态大模型综述】【中文精细翻译】multimodal foundation models:

文本表示中，中文字符嵌入怎么生成

推特有哪些nlp算法代码？

最新资源

中文情感分析基于LSTM