没有合适的资源?快使用搜索试试~ 我知道了~
首页文本情感分析:去停用词
原文地址 分类目录——情感识别 随便构造了一份测试数据如下,内容是gensim下的词向量生成模型word2vec的属性说明 一种方式,通过正则表达式,这里以去标点符号为例,在分词之前进行操作 import re # 通过正则表达式筛除string中的标点符号 def clearn_str(string): # 筛除掉中文标点 string = re.sub(r'["#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟:wavy_dash:〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。 ]', '', string) # 筛除掉英
资源详情
资源评论
资源推荐

文本情感分析:去停用词文本情感分析:去停用词
原文地址
分类目录——情感识别
随便构造了一份测试数据如下,内容是gensim下的词向量生成模型word2vec的属性说明
一种方式,通过正则表达式,这里以去标点符号为例,在分词之前进行操作
import re
# 通过正则表达式筛除string中的标点符号
def clearn_str(string):
# 筛除掉中文标点
string = re.sub(r'["#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕
〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。 ]', '', string)
# 筛除掉英文标点
string = re.sub(r'[!"#$%&\'()*+,-./:;?@[\]^_`{|}~]', '', string)
return string
# 读取一份测试文件
with open('data.txt', encoding='utf8') as f:
sentenceslist = f.read().splitlines() # 每行作为一个元素封装成列表
# ['1.sentences:可以是一个List,对于大语料集,建议', '2.sg: 用于设置训练算法,默认为0,对应CBOW算法', '3.size:是
指输出的词的向量维数,默认为100。'] preprocessed = [clearn_str(x) for x in sentenceslist] # ['1sentences可以是一个List对
于大语料集建议', '2sg用于设置训练算法默认为0对应CBOW算法', '3size是指输出的词的向量维数默认为100']
一种方式,分词之后去掉词列表中的停用词
对于一份停用词列表,在nltk模块包下封装了英文的停用词表,我从网上找了一份中文的,大概是这样的
链接:https://pan.baidu.com/s/1shrhd-Kg9U1n9WXSOFdwow
提取码:q3me
from nltk.corpus import stopwords
import jieba
# 从nltk中获取英文停用词
stopwords1 = stopwords.words('english')
# ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', ...]
#
with open('../data/stopwords.txt', encoding='utf8') as f:
stopwords2 = f.read().splitlines()



















weixin_38693720
- 粉丝: 9
- 资源: 905
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0