TfidfVectorizer特征提取,将列表中的评价内容转换为TF-IDF(逆文档词频)稀疏矩阵表示,输出该矩阵,并输出数组维度,要求去掉停止词is、I、very等
时间: 2024-10-20 22:05:27 浏览: 38
TfidfVectorizer是scikit-learn库中的一个工具,主要用于文本数据预处理,特别是将文本数据转换成数值特征向量,其中TF-IDF是一种常用的文本特征提取方法。它计算每个词语在文档中的重要程度,"Term Frequency-Inverse Document Frequency"(词频-逆文档频率)综合考虑了单词的频率以及其在整个文集中的罕见度。
当你有一个包含评价内容的列表,比如评论字符串列表,你可以这样做:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
# 假设reviews是一个包含评论的列表
reviews = ... # 例如 ['非常好的电影', '我觉得这部电影一般般', '非常差']
# 设置停用词列表,这里包括 "is", "I", "very" 等
stop_words = ["is", "I", "very"]
# 创建TfidfVectorizer实例并指定停用词
vectorizer = TfidfVectorizer(stop_words=stop_words)
# 转换为TF-IDF矩阵
tfidf_matrix = vectorizer.fit_transform(reviews)
# 输出矩阵形状 (文档数, 词汇表大小)
print("矩阵维度:", tfidf_matrix.shape)
# 输出稀疏矩阵
print("稀疏矩阵:\n", tfidf_matrix.toarray())
```
这个过程会生成一个稀疏矩阵,行代表每个评论,列代表词汇表中的每个词(去除停用词),值则是对应词的重要性得分。
阅读全文