文本特征提取代码
时间: 2023-07-03 14:10:52 浏览: 114
文本特征提取是将文本转化为计算机可以处理的向量表示的过程。常见的文本特征提取方法包括词袋模型、TF-IDF、Word2Vec等。
下面是使用Python中的sklearn库实现词袋模型和TF-IDF的代码示例:
```python
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
# 定义文本数据
text_data = ["hello world",
"hello python",
"python is a great programming language",
"python is popular",
"I love python"]
# 构建词袋模型
count_vectorizer = CountVectorizer()
count_vectorizer.fit(text_data)
bag_of_words = count_vectorizer.transform(text_data)
print(bag_of_words.toarray())
# 构建TF-IDF模型
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(text_data)
tfidf = tfidf_vectorizer.transform(text_data)
print(tfidf.toarray())
```
注:以上代码需要在安装了sklearn库的环境下运行。
阅读全文