对csv文件一列进行评论向量化并保存为com_vec.txt文件
时间: 2024-02-25 15:58:30 浏览: 168
好的,以下是实现此任务的代码示例:
```python
import pandas as pd
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
# 读取 CSV 文件
df = pd.read_csv('your_file.csv')
# 定义预处理函数
nlp = spacy.load('en_core_web_sm')
def preprocess_text(text):
doc = nlp(text)
tokens = [token.lemma_.lower() for token in doc if not token.is_stop]
return ' '.join(tokens)
# 预处理文本
df['processed_text'] = df['your_column_name'].apply(preprocess_text)
# 使用 TfidfVectorizer 进行文本向量化
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(df['processed_text'])
# 将评论向量添加到 DataFrame 中
df['comment_vector'] = list(np.array(vectors.todense()))
# 将向量保存为文件
with open('com_vec.txt', 'w') as f:
for vector in df['comment_vector']:
f.write(' '.join([str(x) for x in vector]) + '\n')
```
这段代码将会将 CSV 文件中的一列评论进行向量化,并把向量保存到 `com_vec.txt` 文件中。请注意,您需要将代码中的 `your_file.csv` 和 `your_column_name` 替换为您自己的文件名和列名。
阅读全文