帮忙写一段读取txt文件用word2vec词项量化的python代码
时间: 2023-05-21 19:06:43 浏览: 117
以下是读取txt文件并使用word2vec词项量化的Python代码:
```python
from gensim.models import Word2Vec
# 读取txt文件
with open('file.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 将文本拆分成句子
sentences = text.split('\n')
# 将每个句子拆分成单词
tokenized_sentences = [s.split() for s in sentences]
# 训练word2vec模型
model = Word2Vec(tokenized_sentences, min_count=1)
# 将每个单词量化为特征向量
word_vectors = model.wv
# 打印单词"hello"的特征向量
print(word_vectors['hello'])
```
如果你想量化一个单独的句子而不是整个文本,只需将第4行替换为以下代码:
```python
# 将单个句子拆分成单词
tokens = sentence.split()
# 量化每个单词为特征向量
vector = np.mean([model.wv[token] for token in tokens], axis=0)
```
阅读全文