首页word2vec文本向量化代码

word2vec文本向量化代码

时间: 2023-10-21 20:20:27 浏览: 41

以下是使用Python中的gensim库实现word2vec文本向量化的示例代码： ```python from gensim.models import Word2Vec from nltk.tokenize import word_tokenize import os # 读取文本文件并进行分词 path = 'path/to/text/files' sentences = [] for filename in os.listdir(path): with open(os.path.join(path, filename), 'r') as file: text = file.read() words = word_tokenize(text) sentences.append(words) # 训练Word2Vec模型 model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4) # 获取文本的向量表示 text = 'this is a sample text' words = word_tokenize(text) vector = [] for word in words: if word in model.wv.vocab: vector.append(model[word]) else: vector.append([0]*model.vector_size) ``` 在上面的示例中，我们首先读取文本文件并进行分词，然后使用这些分词训练Word2Vec模型。最后，我们可以使用训练好的模型获取文本的向量表示。具体来说，我们将文本分词后，对于每一个词，如果它出现在模型的词汇表中，我们就将它的向量加入到文本向量中；否则，我们就将一个全为0的向量加入到文本向量中。