首页word2vec文本向量化代码

word2vec文本向量化代码

时间: 2023-10-21 08:14:09 浏览: 29

以下是一个简单的word2vec文本向量化代码示例，使用gensim库： ```python import gensim from gensim.models import Word2Vec from gensim.utils import simple_preprocess # 读取文本数据 with open('text.txt', 'r', encoding='utf-8') as f: text = f.readlines() # 预处理文本 processed_text = [simple_preprocess(line) for line in text] # 训练word2vec模型 model = Word2Vec(processed_text, size=100, window=5, min_count=1, workers=4) # 获取文本中每个单词的向量表示 vectors = [] for line in processed_text: line_vectors = [] for word in line: line_vectors.append(model.wv[word]) vectors.append(line_vectors) ``` 在这个示例中，我们首先读取了一个文本文件，然后使用 `simple_preprocess` 函数对文本进行了预处理。接下来，我们使用 `Word2Vec` 函数训练了一个word2vec模型，并设置了一些参数，如向量维度大小、窗口大小、最小出现次数等。最后，我们使用训练好的模型获取了文本中每个单词的向量表示，这些向量存储在 `vectors` 列表中。