写一段代码,能表示出给定文本的向量空间模型
时间: 2024-10-20 12:12:20 浏览: 42
大语言模型原理、底层逻辑与应用
在自然语言处理中,我们可以使用词袋模型(Bag-of-Words Model)来表示文本,这是一种简单的向量空间模型。假设我们有一个文本集合,每个文档都被看作是由词汇组成的集合,而忽略它们的顺序。下面是一个简单的Python代码示例,使用sklearn库来构建词频向量:
```python
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
# 假设texts是一个包含文档字符串的列表
texts = ["这是一段文本", "这是另一段文本", "第三段文本是关于机器学习的"]
# 创建CountVectorizer对象
vectorizer = CountVectorizer()
# 转换文本为词频矩阵
doc_vectors = vectorizer.fit_transform(texts)
# 将稀疏矩阵转换为稠密numpy数组
dense_vectors = doc_vectors.toarray()
# 输出每段文本对应的词频向量
for i, text in enumerate(texts):
print(f"文本 {i+1} 的词频向量:\n{dense_vectors[i]}")
阅读全文