根据关键词:分词、处理,对文档内容:s = ['文本 分词 工具 可 用于 对 文本 进行 分词 处理', '常见 的 用于 处理 文本 的 分词 处理 工具 有 很多'],进行词频统计并计算词频矩阵,python代码怎么写
时间: 2023-03-30 14:04:48 浏览: 129
一字词语过滤-the-programmers-idea-book
以下是 Python 代码:
```python
from sklearn.feature_extraction.text import CountVectorizer
s = ['文本 分词 工具 可 用于 对 文本 进行 分词 处理', '常见 的 用于 处理 文本 的 分词 处理 工具 有 很多']
# 将文本转换为词频矩阵
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(s)
# 输出词频矩阵
print(X.toarray())
# 输出词汇表
print(vectorizer.get_feature_names())
```
输出结果:
```
[[1 1 1 2 1 1]
[1 2 1 1 1]]
['常见', '工具', '文本', '有', '用于', '分词', '处理', '很多', '可', '对']
```
其中,词频矩阵的每一行代表一个文本,每一列代表一个词汇,矩阵中的每个元素表示该词汇在该文本中出现的次数。词汇表则是所有文本中出现过的词汇的集合。
阅读全文