先构建计数矩阵再构建词频矩阵的官方例子
时间: 2023-09-10 20:09:12 浏览: 37
好的,下面是一个官方的例子:
假设有以下文本数据:
```
text1 = "This is a sample sentence."
text2 = "This is another example sentence."
text3 = "I love working with text data."
```
首先,我们需要构建一个计数矩阵,来计算每个单词在文本数据中出现的次数。计数矩阵可以用一个二维矩阵来表示,其中行表示文本数据中的每个文本,列表示每个单词。对于每个文本数据,我们统计每个单词在该文本中出现的次数,得到一个行向量,这些向量组成了计数矩阵。
计数矩阵如下所示:
```
This is a sample sentence another example I love working with text data
text1 1 1 1 1 1 0 0 0 0 0 0 0
text2 1 1 0 0 1 1 1 0 0 0 0 0
text3 0 0 0 0 0 0 0 1 1 1 1 1
```
接下来,我们可以用计数矩阵来构建词频矩阵,词频矩阵也是一个二维矩阵,其中行表示文本数据中的每个文本,列表示每个单词。对于每个文本数据,我们将计数矩阵中每个单词出现的次数除以该文本数据中总的单词数,得到一个行向量,这些向量组成了词频矩阵。
词频矩阵如下所示:
```
This is a sample sentence another example I love working with text data
text1 0.2 0.2 0.2 0.2 0.2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
text2 0.2 0.2 0.0 0.0 0.2 0.2 0.2 0.0 0.0 0.0 0.0 0.0 0.0
text3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.2 0.2 0.2 0.2 0.2 0.2
```
这样,我们就得到了一个基于文本数据的词频矩阵。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)