用R语言对excel表某列英文文本进行词频统计
时间: 2023-07-10 08:07:21 浏览: 93
可以使用 `tidyverse` 和 `tidytext` 包来实现。
首先,需要安装和加载这两个包:
```R
install.packages("tidyverse")
install.packages("tidytext")
library(tidyverse)
library(tidytext)
```
接下来,读取 Excel 表格并将其转换为数据框:
```R
df <- read_excel("path/to/excel/file.xlsx")
```
假设要统计的文本在 `text` 列中,可以使用 `unnest_tokens()` 函数将其拆分为单词:
```R
df_words <- df %>%
unnest_tokens(word, text)
```
然后,使用 `count()` 函数对单词进行计数:
```R
word_freq <- df_words %>%
count(word, sort = TRUE)
```
最后,可以按照计数结果的大小对单词进行排序并打印前几个:
```R
word_freq %>%
arrange(desc(n)) %>%
head(10)
```
完整代码如下:
```R
library(tidyverse)
library(tidytext)
df <- read_excel("path/to/excel/file.xlsx")
df_words <- df %>%
unnest_tokens(word, text)
word_freq <- df_words %>%
count(word, sort = TRUE)
word_freq %>%
arrange(desc(n)) %>%
head(10)
```
阅读全文