R语言词频统计
时间: 2023-07-10 12:22:48 浏览: 133
R语言做词频分析
要在R语言中进行词频统计,可以按照以下步骤进行:
1. 读取文本文件
使用`readLines()`函数读取文本文件,例如:
```
text <- readLines("example.txt", encoding = "UTF-8")
```
2. 分词
使用`strsplit()`函数将文本分割成单词,例如:
```
words <- unlist(strsplit(text, "\\W+"))
```
其中,`\W+`表示匹配非字母和数字的字符。
3. 去除停用词
使用`stopwords()`函数获取停用词列表,然后将文本中的停用词去除,例如:
```
stopwords <- stopwords("english")
words <- words[!words %in% stopwords]
```
其中,`%in%`表示判断一个字符串是否在一个向量中。
4. 统计词频
使用`table()`函数统计每个单词出现的次数,例如:
```
freq <- table(words)
```
5. 排序
将词频按照从大到小的顺序排序,例如:
```
freq <- sort(freq, decreasing = TRUE)
```
6. 输出结果
将结果输出到控制台或者保存到文件中,例如:
```
print(freq)
write.csv(freq, "result.csv")
```
阅读全文