请用R语言写一个文本挖掘的代码
时间: 2024-03-09 14:18:30 浏览: 179
好的,以下是一个简单的文本挖掘代码,用于提取文本数据中的关键词:
```R
# 导入需要用到的库
library(tm) # 文本挖掘包
library(SnowballC) # 词干化包
library(wordcloud) # 词云包
# 读入文本文件
text <- readLines("text.txt", encoding = "UTF-8")
# 创建语料库
corpus <- Corpus(VectorSource(text))
# 进行文本预处理,包括去除数字、标点、停用词、词干化等
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, stemDocument)
# 创建词袋
dtm <- DocumentTermMatrix(corpus)
# 计算词频
freq <- colSums(as.matrix(dtm))
# 根据词频排序
freq <- sort(freq, decreasing = TRUE)
# 取前100个高频词
top100 <- head(freq, 100)
# 绘制词云
wordcloud(names(top100), top100, scale = c(4, 0.5), colors = brewer.pal(8, "Dark2"))
```
这个代码可以读入一个文本文件,进行文本预处理,例如去除停用词、数字、标点符号,然后提取出前100个高频词,并绘制成词云展示。需要注意的是,这只是一个简单的文本挖掘代码,实际应用中可能需要更为复杂的处理和分析。
阅读全文