用R语言。读入文件 “汽车投诉.csv”,文件的列名依次为投诉编号、投诉品牌、投诉车系、投诉车型、问题简述、问题简述链接、典型问题。 (1)统计不同品牌汽车的投诉数量,并按投诉数量从大到小排序,以条形图显示排序结果(4分) (2)把“问题简述”当作购物篮,把词汇当作item,进行关联规则挖掘,写出完整的建模过程(包括规则的查看和可视化展示,注意要去除停用词)
时间: 2024-03-23 12:37:43 浏览: 43
基于R语言的汽车消费数据挖掘及可视化方法.pdf
5星 · 资源好评率100%
读取数据:
```R
complaints <- read.csv("汽车投诉.csv", stringsAsFactors = FALSE, encoding = "UTF-8")
```
统计不同品牌汽车的投诉数量,并按投诉数量从大到小排序:
```R
library(dplyr)
library(ggplot2)
complaints %>%
group_by(投诉品牌) %>%
tally() %>%
arrange(desc(n)) %>%
ggplot(aes(x = reorder(投诉品牌, n), y = n)) +
geom_bar(stat = "identity") +
coord_flip() +
xlab("投诉品牌") +
ylab("投诉数量") +
ggtitle("不同品牌汽车的投诉数量") +
theme(plot.title = element_text(size = 20, face = "bold", hjust = 0.5),
axis.title.x = element_text(size = 15),
axis.title.y = element_text(size = 15),
axis.text.x = element_text(size = 12),
axis.text.y = element_text(size = 12))
```
关联规则挖掘:
```R
library(arules)
library(jiebaR)
# 分词
complaints$问题简述 <- jiebaR::worker(complaints$问题简述, bylines = FALSE, stopwords = FALSE)
# 转换为交易数据
transactions <- as(complaints$问题简述, "transactions")
# 挖掘频繁项集和关联规则
rules <- apriori(transactions, parameter = list(support = 0.002, confidence = 0.5))
# 查看频繁项集
inspect(head(sort(rules, by = "support"), 10))
# 查看关联规则
inspect(head(sort(rules, by = "lift"), 10))
# 可视化展示
library(arulesViz)
plot(rules, method = "graph", control = list(type = "items"))
```
阅读全文