r语言写程序代码对给出的数据集250.xlsx,数据集中包含了电影名称、评分、评论人数、短评、年代、国家、标签,对电影评分分析,评论人士分析,上映年份分析,电影类型分析,制作国家分析,短评词云分析,
时间: 2023-08-17 20:04:19 浏览: 181
好的,针对您的问题,我可以给出一些R语言的代码来进行相应的数据分析。首先,我们需要读入数据集:
```R
library(readxl)
df <- read_excel("250.xlsx")
```
接下来,可以通过以下代码来对电影评分进行分析:
```R
# 查看评分分布情况
hist(df$评分, breaks = seq(0, 10, by = 0.5), main = "评分分布情况")
# 计算平均评分
mean(df$评分)
# 计算评分最高的电影
df[df$评分 == max(df$评分), "电影名称"]
# 计算评分最低的电影
df[df$评分 == min(df$评分), "电影名称"]
```
接下来,可以通过以下代码来对评论人士进行分析:
```R
# 计算评论人数的总和、平均值和中位数
sum(df$评论人数)
mean(df$评论人数)
median(df$评论人数)
# 查看评论人数分布情况
hist(df$评论人数, main = "评论人数分布情况")
```
接下来,可以通过以下代码来对上映年份进行分析:
```R
# 查看上映年份分布情况
table(df$年代)
# 绘制上映年份的直方图
hist(df$年代, breaks = seq(1890, 2020, by = 10), main = "上映年份分布情况")
```
接下来,可以通过以下代码来对电影类型进行分析:
```R
# 将标签进行分割
tags <- strsplit(df$标签, "/")
# 计算每种电影类型的数量
tag_counts <- table(unlist(tags))
# 绘制电影类型的饼图
pie(tag_counts, main = "电影类型分布情况")
```
接下来,可以通过以下代码来对制作国家进行分析:
```R
# 将制作国家进行分割
countries <- strsplit(df$国家, "/")
# 计算每个国家的电影数量
country_counts <- table(unlist(countries))
# 绘制制作国家的条形图
barplot(country_counts, main = "制作国家电影数量", cex.names = 0.7, las = 2)
```
最后,可以通过以下代码来进行短评词云分析:
```R
library(tm)
library(wordcloud)
# 去掉短评中的标点符号和数字
corpus <- Corpus(VectorSource(gsub("[[:punct:][:digit:]]", "", df$短评)))
# 将短评转换为小写
corpus <- tm_map(corpus, content_transformer(tolower))
# 去掉停用词
stopwords <- stopwords("english")
corpus <- tm_map(corpus, removeWords, stopwords)
# 进行词干化处理
corpus <- tm_map(corpus, stemDocument)
# 将文本转换为词频矩阵
tdm <- TermDocumentMatrix(corpus)
# 将词频矩阵转换为数据框
m <- as.matrix(tdm)
v <- sort(rowSums(m), decreasing = TRUE)
d <- data.frame(word = names(v), freq = v)
# 绘制词云
set.seed(1234)
wordcloud(d$word, d$freq, scale = c(4, 0.5), min.freq = 5, max.words = 200, random.order = FALSE, rot.per = 0.35, colors = brewer.pal(8, "Dark2"))
```
以上就是对数据集进行电影评分分析、评论人士分析、上映年份分析、电影类型分析、制作国家分析和短评词云分析的R语言代码示例。
阅读全文