R语言实战：2000-2015年电影评论数据抓取与分析

数据挖掘

需积分: 50 134 浏览量更新于2024-07-18 12 收藏 2.6MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在本篇文章中，我们将深入探讨如何利用R语言进行电影评论的挖掘，特别是针对豆瓣电影数据。首先，作者介绍了数据抓取的过程，通过访问豆瓣电影的特定URL，如`http://www.**.com/tag/2000/movie?start=0`，其中`2000`表示电影年份，`start=0`表示从第一页开始抓取。值得注意的是，抓取每页数据时需要更换起始页码并设置间隔时间以避免IP被封禁。总共需抓取147页，每爬取100页更换一次IP，或者多次操作以分散风险。使用了`XML`和`plyr`这两个R语言库来进行网页源代码的抓取，`readLines`函数负责读取网页内容，`for`循环配合`Sys.sleep`函数确保请求速度适当。抓取完成后，将所有年份的数据合并到`webtotal`变量中，并存储为`.Rdata`文件以备后续处理。接下来的关键步骤是数据清洗与解析。通过正则表达式技术，作者提到从网页源代码中提取出感兴趣的评论数据，即电影标题、评分和评论文本等。正则表达式是一种强大的文本处理工具，它能够帮助识别和匹配特定模式，这对于结构化的数据提取至关重要。然后，文章将进入数据预处理阶段，这可能包括去除HTML标签、处理缺失值、统一格式等，确保数据质量。在这个过程中，可能还会用到其他R语言库，如`tidytext`或`stringr`，用于更高效地进行文本处理。之后，数据可视化是数据挖掘的重要环节，作者可能会展示评论数量的年度分布、评分分布等图表，以便直观了解数据特性。数据可视化通常使用`ggplot2`这样的图表库，能够创建出美观且具有洞见的图形。最后，数据挖掘建模部分将应用统计分析和机器学习算法，例如情感分析（对评论进行正面、负面情感判断）、主题模型（识别评论中的主要话题）或推荐系统（根据用户历史行为预测可能的兴趣）。这部分可能涉及使用`tm`、`tidyverse`或`caret`等R包。总结来说，这篇文章详细介绍了使用R语言进行电影评论数据的获取、清洗、分析和可视化的过程，旨在提升读者的数据抓取和初步挖掘技能，为后续的数据科学项目打下基础。

资源详情

资源推荐

下面我们要提取电影类型了，一般国家地区和年份之间的行即为影片类型，那么存在两种情

况，如果国家地区和年份之间行号差值 x 小于 2，则说明影片没有分类，如果大于等于 2 则

说明有分类：

#提取电影类型

x <- temp2 -temp1

temp1 <-temp1[which(x > 1)]

x <- x[which(x> 1)] - 1

temp <- c()

for (i in1:length(x)) {

temp2 <- temp1[i] + seq(1:x[i])

temp <- c(temp, temp2)

}#生成含有影片类型的 rowname，然后我们就知道那些 rowname 对应的是电影类型了，为

什么减 1，自己比划一下

type <-filmAttribute[filmAttribute$rowname %in% temp, ]#提取影片类型

我们得到了电影的上映时间，国家或地区，电影类型等，现在我们先把他们合并在一起了，

这里牵涉到你是将数据进行 long 型数据框摆放还是进行 wide 型数据框摆放，因为 ggplot 一

般使用 long 型数据，这里我们进行 long 型摆放。

###将 time, country, type 先合并成一个 data.frame

variable <-rep("上映时间", length(time[, 1]))

time <-data.frame(time, variable, stringsAsFactors = F)

variable <-rep("国家地区", length(country[, 1]))

country <-data.frame(country, variable, stringsAsFactors = F)

variable <-rep("类型", length(type[, 1]))

type <-data.frame(type, variable, stringsAsFactors = F)

filmtemp <-rbind(time, country, type)

到这里我们已经得到电影的部分属性了，下面我们需要提取电影的导演和演员了，我们将已

经提取的行删掉，就只剩下导演和演员了，一般出现的一个人名即为导演，其后是演员，所

以思路和提取国家时一样，去重得到的就是导演，我们按照这个思路往下走吧。

#提取导演

filmda <- filmAttribute[!(filmAttribute$rowname%in% filmtemp$rowname), ]#删除已经提取的

行

director <-filmda[!duplicated(filmda[, 2]),]

actor <-filmda[duplicated(filmda[, 2]),]

variable <-rep("导演", length(director[, 1]))

director <-data.frame(director, variable, stringsAsFactors = F)

#提取演员

variable <-rep("主演", length(actor[, 1]))

actor <-data.frame(actor, variable, stringsAsFactors = F)

filmtemp <-rbind(filmtemp, director, actor)

filmData <-filmData[filmData$id %in% filmtemp$id,]

filmtemp <-filmtemp[, -1]

filmfinal <-join(filmtemp, filmData)

write.csv(filmfinal,"filmfinal.csv")

到这里我们的豆瓣数据电影数据抓取基本告一段落，代码虽然笨虽然长但是理解起来不难。

下面我们要规范一下属性的内容，经查看发现国家和地区有些是英文有些是繁体，那么统一

一下，幸好地区并不多，我们建一个对应词典叫 diqudict 就行，yingyu 列是要替换的国家英

文名、繁体名及其他别称，第二列为统一的称呼。Filmfinal 第三列就是属性的列，我们将匹

配上的不标准行找到，然后用标准列替换掉，这就是一个用其自身匹配，然后又替换掉自身

的问题。

setwd("C:/Users/Administrator/Documents")

#将国家为英文的翻译成中文，同同时统一国家称呼和写法

diqudict <-read.csv("diqudict.csv", header = T, sep = ",",stringsAsFactors = F)

filmfinal1 <-filmfinal

t <-match(filmfinal1$attri, diqudict$yingyu)

filmfinal1[filmfinal1$attri%in% diqudict$yingyu, 3] <- diqudict[t[!is.na(t)], 2]#这一点很烦，就是

将匹配上的内容替换掉，这里采用了一种没加辅助列的方法，不知是不是还有其他更为直捷

的途径

其实匹配从来都是一个让人蛋不定的问题，match 返回的是 x 的元素在 y 中的位置，如果没

有就为 NA，如果多个就只返回第一个，返回的长度和 x 等长。经过一次 match，这样我们

去掉 NA，就可以提取对应的字典里的统一的名称，然后将它放在 filmfinal 相应的位置。

然后有些国家同时出现了中文名称和英文名称，我们也要处理一下，方法就是先将这些记录

提出来，然后将英文灭掉，再放回去。

temp <-filmfinal1[which(filmfinal1$variable == "国家地区"),]#把国家地区记录单独提出来目的

是去除同时出现了中英文的记录中的英文

filmfinal1 <-filmfinal1[-which(filmfinal1$variable == "国家地区"),]

sentence <-as.vector(temp$attri)

sentence <-gsub("[a-zA-Z]", "", sentence)#去除英文字符

attri <-sentence

temp[,3] <-attri

filmfinal1 <-rbind(filmfinal1, temp)#然后再和原来提取剩余的部分合并成原始文档

#write.csv(filmfinal1,"filmfinal1.csv")#到这里还有极个别缺少国家和地区有毛病，写入硬盘手

动添加和删除，然后再读入

到这里我们发现另外一个问题，棒子的电影如果只有韩语名称，是无法正确识别的，我们需

要将这部分电影删除：

filmfinal1 <-read.csv("filmfinal1.csv", header = T, sep = ",",stringsAsFactors = F)

filmfinal1 <-filmfinal1[-grep("^<.{6}>", filmfinal1$name), ]#删除个别几个只有韩语名称的电影，

他们的特征是开头就是<

filmfinal1[,2]<- gsub("<.{6}>", "", filmfinal1$name)#将名称中形如<U+0E1E>字符替换为空字符

filmfinal1[,3]<- gsub("<.{6}>", "", filmfinal1$attri)#替换为""

filmfinal1[,3]<- gsub("'", "", filmfinal1$attri)#替换为""

filmfinal1 <-filmfinal1[-grep("[deleted]", filmfinal1$attri), ]

到这里我们只需要把名称为””的行删除就可以了，但是这里你碰到了麻烦，因为你查不出

这个值为””的行，无论是 is.na,is.null,is.nan 都无法查出，好吧我们用正则表达式来解决吧：

#解决空字符，但是 is.na 查不出的问题

filmfinal1 <-filmfinal1[grep("\\S", filmfinal1$attri), ]#查了很多方法 is.na,is.null,is.nan 均不能查

出""即双引号产生的空值，例如以上几行产生的空值，这里用正则表达式可以把这类空值筛

掉

正则表达式\S 表示匹配任意不是空白符的字符，那么我将非空白符的行提取出来就行了，

剩余32页未读，继续阅读

Leonard_Kong

粉丝: 1
资源: 2

R语言实战：2000-2015年电影评论数据抓取与分析

电影评论爬虫程序

RCurl爬取天猫评论

电影评价的R语言程序_描述性分析_r语言gdp程序_

r语言数据分析，挖掘建模与可视化电子课本

r语言数据分析与挖掘实战pdf

r语言 pdf文本挖掘

r语言数据挖掘 网盘

用R语言数据挖掘对鸢尾花数据集用k近邻分析进行统计分析

数据挖掘与r语言第二版代码

数据挖掘大作业R语言

R语言数据挖掘2.2.4.3 R语言实现

数据挖掘—基于r语言的实战 pdf

r语言操作——r与数据挖掘容易出现的问题

数据挖掘与r语言代码集路易斯

r语言,数据挖掘的代码

r语言数据挖掘大作业

数据挖掘基于r语言的实战pdf

文本数据挖掘 基于r语言 pdf

r语言关联规则数据挖掘的应用案例

电信公司数据挖掘r语言

最新资源

r语言数据挖掘网盘

R语言数据挖掘2.2.4.3　R语言实现

文本数据挖掘基于r语言 pdf