R语言爬虫与文本挖掘实践

需积分: 0 53 浏览量更新于2024-06-30 收藏 1.04MB PDF 举报

在R进行文本挖掘的实践过程中，文本挖掘是一种强大的数据分析技术，它可以帮助我们从大量的文本数据中提取有价值的信息，如主题、情感分析、关键词提取等。本文由周世祥在2020年3月22日撰写，主要关注R语言在数据获取方面的应用，特别是通过爬虫技术来自动化收集网络上的信息。首先，爬虫被定义为一种编程工具，利用编程语言（如R）编写，用于高效地在互联网上搜索和抓取所需数据。在大数据时代，数据的价值凸显，但直接手动搜索效率低下，这就需要借助于爬虫的强大功能。Python中的Scrapy框架以其易用性和高效性而闻名，但它可能在灵活性和透明度上有所限制。相比之下，R语言因其简洁的语法和灵活性，在处理特定项目时，尤其是数据采集任务，可以写出较少的代码实现自动化。爬虫技术涉及的关键概念包括HTTP协议，区分静态网页和动态网页。静态网页是预先加载到服务器的HTML页面，客户端的请求可以直接获取，如静态新闻网站。动态网页则在接收到请求后，由服务器动态生成，例如在线教育平台的成绩查询和个人化推荐，这些依赖于服务器端的脚本（如PHP、JSP、ASPX）和数据库支持。 JavaScript在现代Web开发中扮演着重要角色，即使是静态网页也可能包含动态元素。H5（HTML5）的兴起使得前端开发更为重要，因为云服务的发展意味着用户不再需要拥有高性能服务器，而是通过轻量级终端设备访问云端应用。全栈工程师的概念应运而生，即掌握前端和后端技术的综合人才，以适应这种趋势。 R语言虽然不像Python那样常用于爬虫开发，但它在数据处理和分析方面具有深厚底蕴。通过R爬虫，用户可以轻松处理抓取的数据，并结合R的文本挖掘包（如tm、tidytext等）进行文本预处理、词频分析、情感分析等工作。因此，学习R进行文本挖掘不仅限于数据抓取，还包括后续的数据清洗、分析和可视化，这些都是现代数据分析不可或缺的部分。总结起来，这篇文章介绍了R语言如何在文本挖掘领域发挥作用，特别是在数据采集阶段，强调了爬虫技术在获取和处理互联网数据中的核心作用，以及与HTML、JavaScript和云计算时代的紧密联系。同时，也提醒开发者在技能组合上要与时俱进，掌握全栈技术，以应对不断变化的技术需求。

可是如果不能以某种方式把数据开放出来，又会面对无数爬虫的骚扰。这会给网站的正常运行带来很多烦恼。折中的办法，就是网站

主动提供一个通道。当你需要某一部分数据的时候，虽然没有现成的数据集，却只需要利用这个通道，描述你自己想要的数据，然后

网站审核（一般是自动化的，瞬间完成）之后，认为可以给你，就立刻把你明确索要的数据发送过来。双方皆大欢喜。

今后你找数据的时候，也不妨先看看目标网站是否提供了 API，以避免做无用功。

应用级 (非数据库级)API 是软件或网站平台的开发方提供的数据查询通道，为了使用 API 首先要查阅 API 的帮助文档 (通常还需

要注册开发者账号)。以豆瓣为例，其 API 帮助文档的官方网址为: https://developers.douban.com/wiki/?title=guide.

简单浏览 API 帮助，发现即使不注册开发者账号，也可以借助豆瓣 API 采集到想要的数据，例如在浏览器中输入 http-

s://api.douban.com/v2/book/1220562.

即可返回编号为 1220562 的图书信息 (JSON 格式)。显然通过 RCurl 包可以以程序方式实现这个步骤，然后借助 rjson 包解析

JSON 格式的数据，即可获得我们想要的豆瓣网信息。这就是解决问题的关键思路。

还比如说从中国天气网 api 上：www.weather.com.cn 的获取天气信息。

Sys.setlocale(locale="Chinese")

## [1] "LC_COLLATE=Chinese (Simplified)_People's Republic of China.936;LC_CTYPE=Chinese (Simplified)_People's Republic of China.936;LC_MONETARY=Chinese (Simplified)_People's Republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People's Republic of China.936"

library("RCurl")

library("rjson")

url="https://api.douban.com/v2/book/20429677?apikey=0df993c66c0c636e29ecbb5344252a4a"

# 此处需要加 apikey，豆瓣疑下线所有公开 API，所有请求都会报 msg:"invalid_apikey"，通过 imdb 号查豆瓣信息，这个需要研究研究

library(httr)# 它类似于 Python 中的 request 软件包，类似于 Web 浏览器，可以完成和远端服务器的沟通。

response <-GET(url, user_agent="my@email.com this is a test")

# 注意其中的 status 一项。我们看到它的返回值为 200。以 2 开头的状态编码是最好的结果，意味着一切顺利；如果状态值的开头是数字 4 或者 5，那就有问题了，你需要排查错误。

library(jsonlite)

## Attaching package: 'jsonlite'

## The following objects are masked from 'package:rjson':

## fromJSON, toJSON

toJSON(fromJSON(content(response, as="text")), pretty = TRUE)

## {

## "rating": {

## "max": [10],

## "numRaters": [16382],

## "average": ["7.5"],

## "min": [0]

## },

## "subtitle": ["生活、工作与思维的大变革"],

## "author": ["[英] 维克托<U+2022>迈尔<U+2022>舍恩伯格（Viktor Mayer-Sch<U+00F6>nberger）"],

## "pubdate": ["2012-12"],

## "tags": [

## {

## "count": 9846,

## "name": "大数据",

## "title": "大数据"

## },

## {

## "count": 6179,

剩余26页未读，继续阅读

赵伊辰

粉丝: 71
资源: 313

R语言爬虫与文本挖掘实践

R语言下的文本挖掘

R语言文本挖掘

R语言环境下的文本挖掘

利用R语言进行文本挖掘与自然语言处理

R语言文本挖掘：tm包与元数据管理

【R语言文本挖掘】：tm包使用技巧与实战案例

从数据到洞察：R语言文本挖掘与stringr包的终极指南

自然语言处理：文本挖掘的实践指南

【R语言数据包tm使用秘籍】：从零开始掌握文本挖掘至实战应用的全过程

计算机科学导论：自然语言处理与文本挖掘技术

最新资源