Python爬虫实践：2018年新闻网站数据抓取

需积分: 5 13 浏览量更新于2024-06-16 收藏 750KB PDF 举报

"这篇资源是关于2018年2月14日创建的一个新闻内容爬虫项目，用于抓取不同新闻网站的数据，包括QQ新闻、新浪、网易、南方周末、环球网、中国新闻网和搜狐等。这个爬虫主要用于毕业设计或者作为范文/模板/素材使用，展示了如何抓取新闻滚动页面、解析页面内容、获取评论以及处理动态加载的数据。" 在新闻爬虫技术中，关键在于理解网页结构和动态数据加载机制。例如，QQ新闻的滚动页面可以通过选择日期和新闻类别来获取数据，动态URL通常包含参数如日期、页面类型和分页信息。对于QQ新闻，动态获取数据的URL是一个带有随机数的JSON接口，需要在请求中添加头部信息，如`referer`和`user_agent`，以模拟浏览器行为。新浪的滚动页面则可能有不同的URL模式，需要识别并适应其动态加载数据的方式。同样，网易新闻和其它网站也需采用类似策略，通过分析网页源码或使用开发者工具（如Chrome的F12）找到数据加载的API。在获取新闻内容后，解析页面内容是另一项关键任务。这通常涉及HTML解析库，如Python的BeautifulSoup或lxml，提取出标题、正文、时间等关键信息。对于评论的抓取，可能需要遍历不同的评论页面，或者处理嵌入在JavaScript中的数据，这可能需要用到如`execjs`库来执行JavaScript代码，以获取隐藏的数据。在执行爬虫时，需要注意网站的反爬虫策略，比如设置合理的请求间隔以避免被封IP，以及处理编码问题，例如使用`chardet`库来检测并转换网页编码。这个新闻爬虫项目覆盖了多个知名新闻网站，可以作为学习爬虫技术的实例，帮助理解不同网站的数据结构和抓取方法。同时，它也可以作为一个基础框架，用于自定义的新闻数据收集和分析任务。通过深入理解这个项目，读者能够学习到网络爬虫的基本流程，包括网页请求、数据解析、动态加载内容的抓取以及应对各种网站结构的策略。

就是一个随机数

表示先中的3种类型，如果是其他大类，体育或是财经也有其他的小类

如下：

表示所在大类

表示往期回顾日期，不写表示当天向后显示10页，每页50条新闻

表示第几页

表示标题模式还是摘要模式

3 获取数据格式

获取数据是一个字典，可以使用如一代码查看

注意：请求页面时，必须加头部信息

#必须用　referer　和　user_agent　参数

import requests

import chardet

user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"

referer = "http://news.qq.com/"

#构建页面请求的头部

headers = {'User-Agent':user_agent, "Referer":referer}

#构建页面请求

url ='http://roll.news.qq.com/interface/roll.php?

0.7455619115457752&cata=newsgn,newsgj,newssh&site=news&date=&page=1&mo

de=1&of=json'

response = requests.get(url, headers=headers)

res = chardet.detect(response.content)

response.encoding = res['encoding']

response.text

articleRollDict = json.loads(response.text, encoding=response.encoding)

0.7455619115457752

cata=newsgn,newsgj,newssh

site=news

date=

page=1

mode=1

剩余19页未读，继续阅读

Brickie-liu

粉丝: 113
资源: 28

Python爬虫实践：2018年新闻网站数据抓取

新闻采集爬虫

新闻网站爬虫

i-crawl-news:我的爬虫新闻

Python-知网搜狗微信搜狗新闻的爬虫

Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫（共23页）.pptx

爬虫糗事百科实例_2018-05-21.py

Python系列-自动化-机器学习-人脸识别-高级爬虫工程师-数据采集-爬虫实例-大小1-2t按需转存

爬虫数据

2018-2最新爬虫打造上线搜索引擎教程.zip

计算机-爬虫-可定制的聚焦网络爬虫.pdf

最新资源

Python网络爬虫教程数据采集信息提取课程 09-实例3-股票数据定向爬虫（共23页）.pptx