Python爬虫入门：实战 Qiushi 百科第一页数据抓取

需积分: 0 50 浏览量更新于2024-08-04 收藏 154KB DOCX 举报

在本篇关于爬虫技术的文章中，作者介绍了爬取网站——「奇思妙笔」(Qiushibaike)的用户故事和观点的基本爬虫模板。文章主要分为三个部分： 1. **获取URL列表**: 首先，定义了一个名为`QiubaiSpyder`的类，该类的`get_url_list`方法负责生成一个URL列表。通过字符串格式化的方式，构造了从第1页到第12页的网页链接，存储在`url_list`列表中。这一步是爬虫程序的基础，确保了数据来源的完整性。 2. **解析URL内容**: `parse_url`方法接收一个URL作为参数，使用`requests`库发送GET请求并设置User-Agent头以模拟浏览器访问。请求成功后，返回响应的内容，并通过`decode()`方法将其转换为可处理的文本格式。这个步骤是抓取网页数据的关键，通过HTTP请求获取服务器返回的HTML内容。 3. **解析HTML内容提取信息**: 在`get_content_list`方法中，通过`lxml`库解析HTML字符串。首先定位到页面上包含用户故事的`<div>`元素，然后针对每个故事： - 提取作者信息：查找`<h2>`标签内的文本，并去除换行符。 - 提取内容：查找`<div class='content'>`下的`<span>`标签中的文本，并同样去除换行符，存储为列表。 - 提取缩略图URL：查找`<div class='thumb'>`内的`<img>`标签的`src`属性。 - 提取点赞状态：查找带有CSS类`c-like`的`<span>`标签的文本，这可能表示故事的点赞数量。整个流程概述了如何使用Python的基本库（如`requests`, `lxml`)来编写一个简单的网页爬虫，用于批量抓取奇思妙笔网站的故事及其相关信息。这个模板可以作为一个基础框架，用于其他类似网站的数据抓取，只需要根据目标网站的HTML结构进行相应调整。通过理解并实践这样的爬虫，学习者可以掌握网页数据抓取的基本原理和技术。

# coding=utf-8

# 爬虫最简模板

import requests

from lxml import etree

import json

class QiubaiSpyder:

def __init__(self):

self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/"

self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99

Safari/537.36"}

def get_url_list(self):

# 1

url_list = [self.url_temp.format(i) for i in range(1, 13)]

return url_list

def parse_url(self,

url

# 2.

print("url = ",

url

)

response = requests.get(

url

, headers= self.headers)

return response.content.decode()

下载后可阅读完整内容，剩余4页未读，立即下载

zh222333

粉丝: 36
资源: 296

Python爬虫入门：实战 Qiushi 百科第一页数据抓取

python爬虫第五周课程

Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdf

python爬虫五万条UA

人邮教育图书列表爬虫代码，要求爬虫五页

爬虫近五年天气.zip

150讲轻松搞定Python网络爬虫-第五章：爬虫进阶

Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.docx

爬虫集合

python爬虫

爬虫反爬虫：对抗常见爬虫防护手段

最新资源

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdf

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.docx