Python爬虫实战：CSS选择器获取相亲网站数据

5星 · 超过95%的资源需积分: 24 69 浏览量更新于2024-08-04 收藏 970KB PDF 举报

本篇文章详细介绍了如何使用Python爬虫技术，特别针对初学者和不熟悉编程的老年人，通过实例演示了CSS选择器在数据抓取中的应用。作者以一个相亲网站为例，目标是抓取女嘉宾的基本信息，如姓名、年龄、身高和体重等，以CSS选择器为主要工具，辅以requests库进行网络请求，re库进行正则表达式匹配，parsel库进行HTML解析，以及os和csv库进行文件操作。首先，文章提到requests库是Python中用于发送HTTP请求的常用库，它简化了与服务器的交互，使得爬虫编写更加便捷。parsel库则源自Scrapy框架，专为高效解析HTML和XML内容设计，它的强大之处在于CSS选择器和XPath的结合，比BeautifulSoup更快速且易用。正则表达式模块re在此起到了关键作用，它是处理文本模式匹配的强大工具，可以用来识别并提取符合特定模式的字符串片段。os模块提供了与操作系统交互的功能，如文件和目录操作，有助于处理爬取过程中可能遇到的各种路径和文件系统操作。 csv模块则是用来处理逗号分隔值文件格式，适用于数据的读写，特别是当数据需要跨平台兼容且以文本形式存储时。安装第三方模块时，文章指导了在命令行或PyCharm终端中使用pip进行安装的方法，以及处理常见安装失败问题的建议。文章的核心步骤包括： 1. 使用开发者工具分析网页结构，找出女嘉宾信息的规律，即每个女嘉宾页面都有固定的URL结构加上唯一的uid。 2. 发送GET请求获取网页源代码，然后利用正则表达式(re.findall)从源代码中提取uid。 3. 使用CSS选择器定位到所需数据，通过parsel库解析HTML内容，提取出所需的信息。 4. 将抓取到的数据保存到CSV文件中，以便后续分析或进一步处理。通过学习这篇文章，读者不仅可以掌握Python爬虫的基本技巧，还能理解CSS选择器、正则表达式在实际项目中的应用，提高对HTML解析库的理解，以及文件操作和数据存储的最佳实践。

【【Python获取相亲网站数据】马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。获取相亲网站数据】马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。

前言前言

马上都元宵节了，还在相亲，看看某相亲网站有没有那个有缘人。今天我们来爬取某相亲网站获取我们想要的数据，比如说，对方的姓名，年龄，身高，体重等等。今天我们主要使用CSS选

择的方法来匹配我们想要的数据，通过这篇的学习，可以加深大家对CSS的用法的了解，以及明白不同于正则匹配的地方。话不多说，让我手把手教你，如何获取吧。

环境使用环境使用

python 3.9

pycharm

模块使用模块使用

requests

csv

parsel

模块介绍模块介绍

requests

requests是一个很实用的Python HTTP客户端库，爬虫和测试服务器响应数据时经常会用到，requests是Python语言的第三方的库，专门用于发送HTTP请求，使用起来比urllib简洁很多。

parsel

parsel是一个python的第三方库，相当于css选择器+xpath+re。

parsel由scrapy团队开发，是将scrapy中的parsel独立抽取出来的，可以轻松解析html，xml内容，获取需要的数据。

相比于BeautifulSoup，xpath，parsel效率更高，使用更简单。

re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通

用。

os 就是 “operating system” 的缩写，顾名思义，os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块，一方面可以方便地与操作系统进行交互，另一方面也可以

极大增强代码的可移植性。

csv

它是一种文件格式，一般也被叫做逗号分隔值文件，可以使用 Excel 软件或者文本文档打开。其中数据字段用半角逗号间隔（也可以使用其它字符），使用 Excel 打开时，逗号会被转换为

分隔符。csv 文件是以纯文本形式存储了表格数据，并且在兼容各个操作系统。

模块安装问题模块安装问题:

如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

安装失败原因:

失败一: pip 不是内部命令

解决方法: 设置环境变量

失败二: 出现大量报红 (read time out)

解决方法: 因为是网络链接超时, 需要切换镜像源

清华：https://pypi.tuna.tsinghua.edu.cn/simple

阿里云：https://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学：https://pypi.hustunique.com/

山东理工大学：https://pypi.sdutlinux.org/

豆瓣：https://pypi.douban.com/simple/

例如：pip3 install -i https://pypi.doubanio.com/simple/ 模块名

失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好，或者你pycharm里面python解释器没有设置好。

代码实现代码实现

发送请求发送请求

首先我们需要确定我们的目标网址。

下载后可阅读完整内容，剩余4页未读，立即下载

爱吃饼干的小白鼠

粉丝: 1w+
资源: 25

Python爬虫实战：CSS选择器获取相亲网站数据

Python零基础入门到精通基Python100个源码实例.zip

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

10小时零基础入门Python爬虫开发

小甲鱼零基础入门学习Python+全套源码课件

小甲鱼零基础入门学习python随书源码+附件

Python3编程教学视频零基础入门到精通教程人工智能网络爬虫课程下载地址

从零起步系统入门Python爬虫工程师系列课程.txt

python爬虫源代码

零基础快速入门Python爬虫指南

"7个经典的python爬虫案例附源码分享，适合新手入门学习

最新资源