首页利用requests(请求库)将网页源代码爬取下来，利用pyquery(解析库)解析后，把数据保存TXT文本文件

利用requests(请求库)将网页源代码爬取下来，利用pyquery(解析库)解析后，把数据保存TXT文本文件

时间: 2024-09-09 15:03:04 浏览: 47

使用Python的requests库可以很方便地发送HTTP请求，获取网页的源代码。而pyquery库则提供了一种类似于jQuery的方式，能够通过CSS选择器来解析HTML文档。下面是使用这两个库来爬取网页源代码并解析后保存到TXT文本文件的基本步骤： 1. 首先，你需要安装requests和pyquery这两个库（如果尚未安装的话）： ``` pip install requests pyquery ``` 2. 使用requests库发送HTTP GET请求获取网页源代码： ```python import requests # 目标网页的URL url = 'http://example.com' # 发送GET请求 response = requests.get(url) # 确保请求成功 if response.status_code == 200: html_content = response.text else: print('网页请求失败，状态码：', response.status_code) html_content = None ``` 3. 使用pyquery库解析获取到的HTML源代码： ```python from pyquery import PyQuery as pq # 使用pyquery解析HTML内容 doc = pq(html_content) ``` 4. 根据需要提取特定的数据，比如提取所有的段落文本： ```python # 假设我们要提取所有的段落<p>标签内的文本 paragraphs = doc('p').text() ``` 5. 将提取的数据保存到TXT文本文件中： ```python # 将数据写入到文本文件中 with open('output.txt', 'w', encoding='utf-8') as file: file.write(paragraphs) ``` 上述代码段展示了如何将获取到的网页源代码通过pyquery解析，并将特定数据保存到文本文件中。请根据实际网页结构调整选择器以及数据提取逻辑。

阅读全文