""" 百度网页爬取练习,获取标题和标题地址 1、导入库,etree 和 requests 2、获取百度url地址 3、模拟浏览器输入 4、字段拼接 5、拼接结果解析html页面 6、将html字符串解析 7、利用xpath语法获取相应的字段信息并转化文本信息 8、数据以字典形式存储 9、for循环依次写入数据并进行保存 10、输出 """ import requests from lxml import etree url = "https://www.baidu.com" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36" } response = requests.get(url, headers=headers) condent = response.content.decode('utf8') html = etree.HTML(condent) contents = html.xpath('//div[@id= "s-top-left"]/a/text()') contentes = html.xpath('//div[@id= "s-top-left"]/a') print(type(contentes)) urls = html.xpath('//div[@id= "s-top-left"]/a/@href') flash = html.xpath('//ul[@class="s-hotsearch-content"]/li/a/text') print(flash) egs = [] for condent, url in zip(contents, urls): eg = {} eg = { "contents": condent, "urls": url } egs.append(eg) print(egs)
时间: 2024-04-18 18:30:23 浏览: 111
python3+selenium爬取百度图片
这是一个简单的百度网页爬取练习,主要目的是获取标题和标题地址。以下是代码的解析:
1. 首先导入了需要的库 `etree` 和 `requests`。
2. 获取百度的URL地址。
3. 使用模拟浏览器的方式发送请求,设置了请求头部信息。
4. 对字段进行拼接。
5. 解析HTML页面,将HTML字符串解析为可处理的对象。
6. 使用XPath语法获取相应的字段信息,并将其转化为文本信息。
7. 将获取到的标题和标题地址存储在字典中。
8. 使用循环遍历所有的标题和标题地址,并将其添加到列表中。
9. 将数据进行保存。
10. 最后输出结果。
请注意,这只是一个简单的示例,实际应用中可能还需要进行更多的处理和异常处理。
阅读全文