from urllib.parse import urljoin from lxml import etree import requests url = "https://sph.pku.edu.cn/szdw/lxbywstjxx.htm" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/25" } response = requests.get(url, headers=headers) response.encoding = response.apparent_encoding content = response.text html = etree.HTML(content) list = html.xpath("/html/body/div[3]/div/div/div[3]/div[2]/ul/li/div[1]/a") for a in list: link = a.xpath(".//@href")[0] detail_url = urljoin(url, link) # print(link) new_response = requests.get(detail_url, headers=headers) new_response.encoding = new_response.apparent_encoding new_content = new_response.text new_html = etree.HTML(new_content) div = new_html.xpath("/html/body/div/div[4]/div/div/div[3]/div[2]/form[1]/div[1]/div[2]") for div in div: name = div.xpath(".//h2/span/text()") email = div.xpath(".//ul/li[2]/span/text()") name = str(name)[2:-2] email = str(email)[2:-2] print(name) print(email)

时间: 2023-06-07 11:09:39 浏览: 286

这段代码使用Python，导入urllib.parse和lxml.etree模块以及requests模块来爬取指定网站的信息。使用requests模块发起一个GET请求获取网页内容，并使用etree模块来解析HTML文档。其中，使用xpath方法从HTML文档中获取所需信息，再使用urljoin方法将相对链接转换为绝对链接。

注释以下代码from re import findall from urllib.parse import urljoin from urllib.request import urlopen, Request url = r'http://jwc.sdtbu.edu.cn/info/2002/5418.htm' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36', 'Referer': url, } # 不加这一项会有防盗链提示 req = Request(url=url, headers=headers) with urlopen(req) as fp: content = fp.read().decode() pattern = r'<a href="(.+?)"><span>(.+?)</span>' for fileUrl, fileName in findall(pattern, content): if 'javascript' in fileUrl: continue fileUrl = urljoin(url, fileUrl) req = Request(url=fileUrl, headers=headers) with urlopen(req) as fp1: with open(fileName, 'wb') as fp2: fp2.write(fp1.read())

以下是对代码的注释： ```python # 导入所需的模块 from re import findall from urllib.parse import urljoin from urllib.request import urlopen, Request # 要爬取的网页地址 url = r'http://jwc.sdtbu.edu.cn/info/2002/5418.htm' # 设置请求头，模拟浏览器访问，避免反爬虫机制 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36', 'Referer': url, # 不加这一项会有防盗链提示 } # 构造请求对象 req = Request(url=url, headers=headers) # 发送请求，获取网页内容 with urlopen(req) as fp: content = fp.read().decode() # 匹配网页中的文件链接和文件名 pattern = r'<a href="(.+?)"><span>(.+?)</span>' for fileUrl, fileName in findall(pattern, content): # 排除非文件链接（如javascript链接） if 'javascript' in fileUrl: continue # 拼接文件链接的完整地址 fileUrl = urljoin(url, fileUrl) # 构造请求对象 req = Request(url=fileUrl, headers=headers) # 发送请求，获取文件内容，并保存到本地 with urlopen(req) as fp1: with open(fileName, 'wb') as fp2: fp2.write(fp1.read()) ``` 代码的作用是从指定网页中爬取文件链接，并将文件下载到本地。其中，使用了正则表达式对网页内容进行匹配，并使用 urllib 库发送请求和获取响应。在请求头中设置了 User-Agent 和 Referer 字段，模拟浏览器访问，避免被反爬虫机制拦截。

import urllib.request from urllib.request import urlopen#用于获取网页 from lxml import etree import requests from bs4 import BeautifulSoup#用于解析网页 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36' } # html = urlopen('https://baike.pcbaby.com.cn/') # bsObj = BeautifulSoup(html, 'html.parser') # t1 = bsObj.select('#Jbaike div:nth-of-type(2) div:nth-of-type(1) dl dd a[href]') # t6 = bsObj.select('#Jbaike div:nth-of-type(2) div:nth-of-type(1) dl dt') # # a6 = bsObj.select # text_list = [] # # for t5 in t6: # t4 = t5.get_text() # text_list.append(t4) # for title1 in text_list: # print(title1) # # for t2 in t1: # t3 = t2.get('href') # main_resp = requests.get('https:'+t3,headers=headers) # main_text = main_resp.content.decode('gbk') # main_html = etree.HTML(main_text) # title2 = main_html.xpath('//*[@id="Janchor"]//p/a/text()') # print(title2) url = 'https://baike.pcbaby.com.cn/qzbd/1132261.html' requests = urllib.request.Request(url = url,headers=headers) response = urllib.request.urlopen(requests) content = response.read().decode('gbk') tree = etree.HTML(content) t4 = tree.xpath('//div[@id="Janchor"]//p/a/@href') # print(t4) for t3 in t4: t5 = t3.get('href') # main_resp = requests.get(url + t5,headers=headers) # main_text = main_resp.content.decode('gbk') # main_html = etree.HTML(main_text) # print(main_html) print(t5) 怎么优化排错

要优化排错，可以考虑以下几个方面： 1. 检查代码注释：在代码中有一些注释，可以先将其取消注释，逐行运行代码，看看是否有错误提示。如果有错误，可以根据提示修复代码。 2. 检查导入库是否正确：确认所有需要导入的库是否已正确导入，并且确保库的名称拼写正确。例如，检查是否正确导入了`urllib.request`、`lxml`、`requests`和`BeautifulSoup`等库。 3. 检查网页解析部分：在代码中使用了`etree`库进行网页解析，可以先检查是否正确导入了`etree`库，并且确认代码中的XPath表达式是否正确。可以通过在代码中打印出结果进行调试。 4. 检查请求头部信息：在发送请求时，使用了自定义的请求头部信息。可以确保请求头部信息是否正确，并且确保请求的URL是否可访问。 5. 检查变量使用：在代码中有一些变量的使用，例如`t3`和`t5`。可以检查这些变量的类型和赋值是否正确，以及是否符合后续代码的要求。 6. 检查错误提示：如果代码运行时出现错误提示，可以阅读错误提示并尝试理解其含义。根据错误提示，可以定位到具体的问题，并进行修复。 7. 使用调试工具：如果以上方法无法定位问题，可以尝试使用调试工具，例如Python的pdb模块或者IDE的调试功能，逐行运行代码并观察变量的值和执行流程，以找出问题所在。通过以上方法，可以逐步定位和修复代码中的问题，优化排错过程。

阅读全文

相关推荐

Python3网络爬虫进阶：使用urllib.urlopen与有道翻译API交互

Python urllib.unquote乱码解析与解决方案

Python爬虫实战：抓取http://www.win4000.com/美桌图片

利用python爬虫(part2)–urllib.parse模块

Python3的urllib.parse常用函数小结(urlencode,quote,quote_plus,unquote,unquote_plus等)

Python开发者福音：urllib.parse模块深入解析与最佳实践

请跟据urllib中get请求的实现方法，实现对https://baidu.com的带参数的查询 hints：拼接的url前半部分为'https://www.baidu.com/s?'

urllib.parse.urlencode的其他实现方式

给出下列python代码 1.向 http://localhost:8080 发送广告推送 2. http://localhost:8080 检测入侵 3. http://localhost

访问站长素材动物图片https://sc.chinaz.com/tupian/dongwutupian.html 下载1-100页所有图片，以图片下面的标题栏命名 要求：使用urllib库访问网页、lxml库解析网页

from urllib import parse作用

使用 Python 代码，通过 urllib3 模块实现发送 POST 请求获取网页内容。 环境说明： 请求页面为：https://fanyi.baidu.com/sug 封装参数为： {'kw':'苹果',}

爬取帖子出错 Invalid URL '#': No scheme supplied. Perhaps you meant https://#?

python 输出该网站https://movie.douban.com/subject/35660795/comments?status=P，前20页的URL代码

pycharm爬取https://music.douban.com/top250所有图片的代码

1. 抓取优美图库(链接地址：https://www.umei.cc/weimeitupian/yijingtupian/)网站的图片,要求使用bs4库对网页进行解析，最后将图片存储到本地。

如何使用Python的urllib库和BeautifulSoup库构建一个爬虫程序，目标是从https://www.sohu.com的军事新闻分类中抓取并解析数据？

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

访问站长素材动物图片https://sc.chinaz.com/tupian/dongwutupian.html 下载1-100页所有图片，以图片下面的标题栏命名要求：使用urllib库访问网页、lxml库解析网页

使用 Python 代码，通过 urllib3 模块实现发送 POST 请求获取网页内容。环境说明：请求页面为：https://fanyi.baidu.com/sug 封装参数为： {'kw':'苹果',}

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集