from urllib.request import urlopen import urllib.request from fake_useragent import UserAgent from time import sleep #时间限定 from bs4 import BeautifulSoup #调包 #ua = UserAgent() for page in range(10): sjzuURL = "http://124.95.133.164/work/xjlp/new_building.jsp"+str(154-page)+".htm" print(sjzuURL) headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} #伪装爬虫,给爬虫一个身份 req = urllib.request.Request(url="http://124.95.133.164/work/xjlp/new_building.jsp", headers=headers) indexhtml = urlopen(req) #打开网页 sleep(5) soup = BeautifulSoup(indexhtml,'html.parser') #分析网页 #print(soup.prettify()) #输出 tags = soup('a') for a in tags: href=a.get('href',None) #获取超链接字符串 htext = a.string #获取超链接文字内容 if (href.find("info/1394")>=0): print(href)
时间: 2023-06-03 18:05:05 浏览: 56
这段代码导入了 `urlopen` 方法和 `urllib.request` 模块,以及 `fake_useragent` 和 `UserAgent` 类,还有 `time` 模块中的 `sleep` 函数。
相关问题
from bs4 import BeautifulSoup from bs4 import UnicodeDammit import urllib.request
这是 Python 中用于爬取网页的库和模块。
- `bs4` 库是 BeautifulSoup4,用于解析 HTML 和 XML 文档。
- `UnicodeDammit` 模块是用于将文本转换为 Unicode 编码的模块。
- `urllib.request` 模块是 Python 内置的用于发送 HTTP 请求的库,可以用于获取网页的内容。
通常在爬取网页的时候,需要使用 `urllib.request` 发送请求获取网页内容,然后用 `BeautifulSoup` 解析 HTML 或 XML 文档,最后用 `UnicodeDammit` 将文本内容转换为 Unicode 编码。
urllib.request.Request和urllib.request.urlopen区别
`urllib.request.Request` 是一个构造器函数,用于构造一个HTTP请求对象。这个函数可以接收一个URL地址、一个数据字典和一些HTTP头信息。通过使用`urllib.request.Request`函数,我们可以创建一个HTTP请求对象,并在发送请求时传递给`urllib.request.urlopen`函数。
`urllib.request.urlopen` 函数是用于打开URL并读取数据的函数。该函数接收一个URL地址或一个`urllib.request.Request`对象并返回一个响应对象。响应对象包含有关响应的信息,如状态码、HTTP头和响应体。
因此,`urllib.request.Request`用于构造请求对象,而`urllib.request.urlopen`用于发送请求并获取响应对象。
相关推荐
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)