from urllib.request import urlopen import urllib.request from fake_useragent import UserAgent from time import sleep #时间限定 from bs4 import BeautifulSoup #调包 #ua = UserAgent() for page in range(10): sjzuURL = "http://124.95.133.164/work/xjlp/new_building.jsp"+str(154-page)+".htm" print(sjzuURL) headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} #伪装爬虫,给爬虫一个身份 req = urllib.request.Request(url="http://124.95.133.164/work/xjlp/new_building.jsp", headers=headers) indexhtml = urlopen(req) #打开网页 sleep(5) soup = BeautifulSoup(indexhtml,'html.parser') #分析网页 #print(soup.prettify()) #输出 tags = soup('a') for a in tags: href=a.get('href',None) #获取超链接字符串 htext = a.string #获取超链接文字内容 if (href.find("info/1394")>=0): print(href)
时间: 2023-06-03 18:05:05 浏览: 117
import sys import os import urllib from bs4 import BeautifulSoup
这段代码导入了 `urlopen` 方法和 `urllib.request` 模块,以及 `fake_useragent` 和 `UserAgent` 类,还有 `time` 模块中的 `sleep` 函数。
阅读全文