首页from urllib.request import urlopen import urllib.request from fake_useragent import UserAgent from time import sleep #时间限定 from bs4 import BeautifulSoup #调包 #ua = UserAgent() for page in range(10): sjzuURL = "http://124.95.133.164/work/xjlp/new_building.jsp"+str(154-page)+".htm" print(sjzuURL) headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} #伪装爬虫，给爬虫一个身份 req = urllib.request.Request(url="http://124.95.133.164/work/xjlp/new_building.jsp", headers=headers) indexhtml = urlopen(req) #打开网页 sleep(5) soup = BeautifulSoup(indexhtml,'html.parser') #分析网页 #print(soup.prettify()) #输出 tags = soup('a') for a in tags: href=a.get('href',None) #获取超链接字符串 htext = a.string #获取超链接文字内容 if (href.find("info/1394")>=0): print(href)

from urllib.request import urlopen import urllib.request from fake_useragent import UserAgent from time import sleep #时间限定 from bs4 import BeautifulSoup #调包 #ua = UserAgent() for page in range(10): sjzuURL = "http://124.95.133.164/work/xjlp/new_building.jsp"+str(154-page)+".htm" print(sjzuURL) headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} #伪装爬虫，给爬虫一个身份 req = urllib.request.Request(url="http://124.95.133.164/work/xjlp/new_building.jsp", headers=headers) indexhtml = urlopen(req) #打开网页 sleep(5) soup = BeautifulSoup(indexhtml,'html.parser') #分析网页 #print(soup.prettify()) #输出 tags = soup('a') for a in tags: href=a.get('href',None) #获取超链接字符串 htext = a.string #获取超链接文字内容 if (href.find("info/1394")>=0): print(href)

时间: 2023-06-03 18:05:05 浏览: 117

import sys import os import urllib from bs4 import BeautifulSoup

import sys import os import urllib from bs4 import BeautifulSoup import re import time

这段代码导入了 `urlopen` 方法和 `urllib.request` 模块，以及 `fake_useragent` 和 `UserAgent` 类，还有 `time` 模块中的 `sleep` 函数。

阅读全文

最新推荐

相关推荐

python爬虫实例——基于BeautifulSoup与urllib.request

Python urllib.request对象案例解析

from bs4 import BeautifulSoup from bs4 import UnicodeDammit import urllib.request

urllib.request.Request和urllib.request.urlopen区别

import re import urllib.request import urllib.error import urllib.parse import json

urllib.request.urlopen post提交

python urllib.request.urlopen如何解决307问题

import requests from bs4 import BeautifulSoup import xlwt import time import urllib3 import requests import json

if sys.version[0] == "3": from urllib.request import urlretrieve else: from urllib import urlretrieve

urllib.request.urlopen报错

urllib.request.urlopen使用方法

try: from urllib.parse import urlencode except ImportError: from urllib import urlencode

python urllib.request.urlopen 返回数据对象 获取编码方式

urllib.request.urlopen(IP) 返回什么

import re import urllib url="http://www.baidu.com" s=urllib.request.urlopen(url).read()

data =urllib.request.urlopen(target_url)

from urllib.parse import quote, unquote

from urllib.parse import urlencode

urllib模块中用于请求的模块是 （ ） 答案选项组 urllib.request urllib.parse urllib.request.urlopen urllib.error

最新推荐

黑板风格计算机毕业答辩PPT模板下载

管理建模和仿真的文件

提升点阵式液晶显示屏效率技术

在SoC芯片的射频测试中，ATE设备通常如何执行系统级测试以保证芯片量产的质量和性能一致？

CodeSandbox实现ListView快速创建指南

"互动学习：行动中的多样性与论文攻读经历"

点阵式显示屏常见故障诊断方法

名词性从句包括哪些类别？它们各自有哪些引导词？请结合例句详细解释。

Node.js脚本实现WXR文件到Postgres数据库帖子导入

关系数据表示学习

python urllib.request.urlopen 返回数据对象获取编码方式

urllib模块中用于请求的模块是（）答案选项组 urllib.request urllib.parse urllib.request.urlopen urllib.error