python网站爬虫模板及注释
时间: 2023-06-30 14:11:22 浏览: 92
以下是一个简单的Python网站爬虫模板及注释,用于爬取目标网站的HTML页面信息:
```python
import requests
from bs4 import BeautifulSoup
# 目标网站的URL
url = "https://www.example.com"
# 发送HTTP请求并获取响应
response = requests.get(url)
# 使用BeautifulSoup解析HTML页面信息
soup = BeautifulSoup(response.text, "html.parser")
# 网页标题
print("网页标题:" + soup.title.text)
# 获取所有链接
links = soup.find_all("a")
for link in links:
print(link.get("href"))
# 获取所有图片
images = soup.find_all("img")
for image in images:
print(image.get("src"))
```
注释:
- 第1行:导入requests和BeautifulSoup模块。
- 第4行:将目标网站的URL存储在变量url中。
- 第7行:使用requests模块发送HTTP请求,并获取响应。
- 第10行:使用BeautifulSoup模块解析HTML页面信息,并存储在变量soup中。
- 第13行:使用soup.title.text获取网页标题,并打印输出。
- 第16-20行:使用soup.find_all查找HTML页面中所有的链接,并依次打印输出链接的href属性。
- 第23-27行:使用soup.find_all查找HTML页面中所有的图片,并依次打印输出图片的src属性。
注意:在实际爬虫过程中,需要根据目标网站的HTML结构和需要爬取的信息进行相应的修改和调整。同时,爬虫过程中需要考虑到反爬虫机制,避免对目标网站造成不必要的影响。
阅读全文