写一个python网页爬虫程序
时间: 2023-10-01 13:05:40 浏览: 93
Python编写网页爬虫
好的,以下是一个简单的 Python 网页爬虫程序,用来获取目标网站的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
# 目标网站 URL
url = 'https://www.example.com'
# 发送请求并解析 HTML
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面标题
title = soup.title.string
print('页面标题:', title)
# 获取所有链接
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href.startswith('http'):
links.append(href)
# 打印链接
print('链接数目:', len(links))
for link in links:
print(link)
```
这个程序使用 `requests` 模块发送 HTTP 请求,使用 `BeautifulSoup` 模块解析 HTML。它首先获取目标网站的 HTML,然后使用 BeautifulSoup 找到页面标题和所有链接。注意,这个程序只获取以 `http` 开头的链接。
阅读全文