使用python中requests模块写一个简单的网页爬虫
时间: 2023-12-06 13:44:01 浏览: 33
好的,下面是一个简单的使用 requests 模块爬取网页的示例代码:
```python
import requests
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求并获取响应
url = 'http://www.example.com'
response = requests.get(url, headers=headers)
# 输出响应内容
print(response.text)
```
上述代码中,我们首先设置了请求头,模拟浏览器访问,然后使用 requests.get() 方法发送请求并获取响应,最后输出响应内容。
需要注意的是,有些网站可能会对爬虫进行限制,因此我们在编写爬虫时需要注意遵守相关的法律法规,以及网站的使用规定。
相关问题
写一个python网页爬虫程序
好的,以下是一个简单的 Python 网页爬虫程序,用来获取目标网站的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
# 目标网站 URL
url = 'https://www.example.com'
# 发送请求并解析 HTML
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取页面标题
title = soup.title.string
print('页面标题:', title)
# 获取所有链接
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href.startswith('http'):
links.append(href)
# 打印链接
print('链接数目:', len(links))
for link in links:
print(link)
```
这个程序使用 `requests` 模块发送 HTTP 请求,使用 `BeautifulSoup` 模块解析 HTML。它首先获取目标网站的 HTML,然后使用 BeautifulSoup 找到页面标题和所有链接。注意,这个程序只获取以 `http` 开头的链接。
用requests和xpath写一个爬虫程序爬取网页文本
好的,下面是一个简单的示例程序:
```python
import requests
from lxml import etree
# 定义目标网页的url
url = 'https://www.example.com/'
# 发送GET请求并获取响应
response = requests.get(url)
# 解析响应内容
html = etree.HTML(response.text)
# 使用xpath选择器提取文本内容
text_list = html.xpath('//p/text()')
# 输出结果
print(text_list)
```
在这个示例程序中,我们首先使用 `requests` 库发送了一个GET请求,获取了目标网页的响应。然后,我们使用 `etree` 模块将响应内容解析成了一个HTML树,并使用xpath选择器从中提取了所有 `p` 标签的文本内容。最后,我们将提取到的文本内容打印出来。
当然,这只是一个简单的示例程序,实际爬取网页时还需要处理各种异常情况,比如网络连接失败、网页解析失败等等。另外,还需要注意网页的版权问题,尊重网站所有者的权益,不要进行未经授权的爬取。