python爬虫requests实例
时间: 2023-08-27 17:15:43 浏览: 114
好的,以下是一个简单的使用 Python requests 库进行网页爬取的示例代码:
```python
import requests
url = "https://www.baidu.com"
response = requests.get(url)
print(response.text)
```
上述代码中,我们首先导入 requests 库,然后指定要爬取的网页 URL,使用 requests.get() 方法获取页面内容,最后打印出页面的 HTML 内容。
需要注意的是,有些网站会对爬虫进行限制或封禁,因此在进行网页爬取时需要注意遵守相关法律规定和网站的使用协议。
相关问题
python爬虫简单实例
Python爬虫是一个用于自动化数据抓取的工具,常用于网站数据的收集。一个简单的Python爬虫实例通常是使用`requests`库获取网页内容,然后用`BeautifulSoup`或`lxml`解析HTML。以下是一个使用`requests`和`BeautifulSoup`抓取网页标题的基本示例:
```python
# 导入所需库
import requests
from bs4 import BeautifulSoup
# 定义目标URL
url = "https://www.example.com"
# 使用requests获取网页内容
response = requests.get(url)
# 检查请求状态码
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到网页标题
title = soup.title.string
# 打印标题
print("网页标题:", title)
else:
print("请求失败,状态码:", response.status_code)
python爬虫抢票实例代码
以下是一个简单的Python爬虫抢票的示例代码,以12306网站为例:
```python
import requests
from bs4 import BeautifulSoup
# 目标URL
url = 'https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2022-12-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT'
# 发送HTTP请求并获取页面内容
response = requests.get(url)
data = response.json()
# 解析JSON数据,提取车票信息
tickets = data['data']['result']
for ticket in tickets:
info = ticket.split('|')
train_no = info[3] # 车次号码
from_station = info[6] # 出发站
to_station = info[7] # 到达站
start_time = info[8] # 出发时间
end_time = info[9] # 到达时间
duration = info[10] # 历时
# 过滤条件,假设只需要筛选出高铁车次
if 'G' in train_no:
print(f'车次:{train_no},出发站:{from_station},到达站:{to_station},出发时间:{start_time},到达时间:{end_time},历时:{duration}')
# 其他操作,如自动填写表单、点击按钮等,请根据实际情况使用selenium库或其他相关库来完成。
```
注意:以上代码只是一个简单示例,具体的实现方式和所需的库可能因不同的网站而异。在实际应用中,您需要根据目标网站的页面结构和请求方式进行相应的调整和处理。
希望对您有所帮助!如果您还有其他问题,请随时提问。
阅读全文