怎么爬取12306网站上面的信息并保存到一个xlsx文件里面
时间: 2024-06-09 15:04:51 浏览: 88
python 爬取网页上的相关内容,下载到本地,并生成excel
要爬取12306网站上的信息,需要使用Python的网络爬虫技术。以下是一个简单的爬虫程序,可以爬取12306网站上的火车票信息,并将它们保存到一个Excel文件中:
首先,需要安装一些Python库:requests和beautifulsoup4。可以使用以下命令安装:
```
pip install requests
pip install beautifulsoup4
```
接下来,可以使用以下代码来爬取12306网站上的火车票信息:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
# 设置要爬取的网页链接
url = "https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2021-10-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT"
# 设置请求头,模拟浏览器访问
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36"
}
# 发送GET请求,获取网页内容
response = requests.get(url, headers=headers)
# 解析网页内容
soup = BeautifulSoup(response.text, "html.parser")
# 从网页中提取火车票信息
rows = []
for tr in soup.select("#queryLeftTable tr[data-traincode]"):
row = []
row.append(tr["data-traincode"])
row.append(tr.select_one(".start-t a").text.strip())
row.append(tr.select_one(".end-t a").text.strip())
row.append(tr.select_one(".start-t + td").text.strip())
row.append(tr.select_one(".arrive-t + td").text.strip())
row.append(tr.select_one(".lishi + td").text.strip())
row.append(tr.select_one(".zy_num").text.strip())
row.append(tr.select_one(".ze_num").text.strip())
row.append(tr.select_one(".rw_num").text.strip())
row.append(tr.select_one(".yw_num").text.strip())
row.append(tr.select_one(".rz_num").text.strip())
row.append(tr.select_one(".yz_num").text.strip())
row.append(tr.select_one(".wz_num").text.strip())
rows.append(row)
# 将火车票信息保存到Excel文件中
wb = openpyxl.Workbook()
ws = wb.active
ws.append(["车次", "出发站", "到达站", "出发时间", "到达时间", "历时", "一等座", "二等座", "软卧", "硬卧", "软座", "硬座", "无座"])
for row in rows:
ws.append(row)
wb.save("tickets.xlsx")
```
在代码中,首先设置要爬取的网页链接。在本例中,我们要爬取2021年10月1日从上海到北京的火车票信息。然后,设置请求头,模拟浏览器访问。接着,发送GET请求,获取网页内容,并使用BeautifulSoup解析网页内容。最后,从网页中提取火车票信息,并将它们保存到Excel文件中。
需要注意的是,12306网站有反爬措施,如果请求频率过高,可能会被封IP或验证码拦截。所以,在爬取12306网站上的信息时,需要注意控制请求频率,并处理验证码。
阅读全文