python爬虫代码 需求描述 ·提取”G101北京南->上海虹桥"高铁站点信息 url=http://huoche.8684.cn/h.G101 ·使用xpath提取站点信息,xpath的表达式为/html/body/div[5]/div[3] 在控制台上输出十进制的站点信息
时间: 2024-12-20 11:28:05 浏览: 2
Python爬虫是一种自动化程序,用于从网页上抓取数据。要满足您的需求,我们可以使用Python的requests库获取网页内容,然后利用BeautifulSoup库解析HTML并提取所需的信息。以下是简单的步骤:
首先,确保已安装必要的库:
```bash
pip install requests beautifulsoup4
```
然后编写Python代码如下:
```python
import requests
from bs4 import BeautifulSoup
# 定义URL
url = "http://huoche.8684.cn/h.G101"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 提取站点信息 (假设XPath表达式返回的是站点列表)
stations_xpath = "/html/body/div[5]/div[3]"
station_elements = soup.select(stations_xpath)
# 输出前十个站点信息,假设每个元素代表一个站
for i, station in enumerate(station_elements[:10], start=1):
print(f"{i}. {station.text.strip()}")
else:
print("请求失败,状态码:", response.status_code)
```
运行此脚本后,在控制台上将输出前十個“G101北京南->上海虹桥”高铁站点的信息。如果实际网页结构与提供的XPath表达式不符,您可能需要调整选择器以准确定位数据。
阅读全文