首页python爬虫代码需求描述 ·提取”G101北京南->上海虹桥"高铁站点信息 url=http://huoche.8684.cn/h.G101 ·使用xpath提取站点信息，xpath的表达式为/html/body/div[5]/div[3] 在控制台上输出十进制的站点信息

python爬虫代码需求描述 ·提取”G101北京南->上海虹桥"高铁站点信息 url=http://huoche.8684.cn/h.G101 ·使用xpath提取站点信息，xpath的表达式为/html/body/div[5]/div[3] 在控制台上输出十进制的站点信息

时间: 2024-12-20 11:28:05 浏览: 2

Python爬虫是一种自动化程序，用于从网页上抓取数据。要满足您的需求，我们可以使用Python的requests库获取网页内容，然后利用BeautifulSoup库解析HTML并提取所需的信息。以下是简单的步骤：首先，确保已安装必要的库： ```bash pip install requests beautifulsoup4 ``` 然后编写Python代码如下： ```python import requests from bs4 import BeautifulSoup # 定义URL url = "http://huoche.8684.cn/h.G101" # 发送GET请求 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 使用BeautifulSoup解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 提取站点信息 (假设XPath表达式返回的是站点列表) stations_xpath = "/html/body/div[5]/div[3]" station_elements = soup.select(stations_xpath) # 输出前十个站点信息，假设每个元素代表一个站 for i, station in enumerate(station_elements[:10], start=1): print(f"{i}. {station.text.strip()}") else: print("请求失败，状态码:", response.status_code) ``` 运行此脚本后，在控制台上将输出前十個“G101北京南->上海虹桥”高铁站点的信息。如果实际网页结构与提供的XPath表达式不符，您可能需要调整选择器以准确定位数据。

阅读全文