pychram编写一个selenium爬取http://data.cityhouse.cn/rank/index.html?
时间: 2023-12-23 08:02:40 浏览: 137
Python+selenium 职位信息爬取
好的,以下是一个简单的示例代码,使用selenium和Chrome浏览器驱动器来实现爬取http://data.cityhouse.cn/rank/index.html?:
```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 设置Chrome浏览器驱动器的路径
chromedriver_path = 'path/to/chromedriver'
# 创建Chrome浏览器驱动器
driver = webdriver.Chrome(chromedriver_path)
# 打开目标网页
driver.get('http://data.cityhouse.cn/rank/index.html?')
# 等待表格元素加载完成
table = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, 'table'))
)
# 获取表格数据
table_rows = table.find_elements_by_xpath('.//tr')
for row in table_rows:
row_data = [cell.text for cell in row.find_elements_by_xpath('.//td')]
print(row_data)
# 关闭浏览器驱动器
driver.quit()
```
这段代码首先创建了一个Chrome浏览器驱动器,并打开了目标网页。然后,使用`WebDriverWait`等待表格元素加载完成,以确保可以成功获取表格数据。最后,遍历表格的每一行,获取每个单元格的文本,并将其打印出来。最后,关闭浏览器驱动器以结束程序。
阅读全文