在pycharm中用beautifulsoup爬取房产网页信息
时间: 2023-11-17 07:08:22 浏览: 87
python3结合bs4爬取博客数据.txt
下面是一个简单的例子,演示如何使用BeautifulSoup库爬取一个房产网站上的信息。我们以链家网为例,爬取北京市的二手房信息。代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://bj.lianjia.com/ershoufang/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
house_list = soup.find_all('div', class_='info clear')
for house in house_list:
name = house.find('div', class_='title').find('a').text.strip()
price = house.find('div', class_='priceInfo').find('div', class_='totalPrice').text.strip()
area = house.find('div', class_='address').find('div', class_='houseInfo').text.strip()
print(f'{name}:{price},{area}')
```
这个例子中,我们先向链家网的北京二手房列表页面发送请求,获取响应。然后使用BeautifulSoup库解析响应的HTML代码,通过find_all()方法找到所有二手房信息所在的div标签,再通过find()方法找到每个二手房的名称、总价和面积信息。
最后打印出二手房的名称、总价和面积信息。可以看到,使用BeautifulSoup库可以轻松地从网页中提取出需要的信息。
阅读全文