用scrapy爬取58同城二手房信息
时间: 2023-11-01 18:07:50 浏览: 188
利用scrapy框架,爬取12306的所有的代售点,站点,余票,票价等信息.zip
以下是一个使用Scrapy爬取58同城二手房信息的示例代码:
```python
import scrapy
class ErshoufangSpider(scrapy.Spider):
name = 'ershoufang'
allowed_domains = ['bj.58.com']
start_urls = ['https://bj.58.com/ershoufang/']
def parse(self, response):
for item in response.css('.listUl li'):
yield {
'title': item.css('.title a::text').get(),
'url': item.css('.title a::attr(href)').get(),
'info': item.css('.room p::text').getall(),
'total_price': item.css('.sum b::text').get(),
'unit_price': item.css('.unit b::text').get(),
}
next_page = response.css('.next::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
以上代码首先访问58同城二手房的首页,然后解析每个房源的名称、链接、房屋信息、总价和单价,并将这些信息存储在一个字典中。接着,爬虫会查找下一页的链接,如果找到了就继续爬取下一页。最后,爬虫会将所有爬取到的信息输出到控制台上。
需要注意的是,58同城对爬虫有限制,爬虫需要设置一些反爬虫的策略,如随机延时、模拟登录等。另外,爬虫也需要遵守网站的Robots协议,不要过于频繁地访问网站。
阅读全文