作为python开发,使用scrapy框架,找到class='pai-item pai-status-doing'的<li>标记内的<p>里的文字内容为estate_name; <em class='
时间: 2024-03-04 10:50:10 浏览: 54
好的,你想问如何使用Scrapy框架找到class='pai-item pai-status-doing'的<li>标记内的<p>里的文字内容为estate_name; <em class='的内容,对吧?
首先,你需要在Scrapy中编写一个Spider来爬取网页并提取所需的信息。具体步骤如下:
1. 确定要爬取的网站和要提取信息的URL。
2. 创建一个Scrapy项目:`scrapy startproject project_name`。
3. 创建一个Spider:`scrapy genspider spider_name website.com`。
4. 编写Spider的`start_requests`方法,发送请求获取网页内容。
5. 在Spider中编写`parse`方法,使用XPath或CSS选择器提取所需的信息。
对于你的问题,代码可以是这样的:
```python
import scrapy
class MySpider(scrapy.Spider):
name = 'my_spider'
start_urls = ['http://example.com']
def parse(self, response):
for li in response.css('li.pai-item.pai-status-doing'):
estate_name = li.css('p::text').extract_first()
em_text = li.css('em::text').extract_first()
yield {
'estate_name': estate_name,
'em_text': em_text,
}
```
这个Spider会找到class为`pai-item pai-status-doing`的`li`标记,然后使用CSS选择器获取其中的`p`标记内容为`estate_name`和`em`标记内容为`em_text`。最后,将提取到的信息通过yield语句返回。
阅读全文