python中使用xpath方法找到url为https://hf.ke.com/xiaoqu/baohe/的页面的所有小区的href
时间: 2023-12-10 17:02:31 浏览: 32
你可以使用Python中的requests和lxml库来解析HTML页面并使用XPath选择器来提取数据。以下是示例代码:
```python
import requests
from lxml import etree
url = 'https://hf.ke.com/xiaoqu/baohe/'
response = requests.get(url)
html = etree.HTML(response.text)
# 使用XPath选择器找到所有小区的链接
links = html.xpath('//div[@class="info"]/div[@class="title"]/a/@href')
# 输出所有链接
for link in links:
print(link)
```
这将输出页面上所有小区的链接(href属性)。
相关问题
使用xpath抓取https://www.tsinghua.edu.cn/信息标题
可以使用Python的requests和lxml库来实现:
```python
import requests
from lxml import etree
url = 'https://www.tsinghua.edu.cn/'
response = requests.get(url)
html = etree.HTML(response.text)
title = html.xpath('//title/text()')[0]
print(title)
```
输出:
```
清华大学
```
使用scrapy框架进行爬取https://movie.douban.com/cinema/later/chongqing/
好的,以下是使用Scrapy框架爬取该网站的步骤:
1. 创建一个Scrapy项目
在命令行中使用以下命令创建一个名为douban_movie的Scrapy项目:
```
scrapy startproject douban_movie
```
2. 创建一个Spider
在douban_movie/spiders目录下创建一个名为movies.py的文件,并添加以下代码:
```python
import scrapy
class MoviesSpider(scrapy.Spider):
name = 'movies'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/cinema/later/chongqing/']
def parse(self, response):
pass
```
这个Spider将会爬取 https://movie.douban.com/cinema/later/chongqing/ 页面的信息。
3. 解析页面
在parse方法中,我们将使用XPath表达式来解析页面。以下是获取每个电影信息的XPath表达式:
```python
for movie in response.xpath('//div[@class="show-list"]/ul/li'):
title = movie.xpath('.//li[@class="stitle"]/a/text()')[0].extract()
release_date = movie.xpath('.//li[@class="srdate"]/text()')[0].extract()
yield {
'title': title,
'release_date': release_date
}
```
4. 运行Spider
在命令行中运行以下命令启动Spider:
```
scrapy crawl movies
```
Spider将会爬取网站并输出每部电影的标题和上映日期。
完整的代码如下:
```python
import scrapy
class MoviesSpider(scrapy.Spider):
name = 'movies'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/cinema/later/chongqing/']
def parse(self, response):
for movie in response.xpath('//div[@class="show-list"]/ul/li'):
title = movie.xpath('.//li[@class="stitle"]/a/text()')[0].extract()
release_date = movie.xpath('.//li[@class="srdate"]/text()')[0].extract()
yield {
'title': title,
'release_date': release_date
}
```
注意:为了避免被网站封禁,我们需要在settings.py中添加以下设置:
```python
DOWNLOAD_DELAY = 1
```
这将会延迟每个请求1秒钟。