xpath后加/text()什么没有

在XPath中加上/text()表示获取节点的文本内容。如果不加/text()，则表示获取节点本身。例如： 1. /bookstore/book/title/text() 表示获取所有book节点下的title节点的文本内容； 2. /bookstore/book/title 表示获取所有book节点下的title节点本身。

def parse(self, response): res = Selector(response) items = RenrenchesipderItem() items['id'] = res.xpath('//div[@class="detail-wrapper"]/@data-encrypt-id').extract()[0] # 标题 items['title'] = res.xpath('//div[@class="title"]/h1/text()').extract()[0] # 客户出价 items['price'] = res.xpath('//div[@class="middle-content"]/div/p[2]/text()').extract()[0] # 市场价 items['new_car_price'] = res.xpath('//div[@class="middle-content"]/div/div[1]/span/text()').extract()[0] # 首付款 down_payment = res.xpath('//div[@class="list"]/p[@class="money detail-title-right-tagP"]/text()') # 月供 monthly_payment = res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[3]/div[2]/p[5]/text()') # 判断是否可以分期购买 if down_payment and monthly_payment: items['staging_info'] = [down_payment.extract()[0], monthly_payment.extract()[0]] # 服务费 items['service_fee'] = res.xpath('///div[1]/p[2]/strong/text()').extract()[0] # 服务项 items['service'] = res.xpath('//[@id="js-box-service"]/table/tr/td/table/tr/td/text()').extract() # 车辆上牌时间里程外迁信息 items['info'] = res.xpath('///div[2]/div[2]/div[1]/div[4]/ul/li/div/p/strong/text()').extract() # 车辆排量 items['displacement'] = \ res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[4]/ul/li[4]/div/strong/text()').extract()[0] # 车辆上牌城市 items['registration_city'] = res.xpath('///@licensed-city').extract()[0] # 车源号 items['options'] = \ res.xpath('//*[@id="basic"]/div[2]/div[2]/div[1]/div[5]/p/text()').extract()[0].strip().split("：")[1] # 判断是都有图片 if res.xpath('//div[@class="info-recommend"]/div/img/@src'): # 车辆图片 items['car_img'] = res.xpath('//div[@class="info-recommend"]/div/img/@src').extract()[0] # 车辆所在城市 items['city'] = res.xpath('//div[@rrc-event-scope="city"]/a[@class="choose-city"]/text()').extract()[0].strip() # 车辆颜色 items['color'] = res.xpath('//div[@class="card-table"]/table/tr/td[2]/text()').extract()[0] 解释一下每一句话

这是一个 Python 的 scrapy 爬虫程序中的一个解析函数，主要作用是从网页中提取出需要的数据并存储到 items 中。具体解释如下： ```python def parse(self, response): res = Selector(response) # 使用 scrapy 的 Selector 对象解析 response items = RenrenchesipderItem() # 定义一个 items 对象用于存储数据 # 从网页中提取出 id、标题、客户出价、市场价、首付款、月供、服务费、服务项、车辆上牌时间、里程、外迁信息、车辆排量、车辆上牌城市、车源号、车辆颜色等数据 items['id'] = res.xpath('//div[@class="detail-wrapper"]/@data-encrypt-id').extract()[0] items['title'] = res.xpath('//div[@class="title"]/h1/text()').extract()[0] items['price'] = res.xpath('//div[@class="middle-content"]/div/p[2]/text()').extract()[0] items['new_car_price'] = res.xpath('//div[@class="middle-content"]/div/div[1]/span/text()').extract()[0] down_payment = res.xpath('//div[@class="list"]/p[@class="money detail-title-right-tagP"]/text()') monthly_payment = res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[3]/div[2]/p[5]/text()') if down_payment and monthly_payment: items['staging_info'] = [down_payment.extract()[0], monthly_payment.extract()[0]] items['service_fee'] = res.xpath('///div[1]/p[2]/strong/text()').extract()[0] items['service'] = res.xpath('//[@id="js-box-service"]/table/tr/td/table/tr/td/text()').extract() items['info'] = res.xpath('///div[2]/div[2]/div[1]/div[4]/ul/li/div/p/strong/text()').extract() items['displacement'] = res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[4]/ul/li[4]/div/strong/text()').extract()[0] items['registration_city'] = res.xpath('///@licensed-city').extract()[0] items['options'] = res.xpath('//*[@id="basic"]/div[2]/div[2]/div[1]/div[5]/p/text()').extract()[0].strip().split("：")[1] if res.xpath('//div[@class="info-recommend"]/div/img/@src'): items['car_img'] = res.xpath('//div[@class="info-recommend"]/div/img/@src').extract()[0] items['city'] = res.xpath('//div[@rrc-event-scope="city"]/a[@class="choose-city"]/text()').extract()[0].strip() items['color'] = res.xpath('//div[@class="card-table"]/table/tr/td[2]/text()').extract()[0] return items # 返回 items 对象 ``` 其中，Selector 对象是 scrapy 中提供的一种选择器，可以方便地从 HTML 或 XML 中提取数据。extract() 方法用于获取提取的数据，[0] 则是因为返回的是一个列表，需要取出其中的第一个元素。此外，还有一些判断语句用于处理数据缺失或判断是否存在该数据，如 if down_payment and monthly_payment: 判断是否可以分期购买。最后，将所有数据存储在 items 对象中并返回。

xpath /和//

引用[1]:在XPath中，"/"和"//"是两种不同的路径表达方式。"/"表示从根节点开始的绝对，而"//"表示相对路径，可以跳过任意级别的节点。具体区别如下： - "/"：元素是上一级节点的子节点中的一个，不能跳级。 - "//"：下级任何子节点或者任何嵌套子节点中的一个，可以跳级路径里不能用"*"，要写标签名。[1] 引用[2]:在实际代码中，可以使用"/"或"//"来定位元素。例如，response.xpath("//h1[@class='main-title']/text()")表示使用相对路径"//"来获取class属性为"main-title"的h1标签的文本内容。而response.xpath("//div[@class='article']//p/text()")表示使用相对路径"//"来获取class属性为"article"的div标签下所有p标签的文本内容。[2] 引用[3]:在实验中，使用了一个HTML文档作为示例。当使用"/"时，只能提取当前节点的直接子节点的内容，例如"//div[@id='div1']/p/text()"无法提取到p标签的内容。而使用"//"时，可以提取当前节点及其所有后代节点中的内容，例如"//div[@id='div1']//p/text()"可以提取到p标签的内容。同样，对于a标签也是一样的情况。[3] 综上所述，"/"表示绝对路径，只能获取当前节点的直接子节点的内容，而"//"表示相对路径，可以获取当前节点及其所有后代节点的内容。

xpath后加/text()什么没有

xpath /和//

相关推荐

用xpath获取指定标签下的所有text的实例

Python爬虫之Xpath的text()与string(.)用法

关于python中的xpath解析定位

xpath 表达式中的/text()与//text()的区别

x.xpath(a/text()).extract()

for li in title_list: title = li.xpath('//*[@class="l3 a3"]/a/text()')[0] yuedu = li.xpath('//span[1]/text()')[0] 添加代码把title和yuedu存入csv文件

xpath表达式中的/text()和//text()的区别

# 获取文字标题 item["text_title"] = li.xpath("./a/text()")[0] if li.xpath("./a/text()") __(4)__ None # 获取发布日期 item["text_date"] = li.xpath("./span/text()")[0] if li.xpath("./span/text()") __(4)__ None

bd_name = html.xpath("//td[@width='30%']/text()").get() bd_name1 = html.xpath("//td[@class='bdmc']/following-sibling::*[1]/text()").get('')

xpath中/与//

xmllint --xpath '//tunnel_type/type/text()' config.xml 在脚本中判断这个结果等于35

为什么 e.xpath('//tr[@class="item"]/td[2]/div[1]/a|span/text() ')获取到的是元素而不是元素的文本

name = dom.xpath('//div[@class="bookname"]/h1/text()')[0] text = dom.xpath('//div[@id="content"]/text()') with open(path + f'{name}.txt', 'w', encoding='utf-8') as f: for con in text: f.write(con) print(f'{name} 下载完成')

e.xpath('//tr[@class="item"]/td[2]/div[1]/a/text()如果按标签没有值给一个空字符串

最新推荐

python源码基于YOLOV5安全帽检测系统及危险区域入侵检测告警系统源码.rar

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

解答下列问题：S—＞S；T｜T；T—＞a 构造任意项目集规范族，构造LR（0）分析表，并分析a;a

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

mac上和window原生一样的历史剪切板工具有什么

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

# 获取文字标题 item["text_title"] = li.xpath("./a/text()")[0] if li.xpath("./a/text()") (4) None # 获取发布日期 item["text_date"] = li.xpath("./span/text()")[0] if li.xpath("./span/text()") (4) None