python用xpath拿div标签下所有p标签的所有文本以及p标签包含的strong标签的文本

可以使用下面的代码实现： ```python import requests from lxml import etree url = '网页链接' html = requests.get(url).text selector = etree.HTML(html) div_list = selector.xpath('//div') # 获取所有 div 标签 for div in div_list: p_list = div.xpath('.//p') # 获取当前 div 标签下所有 p 标签 for p in p_list: text_list = p.xpath('.//text()') # 获取当前 p 标签下所有文本 strong_list = p.xpath('.//strong/text()') # 获取当前 p 标签下所有 strong 标签的文本 all_text_list = text_list + strong_list # 合并文本 print(''.join(all_text_list)) # 输出合并后的文本 ``` 注意，需要将 `网页链接` 替换成实际网页的链接。

item['RatingNumber'] = "".join( trees.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')).replace(" ", "")改为用xpath爬取豆瓣图书标签: 中国文学下所有书籍(至少爬取前10页)的豆瓣评分

好的，我可以提供代码示例来回答您的问题。首先，您需要安装Python的requests和lxml库，可以通过以下命令进行安装： ``` pip install requests pip install lxml ``` 然后，您可以使用以下代码来爬取豆瓣图书标签中中国文学分类下所有书籍的豆瓣评分： ```python import requests from lxml import etree url = 'https://book.douban.com/tag/%E4%B8%AD%E5%9B%BD%E6%96%87%E5%AD%A6?start={}&type=T' score_list = [] for i in range(10): start = i * 20 response = requests.get(url.format(start)) html = etree.HTML(response.text) book_list = html.xpath('//ul[@class="subject-list"]/li') for book in book_list: score = book.xpath('.//span[@class="rating_nums"]/text()') if score: score_list.append(float(score[0])) print(score_list) ``` 解释一下上述代码： 1. 首先，我们定义了一个URL模板，其中`{}`的位置将会被替换成不同的页数。 2. 然后，我们定义了一个空列表`score_list`，用于存储所有书籍的豆瓣评分。 3. 接下来，我们使用一个循环来遍历前10页的书籍。在每个循环中，我们使用`requests`库发送GET请求，获取当前页的HTML代码。 4. 然后，我们使用`lxml`库的`etree`模块来解析HTML代码，并使用XPath表达式提取每本书的豆瓣评分。如果某本书没有评分，则跳过该书籍。 5. 最后，我们将所有评分添加到`score_list`列表中，并最终输出该列表。希望这段代码能够回答您的问题。

# 目标网站：www.hongniuziyuan.com # 爬取下来的数据格式 # 保存到记事本中 # 电影名字|导演|演员|评分|所属地区|播放地址 # 变形金刚|小斯蒂芬·卡普尔|安东尼·拉莫斯,多米尼克·菲什巴克,彼特·库伦,朗·普尔曼,彼特·丁拉|0.0|美国|https://hnzy.bfvvs.com/play/YervnY4e import requests from lxml import etree response = requests.get("https://www.hongniuziyuan.com/") html = response.content.decode() # 将二进制数据转换为文本数据 # response.text 文本数据 # print(html) # 将我们字符串转换为一个dom树 dom = etree.HTML(html) # 目的就是为了使用xpath语法去寻找我们的想要的标签 # xpath语法 # xs = dom.xpath('/html/body/div[3]/div[3]/ul/div/li/div/a/img') xs = dom.xpath('/html/body/div[4]/ul[2]/li/strong/span[1]/a') #元素：<a target="_blank" href="/index.php/vod/detail/id/0BvCCS.html?ac=detail">妖神记第五季 <em style="color:DeepSkyBlue;">[第328集完结]</em></a> #xpath：/html/body/div[4]/ul[2]/li/strong/span[1]/a for s in xs:

抱歉，我无法为您提供完整的代码。但是，我可以为您提供一些指导来完成您的目标。要爬取网站上的数据并保存到记事本中，您可以按照以下步骤进行操作： 1. 使用`requests`库发送GET请求获取网页内容，将其保存在`html`变量中。 2. 使用`lxml`库的`etree`模块将文本内容转换为DOM树。 3. 使用XPath语法在DOM树中选择您想要的标签。 4. 遍历选定的元素，并提取出电影的名称、导演、演员、评分、所属地区和播放地址等信息。 5. 将提取出的信息格式化为您所需的数据格式，并将其写入记事本。以获取电影名字为例，您可以使用以下代码： ```python # xpath语法: /html/body/div[4]/ul[2]/li/strong/span[1]/a xs = dom.xpath('/html/body/div[4]/ul[2]/li/strong/span[1]/a') for s in xs: movie_name = s.text.strip() print(movie_name) ``` 您可以根据需要，使用类似的方法提取其他信息，并将其保存到记事本中。请注意，您可能需要根据网页的结构和XPath语法进行适当的调整。希望这些信息对您有所帮助！如果您有任何其他问题，请随时提问。

阅读全文

python用xpath拿div标签下所有p标签的所有文本以及p标签包含的strong标签的文本

item['RatingNumber'] = "".join( trees.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')).replace(" ", "")改为用xpath爬取豆瓣图书标签: 中国文学下所有书籍(至少爬取前10页)的豆瓣评分

相关推荐

利用xpath提取标签下所有文本

用xpath获取指定标签下的所有text的实例

python语言中获取网页信息工具xpath

Python lxml解析HTML并用xpath获取元素的方法

Python爬虫入门：使用lxml库和XPath解析网页

用python的requests和xpath和正则表达式爬取豆瓣电影top250详情页的代码

进一步了解XPath（利用XPath爬取飞哥的博客）【python爬虫入门进阶】（04）.pdf

XPath和正则表达式：网页内容定位和匹配

用python的requests和xpath和正则表达式爬取豆瓣电影top250每一个详情页的代码

使用xpath爬取淘宝商品

爬取豆瓣读书top250,用xpath

安居客二手房爬虫xpath

大家在看

华为CloudIVS 3000技术主打胶片v1.0（C20190226）.pdf

dosbox:适用于Android的DosBox Turbo FreeBox

功率谱密度：时间历程的功率谱密度。-matlab开发

南京工业大学Python程序设计语言题库及答案

Windows6.1--KB2533623-x64.zip

最新推荐

一个基于Qt Creator（qt,C++）实现中国象棋人机对战

Windows下操作Linux图形界面的VNC工具

【SketchUp Ruby API：从入门到精通】

VMware虚拟机打开虚拟网络编辑器出现由于找不到vnetlib.dll,无法继续执行代码。重新安装程序可能会解决问题

基于Preact的高性能PWA实现定期天气信息更新

从停机到上线，EMC VNX5100控制器SP更换的实战演练

ubuntu labelme中文版安装

全新免费HTML5商业网站模板发布

EMC VNX5100控制器SP更换全流程指南：新手到高手的必备技能

lamada函数