for li in li_list: book_tag= li.xpath("//h1/text()").get().replace("豆瓣图书标签: ","") book_name = li.xpath("./div[@class='info']/h2/a/@title").get() # 书名 book_info = li.xpath(".//div[@class='pub']/text()").get() book_nums = li.xpath(".//span[@class='rating_nums']/text()").get() book_pl = li.xpath(".//span[@class='pl']/text()").get().strip().replace("(","").replace("人评价)","")

时间: 2024-04-19 16:24:57 浏览: 150

这段代码位于类 `DouBanBook` 中的 `parse_start_url` 方法中。它使用 XPath 表达式从标签页的响应中提取图书的相关信息。 - 对于每个 `li` 元素，在其下面进行如下操作： - 使用 `xpath` 方法选取 `h1` 元素，并使用 `get` 方法获取文本内容。然后，对该文本进行处理，去掉开头的 "豆瓣图书标签: "，得到 `book_tag`。 - 使用相对路径的 XPath 表达式选取 `div` 元素下的 `h2` 元素的 `a` 元素，并使用 `get` 方法获取 `title` 属性的值，即书名，赋值给 `book_name`。 - 使用相对路径的 XPath 表达式选取当前元素下的 `div` 元素中的 `pub` 类的文本内容，即书籍的信息，赋值给 `book_info`。 - 使用相对路径的 XPath 表达式选取当前元素下的 `span` 元素中的 `rating_nums` 类的文本内容，即书籍的评分，赋值给 `book_nums`。 - 使用相对路径的 XPath 表达式选取当前元素下的 `span` 元素中的 `pl` 类的文本内容，即书籍的评论人数，赋值给 `book_pl`。在处理前需要去除首尾空格，并替换掉括号和括号内的内容。这段代码的作用是从标签页中提取每本图书的标签、书名、信息、评分和评论人数。然后，将这些信息存储在相应的变量中。您还有其他问题吗？

import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57' } url='https://pic.netbian.com/' page_text= requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list=tree.xpath('//div[@class="slist"]/ul/li') for li in li_list: pic='https://pic.netbian.com'+li.xpath('./a/img/@src')[0] name=li.xpath('./a/img@alt')[0]+'.jpg' print(pic,name)

这段代码是一个Python程序，它使用requests和lxml库来从网站https://pic.netbian.com/获取数据，并使用XPath从HTML页面中提取图像的URL和名称。这里的问题在于，XPath表达式'.//a/img@alt'中缺少'/'，正确的表达式应该是'./a/img/@alt'。这个错误可能导致名称提取失败。

for li in title_list: title = li.xpath('//*[@class="l3 a3"]/a/text()')[0] yuedu = li.xpath('//span[1]/text()')[0] 添加代码把title和yuedu存入csv文件

好的，以下是将title和yuedu存入csv文件的Python代码： ```python import csv # 假设title_list是一个包含多个li元素的列表 with open('data.csv', 'w', newline='', encoding='utf-8') as csvfile: writer = csv.writer(csvfile) writer.writerow(['title', 'yuedu']) # 写入表头 for li in title_list: title = li.xpath('//*[@class="l3 a3"]/a/text()')[0] yuedu = li.xpath('//span[1]/text()')[0] writer.writerow([title, yuedu]) # 写入一行数据 ``` 这段代码会将数据存储到名为"data.csv"的文件中，每一行包含一个title和一个yuedu。注意，如果文件已经存在，这段代码会覆盖原有的内容。如果要追加数据，可以将文件打开方式设置为"a"（即append）： ```python with open('data.csv', 'a', newline='', encoding='utf-8') as csvfile: writer = csv.writer(csvfile) for li in title_list: # ... ```

阅读全文

for li in title_list: title = li.xpath('//*[@class="l3 a3"]/a/text()')[0] yuedu = li.xpath('//span[1]/text()')[0] 添加代码把title和yuedu存入csv文件

相关推荐

简析xml.rar_delphi 创建 xml_site:www.pudn.com_xml_xml delphi

satoshop.rar_Jsp/Servlet_Java_

xml.zip_DOM4J_Dom4jDemo.java _dom4j xml

用xpath爬取http://shehui.sanyau.edu.cn/?article/type/60/1.html新闻标题和浏览量

Selenium_Get_Text_From_Website:实践

xalanjava源码-audao:从code.google.com/p/audao自动导出

xalan_custom_xpath_sample:此示例演示如何使用 Xalan 开发自定义 Xpath

scraper_news：Python和XPath上的Scraper de Noticas

jansson_jpath:libjansson 的扩展，用于通过类似 XPath 的 URI 获取设置 json 节点

json_to_paths:将JSON文档提取到'jq'和'xpath'的路径集合中

view_xml:一个 xml 树查看器。 查看器支持简单搜索和自动创建 xpath。-matlab开发

最新推荐

数据库基础测验20241113.doc

黑板风格计算机毕业答辩PPT模板下载

管理建模和仿真的文件

提升点阵式液晶显示屏效率技术

在SoC芯片的射频测试中，ATE设备通常如何执行系统级测试以保证芯片量产的质量和性能一致？

CodeSandbox实现ListView快速创建指南

"互动学习：行动中的多样性与论文攻读经历"

点阵式显示屏常见故障诊断方法

名词性从句包括哪些类别？它们各自有哪些引导词？请结合例句详细解释。

Node.js脚本实现WXR文件到Postgres数据库帖子导入

view_xml:一个 xml 树查看器。查看器支持简单搜索和自动创建 xpath。-matlab开发