driver.get(url1) data = driver.page_source html = etree.HTML(data) auther_name = html.xpath('/html/body/table/tbody/tr/td[1]/a/text()') novel_name = html.xpath('/html/body/table/tbody/tr/td[2]/a/text()') novel_type_list = html.xpath('/html/body/table/tbody/tr/td[3]/text()') novel_type_list.pop(0) novel_type = []

这段代码的作用是使用 Selenium 和 XPath 技术，从一个小说网站爬取小说的作者名字、小说名字和小说类型，并将它们存储在 `auther_name`、`novel_name` 和 `novel_type` 变量中。其中 `url1` 是一个包含小说信息列表的网页地址，通过 `driver.get(url1)` 方法来加载这个网页并获取页面源代码，然后使用 `etree.HTML(data)` 将源代码转换成一个 XPath 可以解析的结构化数据，并使用 XPath 表达式 `/html/body/table/tbody/tr/td[1]/a/text()`、`/html/body/table/tbody/tr/td[2]/a/text()` 和 `/html/body/table/tbody/tr/td[3]/text()` 来提取作者名字、小说名字和小说类型，最后存储到变量中。其中 `novel_type_list.pop(0)` 操作是用来删除 XPath 提取结果中的第一个元素，因为它不是我们所需要的内容。

print("正在抓取...") for stk in stocks.symbol: url = "http://vip.stock.finance.sina.com.cn/corp/go.php/vCI_CorpManager/stockid/%s.phtml" % stk html = requests.get(url, headers=headers) html.encoding = 'gb18030' tree = etree.HTML(html.text) name_list = tree.xpath(name_xpath) job_list = tree.xpath(job_xpath) start_list = tree.xpath(start_xpath) end_list = tree.xpath(end_xpath) stock_list = [stk] * len(name_list) name_list = [name.text for name in name_list] job_list = [job.text for job in job_list] start_list = [start.text for start in start_list] end_list = [end.text for end in end_list] all_name.extend(name_list) all_job.extend(job_list) all_start.extend(start_list) all_end.extend(end_list) all_stock.extend(stock_list)

这段代码使用循环遍历stocks列表中的每个股票，然后构造该股票对应的URL地址，并使用requests库发送HTTP请求获取该URL对应的HTML文档。接着使用lxml库的etree模块解析该HTML文档，并使用xpath提取出HTML文档中指定的股票经理信息。然后将每个股票经理的姓名、职位、开始时间和结束时间分别存入到name_list、job_list、start_list和end_list列表中，并将该股票的代码stk复制为一个长度与股票经理数量相同的列表stock_list。最后将name_list、job_list、start_list、end_list和stock_list中的元素分别添加到all_name、all_job、all_start、all_end和all_stock列表中。这样就完成了对所有股票经理信息的抓取和提取。

url_list = div.xpath('.//a[2]/@href') url_list = url_list[0] if url_list else None detail_url = 'https:' + str(url_list) detail_response = requests.get(url=detail_url, headers=headers).text detail_tree = etree.HTML(detail_response)

根据您提供的代码，可能是因为 `url_list` 变量在某些情况下可能是 `None`，因此在调用 `str(url_list)` 时会导致错误。您可以在使用 `url_list` 变量之前添加一个条件来检查它是否为 `None`，例如： ``` if url_list: detail_url = 'https:' + str(url_list) detail_response = requests.get(url=detail_url, headers=headers).text detail_tree = etree.HTML(detail_response) else: # 处理 url_list 为空的情况 ``` 此外，还应该确保您已经正确导入了 `requests` 和 `etree` 模块，并且在代码中设置了正确的 `headers`。

阅读全文

url_list = div.xpath('.//a[2]/@href') url_list = url_list[0] if url_list else None detail_url = 'https:' + str(url_list) detail_response = requests.get(url=detail_url, headers=headers).text detail_tree = etree.HTML(detail_response)

相关推荐

Python利用lxml解析HTML获取全部叶子节点XPath路径技巧

Python lxml中etree解析HTML与tostring技巧应用

XPath解析：提取XML与HTML数据

page_num1 = requests.get(url=url.format(1), headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) total_page_text = tree.xpath('//*[@id="content"]/div[1]/div[2]/div/@data-totalpage') total_page = int(total_page_text[0])超出列表索引范围

content_html=requests.get(url,headers=headers) content_html.close() html_content=etree.HTML(content_html.text) film_url = html_content.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/@href') film_list=[]

大家在看

计算机图形学-小型图形绘制程序

安装验证-浅谈mysql和mariadb区别

基于Python深度学习的目标跟踪系统的设计与实现+全部资料齐全+部署文档.zip

国密SM4加解密SM2签名验签for delphi等语言.rar

基于Android Studio开发的安卓的通讯录管理app

最新推荐

Python3 xml.etree.ElementTree支持的XPath语法详解

python的xpath获取div标签内html内容,实现innerhtml功能的方法

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

"互动学习：行动中的多样性与论文攻读经历"

【单相整流器终极指南】：电气工程师的20年实用技巧大揭秘

OxyPlot CategoryAxis