首页使用lxml的etree爬取http://www.kanunu8.com/book3/6879/每一章节的内容

使用lxml的etree爬取http://www.kanunu8.com/book3/6879/每一章节的内容

时间: 2023-09-08 12:09:12 浏览: 165

爬虫代码.zip-爬虫代码.zip-爬虫代码.zip-爬虫代码.zip-爬虫代码.zip

""" 调用网易的各个栏目进行内容爬取 """ from wangyi import WANGYI import time def qingsongyike(): qsyk = WANGYI(list_url="http://c.m.163.com/nc/article/list/T1350383429665/", list_docid="T1350383429665", item_type="qingsongyike", title_key=["每日轻松一刻"]) qsyk.run() def pangbianguaitan(): pbgt = WANGYI(list_url="http://c.m.163.com/nc/article/list/T1396928667862/", list_docid="T1396928667862", item_type="pangbianguaitan", title_key=["胖编怪谈"]) pbgt.run() def huanqiukanke(): hqkk = WANGYI(l

以下是一个示例代码，演示如何使用lxml的etree爬取 http://www.kanunu8.com/book3/6879/ 每一章节的内容： ```python import requests from lxml import etree # 发送请求并获取HTML url = 'http://www.kanunu8.com/book3/6879/' response = requests.get(url) html_string = response.content.decode('gbk') # 将HTML字符串转换为etree对象 root = etree.HTML(html_string) # 获取章节列表 chapter_list = root.xpath('//div[@class="list"]/ul/li/a/@href') # 循环获取每个章节的内容 for chapter in chapter_list: chapter_url = url + chapter response = requests.get(chapter_url) chapter_html_string = response.content.decode('gbk') chapter_root = etree.HTML(chapter_html_string) title = chapter_root.xpath('//h1/text()')[0] content_list = chapter_root.xpath('//div[@class="main"]/text()') content = ''.join(content_list) print(title) print(content) ``` 在这个示例中，我们首先使用`requests`库发送请求并获取HTML。然后，我们将HTML字符串转换为etree对象，并使用XPath表达式获取章节列表。接着，我们循环遍历每个章节的链接，发送请求并获取HTML，然后将HTML字符串转换为etree对象。最后，我们使用XPath表达式获取章节标题和内容，并输出结果。需要注意的是，由于该网站使用gbk编码，我们需要在获取HTML后使用`.decode('gbk')`对其进行解码。

阅读全文

最新推荐

使用lxml的etree爬取http://www.kanunu8.com/book3/6879/每一章节的内容

相关推荐

Python爬虫实战教程：PPT/Word/影视/电子书全攻略

知乎内容爬取实战：Python爬虫源码分析

用xpath爬取http://shehui.sanyau.edu.cn/?article/type/60/1.html新闻标题和浏览量

Python爬取http://tyhx.com.cn/Web/Price太原河西网站上的农副产品的数据，并用xpath数据解析，并保存数据。

python文章采集例子（爬取http://infoq.com）

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

采用Request+XPath爬取网站https://qd.lianjia.com/ershoufang/的数据

import requests from lxml import etree url="https://www.80142.com/txt/82776.html" html=requests.get(url) print(html)出现not get

利用GET请求通用代码爬取百度一下首页，网址为：http://www.baidu.com ,用lxml库的xpath选择器写网页解析函数parse()，解析并输出导航栏中的文本和链接。

http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml利用遍历方法写代码，不使用find和findall进行数据爬取，并保存到excel中

题目： 使用selenium和lxml爬取知乎上一个热门问题的标题和回答数，并将结果保存到zhihu.txt文件中。 https://www.zhihu.com/knowledge-plan/hot-question/hot/0/hour

http://www.cncyms.cn/index.php?m=content&c=index&a=lists&catid=57帮我使用xpath表达式爬取产品名为"本地奶白菜"

使用xpath抓取https://www.tsinghua.edu.cn/信息标题

尝试爬取该网页的数据：https://www.5iai.com/#/jobList

参考上述代码，爬取下面网页的数据： https://www.5iai.com/#/jobList

https://www.chzc.edu.cn/info/1024/66328.htm 使用xpath解析，将该网址下的标题文本获取并输出

最新推荐

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

如何在Springboot后端项目中实现前端的多人视频会议功能，并使用Vue.js与ElementUI进行界面开发？

Android应用显示Ignaz-Taschner-Gymnasium取消课程概览

关系数据表示学习

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

题目：使用selenium和lxml爬取知乎上一个热门问题的标题和回答数，并将结果保存到zhihu.txt文件中。 https://www.zhihu.com/knowledge-plan/hot-question/hot/0/hour