python写出代码输入I：https://www.doupoxs.com/doupocangqiong/ Ø输出O：爬取每章内容和标题，并以标题命名，存储到novel文件夹中 Ø使用的python库：urllib、re Ø爬虫关键要素：url确定、设置请求头、获取与解析响应Ø输入I：https://www.doupoxs.com/doupocangqiong/ Ø输出O：爬取每章内容和标题，并以标题命名，存储到novel文件夹中 Ø使用的python库：urllib、re Ø爬虫关键要素：url确定、设置请求头、获取与解析响应

时间: 2024-01-06 15:04:16 浏览: 153

好的，以下是代码实现： ```python import urllib.request import re import os # 设置请求头部信息，伪装成浏览器访问网站 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 目标小说主页URL target_url = 'https://www.doupoxs.com/doupocangqiong/' # 模拟浏览器访问获取网页HTML代码 req = urllib.request.Request(url=target_url, headers=headers) res = urllib.request.urlopen(req) html = res.read().decode('utf-8') # 获取小说名称 novel_name = re.findall(r'<h1>(.*?)</h1>', html)[0] print("小说名称：" + novel_name) # 创建小说保存的文件夹 if not os.path.exists(novel_name): os.makedirs(novel_name) # 获取每个章节的URL和标题 chapter_info = re.findall(r'<li><a href="(.*?)">(.*?)</a></li>', html) # 遍历每个章节，获取章节内容并保存到本地文件 for chapter in chapter_info: chapter_url = target_url + chapter[0] # 章节URL chapter_title = chapter[1] # 章节名称 # 模拟浏览器访问获取章节的HTML代码 chapter_req = urllib.request.Request(url=chapter_url, headers=headers) chapter_res = urllib.request.urlopen(chapter_req) chapter_html = chapter_res.read().decode('utf-8') # 获取章节正文（过滤掉无用标签） chapter_content = re.findall(r'<div id="content">(.*?)</div>', chapter_html, re.S)[0] chapter_content = chapter_content.replace(' ', '') # 替换空格 chapter_content = chapter_content.replace('<br/>', '') # 替换换行符 # 将章节内容写入文件 with open(os.path.join(novel_name, chapter_title + '.txt'), 'w', encoding='utf-8') as f: f.write(chapter_content) print('已下载：' + chapter_title) print('下载完成！') ``` 这段代码实现了爬取斗破苍穹小说每个章节的内容和标题，并以标题命名，保存到novel文件夹中。

阅读全文

相关推荐

doupocangqiong

URLError: <urlopen error [SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 alert handshake failure (_ssl.c:1129)>

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

OpenArk64-1.3.8beta版-20250104

面向对象（下）代码.doc

基于springboot的校园台球厅人员与设备管理系统--论文.zip

【创新无忧】基于matlab蜣螂算法DBO优化极限学习机KELM故障诊断【含Matlab源码 10720期】.zip

基于springboot的数码论坛系统设计与实现--论文.zip

基于springboot的生鲜超市管理的设计与实现.zip

基于污水再生全流程的AO除磷工艺研究：工艺优化与群落结构分析

返岗证明模板.docx

arcgis矢量shp格式白城市地图

航天新征程航天发展历程介绍弘扬载人航天精神ppt

Yufeng-lidar

HTML5实现好看的律师法律服务网站模板.zip

【创新无忧】基于matlab哈里斯鹰算法HHO优化极限学习机KELM故障诊断【含Matlab源码 10697期】.zip

【C#】基于C#的消息队列服务产品中间件.zip

【创新无忧】基于matlab布谷鸟算法CS优化极限学习机KELM故障诊断【含Matlab源码 10691期】.zip

直连设备（单片机）端token自动计算（micropython）

基于springboot的书籍学习平台--论文.zip

大家在看

yolo开发人工智能小程序经验和总结.zip

USB_HUB硬件电路引脚原理解析.docx

Keysight N6705C直流电源分析仪.pdf

AS400 自学笔记集锦

LQR与PD控制在柔性机械臂中的对比研究

最新推荐

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

OpenArk64-1.3.8beta版-20250104

面向对象（下）代码.doc

基于springboot的校园台球厅人员与设备管理系统--论文.zip

【创新无忧】基于matlab蜣螂算法DBO优化极限学习机KELM故障诊断【含Matlab源码 10720期】.zip

Python调试器vardbg：动画可视化算法流程

管理建模和仿真的文件

【IT设备维保管理入门指南】：如何制定有效的维护计划，提升设备性能与寿命

python爬取网页链接，url = “https://koubei.16888.com/57233/0-0-0-0”

掌握Web开发：Udacity天气日记项目解析