Python爬虫搜索小说并保存

版权申诉

33 浏览量更新于2024-08-22 收藏 7KB TXT 举报

"新建文本文档.txt" 这段代码是Python编程中的一个类，名为`bqg`，用于在网页上搜索小说。它涉及到的主要知识点包括网络请求、HTML解析以及文件操作。 1. 网络请求: 使用`requests`库进行HTTP GET请求。在`bqg_search`方法中，首先定义了搜索参数`data`，然后通过`parse.urlencode`将字典转换为URL编码的字符串，以便作为查询参数传递。接着，使用`requests.get`发送GET请求到指定URL（`self.bqg_search_url`），并传递`headers`和`params`参数。返回的响应对象`res`的编码设置为GBK，以处理中文字符。 2. HTML解析: 代码中使用`BeautifulSoup`库解析HTML响应文本。`BeautifulSoup`是Python的一个用于解析HTML和XML文档的库，它可以帮助我们提取和操作网页数据。在这里，它被用来查找特定的HTML元素，如`link`标签、`div`标签等，以便获取小说的相关信息。 3. 数据提取: `BeautifulSoup`通过CSS选择器或属性查找HTML元素。例如，`soup.find('link')['href']`找到`<link>`标签的`href`属性，用于获取小说的参考网址。`soup.find('div', id='list')`则找到ID为`list`的`div`元素，以此类推，来获取小说名字和链接。 4. 条件判断: 使用`if`语句检查是否找到了小说。如果找到了，就提取小说的名字和第一章的链接；如果没有找到，代码会进一步检查是否有多个小说结果，这通过查找`div`类为`novelslistss`的元素完成。 5. 分页处理: 如果存在多个小说结果，代码尝试找到分页链接，`page.find('em').string`获取当前页数，然后通过分割字符串获取总页数。`page_link`变量可能用于后续的分页请求，但代码片段在此处中断，没有展示完整的分页实现。 6. 文件操作: `creat_file`方法（虽然这里拼写错误，应该是`create_file`）用于创建一个新文件，文件名基于所搜索到的小说名称。这表明代码可能用于将小说内容保存到本地文件系统。 7. 用户交互: 通过`input`函数，允许用户输入想要搜索的小说关键字或名称。 8. 编码处理: 在处理中文字符时，注意到代码中涉及到了不同的编码方式，如`encoding='ansi'`和`res.encoding='gbk'`，这是针对中文网站常见的GBK编码。 9. 类与对象: `bqg`是一个类，包含`bqg_search`方法，这个方法可以视为类的一个行为。然而，没有提供类的完整定义，如初始化方法（`__init__`）或其他成员变量，所以这个类的具体功能可能不完整。这段代码是用于从网络爬取小说信息的工具，具有搜索、解析和保存功能。但由于代码片段不完整，实际的功能和完整流程无法完全展现。

普通网友

粉丝: 1270
资源:
5619

Python爬虫搜索小说并保存

新建 文本文档.txt

/mnt/media_rw/2ca9-49ba/2022/新建文本文档.txt

C打开/Users/maojimin/Desktop/新建文本文档.txt

java.io.IOException: Cannot delete 'C:\Users\HP\Desktop\contract-ljz-dev\contract_project\uploadFile\新建 文本文档.txt'

http://10.30.52.106:9300/statics/2023/05/17/新建文本文档_20230517171250A067.txt 中如何通过js获取新建文本文档.txt和新建文本文档_20230517171250A067.txt

C:\Users\hp\venv\Scripts\pyrcc5.exe 新建文本文档.qrc-o新建文本文档.py C:\Users\hp\venv\Scripts\pyrcc5: File does not exist '新建文本文档.qrc-o新建文本文档.py'什么意思

新建文本文档(.txt) 快捷方式消失

用新建一个文本文档.txt来制作一个小游戏

最新资源

新建文本文档.txt

java.io.IOException: Cannot delete 'C:\Users\HP\Desktop\contract-ljz-dev\contract_project\uploadFile\新建文本文档.txt'