如何爬取红楼梦.txt文档中的每一章节的内容
时间: 2023-05-14 13:06:07 浏览: 244
可以使用Python的文件读取和字符串处理功能来实现。首先,使用Python的open函数打开红楼梦.txt文件,然后使用readlines函数读取每一行的内容。接着,使用字符串处理函数strip去除每一行的空格和换行符,判断每一行是否以“第”和“回”开头,如果是,则说明这是一章的开始,记录下章节名,然后将接下来的行合并为该章节的内容。最后,将每一章节的内容保存到一个列表中即可。
以下是示例代码:
```
chapters = []
with open('红楼梦.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()
chapter_title = ''
chapter_content = ''
for line in lines:
line = line.strip()
if line.startswith('第') and line.endswith('回'):
if chapter_content:
chapters.append((chapter_title, chapter_content))
chapter_title = line
chapter_content = ''
else:
chapter_content += line
if chapter_content:
chapters.append((chapter_title, chapter_content))
```
这样,chapters列表中就包含了每一章节的标题和内容。
阅读全文