首页python爬虫爬取文本

python爬虫爬取文本

时间: 2023-11-08 21:01:05 浏览: 95

你可以使用Python编写一个爬虫来爬取文本。首先，你需要导入所需的库，如requests、re和BeautifulSoup。然后，你可以定义一个函数来获取HTML页面的内容，并使用BeautifulSoup库解析HTML。接下来，你可以使用选择器来获取你需要的文本内容，并将它们保存到一个文本文件中。下面是一个示例代码： ```python import re import requests from bs4 import BeautifulSoup def getHTML(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def getContent(url): html = getHTML(url) soup = BeautifulSoup(html,'html.parser') title = soup.select('div.mbtitle') paras_tmp = soup.select('p') paras = paras_tmp[3:] return paras def saveFile(text): f=open('novel.txt','w') for t in text: if len(t) > 0: f.writelines(t.get_text() + "\n\n") f.close() def main(): url = 'http://www.jinyongwang.com/shen/781.html' text = getContent(url) saveFile(text) main() ``` 请注意，这只是一个示例代码，你可能需要根据你要爬取的网页的结构和要求进行相应的调整。

阅读全文