python爬虫爬取文本
时间: 2023-11-08 21:01:05 浏览: 95
你可以使用Python编写一个爬虫来爬取文本。首先,你需要导入所需的库,如requests、re和BeautifulSoup。然后,你可以定义一个函数来获取HTML页面的内容,并使用BeautifulSoup库解析HTML。接下来,你可以使用选择器来获取你需要的文本内容,并将它们保存到一个文本文件中。
下面是一个示例代码:
```python
import re
import requests
from bs4 import BeautifulSoup
def getHTML(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def getContent(url):
html = getHTML(url)
soup = BeautifulSoup(html,'html.parser')
title = soup.select('div.mbtitle')
paras_tmp = soup.select('p')
paras = paras_tmp[3:]
return paras
def saveFile(text):
f=open('novel.txt','w')
for t in text:
if len(t) > 0:
f.writelines(t.get_text() + "\n\n")
f.close()
def main():
url = 'http://www.jinyongwang.com/shen/781.html'
text = getContent(url)
saveFile(text)
main()
```
请注意,这只是一个示例代码,你可能需要根据你要爬取的网页的结构和要求进行相应的调整。
阅读全文