import requests from bs4 import BeautifulSoup as BS import time,random url = 'http://www.biqu5200.net/2_2598' # header = {'User-Agent':'Mozilla/5.0(Windows NT 10.0;Win64; ' # 'x64;rv:109.0)Gecko/20200101 Firefox/113.0'} head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 " "(KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"} html = requests.get(url,headers=head) # # html.encoding = 'utf-8' # print(html.status_code) mybs = BS(html.text,'html.parser') # print(mybs.text) # print(mybs.tytle.string) mylinklist = mybs.find_all('a') # print(mylinklist) urllist = [] for link in mylinklist: url1 = link.get('href') print(url1) try: if url1[0:7] =='/2_2598': urllist.append('http://www.biqu5200.net/'+url1) except: pass #print(urllist) with open("D://789.txt",'w',encoding='utf-8') as file: for url2 in urllist[9:35]: html_zj = requests.get(url2,headers=head) mybs_zj = BS(html_zj.text,'html.parser') print(mybs_zj.h1.string) file.write(mybs_zj.h1.string+'\n') con = mybs_zj.find('div',id='content').text file.write(con+'\n') time.sleep(random.randint(1,5)/10) print("下载完毕!")
时间: 2024-04-02 11:37:10 浏览: 16
这段代码是一个简单的爬虫,用来从小说网站获取小说内容并保存到本地文件中。
- 第一行导入了requests和BeautifulSoup库,用于从网站获取HTML内容并进行解析。
- 第二行导入了time和random库,用于在程序中添加一定的延迟和随机数,以避免被网站识别为爬虫程序。
- 第三行定义了要爬取的网站的URL。
- 第四行定义了一个HTTP请求头,其中包含了浏览器的信息,以模拟真实用户的访问行为。但是该行代码被注释掉了,因此并不会被使用。
- 第五行定义了一个新的HTTP请求头,其中包含了浏览器的信息,用于发送HTTP请求。
- 第六行使用requests库向网站发起HTTP请求,并传入上面定义的请求头,获取网站的HTML内容。
- 第七行将获取到的HTML内容解析成BeautifulSoup对象。
- 第八行打印出整个HTML文档的文本内容。
- 第九行打印出整个HTML文档的title标签的文本内容。
- 第十行通过find_all()方法查找所有a标签,并将它们保存在一个列表中。
- 第十一到第十七行遍历a标签列表,将符合条件的URL添加到一个新的列表中。
- 第十九到第二十六行,使用with语句打开一个文件,遍历新的URL列表并依次获取每个URL的内容,将内容保存到文件中,并在每次获取内容之后,随机等待一段时间,以模拟真实用户的访问行为。
- 最后一行打印出下载完毕的提示信息。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)