使用requests或urllib库,以及bs4库爬取https://www.gdqy.edu.cn/gqxw1.htm网页内容。 爬取包括: 1、广轻新闻,即从以下入口进去的所有新闻(接近1800条) 爬取的新闻内容以及保存方式: 1、爬取的内容 所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。 2、保存形式 将所有爬取的内容保存到gdqy目录中。 每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。 在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。
时间: 2024-04-04 15:33:09 浏览: 13
好的,您可以参考以下代码实现:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.gdqy.edu.cn/gqxw1.htm'
# 发送get请求并获取响应内容
response = requests.get(url)
response.encoding = 'utf-8'
html = response.text
# 使用BeautifulSoup解析html
soup = BeautifulSoup(html, 'html.parser')
# 获取所有新闻链接
news_list = soup.select('.newsli .title a')
# 遍历每个新闻链接,爬取新闻内容并保存到本地文件
for index, news in enumerate(news_list):
news_url = news['href']
news_response = requests.get(news_url)
news_response.encoding = 'utf-8'
news_html = news_response.text
news_soup = BeautifulSoup(news_html, 'html.parser')
title = news_soup.select_one('.news h1').text.strip()
content = news_soup.select_one('.newscon').text.strip()
# 将新闻内容保存到本地文件
file_name = f'gdqy/{index+1}.txt'
with open(file_name, 'w', encoding='utf-8') as f:
f.write(news_url + '\n')
f.write(title + '\n')
f.write(content)
```
注意,代码中的文件保存路径为`gdqy`,如果该目录不存在需要先创建。另外,由于本代码是在本地运行,可能会被对方防火墙拦截,请确保您的网络环境可以正常访问该网站。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)