用python写出:使用requests或urllib库,以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。爬取‘https://www.gdqy.edu.cn/’中的广轻新闻,即从以下入口进去的所有新闻(接近1800条)
时间: 2024-04-05 19:32:42 浏览: 23
好的,以下是使用Python的requests和BeautifulSoup(bs4)库来爬取广东轻工职业技术学院官网(https://www.gdqy.edu.cn/)中的新闻内容的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.gdqy.edu.cn/news/category/6'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有新闻的链接
news_links = []
news_list = soup.find_all('div', class_='a_title')
for news in news_list:
news_link = news.find('a')['href']
news_links.append(news_link)
# 爬取每篇新闻的内容
for news_link in news_links:
news_response = requests.get(news_link)
news_soup = BeautifulSoup(news_response.text, 'html.parser')
# 获取新闻标题和正文
news_title = news_soup.find('h1', class_='article-title').text
news_content = news_soup.find('div', class_='article-content').text
# 输出新闻标题和正文
print(news_title)
print(news_content)
```
这段代码首先通过requests库获取广东轻工职业技术学院官网中“广轻新闻”页面的HTML源代码,然后使用BeautifulSoup库解析HTML源代码,找到所有新闻链接。接着,遍历所有新闻链接,使用requests库再次获取每篇新闻的HTML源代码,并使用BeautifulSoup库解析HTML源代码,从而获取每篇新闻的标题和正文。最后,输出每篇新闻的标题和正文。
请注意,这段代码可能需要一些时间来爬取所有新闻。同时,由于该网站的反爬虫机制可能会限制您的IP地址的访问频率,因此请谨慎使用此代码。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![py](https://img-home.csdnimg.cn/images/20210720083646.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)