用python的requests或urllib库爬取‘https://ict.gdqy.edu.cn/’所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。
时间: 2024-04-05 11:32:36 浏览: 72
好的,以下是使用Python的requests和BeautifulSoup(bs4)库来爬取广东轻工职业技术学院信息与通信工程学院官网(https://ict.gdqy.edu.cn/)中的所有新闻并抽取有效内容的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://ict.gdqy.edu.cn/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有新闻的链接
news_links = []
news_list = soup.find_all('div', class_='news-item')
for news in news_list:
news_link = news.find('a')['href']
news_links.append(news_link)
# 爬取每篇新闻的内容
for news_link in news_links:
news_response = requests.get(news_link)
news_soup = BeautifulSoup(news_response.text, 'html.parser')
# 获取新闻标题和正文
news_title = news_soup.find('h2', class_='content-title').text.strip()
news_content = news_soup.find('div', class_='content-page').text.strip()
# 获取新闻链接
news_url = news_link
# 输出新闻标题、正文和链接
print('标题:', news_title)
print('正文:', news_content)
print('链接:', news_url)
print()
```
这段代码首先通过requests库获取广东轻工职业技术学院信息与通信工程学院官网的HTML源代码,然后使用BeautifulSoup库解析HTML源代码,找到所有新闻链接。接着,遍历所有新闻链接,使用requests库再次获取每篇新闻的HTML源代码,并使用BeautifulSoup库解析HTML源代码,从而获取每篇新闻的标题、正文和链接。最后,输出每篇新闻的标题、正文和链接。
请注意,这段代码可能需要一些时间来爬取所有新闻。同时,由于该网站的反爬虫机制可能会限制您的IP地址的访问频率,因此请谨慎使用此代码。
阅读全文