使用requests或urllib库,以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。 爬取包括: 1、该网站新闻https://ict.gdqy.edu.cn/xwdt1.htm即从以下入口进去的所有新闻(接近1800条) 2、二级学院“信息技术学院”的新闻。 爬取的新闻内容以及保存方式: 1、爬取的内容 所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。 如下篇新闻 进入此新闻后,红框部分是需要抽取的内容: 2、保存形式 将所有爬取的内容保存到gdqy目录中。 每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。 在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。
时间: 2024-03-19 18:41:34 浏览: 73
好的,这是一个非常具体的问题,需要使用Python编写程序来爬取特定网页内容。以下是一个基本的程序框架:
```python
import requests
from bs4 import BeautifulSoup
# 爬取ICT网站所有新闻
ict_url = 'https://ict.gdqy.edu.cn/xwdt1.htm'
ict_response = requests.get(ict_url)
ict_soup = BeautifulSoup(ict_response.content, 'html.parser')
# 爬取信息技术学院的新闻
it_url = 'https://ict.gdqy.edu.cn/xyxw.htm'
it_response = requests.get(it_url)
it_soup = BeautifulSoup(it_response.content, 'html.parser')
# 提取新闻标题、正文和URL地址
def extract_news_content(soup):
news_list = soup.find_all('li')
for i, news in enumerate(news_list):
# 提取标题、正文和URL地址
title = news.find('a').text.strip()
url = news.find('a')['href']
news_response = requests.get(url)
news_soup = BeautifulSoup(news_response.content, 'html.parser')
content = news_soup.find('div', class_='v_news_content').text.strip()
# 保存到文件中
with open(f'gdqy/{i+1}.txt', 'w', encoding='utf-8') as f:
f.write(url + '\n')
f.write(title + '\n')
f.write(content)
# 提取ICT网站所有新闻的标题、正文和URL地址
extract_news_content(ict_soup)
# 提取信息技术学院的新闻的标题、正文和URL地址
extract_news_content(it_soup)
```
需要注意的是,上面的程序仅仅是一个基本的框架,具体的细节还需要根据实际情况进行调整。
阅读全文