帮我写个爬虫程序,要能爬取https://www.zust.edu.cn/index/zhxw/xyxw.htm网址下的每个新闻的标题和文字内容
时间: 2023-08-21 07:02:00 浏览: 91
当然,我可以帮你写一个爬虫程序来获取httpswww.zust.edu.cn/index/zhxw/xyxw.htm址下的每个新闻的和文字内容。以下是一个简单的示例代码:
```python
import requests
from bs4 BeautifulSoup
url = "https://www.zust.cn/index/zhxw/xyx.htm"
def get_news():
response = requests(url)
soup = BeautifulSoup(response.text, ".parser")
news_list = soup.find_all("div", class_="news_list")[0].find_all("li")
for news in news_list:
title = news.find("a").text.strip()
content_url = news.find("a")["href"]
content = get_news_content(content_url)
print("标题:", title)
print("内容:", content)
print("-------------------------")
def get_news_content(content_url):
response = requests.get(content_url)
soup = BeautifulSoup(response.text, "html.parser")
content = soup.find("div", class_="news_con").text.strip()
return content
get_news()
```
这段代码使用了`requests`库来发送HTTP请求并获取网页内容,使用了`BeautifulSoup`库来解析网页内容。它首先通过GET请求获取网页的HTML内容,然后使用BeautifulSoup来解析HTML,提取新闻标题和内容。对于每条新闻,它会打印标题和内容。
请注意,这只是一个简单的示例代码,具体的网页结构和解析方式可能会因网站更新而变化。你可以根据实际情况进行修改和优化。
阅读全文