首页用python实现使用网络爬虫爬取hao123上的新闻网站的网址和网站名初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件

用python实现使用网络爬虫爬取hao123上的新闻网站的网址和网站名初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件

时间: 2024-03-29 08:39:45 浏览: 104

好的，以下是实现代码： ```python import requests from bs4 import BeautifulSoup import csv # 设置请求头，防止被禁止访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 初始url url = 'http://www.hao123.com/newswangzhi' # 发送请求 response = requests.get(url, headers=headers) response.encoding = 'utf-8' # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 获取新闻网站列表 news_list = soup.find('div', {'class': 'col-content'}).find_all('li') # 存储结果的列表 result = [] # 遍历新闻网站列表，获取网址和网站名 for news in news_list: link = news.find('a').get('href') name = news.find('a').text.strip() result.append([name, link]) # 将结果存储到csv文件中 with open('news_websites.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['网站名', '网址']) for row in result: writer.writerow(row) ``` 运行后，会在当前目录下生成一个名为 `news_websites.csv` 的文件，其中包含了新闻网站的网址和网站名。

阅读全文