使用网络爬虫爬取hao123上的新闻网站的网址和网站名 初始url:http://www.hao123.com/newswangzhi 将结果存储到csv文件中,提交py和csv文件
时间: 2024-03-27 16:41:47 浏览: 78
以下是使用 Python 进行爬取hao123上的新闻网站的网址和网站名,并将结果存储到csv文件中的代码,仅供参考:
```python
import requests
from bs4 import BeautifulSoup
import csv
url = 'http://www.hao123.com/newswangzhi'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
websites = soup.find_all('a', class_='site')
results = []
for website in websites:
site_name = website.text.strip()
site_url = website['href']
results.append((site_name, site_url))
with open('news_websites.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(['站点名称', '站点链接'])
writer.writerows(results)
```
这段代码首先向指定的初始url发送 HTTP 请求,获取该网址的 HTML 页面,并使用 BeautifulSoup 对 HTML 页面进行解析。在解析过程中,找到所有属性为 "site" 的 <a> 标签节点,获取其中的文本和链接,并将提取到的站点名称和链接以元组的形式添加到名为 results 的列表中。
最后,使用 Python 内置的 csv 模块将结果写入名为 news_websites.csv 的 csv 文件中,并指定第一行为表头。注意在打开文件时,需要将 newline 参数设置为空字符串,以防止写入文件时出现空行。
阅读全文