写一段爬虫的代码保存到CSV
时间: 2023-01-11 22:55:36 浏览: 111
当然,这是一段使用 Python 编写的爬虫代码,它爬取网站的数据并将其保存到 CSV 文件中。首先,我们需要导入所需的库,例如 requests 和 csv:
```
import requests
import csv
```
然后,我们可以使用 requests 库来获取网站的 HTML 源代码:
```
URL = "https://www.example.com"
page = requests.get(URL)
```
接下来,我们可以使用 csv 库来创建一个 CSV 文件并写入数据:
```
with open('data.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["id", "name", "age"])
writer.writerow([1, "John", 30])
writer.writerow([2, "Jane", 25])
```
现在,我们已经将数据写入了 CSV 文件中。你可以继续使用类似的方法来爬取并保存更多数据。
希望这对你有帮助!
相关问题
需要一段爬虫代码,爬取https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html数据,并保存到桌面
以下是一个简单的 Python 爬虫代码,可以爬取网站 https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html 上的数据,并将数据保存到桌面上的一个 CSV 文件中:
```python
import requests
import csv
import os
# 设置要爬取的网页地址
url = "https://szzdjc.cnemc.cn:8070/GJZ/Business/Publish/Main.html"
# 发送 HTTP 请求,获取网页内容
response = requests.get(url)
# 解析网页内容,获取需要的数据
# 这里需要你自己写解析代码,根据网页结构来提取数据
# 接下来的代码是将数据保存到 CSV 文件中,需要根据你的数据结构来修改
# 假设你已经将数据保存在一个名为 data 的列表中了
# 将数据保存到桌面的一个名为 data.csv 的文件中
desktop_path = os.path.join(os.path.expanduser("~"), "Desktop")
filename = os.path.join(desktop_path, "data.csv")
with open(filename, "w", newline="") as csvfile:
writer = csv.writer(csvfile)
for row in data:
writer.writerow(row)
```
这段代码中,我们使用了 Python 的 requests 库来发送 HTTP 请求,并使用了 csv 库来将数据保存到 CSV 文件中。你需要根据网页的结构来编写解析代码,将需要的数据提取出来保存到一个列表中,然后再将列表中的数据写入到 CSV 文件中。
请给出一段北京地区2014年到2022年湿度的爬取代码,并且数据以csv文件的格式保存在本地,并且需要将爬虫伪装成浏览器
好的,以下是一个爬取北京地区2014年到2022年湿度并保存为csv文件的代码,同时也包含了伪装成浏览器的部分:
```python
import requests
import csv
from bs4 import BeautifulSoup
# 设置请求头,伪装成浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 构造url
url = 'https://www.tianqi.com/beijing/201{}.html'
# 保存数据的列表
data_list = [['日期', '湿度']]
# 爬取2014年到2022年的湿度数据
for year in range(2014, 2023):
# 构造完整的url
full_url = url.format(year)
# 发送请求
response = requests.get(full_url, headers=headers)
# 解析网页
soup = BeautifulSoup(response.content, 'html.parser')
tr_list = soup.find_all('tr', class_='hd')
# 获取湿度数据
for tr in tr_list:
td_list = tr.find_all('td')
date = td_list[0].text.strip()
humidity = td_list[6].text.strip()
data_list.append([date, humidity])
# 将数据保存为csv文件
with open('beijing_humidity.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerows(data_list)
```
这段代码会将北京地区2014年到2022年的湿度数据爬取下来并保存为csv文件,文件名为`beijing_humidity.csv`。同时,我们在请求头中设置了User-Agent信息,以伪装成浏览器,避免被网站反爬虫机制封禁IP。
阅读全文