数据格式转换Python爬虫
时间: 2024-06-05 13:04:58 浏览: 132
数据格式转换是Python爬虫中一个非常重要的环节。在爬取到数据之后,我们可能需要将其转换成不同的格式,比如说从HTML格式转换为JSON格式或者从CSV格式转换为Excel格式等等。Python提供了很多强大的库和工具来帮助我们实现这一目标,比如说json、csv、xml、xlwt和pandas等库。
以JSON格式为例,如果我们要将一个字典对象转换成JSON格式的字符串,可以使用json.dumps()方法;如果我们要将一个JSON格式的字符串转换成字典对象,可以使用json.loads()方法。具体代码如下:
```
import json
# 将字典对象转换成JSON格式的字符串
dict_obj = {'name': '张三', 'age': 18}
json_str = json.dumps(dict_obj)
print(json_str)
# 将JSON格式的字符串转换成字典对象
json_str = '{"name": "李四", "age": 20}'
dict_obj = json.loads(json_str)
print(dict_obj)
```
如果我们要将爬取到的数据保存为CSV格式或者Excel格式,可以使用csv和xlwt库。具体代码如下:
```
import csv
import xlwt
# 将数据保存为CSV格式
data_list = [['name', 'age'], ['张三', 18], ['李四', 20]]
with open('data.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
for row in data_list:
writer.writerow(row)
# 将数据保存为Excel格式
data_list = [['name', 'age'], ['张三', 18], ['李四', 20]]
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet('data')
for i in range(len(data_list)):
for j in range(len(data_list[i])):
worksheet.write(i, j, data_list[i][j])
workbook.save('data.xls')
```
阅读全文