python爬虫数据文本去重
时间: 2023-11-08 13:12:04 浏览: 149
您可以使用Python中的set()函数来去重文本数据。具体步骤如下:
1. 读取文本数据,将每行数据存储在一个字符串列表中;
2. 使用set()函数将字符串列表转换为集合,自动去重;
3. 将去重后的集合转换为列表,以便后续处理。
以下是示例代码:
```python
with open('data.txt', 'r') as f:
lines = f.readlines() # 读取文件中的所有行
# 去重
lines = list(set(lines))
# 将去重后的数据写入新的文件
with open('data_new.txt', 'w') as f:
for line in lines:
f.write(line)
```
以上代码读取文件中的所有行,将其转换为集合去重,再将去重后的数据写入新的文件。您可以根据实际情况进行修改。
阅读全文