python从千行的csv中提取关键字所在行,并删除重复项后生成新的CSV
时间: 2024-01-13 11:03:15 浏览: 111
python3,csv多列提取重新生成csv
可以使用Python内置的csv模块来处理csv文件,具体实现步骤如下:
1.打开原始csv文件,使用csv.reader读取所有行的数据
2.遍历每一行数据,将包含关键字的行存储到一个列表中
3.去除列表中的重复行
4.将去重后的数据写入一个新的csv文件中,使用csv.writer写入数据
以下是一个示例代码,假设原始csv文件为data.csv,关键字为keyword,新的csv文件为output.csv:
```python
import csv
# 打开原始csv文件
with open('data.csv', 'r', encoding='utf-8') as f:
reader = csv.reader(f)
rows = [row for row in reader if 'keyword' in row] # 找到包含关键字的行
# 去除重复行
unique_rows = list(set(tuple(row) for row in rows))
# 写入新的csv文件
with open('output.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
for row in unique_rows:
writer.writerow(row)
```
需要注意的是,以上代码中的关键字是区分大小写的,如果需要忽略大小写,可以将if条件改为`'keyword' in [data.lower() for data in row]`。
阅读全文