python统计csv文件某一列出现最多的词,且每个单元格数据为不定长的字符串列表
时间: 2023-06-15 07:08:18 浏览: 231
可以使用Python中的csv模块和collections模块来实现。假设我们要统计第二列出现最多的词,代码如下:
```python
import csv
from collections import Counter
with open('data.csv', 'r', encoding='utf-8') as f:
reader = csv.reader(f)
# 跳过表头
next(reader)
# 统计第二列出现的词频
counter = Counter()
for row in reader:
for word in row[1]:
counter[word] += 1
# 输出出现最多的词
print(counter.most_common(1))
```
其中,data.csv为数据文件,第二列为需要统计的列,每个单元格数据为一个字符串列表。`csv.reader()`函数用于读取csv文件,`Counter()`函数用于统计词频。在统计词频时,我们需要遍历每一行数据,将第二列中的每个字符串拆分成单个词,然后加入到Counter中进行统计。最后,使用`most_common()`函数输出出现最多的词。
阅读全文