给定一个csv数据集,其中某个属性为电影类型,比如某条数据的电影类型为“剧情/爱情”,利用python,写一个方法拆分电影属性,实现对每一个属性的统计,以及类型总数的统计
时间: 2023-06-25 11:05:48 浏览: 66
可以使用Python中的pandas库来对csv数据进行处理和统计。具体步骤如下:
1. 导入pandas库并读取csv文件为DataFrame格式:
```python
import pandas as pd
data = pd.read_csv('movie.csv')
```
2. 使用DataFrame的str.split()方法对电影类型进行拆分,例如将“剧情/爱情”拆分为["剧情", "爱情"]:
```python
data['genres'] = data['genres'].str.split('/')
```
3. 使用explode()方法将每个电影的类型拆分为单独的行,并重置索引:
```python
data = data.explode('genres').reset_index(drop=True)
```
4. 使用value_counts()方法对每个电影类型进行统计:
```python
genre_count = data['genres'].value_counts()
```
5. 统计电影类型总数:
```python
total_count = len(data['genres'].unique())
```
完整代码如下:
```python
import pandas as pd
data = pd.read_csv('movie.csv')
data['genres'] = data['genres'].str.split('/')
data = data.explode('genres').reset_index(drop=True)
genre_count = data['genres'].value_counts()
total_count = len(data['genres'].unique())
print(genre_count)
print('Total count:', total_count)
```
阅读全文