1700+ K-Pop Idols Dataset数据集怎么做描述性统计,给出详细的代码
时间: 2024-02-28 20:57:52 浏览: 58
K-Pop Database (1992-2020) 韩国流行音乐数据库(1992 - 2020)-数据集
首先,需要安装pandas和numpy库。可以使用以下命令进行安装:
```
pip install pandas numpy
```
接下来,可以使用以下代码读取数据集:
```python
import pandas as pd
data = pd.read_csv('kpop_idols.csv')
```
接着,可以使用以下代码描述数据集的基本情况:
```python
# 数据集的形状
print("Shape of dataset:", data.shape)
# 数据集的前5行
print("\nHead of dataset:\n", data.head())
# 数据集的统计信息
print("\nDescriptive statistics of dataset:\n", data.describe())
```
此外,还可以使用以下代码查看各个特征的唯一值数量:
```python
# 特征的唯一值数量
for col in data.columns:
print(col, ":", len(data[col].unique()))
```
完整的代码如下:
```python
import pandas as pd
# 读取数据集
data = pd.read_csv('kpop_idols.csv')
# 数据集的形状
print("Shape of dataset:", data.shape)
# 数据集的前5行
print("\nHead of dataset:\n", data.head())
# 数据集的统计信息
print("\nDescriptive statistics of dataset:\n", data.describe())
# 特征的唯一值数量
for col in data.columns:
print(col, ":", len(data[col].unique()))
```
阅读全文