查看数据概述,包括info() describe() columns dtypes shape index 等基础数据信息,可以自行扩充。
时间: 2024-09-26 10:13:52 浏览: 57
在Pandas中,查看数据集的基本信息是非常重要的步骤,它能帮助我们了解数据的质量和结构。以下是几个关键的函数来获取这些基础数据信息:
1. **info()**:
这是最基础的函数,返回DataFrame或Series的统计摘要信息,包括每列的名称(name)、非空值数目(non-null count)、数据类型(dtype)、缺失值(memory usage)以及是否包含NULL值等。这对于快速了解数据的基本概况非常有用。
```python
df.info()
```
2. **describe()**:
对于数值型数据,`describe()`函数提供了一系列描述性统计量,如计数、平均值(mean)、标准差(std)、最小值(min)、四分位数(Q1、Q3)以及最大值(max)。对于分类变量,不会有任何统计结果,但会显示类别数量。
```python
df.describe(include='number')
```
3. **dtypes**:
`dtypes`属性直接返回每列的数据类型,包括整数(int64)、浮点数(float64)、字符串(str)、布尔值(bool)等。
```python
df.dtypes
```
4. **shape**:
表示数据的维度,即行数(rows)和列数(columns),通常表示为`(行数, 列数)`。
```python
df.shape
```
5. **index**:
返回DataFrame的索引对象,展示行标签。对于行索引,可以直接访问`df.index`;对于列标签,`df.columns`同样有效。
```python
df.index
df.columns
```
通过组合使用以上方法,你可以获得关于数据集的丰富洞察,以便后续的数据预处理和分析工作。
阅读全文