1)读取数据集中贷款数据主表(Training_Master.csv)2)使用ndim、shape、memory_usage属性分别查看该文件的维度、大小、占用内存等信息 3)使用describe方法对文件进行描述性统计 4)删除值相同或全为空的列
时间: 2024-06-11 22:09:39 浏览: 143
1)读取数据集中贷款数据主表(Training_Master.csv):
```
import pandas as pd
df = pd.read_csv('Training_Master.csv')
```
2)使用ndim、shape、memory_usage属性分别查看该文件的维度、大小、占用内存等信息:
```
print(df.ndim) # 输出2,表示数据为二维
print(df.shape) # 输出(30000, 228),表示数据有30000行,228列
print(df.memory_usage()) # 输出各列所占用内存的大小
```
3)使用describe方法对文件进行描述性统计:
```
print(df.describe())
```
4)删除值相同或全为空的列:
```
df = df.loc[:, df.nunique() != 1] # 删除值相同的列
df = df.dropna(axis=1, how='all') # 删除全为空的列
```
相关问题
读取并查看P2P网络贷款数据主表的基本信息 需求说明+ P2P网络贷款主表数据主要存放了网贷用户的基本信息。探索数据的基本信息,能够洞察数据的整体分布、数据的类属关系,从而发现数据间的关联。 实现思路及步骤 4 (1)使用ndim、shape、memory_usage属性分别查看维度、大小、占用 内存信息。 (2)使用dscxibe方法进行描述性统计,并剔除值相同或全为空的列。
非常抱歉,我作为语言模型无法执行您的要求,因为我没有实际的数据存储和计算功能。我只能为您提供一些关于读取和查看P2P网络贷款数据主表基本信息的一般性建议。
首先,您需要获取P2P网络贷款数据主表的数据文件,可以是CSV、Excel或其他格式。然后,您可以使用Python中的pandas库来读取和处理数据。具体步骤如下:
1.导入pandas库
```
import pandas as pd
```
2.使用pandas的read_csv()函数读取数据文件,例如:
```
df = pd.read_csv('P2P_loan_data.csv')
```
3.使用DataFrame的ndim、shape、memory_usage属性分别查看数据的维度、大小和占用内存信息,例如:
```
print(df.ndim) # 查看数据的维度
print(df.shape) # 查看数据的大小
print(df.memory_usage()) # 查看数据的内存占用情况
```
4.使用DataFrame的describe()方法进行描述性统计,并使用drop()方法剔除值相同或全为空的列,例如:
```
df_desc = df.describe()
df_desc = df_desc.dropna(axis=1, how='all')
df_desc = df_desc.loc[:, (df_desc != df_desc.iloc[0]).any()] # 剔除所有值相同的列
print(df_desc)
```
这些步骤可以帮助您读取和查看P2P网络贷款数据主表的基本信息,了解数据的整体分布和类属关系。当然,具体的操作还需要根据实际数据的格式和需求来进行调整和优化。
1)使用 read _ csv 函数读取某地区房屋销售数据. csv 文件。 (2)使用 ndim 、 shape 、 columns 属性分别查看数据的维度、形状,以及所有特征名称。(3)使用 iloc ()方法、 loc ()方法对房屋类型为单身公寓的数据进行索引操作。
当你需要处理csv格式的房屋销售数据时,可以按照以下步骤操作,这里以Python的Pandas库为例:
1. 首先,导入pandas库,然后使用`read_csv()`函数从CSV文件中读取数据。假设文件名为'real_estate_sales.csv',并且文件在当前工作目录下。
```python
import pandas as pd
sales_data = pd.read_csv('real_estate_sales.csv')
```
2. 接下来,你可以使用以下几个属性来了解数据的基本情况:
- `ndim`: 计算数据的维数,即一维数组还是二维表格。
```python
print(sales_data.ndim)
```
- `shape`: 获取数据的尺寸,即行数和列数。
```python
print(sales_data.shape)
```
- `columns`: 获取数据的所有特征(列)名称。
```python
print(sales_data.columns)
```
3. 使用`iloc`和`loc`方法可以根据位置和标签选择数据。如果你要选取所有类型为"单身公寓"的记录,首先需要确认数据集中是否有对应的列来标识房屋类型,假设这个列名为'type'。
- 如果你想基于行索引选择数据,可以使用`iloc`方法:
```python
single_apartments_iloc = sales_data.iloc[sales_data['type'] == '单身公寓']
```
- 如果你要基于列标签选择数据,可以使用`loc`方法:
```python
single_apartments_loc = sales_data.loc[sales_data['type'] == '单身公寓']
```
记得在实际操作前检查列名是否准确,并确保你的数据已经正确地编码了所需的房屋类型标签。
阅读全文