python选择数据集中的列
时间: 2023-10-26 22:17:26 浏览: 40
要选择数据集中的列,可以使用pandas库中的DataFrame对象的iloc和loc方法。
1. 使用iloc方法选择列:
```python
import pandas as pd
# 创建数据集
df = pd.read_csv('data.csv')
# 选择第一列和第三列
df2 = df.iloc[:, [0, 2]]
print(df2.head())
```
此代码将选择数据集中的第一列和第三列,并将其存储在df2中。iloc方法需要两个参数,第一个参数是行索引,第二个参数是列索引。在这个例子中,我们使用":"表示选择所有的行,然后使用一个列表[0,2]表示选择第一列和第三列。
2. 使用loc方法选择列:
```python
import pandas as pd
# 创建数据集
df = pd.read_csv('data.csv')
# 选择名字和分数列
df2 = df.loc[:, ['name', 'score']]
print(df2.head())
```
此代码将选择数据集中的名字和分数列,并将其存储在df2中。loc方法需要两个参数,第一个参数是行索引,第二个参数是列名称。在这个例子中,我们使用":"表示选择所有的行,然后使用一个列表['name', 'score']表示选择名字和分数列。
相关问题
python提取数据集中的属性列
假设你有一个数据集,包含多列属性和一个目标变量列,你想要提取其中的某些属性列,可以使用pandas库。假设你想要提取第1列和第3列的属性,可以使用以下代码:
```python
import pandas as pd
# 读取数据集
data = pd.read_csv('dataset.csv')
# 提取第1列和第3列的属性
X = data.iloc[:, [0, 2]]
```
其中,`pd.read_csv`用于读取csv格式的数据集,`iloc`方法可以根据行列号来提取数据,`[:, [0, 2]]`表示取所有行,第0列和第2列的数据,最后将提取到的属性列保存在变量`X`中。
python筛选数据集中的列建立新的数据集
在Python中可以使用pandas库来筛选数据集中的列建立新的数据集。首先,需要导入pandas库,然后读取原始数据集文件并指定需要筛选的列名。接下来,使用`df_new = df[['列名1', '列名2', ...]]`来选择需要的列名建立新的数据集。最后,将新的数据集保存到文件中。
下面是一个示例代码:
```python
import pandas as pd
# 读取原始数据集文件
df = pd.read_csv('data.csv')
# 筛选需要的列名
df_new = df[['列名1', '列名2', '列名3']]
# 保存新的数据集到文件中
df_new.to_csv('new_data.csv', index=False)
```
其中,`data.csv`为原始数据集文件,`列名1`、`列名2`和`列名3`为需要筛选的列名,`new_data.csv`为新的数据集文件。需要注意的是,`to_csv()`函数中的`index=False`表示不保存行索引。