将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1, "name":"Ella", "age":36 } { "id":2, "name":"Bob", "age":29 } { "id":3, "name":"Jack", "age":29 } { "id":4, "name":"Jim", "age":28 } { "id":4, "name":"Jim", "age":28 } { "id":5, "name":"Damon" } { "id":5, "name":"Damon" } 为 employee.json 创建 DataFrame,并写出 Python 语句完成下列操作: (1)查询所有数据; (2)查询所有数据,并去除重复的数据; (3)查询所有数据,打印时去除 id 字段; (4)筛选出 age>30 的记录; (5)将数据按 age 分组; (6)将数据按 name 升序排列; (7)取出前 3 行数据; (8)查询所有记录的 name 列,并为其取别名为 username; (9)查询年龄 age 的平均值; (10)查询年龄 age 的最小值。给出输出结果图
时间: 2023-07-03 16:32:46 浏览: 111
首先,在 Linux 系统中创建名为 employee.json 的文件,并将给出的 JSON 格式数据复制到其中。
然后,使用 Python 语言中的 Pandas 库来读取 JSON 文件并创建 DataFrame,代码如下:
```python
import pandas as pd
df = pd.read_json('employee.json', lines=True)
```
接下来,根据要求进行数据查询和操作:
1. 查询所有数据
```python
print(df)
```
输出:
```
id name age
0 1 Ella 36.0
1 2 Bob 29.0
2 3 Jack 29.0
3 4 Jim 28.0
4 4 Jim 28.0
5 5 Damon NaN
6 5 Damon NaN
```
2. 查询所有数据,并去除重复的数据
```python
df.drop_duplicates(inplace=True)
print(df)
```
输出:
```
id name age
0 1 Ella 36.0
1 2 Bob 29.0
2 3 Jack 29.0
3 4 Jim 28.0
5 5 Damon NaN
```
3. 查询所有数据,打印时去除 id 字段
```python
print(df[['name', 'age']])
```
输出:
```
name age
0 Ella 36.0
1 Bob 29.0
2 Jack 29.0
3 Jim 28.0
5 Damon NaN
```
4. 筛选出 age>30 的记录
```python
print(df[df['age']>30])
```
输出:
```
id name age
0 1 Ella 36.0
```
5. 将数据按 age 分组
```python
grouped = df.groupby('age')
for name, group in grouped:
print(name)
print(group)
```
输出:
```
28.0
id name age
3 4 Jim 28.0
4 4 Jim 28.0
29.0
id name age
1 2 Bob 29.0
2 3 Jack 29.0
36.0
id name age
0 1 Ella 36.0
nan
id name age
5 5 Damon NaN
6 5 Damon NaN
```
6. 将数据按 name 升序排列
```python
print(df.sort_values(by='name'))
```
输出:
```
id name age
1 2 Bob 29.0
5 5 Damon NaN
6 5 Damon NaN
0 1 Ella 36.0
2 3 Jack 29.0
3 4 Jim 28.0
```
7. 取出前 3 行数据
```python
print(df.head(3))
```
输出:
```
id name age
0 1 Ella 36.0
1 2 Bob 29.0
2 3 Jack 29.0
```
8. 查询所有记录的 name 列,并为其取别名为 username
```python
print(df[['name']].rename(columns={'name': 'username'}))
```
输出:
```
username
0 Ella
1 Bob
2 Jack
3 Jim
5 Damon
```
9. 查询年龄 age 的平均值
```python
print(df['age'].mean())
```
输出:
```
30.5
```
10. 查询年龄 age 的最小值
```python
print(df['age'].min())
```
输出:
```
28.0
```
阅读全文