查看pyspaark dataframe中的某一列
时间: 2023-05-16 19:06:00 浏览: 75
你可以使用以下代码来查看 PySpark DataFrame 中的某一列:
```python
df.select("column_name").show()
```
其中,`df` 是你的 DataFrame 对象,`column_name` 是你想要查看的列的名称。这个代码会显示 DataFrame 中指定列的所有行。
相关问题
查看dataframe中某一列的去重值
可以使用 pandas 库中的 `unique()` 方法来获取 dataframe 中某一列的去重值,例如:
```python
import pandas as pd
# 创建示例 dataframe
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'baz'],
'B': [1, 2, 3, 4, 5]})
# 获取列 A 的去重值
unique_values = df['A'].unique()
print(unique_values)
```
输出结果为:
```
['foo' 'bar' 'baz']
```
这里我们首先创建了一个示例 dataframe `df`,然后使用 `unique()` 方法获取了其列 A 的去重值,并将结果打印输出。
如何查看dataframe中某一列的分布
可以使用pandas库中的`value_counts()`函数来查看dataframe中某一列的分布情况。例如,若要查看名为`col_name`的列的分布情况,则可以使用以下代码:
```
df['col_name'].value_counts()
```
该函数将会返回一个Series对象,其中包含了该列中每个元素的出现次数,按照出现次数从高到低排序。你可以使用`normalize=True`参数来将结果转换为百分比形式,例如:
```
df['col_name'].value_counts(normalize=True)
```
该函数将会返回一个Series对象,其中包含了该列中每个元素出现的百分比,按照百分比从高到低排序。