dataframe.info()
时间: 2024-04-26 07:21:43 浏览: 33
这是一个Pandas数据帧的方法,用于显示数据帧的基本信息,例如数据类型、列数、非空值数量等。此方法在数据分析和数据清理中非常有用,因为它可以帮助用户快速了解数据集的结构和内容。如果我们在上一个问题中读取了名为"covid_worldwide.csv"的文件,并将其存储到名为"dataframe"的Pandas数据帧中,那么运行"dataframe.info()"将会显示有关此数据帧的基本信息。
相关问题
优化这段代码:override def load(dataFrame: DataFrame, delta: Boolean): DataFrame = { val dataFrameCache=dataFrame.repartition(col("TRANSACTION_TYPE_CODE")) logger.info(s"Method Load execution start and data count is " + dataFrame.count()) val rbkFactTableLists: Seq[RbkFactTableEntity] = rbkConfigUtil.getRbkFactTableList(rbkConfig) logger.info(s"Method rbkFactTableLists is " + rbkFactTableLists.size) val rbkMainFactTable = rbkConfigUtil.getRbkMainFactTable(rbkConfig) logger.info(s"Method rbkMainFactTable is " + rbkMainFactTable) val rbkUnionFactTableList =rbkConfigUtil.getRbkUnionFactTableList(rbkConfig) logger.info(s"Method rbkUnionFactTableList is " + rbkUnionFactTableList.size) loadRbkMainData( dataFrameCache,false , rbkMainFactTable ) for(rbkUnionTable<-rbkUnionFactTableList) { loadRbkUnionData( dataFrameCache,false , rbkUnionTable ) } for(rbkFactTable <- rbkFactTableLists){ loadRbkData(dataFrameCache, false ,rbkFactTable) } logger.info(s"Method Load execution end and data count is " + dataFrame.count()) dataFrameCache }
override def load(dataFrame: DataFrame, delta: Boolean): DataFrame = {
val dataFrameCache = dataFrame.repartition(col("TRANSACTION_TYPE_CODE"))
val rbkFactTableLists: Seq[RbkFactTableEntity] = rbkConfigUtil.getRbkFactTableList(rbkConfig)
val rbkMainFactTable = rbkConfigUtil.getRbkMainFactTable(rbkConfig)
val rbkUnionFactTableList = rbkConfigUtil.getRbkUnionFactTableList(rbkConfig)
loadRbkMainData(dataFrameCache, false, rbkMainFactTable)
for (rbkUnionTable <- rbkUnionFactTableList) {
loadRbkUnionData(dataFrameCache, false, rbkUnionTable)
}
for (rbkFactTable <- rbkFactTableLists) {
loadRbkData(dataFrameCache, false, rbkFactTable)
}
dataFrameCache
}
优化建议:
1.减少不必要的日志记录。
2.尽可能使用 val 关键字。
3.使用更具有表现力和更易读的名称。
4.拆分复杂函数。
dataframe重点函数讲解
好的,您想了解哪些重点函数?一般地,Pandas中DataFrame的常用操作有:索引、选择、修改、排序、聚合以及合并等。其中,常见的DataFrame操作函数包括:
1. DataFrame.head(n):返回DataFrame前n行。
2. DataFrame.tail(n):返回DataFrame后n行。
3. DataFrame.info():返回DataFrame的信息,包括行数、列数、每一列的名称、非空值数量和数据类型等信息。
4. DataFrame.describe():描述DataFrame的数值型数据的统计信息,包括计数、均值、标准差、最小值、25%分位数、中位数、75%分位数以及最大值等。
5. DataFrame.sort_values(by=column_name, ascending=True/False):根据指定的列名称对DataFrame进行升序或降序排序。
6. DataFrame.groupby(column_name).agg(func_name):按照指定列进行分组,并使用指定的聚合函数进行统计,如sum、count、mean等。
7. DataFrame.dropna():删除含有缺失值的行或列。
8. DataFrame.fillna(value):将DataFrame中的空值用指定的值进行填充。
9. DataFrame.join(other, on=column_name):将两个DataFrame按照指定列进行合并。
以上是常用的DataFrame操作函数,您需要了解的函数有哪些呢?