旅游的数据清洗Python代码旅游的数据清洗Python代码
时间: 2025-01-04 21:04:31 浏览: 6
在Python中进行数据清洗通常涉及到处理缺失值、异常值、重复值以及格式转换等工作。以下是一个简单的例子,展示了如何使用Pandas库对旅游数据进行清洗:
```python
import pandas as pd
import numpy as np
# 加载数据(假设数据存储在一个CSV文件中)
df = pd.read_csv('travel_data.csv')
# 1. 检查并处理缺失值
# 如果列名'missing_column'有缺失值,可以这样做:
if 'missing_column' in df.columns:
df['missing_column'] = df['missing_column'].fillna(np.nan) # 使用None填充缺失值
# 或者使用特定值填充,如平均数、中位数等
df['missing_column'] = df['missing_column'].fillna(df['missing_column'].mean())
# 2. 删除重复行
df.drop_duplicates(inplace=True)
# 3. 异常值检测和处理
# 例如检查年龄是否合理,大于某个阈值可能是异常
age_threshold = 100
df = df[df['age'] <= age_threshold]
# 4. 数据类型转换
# 将某些字符串类型的日期转化为日期格式
df['date'] = pd.to_datetime(df['date'])
#
阅读全文