Python数据分析入门笔记9——数据预处理案例,对于爬取数据做基本数据操作,导入文件,删除无关数据,只保留[“影片中文名”,“影片外国名”,“评分”,“评价数”,“概况”]这几列。
时间: 2024-09-30 18:03:42 浏览: 32
Python数据分析入门时,数据预处理是一个重要步骤,特别是当你处理网络爬虫获取的数据时。下面是一个简单的案例,说明如何对数据进行预处理:
首先,你需要使用pandas库,它是Python进行数据分析的主要工具。如果你还没有安装,可以使用pip install pandas来安装。
1. **导入数据**:
如果数据存储在CSV文件中,可以这样加载:
```python
import pandas as pd
data = pd.read_csv('your_data_file.csv')
```
如果是网页数据,可能需要先通过requests和BeautifulSoup等库抓取,再转换成pandas DataFrame。
2. **检查和清理数据**:
确认数据是否已加载,然后检查数据是否有缺失值或不需要的列:
```python
print(data.head()) # 查看前几行数据
columns_to_keep = ['影片中文名', '影片外国名', '评分', '评价数', '概况']
original_columns = data.columns.tolist()
irrelevant_columns = [col for col in original_columns if col not in columns_to_keep]
```
3. **删除无关列**:
使用`drop`函数移除不需要的列:
```python
data = data.drop(irrelevant_columns, axis=1)
```
4. **数据清洗**:
对于"评分"和"评价数"这类数值型数据,确认它们的数据类型正确。如果有异常值(如非数字),可能需要进一步处理。
5. **查看处理后的数据**:
```python
cleaned_data = data[columns_to_keep]
print(cleaned_data.head())
```
在这个例子中,我们仅保留了指定的五列,并删除了其他列。最后一步是保存预处理后的数据,以便后续分析:
```python
cleaned_data.to_csv('processed_data.csv', index=False) # 将数据保存为csv
```
阅读全文