colab读取数据集
时间: 2024-12-27 11:29:24 浏览: 6
### 如何在Google Colab中加载和读取数据集
#### 使用Google Drive挂载来访问数据集
为了能够从Google Drive读取数据集,在Colab环境中首先要完成Drive的挂载操作。这一步骤通过调用`google.colab.drive`模块中的`mount()`函数实现[^2]。
```python
from google.colab import drive
drive.mount('/content/drive/')
```
#### 设置工作目录至存储位置
一旦成功连接到Google Drive之后,可以改变当前的工作路径指向保存有目标数据集的具体文件夹位置。通常情况下,用户的自定义文件会存放在"MyDrive"下的特定子文件夹内[^3]。
```python
import os
filepath = "/content/drive/MyDrive/Colab Notebooks"
os.chdir(filepath)
print(os.getcwd())
```
#### 加载具体的数据集实例
对于像图片这样的二进制文件构成的数据集,比如猫与狗分类的任务,可以通过TensorFlow或Keras内置的功能轻松导入预处理好的版本。这里假设已经在个人云端硬盘里上传了一个本地下载的数据压缩包或者直接利用网络上的公开资源链接获取所需资料[^4]。
如果要手动解压位于指定路径下的`.zip`格式档案,则可借助Python标准库`shutil`配合上述设定过的绝对地址参数:
```python
import shutil
# 假设ZIP文件名为'dataset.zip'
local_zip = '/content/drive/MyDrive/dataset.zip'
zip_dir = os.path.dirname(local_zip)
if not os.path.exists(zip_dir+'/dataset'):
with zipfile.ZipFile(local_zip, 'r') as zip_ref:
zip_ref.extractall(zip_dir) # 解压到同一级目录下
else:
print('Dataset already extracted.')
```
另外一种常见的方式是从互联网上直接下载CSV、JSON等形式结构化表格型态的数据源,并运用Pandas框架快速解析成DataFrame对象供后续分析建模使用:
```python
import pandas as pd
url = "https://example.com/path/to/data.csv" # 替换成实际URL
dataframe = pd.read_csv(url)
display(dataframe.head()) # 展示前几条记录确认无误
```
阅读全文