jupyter notebook 如何获取数据
时间: 2025-01-04 16:36:25 浏览: 9
### 如何在 Jupyter Notebook 中加载和获取数据
#### 使用 Pandas 加载 CSV 文件
Pandas 是 Python 数据分析的核心库之一,在 Jupyter Notebook 中广泛用于处理表格型数据。通过 `pandas.read_csv()` 函数可以从本地文件系统或网络 URL 加载 CSV 格式的文件。
```python
import pandas as pd
# 从本地路径读取CSV文件
df_local = pd.read_csv('data.csv')
# 或者直接从互联网URL读取
url = 'https://example.com/data.csv'
df_web = pd.read_csv(url)
df_local.head() # 显示前几行以确认成功加载[^2]
```
#### 连接数据库并提取数据
对于存储在关系型数据库中的结构化数据,可以通过 SQLAlchemy 和 PyMySQL 等工具建立连接,并利用 SQL 查询语句来检索所需的数据集。
```python
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://username:password@host/dbname')
query = "SELECT * FROM table_name LIMIT 10;"
df_db = pd.read_sql(query, engine)
df_db.head()
```
#### 利用 API 接口获取在线资源
许多网站和服务提供 RESTful APIs 来访问其公开可用的信息。借助 requests 库发送 HTTP 请求并与 JSON 响应互动是一个常见的做法。
```python
import requests
import json
response = requests.get('http://api.example.com/data')
json_data = response.json()
# 将JSON转换成DataFrame以便后续操作
df_api = pd.DataFrame(json_data['results'])
df_api.head()
```
#### 处理 Excel 文件
除了 CSV 文件外,Excel 表格也是常用的数据源格式。`openpyxl` 可用来解析 `.xlsx` 类型的电子表格;而对于较旧版本,则有 `xlrd` 支持。
```python
excel_file_path = './path/to/excel.xlsx'
# 对于 .xls 文件则需安装 xlrd 并替换为 read_excel(engine='xlrd')
df_excel = pd.read_excel(excel_file_path, sheet_name=0)
df_excel.head()
```
阅读全文