如何下载huggingface 的 datasets
时间: 2024-04-03 18:29:43 浏览: 20
要下载Hugging Face的datasets,您可以通过以下步骤进行:
1. **安装datasets库**:确保您已经安装了Hugging Face的datasets库。如果没有安装,可以通过pip进行安装:
```bash
pip install datasets
```
2. **设置代理(如果需要)**:如果您在中国大陆地区,可能需要设置代理以访问Hugging Face的资源。您可以根据自己代理的情况设置`http_proxy`和`https_proxy`环境变量。
3. **加载数据集**:使用`load_dataset`函数从Hugging Face的Datasets Hub加载数据集。例如,如果您想下载"YeungNLP/firefly-train-1.1M"这个数据集,可以使用以下代码:
```python
from datasets import load_dataset
dataset = load_dataset("YeungNLP/firefly-train-1.1M")
```
4. **保存数据集到本地**:使用`save_to_disk`方法将下载的数据集保存到本地指定目录。例如,保存到"dataset/Salesforce/dialogstudio"目录下:
```python
dataset.save_to_disk("dataset/Salesforce/dialogstudio")
```
此外,如果您希望通过命令行工具进行操作,可以使用`huggingface-cli`工具。它是Hugging Face官方提供的命令行工具,支持下载模型和数据等功能。